Que significan los valores de S.M.A.R.T. en discos

Los discos hace ya bastante tiempo que incorporan una tecnología llamada S.M.A.R.T. (Self Monitoring Analysis Reporting Technology) que permiten que estos mediante diversos parámetros puedan prevenirnos de un posible fallo, normalmente en equipos modernos estos parámetros son proporcionados al BIOS, el cual cuando encuentra una anormalidad nos informa durante el arranque de la computadora con el texto error SMART Failure, además también podemos ver estos parámetros con algunos programas especializados.

El disco tiene reservado un espacio para almacenar los datos de SMART (Self Monitoring Analysis Reporting Technology), este lugar esta fuera del área de control del usuario, específicamente se guarda en el firmware del disco en una memoria no volatil. De esta forma el firmware trabaja independientemente sobre el SMART sin interferir con el uso del área de datos del usuario.

Read Error Rate: Frecuencia en la que se encuentran errores al realizar una lectura en la superficie del disco, algunos discos pueden corregir estos errores de forma automáticamente mediante alguna tecnología de corrección de errores (ECC). Un elevado numero de sectores erróneos puede representar un serio descenso en la salud del disco.

Throughput performance: Rendimiento general del disco. Cuando este valor empieza a disminuir indica que el disco tiene algún problema que reduce su rendimiento, como puede ser falla en sus partes mecánicas, superficie del disco dañada, problemas eléctricos, baja de rendimiento por alta temperatura, etc.

Spin up time: Tiempo medio que necesita el disco para girar de cero revoluciones a velocidad final de operación, normalmente 7200 RPM (revoluciones por minuto) para discos de 3.5″ y 5400 RPM para disco de 2.5″. Este indicador es especialmente importante para determinar la saludo del motor y fuente de alimentación.

Reallocated sector count: Cuando el disco encuentra un sector defectuoso lo que hace es reasignar ese sector dañado a un espacio especialmente reservado que contiene sectores en buen estado (remapear), sin embargo este espacio es limitado. Un aumento constante de sectores dañados es indicio de una futura falla grave.

Reallocated Event Count: Es similar al parámetro anterior “Reallocated sector count”, la diferencia es que el anterior hace un recuento de los sectores, mientras que el parámetro tratado registra los eventos de esas reasignación, por ejemplo un evento pueden ser 2 sectores o 10 sectores.

Current Pending Sector: Este valor indica la cantidad de sectores que el disco a interpretado como sectores que próximamente podrían fallar y que una vez se determine que están fallando pasarían a ser reasignados (remapeo) al área de sectores reservados para reasignación.

Offline Uncorrectable: Según el firmware del disco este puede realizar un diagnostico del disco buscando sectores que no se puede leer, este diagnostico que realiza el disco automaticamente se hace en operaciones offline, es decir cuando el disco no esta activamente en uso. Este parámetro lleva la cuenta de los sectores que se encontraron y no se pudieron ni reparar ni remapear, ya sea por que no hay lugar en el área de reasignación de sectores o por algún otro problema que podría estar relacionado con la electrónica del disco por lo que ese sector quedara marcado como irrecuperable.

Seek Error Rate: Indica los errores de búsqueda del cabezal magnético, ocasionados por un ensanchamiento del plato por factores térmicos, mal posicionamiento del cabezal o problemas con el servo, bajos valores no implican un daño critico, el aumento de este valor puede estar indicando un próximo fallo del mecanismo del cabezal lector.

Seek Time Performance: El tiempo de búsqueda o tiempo de acceso es lo que tarda el cabezal en completar una acción de búsqueda de información sobre la superficie del disco, este valor de SMART nos indica el rendimiento promedio de esas operaciones. Un valor demasiado bajo podría significar futuras fallas electromecánicas.

Power On Hours Count: Este valor es como el cuenta-kilómetros de un vehículo, en los discos este parámetro cuenta el tiempo en funcionamiento, por lo general en horas pero también pueden ser minutos o segundos. Lo que se mide no es el tiempo en que el disco a estado energizado, si no el tiempo de funcionamiento en operaciones de lectura y escritura o incluso el giro del disco.

Spin Retry Count: Cuenta el numero de veces que el cabezal necesita realizar para alcanzar su velocidad operativa final, si este valor aumenta es un indicativo que el disco esta por fallar. Algunas de las causas que podrían provocar esta intentos fallidos pueden ser mecánicas, como desgaste del motor, desgaste de los rodamientos o alguna falla eléctrica como voltajes inestables entregados por la fuente de alimentación.

Start/Stop count: Cuenta el numero de veces en el que disco arranca su motor y empieza a girar (start) y se detiene (stop).

Power Cycle Count: Este parámetro es similar a “Start/Stop count”, la diferencia es que en este ultimo el disco permanece energizado (stand by) y “Power Cycle Count” cuenta las veces en que el disco deja de recibir energía físicamente. Este valor refleja especialmente el desgaste en las partes mecánicas de un disco duro, como el cabezal y actuador, un incremento muy rápido de este valor podría tener que ver con configuraciones de energía erróneas. Por ejemplo que el disco duro se ponga en estado de suspensión con tiempos demasiado cortos de espera.

Power Off Retract Count: Registra la cantidad de veces que el cabezal realiza un auto-aparcamiento ante un corte de energía o apagado no controlado. Mientras el cabezal realiza la lectura sobre el plato, en realidad estos no están en contacto directo, la velocidad de rotación del plato genera una delgada capa de aire sobre la que flota el cabezal, antes de que pare la rotación del plato el cabezal se dirige a un área segura donde quedara aparcado. Si el cabezal logra tocar la superficie del plato se producen los llamados aterrizajes de cabezal o head crash, los cuales pueden terminar en daño irreparable de la superficie del plato o cabezal.

Load Cycle Count: Este parámetro es muy similar al “Power Off Retract Count” ya que cuenta la cantidad de aparcamientos al área segura o de parking del cabezal, la diferencia es que este parámetro lleva la cuenta de aparcamientos por apagados controlados, propios del uso normal del disco. Es importante saber que los aparcamientos producen un desgaste mecánico natural, por lo que un alto numero de veces en que se realiza esta activada conlleva en un desgaste de la salud del disco.

Temperature: Es un valor muy importante que va determinar la longevidad del disco, mide la temperatura interna del disco, las temperaturas de trabajo normales de un disco suelen ser de entre 20 y 45 grados Celsius, por lo general, esto puede variar según el fabricante. Temperaturas inferiores a 20 grados no suelen ser un problema si no es por periodos prolongados. Debemos preocuparnos si la temperatura alcanza o supera los 50 grados, en estos valores el disco esta gravemente comprometido y puede resultar en fallas catastróficas o disminución importante de su longevidad.

Ultra DMA CRC Error Count: Mide la cantidad de errores de verificación CRC (Cyclic Redundancy Check) detectados en la integridad de datos transmitidos al disco mediante el modo Ultra DMA (Direct Memory Access). Estos errores ocurren cuando hay transferencias de datos entre el sistema y el disco sin tener intervención el procesador. Un aumento en el numero de este parámetro puede significar una falla en la transmisión de datos, ya sea por problemas de los cables, de los puertos de conexión, por interferencias electromagnéticas (EMI) o algún problema con los controladores del disco.

¿Cómo interpretamos los valores de SMART?

Como se pudo comprobar a lo largo de todo este articulo este tipo de tecnología hace una revisión profunda y amplia del funcionamiento del disco dando como resultado importantes parámetros. Con programas con HD Tune, CrystalDiskInfo o Victoria, podemos ver estos valores. Todos estos parámetros tienen un valor que va desde 1 a cerca de 255, generalmente se presenta en una escala de 0 a 100 o 0 a 255. Si utilizamos algún programa como los mencionados, podremos ver diferenciadas 4 columnas por cada parámetro, Actual (Current), Peor (Worst), Umbral (Threshold) y RAW o Data, las tres primeras columnas muestran valores normalizados que van de 0 a 100, o según el fabricante de 100 a 255, de esta forma los valores mantienen una proporcionalidad entre parámetros. En la columna final “RAW o Data” es donde esta el valor en crudo de cada parámetro, donde puede estar incluso expresado en un valor alfanumérico.

¿Es factible  leer los datos SMART para el usuario final o técnico?

¿Pero entonces que pasa en la practica, es factible que un técnico o usuario puedas estar leyendo estos datos para saber si su disco esta en buen estado?. Mi respuesta es “No” y el por que es el siguiente. Como ya se explico, los valores de SMART pueden variar según el fabricante, el firmware o modelo del disco, la realidad es que los programas que visualizan estos parámetros solo muestran valores que podrían interpretar quienes tengan acceso a información privilegiada a cada modelo de disco que se quiera interpretar. Como es posible que sepamos el valor normal de un parámetro SMART si estos varían según el disco?. Además algunos parámetros no deben interpretarse por si solos, el firmware interpreta la salud del disco analizando parámetros que están relacionados entre si, como por ejemplos los sectores que están por reasignarse y los que ya se reasignaron. Es muy popular la creencia de que podemos ver en el SMART la cantidad de horas que tiene un disco en funcionamiento, pero la verdad es que no podemos estar seguros si el valor que estamos viendo es en horas o en minutos, o incluso segundos, a alguna otra magnitud diferente. Un ejemplo claro de esto y fácil de comprender es el parámetro de SMART que podemos ver en la siguiente imagen, esta muestra un parámetro de Temperatura, como ya mencione anteriormente tenemos cuatro columnas, en Actual tenemos el valor 176, en Peor 176, en Umbral tenemos 0 y en Bruto (RAW) tenemos un valor alfanumérico, 002D00080022 y como se puede ver mas arriba del programa este ya nos muestra cómodamente la temperatura, la cual es de 34ºC y a nuestros ojos nada tiene que ver con lo que muestren las columnas.

¿Es factible  leer los datos SMART para el usuario final o técnico?

 

Conclusión:

La tecnología SMART de los discos es algo de suma utilidad y a pesar de que no debemos intentar interpretar los valores de forma aislada, si podemos beneficiarnos del software que interpreta estos valores y del resultado que arroja el propio SMART al sistema. Toda esta recogida de datos nos da un valor fácilmente comprensible, el valor general del SMART, BUENO o MALO, así de sencillo debemos interpretar estos parámetros, dejar que el propio firmware del disco se encargue de informarnos si esta bien o mal. Este valor binario podremos verlos fácilmente con cualquier programa como los ya mencionados y si llegara a ocurrir la desgracia de que hay un fallo en el SMART y el disco pasa a estado MALO, no hará falta que el usuario tenga que estar descargando un programa especializado para enterarse, el propio BIOS de nuestra computadora se percatara de esto y nos informara al encender el equipo, siempre y cuando la monitorización de SMART no este desactivada o no sea compatible, pero esos son casos raros. En la imagen de abajo podemos ver lo que sucede cuando el BIOS detecta una falla de SMART. Este nos previene avisando de la catástrofe inminente, la necesidad de hacer un backup y de remplazar el dispositivo de almacenamiento.

Que significan los valores de S.M.A.R.T. en discos

Pero si aun así lo que queremos es aproximarnos aun mas a la lectura de los parámetros SMART, hay algunos programas que interpretan los valores de forma aislada, valor por valor, por ejemplo HD Tune o Victoria, en la imagen de abajo podemos ver una captura de pantalla de este ultimo programa, donde podemos apreciar de forma grafica el estado de salud de cada valor independientemente de los otros, además el resultado general del SMART que da como resultado BAD (Malo)

 

» Si quieres agradecerme haciendo una donación:
Alias: electro29
Cafecito: https://cafecito.app/utiltecnico

» Si necesitas Asistencia personalizada.

Coloca tu comentario:

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *