Como surgiu este assunto por aqui e gerou
algumas dúvidas sobre o que era isto, resolvemos montar um dica com algumas
informações sobre esta tecnologia: S.M.A.R.T ou Self-Monitoring,
Analysis and Reporting Tecnhology
De onde apareceu o S.M.A.R.T.
Em 1992, a IBM iniciou a distribuição de
discos rígidos de 3.5 que podiam "prever" suas próprias falhas. Foi
o primeiro no mercado. Estes drivers eram equipados com a tecnologia PFA (Predictive
Failure Analysis), desenvolvida pela própria IBM, que periodicamente media
alguns atributos selecionados dos discos (como por exemplo a distância da
cabeça de leitura para a superfície do disco), e enviava avisos quando alguns
limites pré-determinados eram alcançados.
Como o resultado do uso desta
tecnologia foi muito útil principalmente para as grandes corporações,
possuidoras de grande quantidade de micros em suas instalações, e tecnologia
foi amplamente aprovada e acabou se tornando um padrão ANSI: S.M.A.R.T.
Estes padrões, agora normatizados, começaram
a ser utilizado pelos demais fabricantes (Conner, Fujitsu, HP, Maxtor, Quantum,
Seagate, Western Digital, etc), e se aplica tanto a discos ATA como SCSI.
Falha em Disco é uma realidade!
Não existe escapatória: falhas em disco
acontecem! O grande problema é que quando falham, há grande risco de você
perder seus dados, sejam eles seu trabalho de casa, informações essenciais de
uma empresa, dados de um servidor, enfim, dados são dados, e o usuário deve
definir o quão importante eles são para garantir se deve ter ou não cópias dos mesmos
em outros locais de forma a poder recuperá-los. Porém a freqüência em que é
feita esta cópia/backup pode não ser suficiente, ou o risco de perdê-los ou o
risco de ter um servidor parado, é muitas vezes tão crítica quanto o próprio
dado em si!
A maneira de se evitar isto, é justamente monitorar o funcionamento
do disco, e com base neste monitoramento saber se há a necessidade de programar
uma substituição do disco, ou uma migração, ou um upgrade, melhor ainda se
você poder ser "avisado" quando está na hora de se efetuá-las. Daí
vem a grande funcionalidade do S.M.A.R.T.
Como os discos falham?
Existem dois tipo de falhas em disco: as
previsíveis e as imprevisíveis.
Como você mesmo pode imaginar, as
imprevisíveis, não tem jeito! Acontecem de repente, sem aviso, sem razão
aparente, sem lógica, sem "solução"! Estas falhas podem ser
causadas por eletricidade estática, acidentes manuais, manuseio, problemas
externos ao funcionamento do disco (raios, curtos, etc). Estes casos são
realmente "sem solução" e na maioria das vezes "sem
recuperação".
Falhas previsíveis, por outro lado, são tipos
de falhas que o S.M.A.R.T. se propõe a detectar. Estas falhas são causadas por
desgaste natural da performance do disco, e de seus ajustes e limites de
funcionamento. Já foi levantado que 60% das falhas de disco são mecânicas, e
estas são justamente as falhas que o S.M.A.R.T está preparado para detectar.
Como funciona o S.M.A.R.T.
Como a arquitetura do disco rígido varia de
fabricante para outro, da mesma forma, varia o modo como o S.M.A.R.T é
implementado nos discos, porém os requerimentos de sistema são mais ou menos o
mesmo:
- O disco deve ser "S.M.A.R.T. enable"
- O sistema operacional deve permitir comandos
S.M.A.R.T. de serem enviados ao disco:
- Windows 3.1
- Windows 95
- Windows 98
- Windows NT 4.0
- Windows 2000
- Windows XP
- OS/2 (requer bus-master device driver)
- Aplicação capaz de mostrar as mensagens de
alerta do S.M.A.R.T.:
Discos que implementam o S.M.A.R.T. usam
diferentes técnicas para monitorar a disponibilidade de dados. Estas técnicas
variam entre os fabricantes de disco. Por exemplo: um disco S.M.A.R.T. pode
monitorar a altura/distância entre a cabeça de leitura e a superfície do
disco; e se a cabeça de leitura estiver operando muito alta, ou muito baixa,
existe grandes chances deste disco falhar. Outros discos, podem monitorar
condições diferentes como por exemplo o circuito ECC (circuito de correção
de erro de leitura), no cartão de circuito do disco, ou taxas de erro de
leitura. Dependendo do fabricante, o disco pode monitorar todas estas
condições por exemplo, ou nenhuma delas, e monitorar outras...
Utilizando o S.M.A.R.T.
Imagine esta situação: Um disco no seu micro,
habilitado para S.M.A.R.T., está prestes a falhar. Usando um comando Ultra ATA
ou SCSI (dependendo do seu disco), o S.M.A.R.T. do disco envia um alerta
através de seu sistema operacional. O alerta é enviado para a aplicação que
mostra ao suporte/usuário, um aviso mais ou menos assim:
WARNING: Immediately back up your data
and replace your hard disk drive. A failure may be imminent.
Algumas vezes a mensagem contém informações
adicionais como que dispositivo causou a mensagem, dispositivo lógico,
informações do fabricante, número de série, etc., de forma a facilitar a
ação a ser tomada.
Suponha que a mensagem apareça na sua tela
enquanto você está editando um arquivo. Após o susto inicial, o que você
faria? Primeiro, verifique se o aviso foi causado por alguma fonte externa de
problema. Algumas vezes mudanças próximas ao sistema podem resultar em que o
S.M.A.R.T envie um alerta (por exemplo falha na refrigeração no ambiente onde
está o sistema, interferência elétrica por motores conectados na mesma fase
elétrica, algum tipo de vibração gerada naquele momento no sistema onde está
o disco, etc.).
Se o aviso não foi gerado por uma fonte
externa, o que você irá fazer depende de sua configuração. Se seu sistema
está conectado a uma rede, provavelmente a mensagem de aviso for enviada não
apenas para você, mas também encaminhada ao administrador da rede. Porém, se
você possui um sistema isolado, você mesmo terá que resolver o problema apresentado
pelo aviso!
- Primeiro, salve seu trabalho, e saia da
aplicação em uso
- Feche todas as demais aplicações abertas
- Faça backup de seus dados. (o ideal é
fazer o backup em outro dispositivo "físico", diferente do Disco
em que o S.M.A.R.T está enviando alertas).
- Verifique a gravidade do aviso de alerta, e
a necessidade de se substituir o disco (esta "necessidade" é
diretamente relacionada a importância dos dados armazenados no mesmo.
Algumas vezes um scandisk, ou formatação poderão resolver o problema,
porém, é importante realizar uma correta avaliação do problema). Se
houver necessidade de substituição do Disco, você já terá realizado o
backup dos seus dados, e o risco de perder alguma coisa é muito pequeno
(já imaginou se ocorre um "crash" do HD sem aviso?).
Porque usar o S.M.A.R.T.
Existem outras maneiras de você se proteger
contra perdas de dados associadas a falhas em disco. Você pode. por exemplo,
ter um sistema de backup que duplica os dados existentes no sistema principal em
um sistema secundário (espelhamento ou RAID 1), de tal forma que se houver falha
em um disco, o "disco-espelho" do mesmo automaticamente assume o lugar dele, sem perdas
de dados (já que ele está totalmente espelhado no disco reserva). Existem
outras soluções através da utilização de RAID, ou outras, porém o custo da
implementação são consideráveis e nem sempre justificáveis.
O S.M.A.R.T. oferece uma solução barata e
eficiente para acompanhamento de problemas, e diminuição de riscos. Usando
discos habilitados para o S.M.A.R.T., reduz o seu risco de perdas de dados e a
perda de tempo e dinheiro em casos de restaurar o sistema na ocorrência de um
problema no disco. O sistema de mensagem de aviso do S.M.A.R.T. ajudará com que
você tenha uma previsão de possíveis problemas e agendar a troca de seu disco
em um período de menor impacto para suas operações. Porém, por mais auxílio
que o S.M.A.R.T. possa te dar, não substitui a garantia de ter sempre um backup
atualizado de seus dados, feito regularmente e testado.
Conclusão:
Um fator importante a considerar: vale a pena
usar o S.M.A.R.T. em todas as máquinas? A resposta varia conforme a situação:
- Se for um sistema com conteúdo de dados VITAIS para sua empresa: é melhor
usar RAID1 ou espelhamento
- Se for um sistema pessoal ou corporativo, com dados importantes porém não
essenciais: é suficiente manter um backup regular atualizado
- Se for um sistema pessoal ou corporativo, com dados importantes, que a paralisação
do sistema por 1 dia ou a perda de dados do tempo passado do último backup,
pode comprometer o funcionamento/serviço, e é relativamente dispendioso: é
interessante ativar o S.M.A.R.T.