As 5 melhores práticas para administradores de sistema

Sexta-feira, 20 de março de 2015

A administração do sistema não é uma tarefa fácil, mas é administrável com as ferramentas certas, as pessoas certas e o conjunto certo de regras para se viver. Aprender algumas regras traz ordem ao mundo muitas vezes caótico da administração de sistemas.

Quem melhor para usar como referência do que as próprias pessoas que praticam a arte da administração de sistemas? O grupo SAGE-IE publicou dez regras para administradores de sistema nesta apresentação, mas decidimos pegar as cinco principais e aprofundar cada uma delas para você.

Melhores práticas para administradores de sistema

1. Seja um bom cidadão

A primeira regra é frequentemente esquecida e um tanto obscura para uma lista de práticas recomendadas. No entanto, a sua inclusão incomum torna-o ainda mais atraente. Ser um bom cidadão tem a ver com atendimento ao cliente. Não pensamos nos usuários da rede como nossos clientes, mas eles são exatamente isso.

Por exemplo, seus usuários veem os administradores de sistema como facilitadores e ativos de negócios ou como fontes de obstáculos ou atrasos na produção? Seu trabalho é atender seus usuários mantendo sistemas, fornecendo segurança, executando tarefas dentro de diretrizes específicas e respondendo rapidamente às solicitações. Além disso, espera-se que você faça todas essas coisas enquanto mantém uma atitude profissional com seus usuários e seu gerenciamento.

2. Monitore seus sistemas

O monitoramento é mais do que simples testes de ping UP/DOWN; é uma visão abrangente do seu ambiente que inclui CPU, uso de memória, tráfego de rede, capacidade e medições ambientais. Ao iniciar o monitoramento, você deve coletar estatísticas para seus sistemas que estabeleçam uma linha de base do comportamento operacional normal que você poderá consultar no futuro. Você deve coletar estatísticas de uso de CPU, memória, disco e rede. Você também precisa calcular estatísticas de crescimento em arquivos de log, bancos de dados e dados de usuários para poder prever necessidades futuras de capacidade.

A recolha de métricas, contudo, é apenas um aspecto da monitorização. A outra é alertar quando essas métricas ficam fora dos parâmetros operacionais normais. O que acontece quando um sistema de arquivos fica cheio? Você recebe um alerta com 85% da capacidade ou seu sistema trava ou sofre uma interrupção do serviço devido a um processo interrompido? Alertas proativos no sistema e o comportamento do serviço é uma parte essencial da imagem total do seu datacenter.

3. Execute o planejamento de recuperação de desastres

A terceira regra ou prática recomendada é “Executar o planejamento de recuperação de desastres”. Ao contrário de algumas crenças, a recuperação de desastres não significa necessariamente a recuperação de um grande desastre que afete todo o datacenter. Significa recuperação de qualquer desastre, mesmo de um único sistema. Uma questão que você pode considerar ao pensar sobre a recuperação de desastres é “como você vai resolver o problema quando ele ocorrer?”. Talvez você não tenha acesso físico direto a um sistema com falha para ajudar na sua recuperação. Você terá que contar com pessoal remoto trabalhando no datacenter para recuperar um sistema que sofreu uma falha de hardware.

A outra questão a considerar é “onde você estará quando ocorrer um desastre?”. Os desastres nem sempre ocorrem em horários convenientes durante o horário de trabalho. Eles acontecem enquanto você está fora do escritório e do computador. Como você cumprirá o tempo médio de restauração (MTTR) e o SLA do sistema ou sistemas com falha quando não tiver acesso a eles?

Não basta simplesmente preparar-se para desastres; você tem que planejar sua ocorrência. Nenhuma quantidade de redundância, balanceamento de carga ou backups regulares impedirá que desastres aconteçam. Como se recuperar de um desastre, de um único sistema para um ambiente computacional completo, é o que você precisa pensar e planejar. A forma como você se conectará e recuperará esses sistemas com falha deve fazer parte do plano.

4. Documente tudo

Por mais desafiador que seja, você deve documentar procedimentos padrão, informações de conectividade, tarefas regulares de manutenção e planos de contingência para recuperação de desastres.

A documentação é difícil porque exige que o administrador do sistema pare e prossiga passo a passo em cada tarefa, enquanto documenta cuidadosamente cada procedimento. É demorado e trabalhoso documentar minuciosamente, fazer capturas de tela, descrever procedimentos e explicar possíveis resultados. Se não tiver procedimentos bem documentados, então é melhor ter o plano de contingência de estar sempre perto de um computador e de uma rede.

5. Estabeleça procedimentos para o seu trabalho

Como você pode imaginar, as regras quatro e cinco estão intimamente relacionadas entre si. Estabeleça procedimentos padrão e documente-os. Os procedimentos padrão ajudam a manter a consistência e a reprodutibilidade em seu ambiente de computação. Criar e aderir a um conjunto de procedimentos padrão tem o efeito adicional de estabilizar seus sistemas e serviços, o que, por sua vez, estabiliza a produtividade geral da sua empresa.

Os administradores de sistema criaram essas cinco práticas recomendadas para serem usadas pelos administradores de sistema como diretrizes que levam a ambientes de trabalho mais estáveis e maior produtividade. Eles ajudarão a agilizar seu trabalho, auxiliarão outros administradores de sistema em seu grupo e manterão sua sanidade quando algo quebrar.

Descubra como você pode monitorar e gerenciar remotamente seus sistemas usando seu dispositivo móvel, não importa onde você esteja quando as coisas dão errado.

Compartilhar este post