Cuentos de la cripto vol.3
Weekend Loss Prevention

Un día de sol agradable, un panorama grato en vísperas de un fin de semana de festividades. La actividad en la empresa, como pocas veces ocurría, no entregaba vestigios de problemas. Todo en orden en los sistemas de monitoreo, baja cantidad de requerimientos en el sistema de atención de usuarios, por lo que sería un viernes tranquilo para salir temprano a ese ansiado fin de semana largo de cuatro días.

Nuestro colega Claudio solo se debía esperar a después de almuerzo la actividad de un proveedor externo para el cambio de una controladora del Storage del ambiente virtual de producción que había fallado días antes; aunque para eso están los sistemas en alta disponibilidad.

Cuando llega Sergio, el proveedor con la parte a reemplazar, solo debe bascular los sistemas a la plataforma de respaldos. En el papel todo está correctamente detallado: responsables, horas de inicio y término aproximadas, checklist de entrada y salida de la actividad, hermosamente descrito y aprobado por las jefaturas de los responsables de realizar la actividad.

Presentadas las credenciales de ambas partes y reunión de pauta previa de los trabajos; se inicia la actividad. 

Como era de esperar las transferencias de máquinas funcionaron como se esperaba: sin pérdidas ni retardos, tal como indicaba el documento, el RTO fue preciso y bien evaluado. 

El sistema de producción entraba en modo de mantención para ser apagado e iniciar la actividad crítica.

Check para el primer paso!
Las máquinas  estaban corriendo sobre las plataformas de respaldo, sin novedad alguna!
Sergio inicia el proceso de cambio de la tarjeta controladora del Storage. El apagado de este sistema sale de acuerdo a lo presupuestado. El reemplazo de la tarjeta se cumplió dentro del tiempo esperado y todo partió sin novedades que lamentar.

Check para el segundo paso!
Al iniciar el sistema, este hace su comprobación de hardware completo, todo está correctamente detallado en el RFC del trabajo, por lo que la plataforma productiva parte sin novedades que corregir, ni alarmas que revisar, listo para programar la vuelta de las máquinas que están funcionando en la plataforma de respaldos, la cual aumentó un poco su carga debido a las máquinas que debió soportar por la actividad. Alguien olvidó incluir la detención de los trabajos de respaldos desde la consola en el RFC, por lo que se deberá observar el consumo de la CPU de esta plataforma.

UFFF, solo fue un alza insignificante!!
Claudio inicia el proceso de retorno de las máquinas a la plataforma productiva. El ancho de banda aún no satura el enlace MPLS desde el datacenter. Pasa una máquina con el ERP. Pasa la máquina con el AD, sistema internos funcionando, plataforma productiva en funcionamiento, en perfecto estado sin alzas que desmotivan o preocupen!!!

Checklist de salida
La plataforma de producción se encuentra corriendo en sus parámetros normales, los datastores sin alertas, ni sugerencias del sistema por la nueva actualización de componentes, el registro de lectura y escritura es correcto, todo parece que  terminará un poco antes la actividad!

Los usuarios no reportan caídas y que el internet está más rápido. Bueno, a veces reportan cosas que no tienen que ver con las actividades anunciadas, pero así es el mundo del informático.

Informes de salida
Con las actividades realizadas y las evidencias presentadas, todo queda listo para el cierre de la actividad y acordada la entrega del informe para la vuelta del fin de semana, por lo que se podrán retirar temprano y viajar con la familia y disfrutar de un tranquilo fin de semana en la playa, en el campo o bien donde puedan disfrutar de su tiempo y con quien quieran compartirlo!

Que buen fin de semana tendrán Claudio y Sergio !!!

Esperen!!!!!  (El anexo está sonando!!!!)

Claudio acaba de abrir los ojos después de un agradable almuerzo y lo cierto es que se quedó dormido 10 minutos!!!
Acaba de llegar Sergio a cambiar la tarjeta del storage, por lo que se presentan los RFC tal como los trabajaron en estos días para autorizar el cambio requerido.

Check list de entrada!!!
Todos los componentes están de acuerdo al inventario, los responsables están ubicables o presentes en la actividad!
Se migran las máquinas al ambiente de respaldo, como resultado 2 de 5 máquinas no levantan. Los respaldos están corruptos y se tuvieron problemas al tratar de volver a hacer el rollback en la plataforma de producción.
Se logró que una máquina levantara, pero perdió la relación de confianza. Con esto ya se excedieron en una hora el “Hito 01” del RFC, pero saben que podrán arreglarlo rápido.
El cambio de la tarjeta del storage no dura mucho tiempo, invitó a un café a Sergio, mientras repara con Andrés, el proveedor de servicios del ambiente virtual, la falla de estas máquinas.
Los usuarios indican que no hay sistema interno. Ya dió la hora de salida y lograron pasar las máquinas al ambiente de respaldo, aunque están con una latencia alta por el enlace al data center, lo cual es raro porque es de 300Mbps y está dropeando a 100Mbps.

El cambio de la tarjeta
Sergio ya apagó el Storage y está cambiando la tarjeta. Él va en su tiempo correcto. Algo que salga bien! – Pensó Claudio
Inicia el Storage y arroja una alerta de volumen corrupto!! La tarjeta estaba con un firmware diferente al informado en el RFC. Sergio deberá actualizar el firmware, instalar e iniciar la recuperación del volumen corrupto!!!

Ya gastaron otras 5 horas.
Ya es la madrugada del sábado, Claudio y Sergio aún no pueden irse a casa. Claudio le dice a su familia que viajen solos y los alcanzará luego en destino.

Sábado 14:00hrs
El storage acaba de terminar de reparar el volumen. Inician el sistema de producción para estabilizar las aplicaciones.
Los usuarios y clientes están llamando constantemente porque no pueden acceder a ciertos sistemas o “se les queda pegado”. Otros usuarios indican que no tienen internet.
Claudio y Andrés revisan el controlador de dominio y este perdió la relación de confianza, por lo que el firewall ya no reconoce por lo menos al 50% de los usuarios de la empresa.

Sábado 16:30hrs
Sergio se retira después de sacar sus evidencias del trabajo e incidentes. 
Aún no han comido nada y el café ha sido el único alimento desde ayer a las 16:00hrs. Andrés se ríe por la cantidad de café que ha tomado. Estiman que en una hora estará todo listo.
Se solicita a Andrés que restaure un respaldo del controlador de dominio para reparar el error de confianza y lo mismo con los respaldos de las bases de datos! 

¡Acortar tiempo fue el pensamiento de ambos!

Sábado 23:30hrs
Se deberá despromover el servidor principal, ya que restaurar fue una mala idea. Se corrompió el dominio y el respaldo de las BBDD no funcionó. La empresa lleva 4 horas sin ningún tipo de sistemas.

Martín, el jefe de Claudio, no para de llamar y gritar, que debe tener un reporte completo este fin de semana

Domingo 8 AM
Claudio ya logró levantar las máquinas de BBDD y estabilizar el controlador de dominio. Su familia lo llama consultando como está, pues tampoco ha podido ir a casa a dormir, bañarse o cambiarse de ropa. 
El storage quedó bien, pero aún no ha tenido tiempo de pensar cómo se produjeron tantos problemas.

Domingo 22:00hrs 
Después de revisar todos los pasos que fallaron, cree haber dado con el problema. Los servicios ya están estables. Piensa “mejor me voy a casa a dormir”.

Lunes (Feriado) 11AM
Claudio se dirige a la oficina a seguir revisando los sistemas para generar el informe. Ve las fotos de su familia y lo bien que lo están pasando, aunque por sus constantes llamados hacen que también los extrañe muchísimo.
Ya en la oficina, recolectando los datos de todos los sucesos puede, al fin, emitir un informe completo, donde se solicite a todos los involucrados en la actividad que presenten sus descargos.

Ya son las 17:00 hrs y puede irse a casa, con la tranquilidad que todo está funcionando, será una semana acalorada de ánimos!!!
Su familia vuelve mañana a mediodía para evitar la congestión vehicular, así que decide no viajar y esperarlos en casa. Aún está nervioso por los sucesos. 

Ya un poco más tranquilo y descansado, reflexiona
Vuelve a revisar los procedimientos, sabe que tendrá consecuencias en su currículo. Todo parece normal pero se le ocurrió mirar el RFC.

    Ahora se dá cuenta que:

  • No estaba el OK de la revisión del sistema de respaldos, es decir, no hubo comprobación de funcionamiento!
  • No estaba declarado el firmware de la tarjeta que iban a reemplazar.
  • En la parte de networking nunca se declaró que el switch del enlace de MPLS estaba conectado hace 3 meses a un switch de 100Mbps, mientras llega el reemplazo al cual nadie le ha dado seguimiento.
  • El sitio de contingencia jamás ha funcionado correctamente y el proveedor de ambiente virtual nunca lo señaló.
  • Las consultas enviadas, para ciertos procesos solo fueron contestadas por Martin y dió por validado el documento.
  • Él mismo no lo revisó para objetarlo

Las consecuencias de este fin de semana fueron que:

  • Perdió credibilidad en la empresa
  • Casi perdió el trabajo
  • Y lo que es peor, perdió tiempo con su familia. 

Todo por miedo a objetar una mala instrucción de un superior y no ser riguroso en su trabajo

René Valdés

René Valdés

ETHICAL HACKER