jueves, 21 de mayo de 2015

KPI vs SLA

En el post anterior (Medición de calidad de Servicio), deje planteado en lineas generales como determinar la criticidad de un servicio para luego poder medirlo y en base al resultado de dicha medición poder tomar compromisos sobre la calidad del mismo.
En esta entrada vamos a ver que herramienta podemos usar para medirlo.
Por regla general el OLA y el SLA los tomaré como SLA, ya que ambos se comportan igual. Recuerde, el OLA es hacia adentro de la organización y el SLA es el compromiso que tiene hacia quienes usan el servicio.
Aquí llegamos entonces con las 2 herramientas principales el KPI o Key Process Indicator y el SLA o Service Level Agreement. Estos dos indicadores son específicos, el no confundir su finalidad hará que el resultado sea el adecuado. Siempre se pueden usar los dedos para ajustar una tuerca, pero lo ideal es tener la llave para que esa tuerca no quede suelta, lo mismo con el indicador, la herramienta adecuada nos dará la información precisa.
Históricamente siempre el SLA estuvo ligado a la provisión de un servicio, ya su sigla lo indica, mientras que el KPI es un indicador de cantidad y no de calidad.
Veamos un ejemplo de la vida de sistemas:
Un procesador de computadora posee un rendimiento finito, del cual puedo determinar una capacidad de procesamiento en un periodo establecido, por ello puedo decir si el mismo esta al 50% o al 100% de su capacidad de, ese porcentaje podría ser medido con un SLA, pero para poder analizar el contexto en el cual trabaja, debería indicar cual es la exigencia que le voy a imponer a dicho procesador, por ejemplo, que este atendiendo 20 rutinas por minuto, y ahí cuando establecí un valor fijo de medición, introduje un KPI.
Con este ejemplo lo que quiero demostrar es que ambos medidores, en muchos casos, son complementarios.
Si cuando dimensiono un servidor primero estimo el consumo que tendrá en base a la cantidad de conexiones, procesos, uso de memoria, etc. lo que estoy es determinando los puntos de control o KPIs que van a ser tomados como referencia para determinar si la estimación estuvo dentro del rango esperado.
Como regla básica digamos:
KPI usamos valores de referencia de capacidad mínima y máxima entre los cuales podremos soportar nuestro servicio, el indicador debe ser puntual y objetivo (cantidad de conexiones, cantidad de productos terminados, cantidad de usuarios soportados, cantidad de llamadas entrantes), y el tiempo en que voy a medir este valor. Esto es el: "con esta infraestructura puedo soportar hasta 200 usuarios mas allá de ese umbral, el servicio se resiente". Cabe preguntarse entonces: ¿puedo medir de una forma clara y objetiva en periodos constantes y continuos el valor que estoy tomando como referencia para mi KPI?, ¿Puedo tomar algúna acción que me permita ver cuales son las peticiones que se están cayendo de mi gráfico (llamadas que no puedo atender, procesos que quedan encolados, pedidos de mercadería que no atiendo, mails que no leo, etc.),¿puedo en una segunda etapa modificar los umbrales de los KPI? Esas son las preguntas para la mejora continua....pero en principio debo pensar en armar las herramientas que me permitan hacer esto o dejar en claro que no puedo.
En el SLA en cambio ya tengo mi 100%, que es la provisión del servicio. ¿Estoy brindando lo como me comprometí?, ¿atiendo siempre de 8 a 17hs?, ¿siempre puedo imprimir?, ¿siempre puedo mandar mail?.

Veamos otro ejemplo con un Service Desk:
Mensuro que con 3 analistas cubro el horario de 9hs a 18hs y que con esa cantidad de técnicos puedo soportar hasta 100 llamados diarios con una duración no mayor a 5 minutos por comunicación y una espera no mayor a 3 minutos en cola de entrada y que debido a la capacidad resolutiva de los técnicos puedo solucionar el 50% de los llamados en primera instancia.
Marque con esto el compromiso del servicio y supongo que tengo las herramientas necesarias para poder medir cada uno de estos indicadores: me podre loguear a una central para determinar el horario y atención y la cantidad de técnicos disponibles, medir la duración de las llamadas y tener una cola de espera con medición de llamadas caídas y tiempos de espera, si no tengo esto, no se comprometa, porque no va a tener forma de sostener el compromiso ya que no hay dato objetivo.
Con esta premisa puedo tener mis SLAs y mis KPIs declarados.
KPI: 

  • 100 llamados diarios
  • 3 técnicos
  • duración de llamada 5 minutos máximo
  • tiempo de espera 3 minutos máximo
SLA:
  • 100% de los llamados serán atendidos, hasta los 100 llamados diarios.
  • 50% de los llamados atendidos resueltos.
Ahora tenemos indicadores y Ud. tendrá una herramienta para poder medir y responder reclamos, el "llame y nadie me atendió" se podría responder que la demanda de llamados subió a 150 llamados/día y que el servicio esta diseñado para soportar 100 llamados/día y efectivamente con esta sobre exigencia pudo haberse perdido llamadas. Lo importante es tener en claro lo que brindamos y cuales son nuestras capacidades. Nadie le puede exigir a un auto que vaya mas rápido que la velocidad máxima para lo que fue diseñado. 
Suerte con los indicadores y recuerde que siempre hay tiempo para mejorar, no se cierre en un medidor pensando que es el único y el mejor, apóyese en su equipo de trabajo para determinar cual es la mejor forma de medir, en definitiva si es su equipo de trabajo, seguramente lo eligió a conciencia y confía en el.

miércoles, 20 de mayo de 2015

Dos Scripts

Siempre queremos colocar en nuestros scripts de DOS la fecha y la hora para dejar registrada la actividad.
Aquí encontraras como parcear el dato del clásico comando Date y Time



Usando el bucle FOR pondremos:

Para la Fecha

for /f "delims=/, tokens=1,2,3" %%E  in ('date /t') do (set dd=%%E
set mm=%%F

set aa=%%G)

esta linea hace lo siguiente:

Comando: FOR
Modificador: /f divide la instrucción dependiendo del delimitador
delimitador: / (es la que figura en la fecha 04/12/2014)
tockens= Campos, el 1 (04), 2 (12) y 3 (2014)
y lo cargo en una variable primaria %%E, luego el campo 2 será %%F y el tercero %%G
in= que instrucción voy a dividir su respuesta
do = donde usare las respuestas

Para la Hora:

for /f "delims=:, tokens=1,2" %%H in ('time /t') do (set hh=%%H 
set mm=%%I)

Para la hora, la única diferencia será que el delimitador es ":" y solo me quedo con los primeros 2 datos.

Espero que les sea de utilidad y que sus logs de scripts tengan mas información.

Medición de calidad de Servicio

Preguntas previas a introducirnos en algo que parece fácil pero requiere claridad en lo que queremos buscar.
¿Es difícil comenzar con los SLA? ¿Tenemos en claro para que queremos hacer esto? ¿sabemos  que queremos medir? ¿que vamos a hacer con la información? ¿uso SLA, ola  o KPI? Muchas preguntas....
Con lo primero que debemos comenzar es entender que brindamos y conque lo hacemos, para luego comprometernos con la calidad de servicio.
Pero despreocúpese, todo tiene un inicio y el final depende de la profundidad que le quiera dar al tema.
Tomemos el servicio mas simple de medir como puede ser una central telefónica, internet, el e-mail (no clientes internos, sino el smtp) o al algún programa que no tenga dependencias de infraestructura compleja (enlaces entre edificios, vpn's, etc).
En claro el servicio que vamos a medir, usemos las siguientes pautas:

  1. Cantidad de usuarios que lo usan.
  2. Afectación a la operación:  mídala en: baja, media, alta o critica.
    Así podríamos definir como:
    1. bajo: a aquel que no afecta al negocio de manera inmediata, puede esperar la recomposición del servicio.
    2. Medio: es importante para el negocio, pero no frena la operación.
    3. Alto: afecta directamente a la operación, pero no compromete a la organización hacia afuera de empresa.
    4. Crítico: No solo afecta internamente, sino que también repercute en el entorno del negocio, como puede ser: despacho, vencimientos de cumplimientos, aprovisionamiento de material, etc.
  3. Disponibilidad requerida: Horario de atención, tiempo medio que debe usarse el servicio (24/7, 8/5, etc).
  4. Mantenimiento: Cuanto tiempo necesita IT detener el servicio para mantener la operación del mismo (en horas año).
  5. Recuperación: Tengo todos los recursos para recuperar en el menor tiempo posible el servicio. No solo Hardware, sino personal directo e indirecto (proveedores), tengo acuerdos hacia terceros que afecten mis tiempo de respuesta?
  6. Contingencia: tengo forma de replicar o contingenciar el servicio?
  7. Historia: Que me dice la historia de la prestación del servicio, cuantas caídas tuve en el último año, cuanto tarde en levantar el servicio, aprendí algo de las caídas, soy más eficiente recuperándolo?
  8. Optimismo fuera: Si puede fallar…. Va a fallar. Use esta premisa para ser lo más realista posible. Recuerde que todo compromiso es mejorable y si Ud. No tiene ningún indicador funcionando, no se presione para logar el 99,99% porque eso es imposible…
Con estos 8 puntos podemos comenzar a tener un panorama de lo complejo que es tomar la determinación y la franqueza que se necesita a la hora de determinar indicadores de calidad de servicio.
El siguiente aspecto es determinar el monitor: ¿KPI, SLA u OLA?.
Diferenciemos: KPI es un indicador, al cual tomo como referencia y trato de acercarme al mismo, por ejemplo: producir 100.000 unidades.
El SLA y el OLA (el primero hacia afuera y segundo es hacia adentro de la organización) me indican en porcentaje de cobertura o disponibilidad de "algo".
Para que podemos usar un KPI, por ejemplo para brindar un servicio de impresión donde el contrato indica: “… régimen de impresión de 100.000 hojas mes “, cuento cuantas hojas imprimió antes de romperse la impresora y si supero el rendimiento indicado el servicio estuvo disponible.
El OLA (Acuerdo de Nivel Operacional) lo podemos usar internamente en una organización donde el departamento de compras garantiza tener una cotización en 5 dias. Esos 5 dias son el 100% del indicador, y uso la escala inversa, si supero el 100% estoy por fuera del SLA. Si me dice que solo puede procesar 20 pedidos por semana uso un KPI.
Ahora si brindo servicios hacia fuera de la empresa, como ser comunicaciones, uso el SLA (Acuerdo de Nivel de Servicio) y digo que de una provision de 100% o su equivalente a 1000 horas de un servicio puedo brindar 999 horas efectivas dejándome el 99,9% de garantía de servicio.
Estamos listo? tenemos los 7 pilares? Sabemos que vamos a medir, sabemos que impacto tiene, sabemos cuánto tiempo nos lleva mantener el equipo, también tenemos en claro que ante una caída nos llevaría N horas recuperar la operación y todo los cálculos los sacamos a conciencia. Hemos dado un enorme paso, ahora hay que poner el porcentaje de OLA  o SLA, cuanto tiempo yo (IT) me comprometo a brindarte el servicio Dejemos la discusión a un lado de “yo lo necesito siempre” porque eso es muy caro….
Completemos el siguiente cuadro:
Nombre del Servicio: EJ. Telefonica interna
Impacto: Alto
Disponibilidad requerida: 365 dias
Mantenimiento: 3 horas año
Recuperación: Apagar, reemplazar, poner en disponibilidad y cargar la configuración, tiempo: 5 hs.
Contingencia existente: NO
Historia: 2 caídas año tiempo de recuperación 5 horas
Aplicando la formula estándar de:
%de disponibilidad=((tiempo de servicio – caídas)/tiempo de servicio) * 100
Disponibilidad=((8760hs – (3 hs Mantenimiento + (5 Hs de caídas)* 2 al año))/8760)*100
D=((8760-13)/8760)*100
D=99,851%
Ese 99,851% representa una falta de disponibilidad al año de solo 13Hs, siendo el servicio necesario 8760Hs.
Con este simple ejercicio, puede comenzar a medir calidad de servicio y armar un panel de control.
Ahora, ¿Qué es caída? ¿La disponibilidad de un servicio desde donde se mide, desde el propio equipo que lo brinda o desde el cliente?. Lo ideal es que se mida desde el cliente, no de todos, pero sí de algún cliente clave.
Cuando más compleja es la infraestructura, más SLAs  para el mismo servicio deberá hacer.
Veamos el caso de una empresa que usa telefonía IP y posee 2 edificios. En uno tiene el 50% de la población y es donde tiene la central telefónica y otro edificio unido por un enlace de radio donde se encuentran el otro 50% de usuarios.
Primero busque como monitorear en cada edificio el acceso al servicio.
Luego tome cada edificio como un servicio independiente, pero al que trabaja por enlace, súmele también el mantenimiento y las caídas del radio y la contingencia de la conexión. De esta manera obtendrá 2 resultados distintos, pero esa será su tabla de provisión del servicio. Si bien el servicio es uno, los elementos que lo componen son distintos.
Recuerde comience con lo mas simple, no intente hacer cálculos sumamente complejos ni tomar variables que no puede controlar.

Como me decía un Jefe “lo perfecto es enemigo de lo bueno” comience, aprenda a medir con lo mas simple, para complejizar siempre hay tiempo, lleve el indicador en un Excel, consulte con sus analistas y técnicos para ver que cosas afectan el servicio, como pueden brindar una mejor calidad, el numero frio solo será un indicador, lo mas importante es que pueda tomar una decisión que mejore su servicio, la calidad y la provisión del mismo.