# KPIs, OKRs y Balanced Scorecard

En esta sesión introduciremos las herramientas que usarémos a traves del curso, como Jupyter Notebook y paqueterías de Python, como Pandas. Verémos que son los KPIs, por que son importantes, y como algunas estructuras de trabajo como el Balanced Scorecard (BSC) y los Objetivos y Principales resultados (OKRs) son usados en las estrategias de negocio.

## Objetivos del laboratorio
- Definir Indicadores Principales de Desempeño (KPIs).
- Entender la aplicación del BSC y los OKRs en la selección y evaluación de KPIs.
- Describir el proyecto final, involucrando una aplicación en el mundo real de los conceptos que verémos en el laboratorio.
- Introducir las herramientas para análisis de datos.

## ¿Que son los indicadores?

Los indicadores, en un contexto de negocio, son métricas o puntos de datos para cuantificar el desempeño o predecir resultados. Son herramientas importantes para administrar y tomar decisiones, dando una imagen clara del desempeño actual de la compañía comparado con sus objetivos estratégicos. Pueden variar mucho dependiendo del sector, enfoque operativo, y objetivos estratégicos. Pueden medir desempeño financiero, satisfacción del cliente, eficacia operativa, o incluso compromiso de los empleados, incluyendo muchos mas aspectos.

**EJEMPLOS ALUMNOS**


### Ejemplos de como se definen estrategias en entornos empresariales usando indicadores: Balanced Scorecard (BSC) y Objectives and Key Results (OKRs)

- **Key Performance Indicator (KPI):** Los KPIs son valores medibles que demuestran que tan efectiva es una compañia en lograr objetivos de negocio claves. Las organizaciones usan KPIs en multiples niveles para evaluar su éxito en alcanzar objetivos. KPIs de alto nivel pueden enfocarse en el desempeño total de la empresa, mientras que KPIs de bajo nivel pueden enfocarse en procesos de departamentos como ventas, marketing, recursos humanos, soporte y otros.
<img style="margin: 0px 0px 15px 15px;" src="https://images.surferseo.art/28e3e411-f9d6-42b0-bda3-1c5c2718021c.png" width="400px" height="400px" />

- **Balanced Scorecard (BSC):** Sistema de planeación estratégica y administrción usada para alinear las actividades del negocio a la visión y estrategia de la organización, mejorar comunicaciones internas y externas, y monitorear el desempeño de la organización contra los objetivos.
<img style="margin: 0px 0px 15px 15px;" src="https://www.wevalgo.com/images/easyblog_articles/132/balanced-scorecard-747c06ff7dccc168ef4a9a6bfd21daaf.jpeg" width="400px" height="400px" />

- **Objectives and Key Results (OKRs):** Una estructura de trabajo para definir y darle seguimiento a objetivos y resultados. Ha sido usado por bastantes compañias de alto perfil para asegurarse de que se están enfocando en los aspectos mas relevantes en toda la organización.
<img style="margin: 0px 0px 15px 15px;" src="https://images.ctfassets.net/mu244eycyvsr/fzNlvE9CjloFmmiykpD5o/1df6867be378bea9b13430821b013094/WM-OKR_Superpowers.png?w=1600&q=50&fm=webp" width="400px" height="400px" />

**Vamos abriendo el reporte de laboratorio 1**

## Introducción a la manipulación de datos con pandas

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" width="400px" height="400px" />

El verdadero poder de python viene con sus librerías. Ya en cursos pasados han aprendido varios aspectos relativos a las librerías ([NumPy](https://www.numpy.org/) y [matplotlib](https://matplotlib.org/)). En estos enlaces pueden encontrar la documentación oficial para revisar qué más pueden hacer con estas librerías. También el `help` puede ser un buen punto de partida para conocer qué más cosas pueden realizar.

Usaremos la librería de Python para análisis de datos: **Pandas**. Durante el transcurso de la asignatura haremos uso extensivo de datos, por tanto es importante tener un manejo básico de pandas.

Referencias:
- https://pandas.pydata.org/
- https://towardsdatascience.com/data-science-with-python-intro-to-loading-and-subsetting-data-with-pandas-9f26895ddd7f

Normalmente trabajamos con grandes cantidades de datos (precios). 

Los datos que debemos cargar pueden guardarse de muchas maneras distintas: archivos CSV, archivos de Excel, etcétera. Incluso, los datos pueden estar disponibles a través de servicios web. 

Para trabajar con datos, se hace necesario representarlos en una estructura tabular (cualquier cosa con forma de tabla con filas y columnas).

En algunos casos, los datos ya están en forma tabular y es más fácil cargarlos. En otros, debemos trabajar con datos no estructurados o que no están organizados de una manera determinada (texto plano, imágenes, audio, etcétera).

En esta clase nos vamos a concentrar en cargar datos desde archivos CSV (valores separados por coma).

Pandas es una librería de código abierto para el lenguaje de programación Python, desarrollada por Wes McKinney. Es una librería muy eficiente y proporciona estructuras de datos y herramientas de análisis muy fáciles de usar.

Como las librerías que hemos visto antes, Pandas viene instalado por defecto con Anaconda, así que lo único que tenemos que hacer para empezar a trabajar con ella es importarla. La comunidad utiliza normalmente la abreviación pd para referirse a pandas:

In [1]:
# Importar pandas
import pandas as pd 

Los **pd.DataFrames** son los objetos por excelencia de pandas para manipular datos. Son eficientes y rápidos. Son la estructura de datos donde pandas carga los diferentes formatos de datos: cuando nuestros datos están limpios y estructurados, cada fila representa una observación, y cada columna una variable o característica. Tanto las filas como las columnas pueden tener etiquetas.

En esta clase vamos a trabajar con datos pertenecientes a ejemplos de la librería featuretools [en esta página](https://docs.featuretools.com/loading_data/using_entitysets.html). 

En esta clase, además de importar datos, aprenderemos a:
- seleccionar subconjuntos de datos;
- filtrar variables por categorías;
- entre otros.


### 1. Importar datos
Vamos a seguir paso a paso lo que se hace inicialmente en la mayoría de casos que se quieren analizar indicadores: Importar archivos csv y manipularlos.

In [2]:
# Importar pandas
import pandas as pd

In [48]:
# Ayuda en la función pd.read_csv()
#help(pd.read_csv)

In [4]:
# Cargando datos ejemplo
pd.read_csv("customers_data.csv")

Unnamed: 0.1,Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,0,1,60091,2011-04-17 10:48:33,1994-07-18
1,1,2,13244,2012-04-15 23:31:04,1986-08-18
2,2,3,13244,2011-08-13 15:42:34,2003-11-21
3,3,4,60091,2011-04-08 20:08:14,2006-08-15
4,4,5,60091,2010-07-17 05:27:50,1984-07-28


In [7]:
# Importar customers_data.csv
customers = pd.read_csv("customers_data.csv")
customers

Unnamed: 0.1,Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,0,1,60091,2011-04-17 10:48:33,1994-07-18
1,1,2,13244,2012-04-15 23:31:04,1986-08-18
2,2,3,13244,2011-08-13 15:42:34,2003-11-21
3,3,4,60091,2011-04-08 20:08:14,2006-08-15
4,4,5,60091,2010-07-17 05:27:50,1984-07-28


Bien, ya tenemos los datos cargados, sin embargo, se ve algo raro. 

¿Qué es esta columna "Unnamed: 0"? (abrir el CSV)

Para especificar que esta columna corresponde al índice, podemos usar el argumento `index_col`.

In [8]:
# Importar customers_data.csv, haciendo uso del argumento index_col
customers = pd.read_csv("customers_data.csv", index_col=[0])
customers

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,1,60091,2011-04-17 10:48:33,1994-07-18
1,2,13244,2012-04-15 23:31:04,1986-08-18
2,3,13244,2011-08-13 15:42:34,2003-11-21
3,4,60091,2011-04-08 20:08:14,2006-08-15
4,5,60091,2010-07-17 05:27:50,1984-07-28


In [9]:
# Tipo de objeto con que importa pandas los archivos
print(type(customers))

<class 'pandas.core.frame.DataFrame'>


In [10]:
print(type("a"))

<class 'str'>


Ahora nuestro DataFrame luce bien. Sin embargo, podríamos querer indizar nuestro DataFrame directamente por el id de cliente, utilizando el método `set_index()`:

In [11]:
# Usar el método set_index para indizar por el id de cliente
customers.set_index('customer_id')

Unnamed: 0_level_0,zip_code,join_date,date_of_birth
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,60091,2011-04-17 10:48:33,1994-07-18
2,13244,2012-04-15 23:31:04,1986-08-18
3,13244,2011-08-13 15:42:34,2003-11-21
4,60091,2011-04-08 20:08:14,2006-08-15
5,60091,2010-07-17 05:27:50,1984-07-28


In [12]:
# Revisar que paso con la tabla original
customers

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,1,60091,2011-04-17 10:48:33,1994-07-18
1,2,13244,2012-04-15 23:31:04,1986-08-18
2,3,13244,2011-08-13 15:42:34,2003-11-21
3,4,60091,2011-04-08 20:08:14,2006-08-15
4,5,60091,2010-07-17 05:27:50,1984-07-28


In [13]:
customers = customers.set_index('customer_id')

In [14]:
customers

Unnamed: 0_level_0,zip_code,join_date,date_of_birth
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,60091,2011-04-17 10:48:33,1994-07-18
2,13244,2012-04-15 23:31:04,1986-08-18
3,13244,2011-08-13 15:42:34,2003-11-21
4,60091,2011-04-08 20:08:14,2006-08-15
5,60091,2010-07-17 05:27:50,1984-07-28


### 2. Indización y selección de datos

Hay muchas formas de las cuales podemos seleccionar datos de DataFrames. Veremos, de acuerdo al artículo al final de este documento, la forma basada en corchetes ([]) y en los métodos `loc()` y `iloc()`.

Con los corchetes, podemos seleccionar ciertas filas, o bien, ciertas columnas. 

Para una selección de filas, podemos usar el indizado como en las listas: [start_index:end_index:step], recordando que el `end_index` no es inclusivo.

Por ejemplo, seleccionar los clientes en las primeras dos filas:

In [15]:
customers[:2]
# Es equivalente a
# customers[0:2]

Unnamed: 0_level_0,zip_code,join_date,date_of_birth
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,60091,2011-04-17 10:48:33,1994-07-18
2,13244,2012-04-15 23:31:04,1986-08-18


In [16]:
customers[2:]

Unnamed: 0_level_0,zip_code,join_date,date_of_birth
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,13244,2011-08-13 15:42:34,2003-11-21
4,60091,2011-04-08 20:08:14,2006-08-15
5,60091,2010-07-17 05:27:50,1984-07-28


In [17]:
customers['join_date']

customer_id
1    2011-04-17 10:48:33
2    2012-04-15 23:31:04
3    2011-08-13 15:42:34
4    2011-04-08 20:08:14
5    2010-07-17 05:27:50
Name: join_date, dtype: object

In [18]:
customers[::2]
# Esto es equivalente a
# customers[0:5:2]

Unnamed: 0_level_0,zip_code,join_date,date_of_birth
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,60091,2011-04-17 10:48:33,1994-07-18
3,13244,2011-08-13 15:42:34,2003-11-21
5,60091,2010-07-17 05:27:50,1984-07-28


In [19]:
# Seleccionar la columna date_of_birth como Series
customers['date_of_birth']

customer_id
1    1994-07-18
2    1986-08-18
3    2003-11-21
4    2006-08-15
5    1984-07-28
Name: date_of_birth, dtype: object

In [20]:
print(type(customers[['date_of_birth', 'zip_code']]))

<class 'pandas.core.frame.DataFrame'>


In [21]:
# Tipo de objeto pd.Series
print(type(customers['date_of_birth']))

<class 'pandas.core.series.Series'>


Las Series de pandas son arreglos unidimensionales que pueden ser etiquetados. En algunos casos, querremos seleccionar solo una columna pero mantener esta selección en un DataFrame. En este caso podemos pasar una lista con un solo elemento:

In [22]:
# Seleccionar la columna date_of_birth como DataFrame
customers[['date_of_birth']]

Unnamed: 0_level_0,date_of_birth
customer_id,Unnamed: 1_level_1
1,1994-07-18
2,1986-08-18
3,2003-11-21
4,2006-08-15
5,1984-07-28


In [23]:
# Tipo de objeto pd.DataFrame
print(type(customers[['date_of_birth']]))

<class 'pandas.core.frame.DataFrame'>


Muy bien, ya vimos que los corchetes son útiles. También existen los poderosos métodos `loc` y `iloc`, que nos dan el poder de seleccionar ambos a la vez: columnas y filas.

¿En qué se diferencian?

- El método `loc` nos permite seleccionar filas y columnas de nuestros datos basados en etoquetas. Primero, se deben especificar las etiquetas de las filas, y luego las de las columnas.

- El método `iloc` nos permite hacer lo mismo pero basado en índices enteros de nuestro DataFrame (como si fueran matrices).

Como antes, si queremos seleccionar todas las filas, o columnas, simplemente escribimos `:` en el lugar adecuado.

Mejor con ejemplos:

In [24]:
customers.loc[:,'date_of_birth']

customer_id
1    1994-07-18
2    1986-08-18
3    2003-11-21
4    2006-08-15
5    1984-07-28
Name: date_of_birth, dtype: object

In [25]:
# Resetear índice en el lugar
customers.reset_index(inplace=True)

In [26]:
# ¿Que pasó con customers?
customers

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,1,60091,2011-04-17 10:48:33,1994-07-18
1,2,13244,2012-04-15 23:31:04,1986-08-18
2,3,13244,2011-08-13 15:42:34,2003-11-21
3,4,60091,2011-04-08 20:08:14,2006-08-15
4,5,60091,2010-07-17 05:27:50,1984-07-28


In [27]:
customers.index = ['A', 'B', 'C', 'D', 'E']

In [28]:
customers

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21
D,4,60091,2011-04-08 20:08:14,2006-08-15
E,5,60091,2010-07-17 05:27:50,1984-07-28


In [29]:
customers.iloc[[0,2,3], [3]]

Unnamed: 0,date_of_birth
A,1994-07-18
C,2003-11-21
D,2006-08-15


Ahora sí.

Seleccionemos el primer cliente con ambos métodos:

In [30]:
# Primer cliente con loc
customers.loc['A']

customer_id                        1
zip_code                       60091
join_date        2011-04-17 10:48:33
date_of_birth             1994-07-18
Name: A, dtype: object

In [31]:
# ¿Cual es la diferencia?
customers.loc[['A']]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18


In [32]:
# Primer cliente con iloc
customers.iloc[0]

customer_id                        1
zip_code                       60091
join_date        2011-04-17 10:48:33
date_of_birth             1994-07-18
Name: A, dtype: object

In [33]:
customers.iloc[[0]]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18


Ahora, seleccionemos los clientes A y C con ambos métodos:

In [34]:
# Clientes A y C con loc
customers.loc[['A','C']]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
C,3,13244,2011-08-13 15:42:34,2003-11-21


In [35]:
# Clientes A y C con iloc
customers.iloc[[0, 2]]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
C,3,13244,2011-08-13 15:42:34,2003-11-21


In [36]:
# loc
customers.loc[['B', 'E'], ['zip_code', 'join_date']]

Unnamed: 0,zip_code,join_date
B,13244,2012-04-15 23:31:04
E,60091,2010-07-17 05:27:50


In [37]:
# iloc
customers.iloc[[1, 4], [1, 2]]

Unnamed: 0,zip_code,join_date
B,13244,2012-04-15 23:31:04
E,60091,2010-07-17 05:27:50


¿Qué tal? Ya tenemos varias formas de seleccionar e indexar ciertos datos.

Esto es, sin duda, muy útil. Por otra parte, muchas veces queremos obtener cierta información (clientes, en nuestro ejemplo) que cumplan algunos requisitos. Por ejemplo:
- que sean mayores de 18 años, o
- que su antiguedad en la plataforma sea menor a seis meses, o
- que residan en cierta zona,
- entre otros.

Para ello utilizamos los operadores de comparación (==, >, <, >=, <=, !=).

### 3. Filtrado de datos

Los operadores de comparación pueden ser utilizados con Series de pandas. 

Esto resulta ser súper útil para filtrar datos con ciertas condiciones específicas (esto lo veremos enseguida). 

Por ahora, veremos que al usar operadores de comparación con Series, el resultado será Series booleanas. Es decir, cada elemento de dichas series será `True` si la condición se satisface, y `Falso` de lo contrario.

Una vez tenemos la serie boolena, podemos aplicarla para la selección de filas, obteniendo un DataFrame filtrado como resultado.

**Ejemplos**

¿Cuáles clientes son mayores de 18 años?

In [38]:
# Ver tabla
customers

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21
D,4,60091,2011-04-08 20:08:14,2006-08-15
E,5,60091,2010-07-17 05:27:50,1984-07-28


In [39]:
# Adult clients
# customers.iloc[:, 3] <= '2004-08-13'
# customers.loc[:, 'date_of_birth'] <= '2004-08-13'
customers['date_of_birth'] <= '2004-08-13'

A     True
B     True
C     True
D    False
E     True
Name: date_of_birth, dtype: bool

In [40]:
# Recent joins
customers['join_date'] >= '2011-06-01'

A    False
B     True
C     True
D    False
E    False
Name: join_date, dtype: bool

In [41]:
# Zone
customers['zip_code'] == 13244

A    False
B     True
C     True
D    False
E    False
Name: zip_code, dtype: bool

In [42]:
# Filtrar por clientes adultos
customers[customers['date_of_birth'] <= '2004-08-13']

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21
E,5,60091,2010-07-17 05:27:50,1984-07-28


In [43]:
# Filtrar por registros recientes
customers[customers['join_date'] >= '2011-06-01']

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21


In [44]:
# Filtrar por zona
customers[customers['zip_code'] == 13244]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21


**¡Excelente!**

Los filtrados que acabamos de hacer fueron de una sola condición. Ahora, ¿cómo hacer filtrados con múltiples condiciones?

#### 3.1 Filtrado con múltiples condiciones

Cuando queremos filtrar datos con múltiples condiciones, podemos usar operadores booleanos (`and`, `or`, `not`), solo con una pequeña modificación. Usamos:

- `&` en lugar de `and`,
- `|` en lugar de `or`, y
- `~` en lugar de `not`.

**Ejemplos**

Obtener la información de los clientes adultos que vivan en la zona con código postal 13244

In [45]:
# En una sola línea
customers[(customers['date_of_birth'] <= '2002-08-25') &
          (customers['zip_code'] == 13244)]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
B,2,13244,2012-04-15 23:31:04,1986-08-18


Obtener la información de los clientes que sean adultos o que se hayan registrado luego del 6 de Junio del 2011

In [46]:
customers[(customers['date_of_birth'] <= '2002-08-25') |
          (customers['join_date'] > '2011-06-06')]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
A,1,60091,2011-04-17 10:48:33,1994-07-18
B,2,13244,2012-04-15 23:31:04,1986-08-18
C,3,13244,2011-08-13 15:42:34,2003-11-21
E,5,60091,2010-07-17 05:27:50,1984-07-28


Obtener la información de los clientes que **NO** se hayan registrado en 2011

In [47]:
customers[(customers["join_date"] < "2011-01-01") |
          (customers["join_date"] > "2011-12-31")]

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
B,2,13244,2012-04-15 23:31:04,1986-08-18
E,5,60091,2010-07-17 05:27:50,1984-07-28


De esta manera, podemos crear condiciones tan complejas y restrictivas como queramos para filtrar nuestros datos.

Útil, ¿no?

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Carlos Kelly
</footer>