
# Caso de uso: Análisis exploratorio
***

##  DataLovers, S.A.

Durante este fin de semana, una nueva consultoría ha aparecido en el panorama empresarial de la ciudad. Somos una empresa joven, de unas horas de antigüedad, pero con algunos clientes importantes que necesitan soluciones a sus problemas.
***

## Welcome aboard \!

Hoy es tú primer día de trabajo y, después de haberte tomado el café a coste de la empresa y comentar el apasionante Mali-Ghana del mundial SUB-17 del fin de semana, te han asignado tu primera tarea para un nuevo cliente: **LargeInternationalCorporation, INC.**

El CEO de la empresa, un oligarca ruso sin escrupulos que hizo fortuna durante la caída del imperio sovietico con la ayuda de los amigos correctos, está preocupado por la alta tasa de abandono que tiene entre sus empleados. Parece ser que con los años Don Sergey Sokolov se ha dado cuenta de que entender los factores que se asocián con la tasa de abandono le permitirá mantener a los empleados contentos para evitar que se vayan y, quién sabe, incluso aumentar su productividad. Cómo las vacas: cuanto más felices, más leche.¹
***

## Tarea (para ayer)

No te han dado más información que un set de datos y una guía descriptiva de los campos que contiene. Así que la tarea consiste en intentar extraer la mayor cantidad de información posible de los datos y sacar alguna conclusiones para poder ayudar a reducir el número de bajas de la empresa del Sr. Sokolov.
***

## El método
Te han contratado como data scientist. Eso es lo que eres, un científico. Y la ciencia se basa en dos pilares fundamentales. La metodología y la reproducibilidad.
<br>
<br>

<div class="panel panel-success">
  <div class="panel-heading">El método científico</div>
  <div class="panel-body">
      <ol>
        <li>Observación</li>
        <li>Hipótesis</li>
        <li>Experimentación</li>
        <li>Teoría</li>
        <li>Ley</li>
      </ol>
   </div>
</div>

Una versión adaptada a los datos del método científico podría consistir en²:

1. Empezar con datos
1. Desarrollar una intuición sobre los datos y las preguntas que puede responder
1. Hacer la pregunta adecuada
1. Intentar reponderla con los datos y, si no se puede, iterar sobre los puntos anteriores hasta que tengamos una hipótesis que queremos testear.
1. Crear un entorno donde podamos probar nuestra hipótesis
1. Analizar los resultados

Otra forma de decirlo a la americana, es el proceso OSEMN,³ pronunciado awesome.

1. **O**btain data: automatizar la obtención de datos! SQL en databases, web scraping y scripting usando Python y/o shell scripts.
1. **S**crub data: los datos estan sucios. Limpialos.
1. **E**xplore data: conoce tus datos antes de empezar a filosofar
1. **M**odel data: Crea un modelo predictivo a partir de tus datos
1. I**N**terpret results: Que nos dice el modelo con respecto a los datos? Tiene sentido? Se puede interpretar?


Sencillo, verdad? Respuesta: No.


<sub>1. http://www.nacion.com/vivir/ambiente/Vacas-felices-producen-leche_0_1645235488.html</sub>

<sub> 2. [Data Driven, DJ Patil](http://www.oreilly.com/data/free/data-driven.csp). </sub>

<sub> 3. https://machinelearningmastery.com/how-to-work-through-a-problem-like-a-data-scientist/ </sub>

### 1. Preparando el entorno
***
Antes de nada, debemos preparar el entorno para poder empezar a trabajar. Importa las librerías básicas para poder realizar análisis de datos en `python` y poder visualizar los plots en el notebook.

In [None]:
# El "ipython magic" que permite ver los plots en notebooks

# pandas bajo el alias pd


# numpy bajo el alias np


# matplotlib.pyplot bajo el alias plt


# seaborn bajo el alias sns


In [None]:
# Utilizamos la librería sns para que nos de una estetica mejorada de los gráficos
sns.set(rc={'figure.figsize':(12, 6)})

### 1. Obtención de los datos
***
Tenemos suerte y nos han pasado los datos en un csv. Importa el fichero como DataFrame de pandas y guardalo en la variable `df`

In [None]:
# importa el archivo "HR_data.csv" usando pandas


Un primer paso es ver como lucen nuestros datos. Echale un vistazo a las primeras lineas del df

### 2. Chequeo y limpieza
***
Examinemos el set de datos para ver si todo parece correcto


In [None]:
# Echale un vistazo a las columnas del set de datos
# y el tipo de dato que son


Parece que todos los tipos de datos corresponden o son acordes con el nombre de la columna.

In [None]:
# Que tamaño tiene nuestro set de datos?


Vaya, parece que hay algún dato que falta. Aunque no lo parezca, hemos tenido suerte de que aparezca algún nulo en el head. Así no nos olvidamos de un paso clave: mirar de manera más exhaustiva si hay otras columnas que puedan contener valores nulos.

In [None]:
# Comprueba que columnas tienen valores nulos


In [None]:
# utiliza el metodo any() al final de la sentencia anterior.


In [None]:
# Comprueba las filas que tienen valores nulos, es decir dónde satisfaciont_level es nulo,
# o donde 'left' es nulo, o donde 'salary es nulo, o donde average_montly hours es nulo
# Puedes usar el caracter '|' para especificar la comparación lógica 'or'.

nul_values_mask = ...
    
df[nul_values_mask]

In [None]:
# Tip: Podemos pasar los valores que nos devuelve el df.isnull()
# para filtrar el df. Echale un vistazo a la documentación o busca
# en stackoverflow cómo hacerlo

nul_values_short_mask = ...

df[nul_values_short_mask]

Que hacemos con los nulos? Depende. Se puede salvar alguno? Nos va a afectar al conjunto de los datos? Antes de responder, veamos un descriptivo básico del df.

In [None]:
# Realiza un análisis descriptivo del df


Sabemos de antes que el set de datos tiene 14999 entradas y que hay nulos en cuatro columnas. Solo en una de ellas parece que se podría salvar de forma segura ya que parece que ha habido un error en el parseo.

Vamos a arreglar primero ese valor.

In [None]:
# Encuentra la fila con valores de salary nulos 
# y guarda el indice de la fila en una variable


In [None]:
# Asigna los valores correctos


In [None]:
df['salary'].loc[29]

Vamos a imputar el valor nulo de satisfaction_level con la media de la columna.

In [None]:
# Calcula la media de la columna
media_satisfaccion = ...

# Usa el método fillna() para rellenar el nulo con el valor calculado
df['satisfaction_level'] = ...

In [None]:
# comprueba que la columna satisfaction no tiene ningun valor nulo


Que hacemos con el resto?
Vemos que representan una fracción infima del set de datos total (2/14999 = 0.013%). Nos los cargamos sin piedad.

In [None]:
# utiliza la función dropna()
df = ...

# comprueba que ninguna columna tenga nulos
...

### Por último, vamos a renombrar las columnas por nombres más explicativos y a poner la etiqueta de si ha dejado la empresa o no en primer lugar

In [None]:
# Utiliza este diccionario para renombrar las columnas

new_cols_dictionary = {'satisfaction_level': 'satisfaction', 
                        'last_evaluation': 'evaluation',
                        'number_project': 'projectCount',
                        'average_montly_hours': 'averageMonthlyHours',
                        'time_spend_company': 'yearsAtCompany',
                        'Work_accident': 'workAccident',
                        'promotion_last_5years': 'promotion',
                        'sales' : 'department',
                        'left' : 'turnover'
                        }

df = df.rename(columns=new_cols_dictionary)

In [None]:
# Mueve la variable al frente de la lista de columnas

# 1 - asigna la serie a una variable
columna_turnover = ...

# 2 - Deja caer (drop()) la columna del df
df = ...

# 3 - Inserta (df.insert()) la columna en primer lugar

# 4 - Enseña las primeras filas
df.head()

Parece que nuestro set de datos esta limpio y listo para ser explorado. Vamos a guardarlo de forma que se salven los cambios, por si acaso se nos cae el kernel o tengamos que entregar el set de datos limpio

In [None]:
### guarda el dataframe en un fichero csv



Vamos a comprobar que el ficher se ha creado. Podemos ejecutar comandos bash desde una celda de iPython poniendo  `!` al principio

In [None]:
!ls

### 3. Explorar datos
***

Esta sección exploraremos los datos de forma más o menos exhaustiva. Nos basaremos en un análisis estadístico básico y crearemos unos gráficos que nos ayuden a comprender los parametros.

Recuerda que estamos examinando los datos intentando responder a una pregunta. Por qué la gente se va da la empresa?

#### 3.1 Exploración básica

In [None]:
# Que porcentage de gente abandona la empresa?
# El método value_counts() nos agrupa directamente por la columna seleccionada y nos cuenta cuantos valores
# hay de cada elemento único

numero_observaciones = ...

tasa_bajas = ... / numero_observaciones
print(tasa_bajas)

In [None]:
# Como son los descriptivos estadisticos básico de todo el dataset?


In [None]:
# y por gente que lo deja o no lo deja?
# Haz un groupby por 'turnover' y utiliza otra vez la funcion describe()



Qué primeras conclusiones sacas?

A primera vista, hay alguna diferencia en algunos de las caracteristicas para cada uno de los grupos?

Hay algo que te llame la atención?

Utiliza la casilla Markdown de abajo para escribir tus conclusiones.

#### Conclusiones 3.1 Exploración básica

***

La gente esta descontenta pq trabaja muchas horas y no promociona.

#### 3.2 Correlación entre variables
***
Normalmente, algunas variables presentaran correlaciones entre sí. De forma positiva, como la temperatura ambiente y el consumo de helado, o negativas, como la temperatura ambiente y el número de capas de ropa que llevo.

En este apartado vamos a tratar de ver cómo se correlacionan las variables entre si, y ver si podemos extraer algún tipo de información de esta.

In [None]:
# calcula la matriz de correlación usando df.corr()


Aunque no imposible, es dificil ver las tendencias a partir de valores numéricos, y eso que solo tenemos 10 variables!
Vamos a intentar plotear un mapa de calor que nos diga cómo se correlacionan. Usaremos **seaborn** y [éste](http://seaborn.pydata.org/examples/many_pairwise_correlations.html) snippet de codigo para generar un plot informativo y que nos entre por la vista.

In [None]:
def correlation_plot(df, cols=None):
    """
    Dada una matriz de correlacion, genera un heatmap para visualizar
    las correlaciones entre las variables.
    """
    
    sns.set(style="white")
    if cols:
        corr = df[cols].corr()
    else:
        corr = df.corr()

    # Generate a mask for the upper triangle
    mask = np.zeros_like(corr, dtype=np.bool)
    mask[np.triu_indices_from(mask)] = True

    # Set up the matplotlib figure
    f, ax = plt.subplots(figsize=(11, 9))

    # Generate a custom diverging colormap
    cmap = sns.diverging_palette(220, 10, as_cmap=True)

    # Draw the heatmap with the mask and correct aspect ratio
    sns.heatmap(corr, mask=mask, cmap=cmap, vmax=0.3, center=0,
                square=True, linewidths=.5, cbar_kws={"shrink": .5})


In [None]:
correlation_plot(df)

** Que correlaciones positivas y negativas hay entre el turnover y el resto de variables?**

Correlaciones positivas:
    * variables?
    
Correlaciones negativas:
    * variables?

** Qué variables presentan correlaciones fuertes entre sí? **
  

***
#### 3.3 Investigando las correlaciones
***
Hemos visto que el abandono de la empresa esta fuertemente correlacionado con la satisfacción en la empresa.

Podemos determinar si existe una diferencia significativa entre la satisfacción de los empleados que continuan o que dimiten?

In [None]:
# Calcula la media y la desviación estandar de la satisfacción
# de los empleados que abandonan o se quedan en la empresa


In [None]:
# calcula la desviación estandar


In [None]:
# Gráfica los boxplots para ver como es la dispersion en cada caso. Utiliza los argumentos `column` y `by`


In [None]:
#usa una sintaxis similar pero para sacar los histogamas


Realmente a partir de las medias y desviaciones obtenidas, así como por la dispersión de los datos en los plots, parece que tenemos una clara distinción en la satisfacción de la gente que abandona la empresa o se queda.

Podríamos darle un poco más de solidez haciendo un test estadístico?

In [None]:
#scipy es la libreria cientifica de python. Entre otras,
# contiene una librería muy potente de estadística con la que
# podremos hacer analísis de hipótesis.
from scipy import stats

In [None]:
# filtra el df de forma que devuelva solo los valores de satisfaccino
# que corresponden a gente que ha abandonado la empresa, i.e.: turnover == 1

valores_satisfaccion_abandono = ...

valores_satisfaccion_no_abandono = ...

$H_0: \mu(satisfaction)_{aband} = \mu(satisfaction)_{NoAband} $

$H_1: \mu(satisfaction)_{aband} \not=  \mu(satisfaction)_{NoAband} $

In [None]:
# Que test estadístico podríamos usar para evaluar la hipotesis nula?


Podemos rechazar $H_0$?

**Parece ser que estamos llegando a una conclusión sólida de que los empleados menos satisfechos son los que tienen más riesgo de abandonar la empresa. Pero, que causa que los empleados estén insatisfechos?**

In [None]:
# Ejecuta la celda para ver el resultado de plotear variable a variable los scatter plots.
# En la diagonal apareceran los kde de los histogramas

sns.pairplot(data=df,  # los datos
             hue='turnover',  # el campo por el que queremos agruparlo
             diag_kind='kde', # el tipo de grafico que queremos en la diagonal: histograma o kde
             palette="husl", # la paleta de colores
             markers=["+", "."], # los marcadores de los puntos
             plot_kws={'alpha': 0.2} # la transparencia de los puntos
            )

Que conclusiones podemos sacar a partir de lo de arriba?

Te llama la atención el plot de satisfacción vs. evaluación?

### 3.4 Enfasis en salario

Por último, vamos a intentar ver una de las variables que hemos pasado por alto. El salario.

In [None]:
# muestra los valores de salarios que hay en la tabla


In [None]:
# Investiguemos la repartición entre los que han abandonado la empresa y los que se han quedado


In [None]:
# hmmm, mejor veamoslo

sns.countplot(data=df,
              x='salary',
              hue='turnover',
              palette='husl')

Hmmm, los que menos cobrán son los que tienen más tendencia a irse de la empresa.

Podrías decir algo entre las horas trabajadas, el número de proyectos y el hecho de que los empleados se vayan?

In [None]:
# usa la opción de boxplot de seaborn.
...

# Conclusiones finales
***
El proceso de preguntas-respuestas-nuevas preguntas en un exploratorio de datos puede ser largo y llevar mucho tiempo. De hecho, todo el tiempo que queramos. Es importante intentar mantener el foco en aquello que queremos contestar y no desviarnos mucho del objetivo.

A qué conclusiones podemos llegar?

# Extra
***

* Cómo contruirias un modelo que acertase si una persona va a dejar la empresa con un acierto del 75% ?

* Aunque no lo hayamos visto en esta clase, se te ocurre que algoritmo de ML podríamos usar para crear un modelo predictivo que venciear nuestro modelo naive?

* Cómo podríamos mejorarlo?