## Tarea semana 2: Modelado de datos continuos

### Caso de Negocio: Creative HR 

Creative HR es una empresa de generación de contenidos en redes sociales con oficinas en varios países. Con oficinas en varias ciudades, la empresa se enorgullece de su cultura dinámica y creativa, y se esfuerza por atraer y retener a los mejores talentos en la industria. En los últimos años, Creative HR ha observado un aumento preocupante en la tasa de rotación de empleados, conocida en inglés como attrition. La alta tasa de attrition puede tener un impacto significativo en la empresa, incluida la pérdida de conocimiento y experiencia, así como los costos asociados con la contratación y capacitación de nuevos empleados. El objetivo de este análisis es identificar cualquier diferencia significativa en la edad de los empleados entre los dos grupos, lo que podría proporcionar información valiosa sobre cómo la edad podría estar relacionada con la tasa de rotación. Esta información ayudará a Creative HR a desarrollar estrategias más efectivas para retener a los empleados y reducir la attrition, lo que a su vez fortalecerá la estabilidad y el éxito a largo plazo de la empresa.

Para comprender mejor los factores que contribuyen a la attrition y desarrollar estrategias efectivas para abordar este problema, Creative HR ha decidido realizar un análisis estadístico. **En particular, la empresa está interesada en modelar la edad de los empleados como una distribución continua, utilizando una distribución normal, y comparar esta distribución entre dos grupos: aquellos empleados con abandono (attrition=yes) y aquellos sin abandono (attrition=no).**

El objetivo de este análisis es identificar cualquier diferencia significativa en la edad de los empleados entre los dos grupos, lo que podría proporcionar información valiosa sobre cómo la edad podría estar relacionada con la attrition. Esta información ayudará a Creative HR a desarrollar estrategias más efectivas para retener a los empleados y reducir la attrition, lo que a su vez fortalecerá la estabilidad y el éxito a largo plazo de la empresa.

### OPCIÓN 1: LOW-CODE Y RÉPLICA DE NOTEBOOK

- La empresa Creative HR está analizando los factores de pérdida de personal (**Attrition**). 
- El departamento de recursos humanos ha recopilado información demográfica y de educación de sus actuales y antiguos empleados.
- El departamento de recursos humanos pretende modelar la edad de sus empleados siguiendo una distribución normal por attrition. 

**Archivo de datos:**  

- Lea el archivo csv. 
  - [CS_data.csv](https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/CHR_data.csv)

- **Código base:**
  
```Python
import pandas as pd
import seaborn as sns

# data = pd.read_csv("../data/CHR_data.csv")  # si la estructura es la del repositorio de GitHub

# si está trabajando en local y el archivo de datos y el notebook están en el mismo directorio
# data = pd.read_csv("CHR_data.csv") 

# También puede leer el archivo desde el repositorio de GitHub.
data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/CHR_data.csv")
```

1. **(2 pt)** Cuál es la distribución de la edad (**Age**). 

- Replicar código de la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb#txsize), diagramas de densidad.

- **Código base:**
  
```Python
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt

# diagrama de densidad de la muestra
sns.kdeplot(data=data, x="columna_numerica_a_modelar", fill=True, cut=0)
# evaluamos modelo entre el min y max de la muestra
x = np.linspace(data.Age.min(), data.Age.max()) 
# estimador de maxima verosimilitud de la media
mu = data.Age.mean()
# estimador de maxima verosimilitud de la varianza (investigue ddof=0)
sigma = data.Age.std(ddof=0)
# evaluamos modelo distribucion normal, N(mu, sigma)
fx = norm.pdf(x, mu, sigma)
# graficamos modelo
sns.lineplot(x=x, y=fx)
plt.legend(["Mustra", "Modelo"])
```

  - Escriba el código Python para replicar el gráfico a continuación. 
    - El diagrama de densidad para la variable **Age**.
    - Una distribución normal $X \sim N(\mu, \sigma)$, donde $\mu$ es la media y $\sigma$ 
    la desviación estándar de los datos (**Age**).
    
 ![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/age_norm.png)
 
2. **(2 pt)** Cuál es la probabilidad de que un trabajador de Creative HR tenga 30 años o menos. 
  - Responda usando los datos observados y el modelo asumido.
  
  - Usando la distribución acumulada: $$F(30) = P(X \leq 30)$$
  
- **Código base:**
```Python
mu = data.Age.mean()
sigma = data.Age.std(ddof=0)
print("Probabilidad modelo:", norm.cdf(valor_edad, mu, sigma))
print("Probabilidad datos:", len(data.query("Age <= valor_edad")) / len(data.Age))
```

- Resultado eseprado:
```
Probabilidad modelo: 0.2241746207797723
Probabilidad datos: 0.26258503401360545
```

3. **(2 pt)** Analice la edad de los trabajadores (**Age**) con respecto a si el trabajador se encuentra o no en la empresa (**Attrition**). 
  - Escriba el código Python para replicar el gráfico a continuación. 
    - El diagrama de densidad para la variable **Age**.
    - Una distribución normal $X \sim N(\mu, \sigma)$, donde $\mu$ es la media y $\sigma$ 
    la desviación estándar de la edad (**Age**) de acuerdo a si se encuentra o no en la empresa (**Attrition**).

- **Código base:** Replique a partir del codigo del punto 1.

```Python
# Filtramos dataset por grupos
att_yes = data.query("Attrition=='Yes'")  # datos grupos Yes
att_no = data.query("Attrition=='No'")  # datos grupos Yes

plt.figure(figsize=(12,4))
plt.subplot(1,2,1)
sns.kdeplot(data=att_yes, x="variable_numerica_a_modelar", fill=True, cut=0)
x = np.linspace(att_yes.Age.min(), att_yes.Age.max())
mu = att_yes.Age.mean()
sigma = att_yes.Age.std(ddof=0)
fx = norm.pdf(x, mu, sigma)
sns.lineplot(x=x, y=fx)
plt.legend(["Mustra", "Modelo"])
plt.title("Attrition = Yes")

plt.subplot(1,2,2)
sns.kdeplot(data=att_no, x="variable_numerica_a_modelar", fill=True, cut=0, color="orange")
x = np.linspace(att_no.Age.min(), att_no.Age.max())
mu = att_no.Age.mean()
sigma = att_no.Age.std(ddof=0)
fx = norm.pdf(x, mu, sigma)
sns.lineplot(x=x, y=fx, color="orange")
plt.legend(["Mustra", "Modelo"])
plt.title("Attrition = No")
``` 

 ![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/age_attrition.png)

4. **(2 pt)** Cuál es la probabilidad de que un trabajador que ya no se encuentra en Creative HR tenga 30 años o menos. 
  - Responda usando los datos observados y el modelo asumido.
  - Replique a partir del punto 2 ahora para los grupos.
  
- **Código base:**
```Python
att_yes = data.query("Attrition=='Yes'")
x = np.linspace(att_yes.Age.min(), att_yes.Age.max())
mu = att_yes.Age.mean()
sigma = att_yes.Age.std(ddof=0)
print("Probabilidad modelo:", norm.cdf(valor_edad, mu, sigma))
print("Probabilidad datos:", len(att_yes.query("Age <= valor_edad")) / len(att_yes.Age))
```

- Resultado eseprado:
```
Probabilidad modelo: 0.354531877644123
Probabilidad datos: 0.4219409282700422
```


5. **(2 pt)** Discuta qué tan adecuada considera la distribución usada para modelar nuestros datos observados.

6. Grafique los datos en un mismo panel, variable **Age** usando un hue categórico **Attrition**.
  
- **Código base:**

```Python
sns.kdeplot(data=data, x="variable_numerica", hue="variable_categorica", common_norm=False, fill=True, cut=0)
x = np.linspace(att_yes.Age.min(), att_yes.Age.max())
mu = att_yes.Age.mean()
sigma = att_yes.Age.std(ddof=0)
fx = norm.pdf(x, mu, sigma)
sns.lineplot(x=x, y=fx)
x = np.linspace(att_no.Age.min(), att_no.Age.max())
mu = att_no.Age.mean()
sigma = att_no.Age.std(ddof=0)
fx = norm.pdf(x, mu, sigma)
sns.lineplot(x=x, y=fx)
```
 
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/age_hue.png)


### Fuentes y recursos:

- https://www.kaggle.com/jamestollefson/modeling-the-business-cost-of-retention/notebook


### OPCIÓN 2: REPORTE EJECUTIVO PARA GERENCIA

- **Elabore un informe ejecutivo** discutiendo las figuras y resultados anteriores, puntos 1 a 6 de la Opción Low Code, así como las figuras al final del notebook. 
  - Si se siente cómodo usando Python, entregue también el código.

El reporte ejecutivo debe tener una extensión máxima de 3 páginas. Crea un documento en word que incluya lo siguiente:

  1. Descripción general del problema empresarial: explica el contexto o problema empresarial y el enfoque analítico. 
  2. Diccionario de variables más importantes o base de datos: describe los datos utilizados para el análisis. 
  3. Análisis exploratorio de datos: utiliza los gráficos del notebook para interpretar los datos utilizados acorde al contexto empresarial.
  4. Interpretación de metodologías: explica como el modelado de datos continuos (ajuste de distribuciones) ayudan a resolver el problema empresarial. También incluye una interpretación de los resultados de dichos modelos con detalle. **Los resultados (probabilidades) están disponibles en las secciones 1 a 6 de la Opción Low Code.** 
  5. Conclusión y Recomendaciones: ofrece recomendaciones gerenciales y sugerencias estratégicas que permita a la empresa tomar decisiones.

La explicación en todas las secciones del reporte ejecutivo debe ser detallado, justificado y relacionado al contexto o problema empresarial. Está información será utilizada por el director de recursos humanos de Creative HR y un reporte ambiguo podría causar toma de decisiones incorrectas y pérdida de dinero.
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/box_attrition.png)

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/violin_attrition.png)

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/line_attrition.png)

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/swarm_attrition.png)