<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Agrupación-de-Datos-con-Pandas" data-toc-modified-id="Agrupación-de-Datos-con-Pandas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Agrupación de Datos con Pandas</a></span><ul class="toc-item"><li><span><a href="#Funcionalidades-clave-del-groupby:" data-toc-modified-id="Funcionalidades-clave-del-groupby:-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Funcionalidades clave del groupby:</a></span></li><li><span><a href="#Sintaxis-Básica-del-Groupby:" data-toc-modified-id="Sintaxis-Básica-del-Groupby:-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Sintaxis Básica del Groupby:</a></span></li></ul></li><li><span><a href="#Otros-métodos-interesantes-del-groupby()" data-toc-modified-id="Otros-métodos-interesantes-del-groupby()-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Otros métodos interesantes del <code>groupby()</code></a></span></li><li><span><a href="#Resumen-de-lo-aprendido-en-el-groupby" data-toc-modified-id="Resumen-de-lo-aprendido-en-el-groupby-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Resumen de lo aprendido en el <code>groupby</code></a></span></li></ul></div>

# Agrupación de Datos con Pandas

El método `groupby()` es una herramienta poderosa que permite agrupar datos en función de una o varias columnas y realizar operaciones agregadas en cada grupo. Es una función esencial para el análisis de datos y se utiliza ampliamente en la limpieza y exploración de datos.

## Funcionalidades clave del groupby:

1. **Agrupación por categorías:** Permite dividir los datos en grupos basados en los valores únicos de una o más columnas categóricas. Esto facilita el análisis de subconjuntos específicos de datos y proporciona información detallada para cada categoría.

2. **Operaciones de agregación:** Después de agrupar los datos, se pueden aplicar operaciones de agregación como sumas, promedios, máximos, mínimos o cualquier función personalizada para resumir los valores en cada grupo. Esto proporciona una visión general de las características o tendencias clave en cada categoría.

3. **Identificación de patrones y relaciones:** La función `groupby()` ayuda a descubrir patrones o relaciones entre las categorías, lo que puede ayudar a entender cómo se relacionan ciertas variables entre sí.


4. **Operaciones en múltiples columnas:** Se puede aplicar el método `groupby()` para realizar operaciones de agregación en múltiples columnas simultáneamente, lo que permite un análisis más completo de los datos.

## Sintaxis Básica del Groupby:

La sintaxis básica del `groupby()` en pandas es la siguiente:

```python
df.groupby(by=columna_o_lista_de_columnas, dropna=True)
```


Donde:
- `df`: Es el DataFrame en el cual deseas aplicar el `groupby`.
  
- `by`: Es el argumento que especifica cómo quieres agrupar los datos. Puede ser una columna única o una lista de columnas por las cuales deseas agrupar los datos.

- `dropna=True`: Indica que las filas con valores nulos en las columnas utilizadas para agrupar serán excluidas del agrupamiento.

- `dropna=False`: Si quieres incluir filas con valores nulos en el agrupamiento, este sería el valor adecuado.


Una vez que se ha aplicado el `groupby()`, generalmente se sigue combinando con alguna operación de agregación para obtener resultados significativos para cada grupo. Algunas de las operaciones de agregación comunes incluyen `sum()`, `mean()`, `count()`, `min()`, `max()`, entre otras.

Antes de comenzar con el código, es útil comprender visualmente cómo funciona el `groupby()`.


<img src="imagenes/groupby.png" alt="Descripción de la imagen" width="750" height="500">


Recordemos que como analistas o científicos de datos tenemos que definir siempre un problema o conjunto de problemas a los que nos queremos enfrentar. Esto lo habíamos definido en la clase de EDA. En esta lección y en base a esos problemas que habíamos presentado contestaremos a las siguientes preguntas usando la función `groupby` de Pandas. 

<div style="background-color: #40B5AD; border-left: 6px solid #000080; padding: 10px; color: black;">
  
- <strong>Para el análisis de rotación de empleados (Attrition):</strong>

  Podríamos usar `groupby` en la columna "Attrition" para agrupar los datos por empleados que han dejado la empresa y los que aún permanecen en ella. Esto nos permitiría comparar las características y condiciones laborales entre estos dos grupos y determinar qué factores podrían estar contribuyendo a la rotación de empleados.
  
- <strong>Para el análisis de satisfacción laboral:</strong>

  Podríamos usar `groupby` en la columna "JobSatisfaction" para agrupar los datos por diferentes niveles de satisfacción laboral. Luego, realizaríamos operaciones de agregación, como calcular el promedio de otras variables relevantes, como salario mensual, horas extras, etc., para cada nivel de satisfacción laboral. Esto nos ayudaría a identificar áreas de mejora en términos de satisfacción laboral y a comprender cómo se relacionan otras variables con la satisfacción de los empleados.

  
- <strong>Para el análisis de diversidad e inclusión:</strong>

  Usaremos las columnas "Gender" para agrupar los datos por género, respectivamente. Esto nos permitirá evaluar la diversidad en el lugar de trabajo y analizar cómo se distribuyen diferentes grupos demográficos en la organización. Luego, examinaremos otras variables, como el salario y la satisfacción laboral, dentro de cada grupo demográfico para identificar posibles disparidades y áreas de mejora en términos de inclusión.
  
- <strong>Para el análisis de equidad salarial:</strong>

  Usaremos columnas "Gender", "Education", "JobRole", etc., para agrupar los datos por diferentes grupos demográficos y laborales. Por último, compararemos los salarios entre estos grupos utilizando operaciones de agregación para identificar posibles disparidades salariales injustas.
  
</div>



In [4]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Para guardar DataFrames en Excel
# -----------------------------------------------------------------------
from pandas import ExcelWriter

# Para generar todas las posibles combinaciones
# -----------------------------------------------------------------------
import itertools

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [5]:
# cargamos el dataframe creado en la lección anterior
df = pd.read_csv("datos/IBM_HR_Employee_Attrition_full.csv", index_col = 0)
df.sample(5)

Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
514,28,College,Medical,Female,Married,30,2503ef1e-cea8-4ab2-a2b6-095b95242280,2008-05-30 13:29:16,2,1,0,11,,1.0,Suiza,1,No,Travel_Rarely,1275.0,Research & Development,1,64,2,Research Scientist,5775,11934,No,13,,2,2,Very High,High,Very High,Excellent,Very High
1415,2,Below College,Medical,Female,Divorced,40,150fc374-a1d2-4052-8cb0-bd6e1e0ea1f6,2022-02-02 21:43:54,1,10,2,15,Y,5.0,Virginia Occidental,0,No,Travel_Rarely,1202.0,Research & Development,1,89,2,Healthcare Representative,6377,13888,No,20,80.0,3,0,Medium,Very High,,Outstanding,Medium
1149,14,Master,Life Sciences,Female,Married,56,fc4e01ed-ead9-4194-aa98-9a76143f78f3,2017-12-07 11:47:14,4,2,1,7,Y,9.0,España,1,Yes,,,Research & Development,1,72,1,Research Scientist,4963,4510,Yes,18,80.0,3,2,Medium,High,,Excellent,Low
441,1,,Life Sciences,Female,Divorced,40,0a80c1dc-5ee8-46bc-a08f-2c93d8f83a50,2007-04-26 10:18:40,8,0,2,12,,4.0,Nebraska,0,No,Travel_Rarely,1194.0,Research & Development,1,52,2,Healthcare Representative,6513,9060,No,17,80.0,1,3,High,High,Very High,Excellent,Very High
978,2,Master,Technical Degree,Female,Married,54,8373fa5c-e67c-49ca-a809-da266a587228,2015-06-21 16:54:58,0,0,3,16,Y,9.0,Dinamarca,1,No,Travel_Rarely,1217.0,Research & Development,1,60,3,Research Director,13549,24001,No,12,,1,5,Low,High,High,Excellent,Low


In [6]:
# contestemos a la primera pregunta, donde queríamos hacer un análisis de rotación de los empleados.
# para contestar esta pregunta deberíamos saber cuántos empleados tenemos en la columna "Attrition", 
# por lo que tendríamos que hacer un groupby por esta columna
df.groupby("Attrition")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12f2cd4d0>

In [7]:
# En la línea de código anterior, observamos que obtenemos un objeto de tipo groupby, 
# pero no recibimos ningún resultado concreto. Esto se debe a que al realizar un groupby 
# sin especificar la operación a realizar o el cálculo que deseamos obtener, 
# simplemente obtenemos este objeto. Por lo tanto, para obtener resultados, necesitamos especificar 
# la operación que queremos realizar. En este caso, contaremos el número de empleados que tenemos de cada una de las columnas
df.groupby("Attrition").count()

Unnamed: 0_level_0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1
No,1233,1061,1233,1233,1233,1233,1233,1233,1233,1233,1233,1233,966,1221,1233,1233,1113,1114,1233,1233,1233,1233,1233,1233,1233,1233,1233,980,1233,1233,1233,1233,1081,1233,1203
Yes,237,199,237,237,237,237,237,237,237,237,237,237,195,233,237,237,210,209,237,237,237,237,237,237,237,237,237,211,237,237,237,237,198,237,236


Ahora vemos que lo que tenemos son los datos agrupados por los valores de la columna `Attrition`. En este caso, lo que ha hecho es contar el número de filas no nulas que tenemos para cada una de las columnas que tenemos en el conjunto de datos. Es decir, el número de filas que tenemos información por cada una de las columnas del DataFrame. Es por esto que hay algunas columnas, como "Education" que tenemos menos valores que en otras (porque en esta tenemos valores nulos). 

In [8]:
# vemos que en el caso anterior, nos ha devuelto el conteo de todas las columnas. Pero no nos interesan todas, 
# para eso tendremos que seguir la siguiente sintaxis, fijaos como le hemos pasado una lista fuera de groupby especificando la columna sobre la que quiero calcular el conteo de filas
# en nuestro caso, vamos a contar el número de id de empleados, ya que sabemos que no tienen valores únicos
# en este caso vamos a almacenar los resultados del groupby en una variable
attri_count = df.groupby("Attrition")["EmployeeId"].count()
attri_count

Attrition
No     1233
Yes     237
Name: EmployeeId, dtype: int64

In [9]:
# si nos fijamos, el resultado que nos devuelve es una Serie, pero a nosotros nos puede interesar tenerlo como un DataFrame. 
# para eso lo que tendremos que hacer es usar el método '.reset_index()' de Pandas y almacenarlo en una variable
df_attri_count = attri_count.reset_index()
df_attri_count

Unnamed: 0,Attrition,EmployeeId
0,No,1233
1,Yes,237


In [10]:
# los valores absolutos nos pueden dar poca información, por lo que vamos a calcular el % de empleados que siguen en la empresa y cuáles se fueron.
df_attri_count["%"] = np.round(df_attri_count["EmployeeId"] / df.shape[0] * 100, 2)
df_attri_count

Unnamed: 0,Attrition,EmployeeId,%
0,No,1233,83.88
1,Yes,237,16.12


In [11]:
# vamos con el segundo de los problemas que hemos planteado: realizar un análisis de satisfacción laboral
# para este análisis lo que vamos a hacer es agrupar los datos por la satisfacción del empleado con su trabajo
# además vamos a calcular la media para ciertas variables que a priori nos podrían parecer interesantes para su satisfacción 
# como son su salario mensual, el % del incremento salarial o los años desde la última promoción 
df.groupby(["JobSatisfaction"])[["MonthlyIncome", 'PercentSalaryHike', 'YearsSinceLastPromotion']].mean().round(2)

Unnamed: 0_level_0,MonthlyIncome,PercentSalaryHike,YearsSinceLastPromotion
JobSatisfaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
High,6393.41,14.86,1.08
Low,6336.4,15.23,1.16
Medium,6451.22,15.18,0.97
Very High,6621.44,15.44,1.08


Existen varios estadísticos que podemos calcular utilizando el `groupby` en pandas:

- `count()`: Cuenta el número de observaciones no nulas en cada grupo.
  
- `describe()`: Proporciona un resumen de los principales estadísticos para cada grupo.
  
- `sum()`: Calcula la suma de todos los valores en cada grupo.
  
- `mean()`: Calcula la media de los valores en cada grupo.
  
- `median()`: Calcula la mediana de los valores en cada grupo.
  
- `min()`: Encuentra el valor mínimo en cada grupo.
  
- `max()`: Encuentra el valor máximo en cada grupo.
  
- `std()`: Calcula la desviación estándar de los valores en cada grupo.
  
- `var()`: Calcula la varianza de los valores en cada grupo.

- `first()` y `last()`: Devuelven el primer y el último valor de cada grupo, respectivamente.

Hasta ahora, hemos estado calculando un solo estadístico por cada `groupby`. Sin embargo, es posible calcular más de un estadístico en un único `groupby` utilizando el método `.agg()`. Este método se utiliza para aplicar una o varias operaciones de agregación a los grupos resultantes después de haber realizado el `groupby` en un DataFrame.

La sintaxis básica del método `.agg()` es la siguiente:

```python
df.groupby(by=columna_o_lista_de_columnas).agg(funciones_de_agregacion)
```

Donde:
- `df`: Es el DataFrame en el que se realiza el `groupby`.
  
- `by`: Es el argumento que especifica cómo deseas agrupar los datos.
  
- `funciones_de_agregacion`: Son una o varias funciones de agregación que se aplicarán a cada grupo. Pueden ser funciones incorporadas de pandas como `sum()`, `mean()`, `count()`, `min()`, `max()`, entre otras, o funciones personalizadas definidas por el usuario.

Ampliemos la respuesta anterior calculando la media, mediana y desviación estándar para cada una de las columnas que tenemos. 


In [12]:
# en este caso estamos calculando la media, mediana y desviación estándar para las columnas
# 'MonthlyIncome', 'PercentSalaryHike'. 
df_job_satisf = df.groupby(["JobSatisfaction"])[["MonthlyIncome", 'PercentSalaryHike']].agg(["mean", 'std', "median"]).round(2)
df_job_satisf

Unnamed: 0_level_0,MonthlyIncome,MonthlyIncome,MonthlyIncome,PercentSalaryHike,PercentSalaryHike,PercentSalaryHike
Unnamed: 0_level_1,mean,std,median,mean,std,median
JobSatisfaction,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
High,6393.41,4775.11,4695.0,14.86,3.42,14.0
Low,6336.4,4438.29,4789.0,15.23,3.7,14.0
Medium,6451.22,4778.24,4841.0,15.18,3.73,14.0
Very High,6621.44,4674.66,5225.5,15.44,3.71,14.0


Interpretemos los resultados obtenidos del gropuby anterior, pero antes de lanzarnos a ver los números entendamos que es esto de la media, mediana, desviación estándar(std) y varianza (var). 


1. Media: La media es el promedio de un conjunto de datos. Se obtiene sumando todos los valores y luego dividiendo esa suma entre el número total de datos.


    Interpretación: Supongamos que la media de edad de las alumnas es de aproximadamente 26.4 años. Es una medida central que nos da una idea general del valor típico de edad en el grupo.

2. Desviación estándar: La desviación estándar es una medida de dispersión que nos indica cuánto se desvían los valores individuales del promedio (la media). Una desviación estándar alta indica que los valores están más dispersos, mientras que una desviación estándar baja indica que los valores están más cercanos a la media.

    Interpretación: Supongamos que la desviación estándar resulta ser 2.5. Esto significa que, en promedio, las edades de las alumnas están dispersas alrededor de 2.5 años de distancia de la media (26.4). Siendo una desviación estándar relativamente baja, podemos decir que las edades de las alumnas están relativamente cercanas al valor promedio.


3. Mediana: La mediana es el valor que se encuentra justo en el centro de un conjunto de datos ordenados. Divide al conjunto en dos partes iguales, donde la mitad de los datos están por encima y la otra mitad por debajo.

    Interpretación: Supongamos que la mediana tiene un valor de 82. Esto nos indica que la mitad de las alumnas obtuvo una nota por encima de 82 y la otra mitad por debajo de este valor. Es útil para describir un valor típico en datos que pueden estar influenciados por valores extremos (outliers).


**¿Qué conclusiones podemos sacar de nuestro groupby?**

1. **Nivel de Satisfacción Laboral y Salario Mensual:**
   
   - No hay una diferencia significativa en el salario mensual promedio entre los empleados con diferentes niveles de satisfacción laboral.
  
   - Sin embargo, hay una variabilidad considerable en los salarios mensuales dentro de cada nivel de satisfacción laboral, como lo indica la desviación estándar. Esto sugiere que, aunque el salario promedio puede ser similar, hay una amplia gama de salarios dentro de cada categoría de satisfacción laboral, es decir, hay empleados dentro de un nivel que cobran mucho y otros que cobran poco. Por lo que nos podría surgir la duda de calcular los valores máximos y mínimos de cada uno de los niveles. 

2. **Nivel de Satisfacción Laboral y Aumento Salarial Porcentual:**
   
   - No parece haber una diferencia significativa en el aumento salarial porcentual entre los diferentes niveles de satisfacción laboral. Los empleados con diferentes niveles de satisfacción laboral experimentan un aumento salarial porcentual similar en promedio.
  
   - Al igual que con el salario mensual, hay una variabilidad considerable en el aumento salarial porcentual dentro de cada nivel de satisfacción laboral, como lo indica la desviación estándar. Esto sugiere que, aunque el aumento salarial porcentual promedio puede ser similar, hay una amplia variación en los aumentos salariales dentro de cada categoría de satisfacción laboral.

En resumen, aunque los niveles de satisfacción laboral no parecen estar relacionados con diferencias significativas en el salario mensual promedio o el aumento salarial porcentual, sí indican que la variabilidad en estos aspectos puede ser alta dentro de cada nivel de satisfacción laboral. Esto resalta la importancia de considerar otros factores además del nivel de satisfacción laboral al analizar los salarios y los aumentos salariales en una organización.


<div style="background-color: #40B5AD; border-left: 6px solid #000080; padding: 10px; color: black;">
Ahora nos puede surgir la duda de <strong>¿cómo podemos saber si esa desviación es grande o pequeña?</strong> Para debemos compararla con la media y tener en cuenta el contexto específico del problema. Aquí hay algunas pautas generales para interpretar la magnitud de la desviación estándar:


  - Comparación con la media:

      - Si la desviación estándar es mucho menor que la media, indica que los datos tienden a estar muy cerca del valor promedio. En otras palabras, los datos están más agrupados y tienen poca dispersión alrededor de la media. Esto se consideraría una desviación estándar pequeña.

      - Si la desviación estándar es aproximadamente igual a la media, sugiere que los datos tienen una dispersión moderada alrededor del promedio. En este caso, se consideraría una desviación estándar de tamaño medio.

      - Si la desviación estándar es considerablemente mayor que la media, significa que los datos tienen una dispersión significativa alrededor del promedio. Esto se consideraría una desviación estándar grande.

  - Escala de los datos:

      - La magnitud absoluta de la desviación estándar depende de la escala de los datos. Si los valores en el conjunto de datos tienen una escala grande, la desviación estándar también será grande en términos absolutos. Del mismo modo, si los datos tienen una escala pequeña, la desviación estándar será pequeña en términos absolutos.

      - Por lo tanto, es importante considerar la magnitud de los datos y no solo el valor numérico de la desviación estándar.

</div>



In [13]:
# sigamos contestanto algunas de las preguntas que habíamos definido, en este caso analizaremos la diversidad e inclusión dentro de la empresa
# para eso podríamos comparar las medias y medianas de los salarios de los hombres y las mujeres, 
# para lo que necesitaremos usar la función "agg" para calcular distintos estadísticos
df_genero = df.groupby(["Gender"])["MonthlyIncome"].agg(["mean", "std", "median"]).reset_index().round(2)
df_genero

Unnamed: 0,Gender,mean,std,median
0,Female,6686.57,4695.61,5081.5
1,Male,6380.51,4714.86,4837.5


Entendamos estos resultados: 

1. **Diferencia salarial por género**:

   - La media del salario mensual para empleados de género femenino es de aproximadamente \$6686.57, mientras que para empleados de género masculino es de alrededor de \$6380.51.
  
   - Esto sugiere una tendencia hacia un salario mensual más alto para empleados de género femenino en comparación con los empleados de género masculino en esta muestra de datos.

2. **Dispersión de los salarios**:
   
   - Ambos grupos, tanto masculino como femenino, muestran una dispersión similar en los salarios, como se refleja en la desviación estándar.
  
   - Esto indica que la variabilidad en los salarios no difiere significativamente entre los géneros en este conjunto de datos.

3. **Distribución salarial**:
   
   - La mediana del salario mensual, que representa el punto medio de la distribución, es más alta para el género femenino (\$5081.5) en comparación con el género masculino (\$4837.5).
  
   - Esto sugiere que, aunque la media del salario para el género femenino es mayor, hay una proporción considerable de empleados femeninos que tienen salarios más altos en comparación con los empleados masculinos.

En general, estos datos sugieren una posible disparidad salarial basada en el género en la muestra de datos proporcionada. Podríamos considerar otros factores relacionados con la experiencia, el nivel de educación o el puesto laboral. 




In [14]:
# podríamos preguntarnos si se contratan a más hombres que mujeres, lo cual también nos ayudaría a 
# identificar si hay problemas de inclusión o diversidad dentro de la empresa. 
df_contratados_genero = df.groupby("Gender")["EmployeeId"].count().reset_index()
df_contratados_genero["%"] = df_contratados_genero["EmployeeId"] / df_contratados_genero["EmployeeId"].sum()
df_contratados_genero

Unnamed: 0,Gender,EmployeeId,%
0,Female,588,0.4
1,Male,882,0.6


Basándonos en los resultados proporcionados del análisis anterior, podemos sugerir que:

- La proporción de empleados femeninos en la empresa es del 40%, mientras que la proporción de empleados masculinos es del 60%. Esta distribución revela una ligera mayoría masculina en la empresa en comparación con el género femenino.

- Sin embargo, aunque la proporción de empleados masculinos es mayor que la de los empleados femeninos, la diferencia porcentual no es significativa. Sugiriendo que la empresa podría estar trabajando hacia un equilibrio de género en su fuerza laboral, aunque todavía existe una ligera disparidad.


In [15]:
# otra pregunta que nos podríamos hacer es si se les ofrecen las mismas formaciones a los dos géneros por igual
df_formaciones = df.groupby("Gender")["TrainingTimesLastYear"].sum().reset_index()
df_formaciones["%"] = (df_formaciones["TrainingTimesLastYear"] / df_formaciones["TrainingTimesLastYear"].sum() * 100).round(2)
df_formaciones

Unnamed: 0,Gender,TrainingTimesLastYear,%
0,Female,1682,40.87
1,Male,2433,59.13


Interpretemos los resultados, los datos muestran que el 59.13% de los empleados que recibieron capacitación  son hombres, mientras que el 40.87% son mujeres. Esta disparidad puede indicar posibles brechas en la inclusión de género en la empresa. Con esto podríamos decir que: 


- Es posible que las mujeres estén menos representadas en programas de formación, lo que podría limitar su acceso a oportunidades de crecimiento y avance profesional.


- La baja participación de las mujeres en programas de capacitación podría estar relacionada con barreras de acceso, como la falta de apoyo o recursos para participar 
en estas actividades.

---- 

Si tuvieramos en cuenta los resultados de los tres últimos `groupby` (las mujeres tienen un salario más alto que los hombres, aunque esta diferencia no es significativa y que se contratan más hombres que mujeres. Además, las mujeres han recibido menos formaciones que los hombres), le podríamos sugerir a la empresa que: 

- Implementar políticas de compensación justas y transparentes que eliminen cualquier disparidad salarial entre géneros.
  
- Realizar auditorías salariales periódicas para identificar y abordar cualquier brecha salarial de género que pueda existir en la empresa.


- Establecer objetivos específicos de contratación para aumentar la representación de mujeres en la empresa, especialmente en roles donde están subrepresentadas.


- Desarrollar programas de formación y desarrollo profesional que sean accesibles y equitativos para todos los empleados, independientemente de su género.
  
- Ofrecer oportunidades de formación personalizadas y flexibles que se adapten a las necesidades y circunstancias individuales de los empleados, incluidas las responsabilidades familiares y los horarios de trabajo.

Nos queda una última pregunta que contestar de todas las que estaban definidas, el análisis de equidad salarial. Para ello haremos varios `groupby` con los que sacaremos la media, la desviación estándar y la mediana de cada uno de los grupos para las columnas de `MonthlyIncome` y `PercentSalaryHike`. 

Para hacer esto haremos un *for loop* y después lo almacenaremos todo en un Excel, donde cada una de las posibles agrupaciones se guarden en una hoja diferente.

In [16]:
# lo primero que hacemos es definir los distintos grupos que vamos a querer definir. 
grupo1 = ["JobRole", "Education", "EducationField"]
grupo2 = ["Gender", "MaritalStatus"]

valores = ["MonthlyIncome", "PercentSalaryHike"]

In [17]:
# si quisieramos generar todas las posibles combinaciones de interacciones entre estas variables tendríamos que
df.groupby(["JobRole", "Gender"])["MonthlyIncome"].mean()
df.groupby(["JobRole", "MaritalStatus"])["MonthlyIncome"].mean()

JobRole                    MaritalStatus
Healthcare Representative  Divorced          7631.382353
                           Married           7469.147541
                           Single            7532.861111
Human Resources            Divorced          3488.357143
                           Married           4521.107143
                           Single            4483.100000
Laboratory Technician      Divorced          3186.145455
                           Married           3337.043103
                           Single            3137.409091
Manager                    Divorced         16903.913043
                           Married          17276.875000
                           Single           17227.652174
Manufacturing Director     Divorced          6784.750000
                           Married           7330.492537
                           Single            7676.214286
Research Director          Divorced         16410.173913
                           Married          158

Lo que vamos a querer es hacer muchos `groupby`s un único *for loop*, esto nos va a permitir sacar todas las combinaciones de `groupby` entre la lista de `grupo1` y `grupo2`. 

Es decir: 

* JobRole vs Gender
* JobRole vs Education


* Education vs Gender
* Education vs Education

* y así, para todas las posibles combinaciones entre las dos variables de "grupo1" y "grupo2". 


Además vamos a querer calcular la media, mediana y std para dos variables numéricas. Estas son las que están en la lista de `valores`. 

Visto en código querremos: 

```python
df.groupby(["JobRole", "Gender"])["MonthlyIncome"].mean()
df.groupby(["JobRole", "Gender"])["MonthlyIncome"].median()
df.groupby(["JobRole", "Gender"])["MonthlyIncome"].std()


df.groupby(["JobRole", "MaritalStatus"])["MonthlyIncome"].mean()
df.groupby(["JobRole", "MaritalStatus"])["MonthlyIncome"].median()
df.groupby(["JobRole", "MaritalStatus"])["MonthlyIncome"].std()


# y así para todas las posibles combinaciones de las listas grupo1 y grupo2

# Pero recordemos que si en un groupby queremos calcular varios estadísticos deberemos usar el método agg. Por lo que podríamos reducir un poco el código anterior a la siguiente forma 
df.groupby(["JobRole", "MaritalStatus"])["MonthlyIncome"].agg(["mean", 'std', 'median'])

# si a esto le añadimos un reset_index() nos devolverá un dataframe
df.groupby(["JobRole", "Gender"])["MonthlyIncome"].agg(["mean", 'std', 'median']).reset_index()
```

In [20]:
# Creamos una lista donde guardaremos todos los resultados de los groupby
todos_resultados = []
# Creamos una instancia de ExcelWriter para escribir en un archivo Excel
w = ExcelWriter("datos/Agrupaciones.xlsx")

todas_combinaciones = list(itertools.product(grupo1, grupo2, valores))

# Iteramos por cada combinación de grupos y columnas
for tupla in todas_combinaciones:
    # Sacamos todas las combinaciones
    print(tupla[0], "-->", tupla[1], '-->', tupla[2])
    # Realizamos el groupby y lo convertimos a DataFrame
    resultado = df.groupby([tupla[0], tupla[1]])[tupla[2]].agg(["mean", 'std', 'median']).reset_index().round(2)
    # Apendemos los resultados del groupby en la lista
    todos_resultados.append(resultado)
    # Escribimos cada DataFrame en una hoja de Excel
    resultado.to_excel(w, sheet_name=f"{tupla[0][:5]}_{tupla[1][:5]}_{tupla[2][:5]}")

# Cerramos el archivo Excel
w.close()


JobRole --> Gender --> MonthlyIncome
JobRole --> Gender --> PercentSalaryHike
JobRole --> MaritalStatus --> MonthlyIncome
JobRole --> MaritalStatus --> PercentSalaryHike
Education --> Gender --> MonthlyIncome
Education --> Gender --> PercentSalaryHike
Education --> MaritalStatus --> MonthlyIncome
Education --> MaritalStatus --> PercentSalaryHike
EducationField --> Gender --> MonthlyIncome
EducationField --> Gender --> PercentSalaryHike
EducationField --> MaritalStatus --> MonthlyIncome
EducationField --> MaritalStatus --> PercentSalaryHike


In [21]:
# veamos algunos de los resultados que acabamos de conseguir
todos_resultados[0]

Unnamed: 0,JobRole,Gender,mean,std,median
0,Healthcare Representative,Female,7433.8,2654.2,6812.0
1,Healthcare Representative,Male,7589.3,2483.87,6768.0
2,Human Resources,Female,4540.69,2810.89,3068.5
3,Human Resources,Male,4100.22,2284.62,3265.0
4,Laboratory Technician,Female,3246.91,1165.99,2926.0
5,Laboratory Technician,Male,3232.41,1145.84,2842.5
6,Manager,Female,16915.28,2339.7,17123.0
7,Manager,Male,17409.33,2294.57,17861.0
8,Manufacturing Director,Female,7409.17,2928.11,6460.5
9,Manufacturing Director,Male,7182.67,2418.55,6434.0


Interpretemos los resultados: 

1. **Disparidades salariales entre géneros**: En la mayoría de los roles, los hombres tienden a ganar más que las mujeres. Por ejemplo, los gerentes masculinos tienen un salario promedio más alto que las gerentes femeninas. Al contrario de lo que habíamos estado viendo hasta ahora. 

2. **Diferencias en la magnitud de las disparidades**: Las diferencias salariales entre géneros varían según el rol laboral. Por ejemplo, en roles como Representante de Ventas, las disparidades son menores en comparación con roles como Director de Investigación.

3. **Posibles áreas de mejora**: Los roles con las mayores disparidades salariales podrían ser áreas de enfoque para implementar políticas de equidad salarial y promover la diversidad de género en la empresa.

Los *next steps* que podría tener este análisis son revisar si estas diferencias salariales se deben a diferencias en la experiencia, habilidades o responsabilidades laborales, o si son el resultado de sesgos de género.


Esto que hemos hecho con este primer resultado, deberíamos hacerlo para cada uno de los resultados obtenidos para poder extraer conclusiones. 

# Otros métodos interesantes del `groupby()`

Además de los métodos aprendidos hasta ahora, la función `groupby` ofrece una variedad de métodos para realizar operaciones de agrupación y análisis avanzado de datos. Algunos de estos métodos son: 

- `get_group()`: Permite recuperar un grupo específico de los resultados del groupby utilizando una clave de grupo.

- `ngroups()`: Proporciona el número de grupos únicos resultantes después de aplicar el groupby.

- `indices`: Devuelve un diccionario cuyas claves son los grupos y los valores son las etiquetas de índice correspondientes en el DataFrame original.

- `filter()`: Permite filtrar grupos de datos en función de una condición específica. Se utiliza para seleccionar subconjuntos de datos que cumplen ciertos criterios dentro de cada grupo.

- `unstack()`: Convierte un nivel del índice de filas en columnas, reorganizando los datos para facilitar la visualización y el análisis en tablas con múltiples dimensiones.



In [22]:
# pongamos un ejemplo sencillo de groupby para ver el primero de los métodos, el 'get_groups'
df_educacion_edad = df.groupby("Education")["Age"].mean().reset_index()
df_educacion_edad

Unnamed: 0,Education,Age
0,Bachelor,36.461378
1,Below College,32.443662
2,College,36.851852
3,Doctor,40.0
4,Master,39.365439


In [23]:
# Método 'get_group': nos va a permitir seleccionar una sola de las categorías del groupby
# imaginemos que del resultado del groupby anterior solo nos interesa el grupo "Doctor"
df.groupby("Education")["Age"].get_group("Doctor").mean()

40.0

In [24]:
# Método 'indices': Nos crea un diccionario donde las keys son cada una de las categorías de la columna por la que estamos agrupando
# en los values, tendremos un array con los índices donde encontramos las filas con esos valores
diccionario_educacion = df.groupby("Education")["Age"].indices

# en este caso estamos viendo que las filas donde tenemos el valor de 'Doctor' en nuestro DataFrame son las que vemos en el array que tenemos a continuación
diccionario_educacion["Doctor"]

array([  54,   59,   87,  138,  191,  213,  269,  388,  431,  499,  527,
        534,  544,  620,  630,  674,  721,  735,  769,  785,  859,  889,
        896,  901,  943, 1019, 1025, 1053, 1086, 1193, 1196, 1221, 1244,
       1253, 1265, 1314, 1319, 1359, 1383, 1393, 1436, 1446, 1448])

In [26]:
# Método 'filter': Lo utilizaremos para filtar el DataFrame en base a una condición que establezcamos 
# utilizando los grupos que indiquemos en el groupby 
df_edad_37 = df.groupby("Education").filter(lambda x: x["Age"].mean() > 37)

# En este caso nos va a devolver un DataFrame donde tengamos los datos de aquellos grupos educativos cuya media de edad sea mayor que 37
print(f"Los grupos de edad con edades superiores a 37 años son: {df_edad_37['Education'].unique()}")
df_edad_37.head(2)


Los grupos de edad con edades superiores a 37 años son: ['Master' 'Doctor']


Unnamed: 0,DistanceFromHome,Education,EducationField,Gender,MaritalStatus,Age,EmployeeId,DateEmployment,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,TotalWorkingYears,Over18,NumCompaniesWorked,Country,Sons,Attrition,BusinessTravel,DailyRate,Department,EmployeeCount,HourlyRate,JobLevel,JobRole,MonthlyIncome,MonthlyRate,OverTime,PercentSalaryHike,StandardHours,StockOptionLevel,TrainingTimesLastYear,EnvironmentSatisfaction,JobInvolvement,JobSatisfaction,PerformanceRating,RelationshipSatisfaction
4,2,Master,Life Sciences,Female,Single,36,6affb754-8e52-43a7-9e97-4e373ef5fccb,2000-02-02 22:58:25,13,0,7,17,,3.0,Portugal,1,No,Travel_Rarely,530.0,Sales,1,51,2,Sales Representative,4502,7439,No,15,80.0,0,2,High,High,Very High,Excellent,High
9,9,Master,Life Sciences,Male,Married,41,4c27df95-d97d-4165-8792-f39a3477a650,2000-03-04 21:27:50,23,1,1,7,Y,2.0,Grecia,0,No,Travel_Rarely,933.0,Research & Development,1,94,1,Laboratory Technician,2238,6961,No,21,,1,2,High,High,Low,Outstanding,Very High


In [33]:
# Método 'unstack': Cuando agrupas un DataFrame con múltiples niveles (es decir, agrupas por más de una columna), el resultado es un DataFrame con un índice jerárquico (multi-índice), 
# donde los diferentes niveles están organizados en filas. Con unstack(), puedes “mover” uno de esos niveles de filas a columnas, lo que a menudo da como resultado una estructura más fácil de leer.
# imaginemos que queremos agrupar por género y estado civil, si lo hacemos como conocemos hasta ahora quedaría algo similar a esto
serie_genero_estado = df.groupby(['Gender', 'MaritalStatus'])['MonthlyIncome'].mean().round(2)
serie_genero_estado

Gender  MaritalStatus
Female  Divorced         6769.32
        Married          7156.97
        Single           5994.94
Male    Divorced         6795.74
        Married          6547.24
        Single           5812.02
Name: MonthlyIncome, dtype: float64

In [36]:
# si ahora le pasamos el método 'unstack' veremos que pasamos de tener un DataFrame multiíndice, a uno con un solo índice donde hemos movido uno de ellos
df_genero_estado = serie_genero_estado.unstack()
df_genero_estado

MaritalStatus,Divorced,Married,Single
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,6769.32,7156.97,5994.94
Male,6795.74,6547.24,5812.02


# Resumen de lo aprendido en el `groupby`

| Método `groupby`       | Descripción                                                      | Ejemplo en Python                                               |
|------------------------|------------------------------------------------------------------|-----------------------------------------------------------------|
| `.groupby()`           | Agrupa un DataFrame por columnas específicas.                   | `grupos = df.groupby('columna')`                                |
| `.agg()`               | Realiza agregaciones en grupos.                                 | `resultados = grupos['columna_agregada'].agg(['sum', 'mean'])`  |
| `.count()`             | Cuenta los elementos en cada grupo.                             | `conteo = grupos['columna'].count()`                            |
| `.sum()`               | Calcula la suma de valores en grupos.                           | `suma = grupos['columna'].sum()`                                |
| `.mean()`              | Calcula el promedio en grupos.                                  | `promedio = grupos['columna'].mean()`                           |
| `.max()`               | Encuentra el valor máximo en grupos.                            | `maximo = grupos['columna'].max()`                              |
| `.min()`               | Encuentra el valor mínimo en grupos.                            | `minimo = grupos['columna'].min()`                              |
| `.std()`               | Calcula la desviación estándar en grupos.                       | `desviacion = grupos['columna'].std()`                          |
| `.median()`            | Calcula la mediana en grupos.                                   | `mediana = grupos['columna'].median()`                          |
| `.ngroups`             | Devuelve el número de grupos creados.                           | `num_grupos = grupos.ngroups`                                   |
| `.unstack()`           | Convierte un nivel del índice en columnas tras un `groupby`.    | `resultado = grupos['columna'].mean().unstack()`                |
