In [1]:
import pandas as pd
import numpy as np

# 1. Leer el archivo CSV generado
df = pd.read_csv('C:/Users/layla/Escritorio/Fundamentos de ETL con Python/Codigos y Notebooks/13. Agrupaciones y Resumen de Datos/datos_ejemplo.csv')

# Mostrar el DataFrame original
print("DataFrame Original (Leído desde el CSV):")
print(df)

DataFrame Original (Leído desde el CSV):
   ID  Nombre             Edad Genero  Salario Departamento
0   1     Ana               25      F  50000.0       Ventas
1   2    Luis               30      M      NaN    Marketing
2   3  Carlos  Treinta y cinco      M  60000.0       Ventas
3   4   Sofia               40      F  55000.0         RRHH
4   5     NaN               45      M  70000.0           TI


In [2]:
# --------------------------------------------
# 2. Convertir la columna 'Edad' a valores numéricos
# --------------------------------------------
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')  # Convertir 'Edad' a valores numéricos

# --------------------------------------------
# 3. Manejo de valores faltantes (NaN) en 'Salario'
# --------------------------------------------

# Rellenar valores NaN con la media de la columna 'Salario'
media_salario = df['Salario'].mean()  # Calcular la media de 'Salario'
df['Salario'] = df['Salario'].fillna(media_salario)  # Rellenar los NaN con la media

print("\nDataFrame después de rellenar los valores NaN de 'Salario' con la media:")
print(df)


DataFrame después de rellenar los valores NaN de 'Salario' con la media:
   ID  Nombre  Edad Genero  Salario Departamento
0   1     Ana  25.0      F  50000.0       Ventas
1   2    Luis  30.0      M  58750.0    Marketing
2   3  Carlos   NaN      M  60000.0       Ventas
3   4   Sofia  40.0      F  55000.0         RRHH
4   5     NaN  45.0      M  70000.0           TI


In [3]:
# --------------------------------------------
# 4. Uso de groupby() y funciones estadísticas de agregación
# --------------------------------------------

# 4.1 Agrupar por 'Departamento' y calcular la media de 'Salario'
print("\nPromedio de 'Salario' por 'Departamento':")
grupo_departamento = df.groupby('Departamento')['Salario'].mean()  # Calcular el promedio de 'Salario' por 'Departamento'
print(grupo_departamento)

# 4.2 Agrupar por 'Genero' y calcular estadísticas descriptivas
print("\nEstadísticas descriptivas de 'Salario' por 'Genero':")
grupo_genero = df.groupby('Genero')['Salario'].describe()  # Estadísticas descriptivas: count, mean, std, min, 25%, 50%, 75%, max
print(grupo_genero)

# 4.3 Agrupar por 'Departamento' y calcular varias estadísticas con .agg()
print("\nEstadísticas agregadas de 'Salario' por 'Departamento' (media, desviación estándar, y suma):")
grupo_agregados = df.groupby('Departamento')['Salario'].agg(['mean', 'sum'])  # Varias estadísticas con agg()
print(grupo_agregados)

# 4.4 Filtrar y aplicar funciones agregadas
print("\nPromedio de 'Salario' para cada 'Departamento' donde 'Edad' > 30 años:")
# Filtrar primero por 'Edad' > 30 y luego agrupar por 'Departamento' y calcular la media de 'Salario'
grupo_edad = df[df['Edad'] > 30].groupby('Departamento')['Salario'].mean()
print(grupo_edad)

# 4.5 Agrupación por múltiples columnas y cálculo de estadísticas
print("\nPromedio de 'Salario' por 'Departamento' y 'Genero':")
# Agrupamos por 'Departamento' y 'Genero' y calculamos la media de 'Salario'
grupo_multiple = df.groupby(['Departamento', 'Genero'])['Salario'].mean()
print(grupo_multiple)

# 4.6 Uso de reset_index() para volver a convertir el índice en columnas
print("\nRestablecer el índice después de agrupar:")
# Después de agrupar, el índice del DataFrame resultante es el valor de la columna agrupada.
# Usamos 'reset_index()' para convertir el índice en una columna normal.
grupo_reset = df.groupby('Departamento')['Salario'].mean().reset_index()
print(grupo_reset)


Promedio de 'Salario' por 'Departamento':
Departamento
Marketing    58750.0
RRHH         55000.0
TI           70000.0
Ventas       55000.0
Name: Salario, dtype: float64

Estadísticas descriptivas de 'Salario' por 'Genero':
        count          mean          std      min      25%      50%      75%  \
Genero                                                                         
F         2.0  52500.000000  3535.533906  50000.0  51250.0  52500.0  53750.0   
M         3.0  62916.666667  6166.103578  58750.0  59375.0  60000.0  65000.0   

            max  
Genero           
F       55000.0  
M       70000.0  

Estadísticas agregadas de 'Salario' por 'Departamento' (media, desviación estándar, y suma):
                 mean       sum
Departamento                   
Marketing     58750.0   58750.0
RRHH          55000.0   55000.0
TI            70000.0   70000.0
Ventas        55000.0  110000.0

Promedio de 'Salario' para cada 'Departamento' donde 'Edad' > 30 años:
Departamento
RRHH    5500

In [4]:
# --------------------------------------------
# 5. Funciones estadísticas avanzadas
# --------------------------------------------
print("\nDesviación estándar de 'Salario' por 'Genero':")
# Desviación estándar de 'Salario' por 'Genero'
desviacion_genero = df.groupby('Genero')['Salario'].std()
print(desviacion_genero)

print("\nValor máximo y mínimo de 'Salario' por 'Departamento':")
# Usamos las cadenas 'max' y 'min' en lugar de las funciones max y min
max_min_salario = df.groupby('Departamento')['Salario'].agg(['max', 'min'])  # Utilizando las cadenas "max" y "min"
print(max_min_salario)

print("\nMediana de 'Salario' por 'Genero':")
# Mediana de 'Salario' por 'Genero'
mediana_genero = df.groupby('Genero')['Salario'].median()
print(mediana_genero)


Desviación estándar de 'Salario' por 'Genero':
Genero
F    3535.533906
M    6166.103578
Name: Salario, dtype: float64

Valor máximo y mínimo de 'Salario' por 'Departamento':
                  max      min
Departamento                  
Marketing     58750.0  58750.0
RRHH          55000.0  55000.0
TI            70000.0  70000.0
Ventas        60000.0  50000.0

Mediana de 'Salario' por 'Genero':
Genero
F    52500.0
M    60000.0
Name: Salario, dtype: float64
