<a href="https://colab.research.google.com/github/alcorrea40/python-colab-notebooks/blob/main/agrupacion_datos_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📓 Agrupación de datos y agregación en pandas
Este notebook te muestra cómo agrupar datos por una o más variables categóricas usando `groupby()` y aplicar funciones estadísticas como `mean()` y `sum()`.

In [1]:
import pandas as pd
from google.colab import files

# Subir archivo CSV
uploaded = files.upload()

# Leer el archivo
df = pd.read_csv("datos_agrupados.csv")
df

Saving datos_agrupados.csv to datos_agrupados.csv


Unnamed: 0,Ciudad,Genero,Edad,Salario
0,Bogotá,F,25,2800
1,Bogotá,M,30,3200
2,Medellín,F,22,2600
3,Medellín,M,28,3100
4,Cali,F,24,2500
5,Cali,M,27,3000


## 📊 Agrupar por una sola variable

In [2]:
# Agrupar por ciudad y calcular salario promedio
salario_prom_ciudad = df.groupby("Ciudad")["Salario"].mean()
print("Salario promedio por ciudad:")
print(salario_prom_ciudad)

Salario promedio por ciudad:
Ciudad
Bogotá      3000.0
Cali        2750.0
Medellín    2850.0
Name: Salario, dtype: float64


## 👥 Agrupar por múltiples variables

In [3]:
# Agrupar por ciudad y género y calcular edad promedio
edad_prom_ciudad_genero = df.groupby(["Ciudad", "Genero"])["Edad"].mean()
print("Edad promedio por ciudad y género:")
print(edad_prom_ciudad_genero)

Edad promedio por ciudad y género:
Ciudad    Genero
Bogotá    F         25.0
          M         30.0
Cali      F         24.0
          M         27.0
Medellín  F         22.0
          M         28.0
Name: Edad, dtype: float64


## 🔢 Múltiples funciones agregadas

In [4]:
# Aplicar múltiples funciones de agregación
resumen = df.groupby("Ciudad").agg({
    "Edad": ["mean", "min", "max"],
    "Salario": ["mean", "sum"]
})
print("Resumen estadístico por ciudad:")
print(resumen)

Resumen estadístico por ciudad:
          Edad         Salario      
          mean min max    mean   sum
Ciudad                              
Bogotá    27.5  25  30  3000.0  6000
Cali      25.5  24  27  2750.0  5500
Medellín  25.0  22  28  2850.0  5700


## 🧪 Ejercicios prácticos

In [5]:
# 1. Total de salario por género
print(df.groupby("Genero")["Salario"].sum())

# 2. Número de personas por ciudad
print(df["Ciudad"].value_counts())

# 3. Edad promedio por ciudad y género como DataFrame
print(df.groupby(["Ciudad", "Genero"], as_index=False)["Edad"].mean())

Genero
F    7900
M    9300
Name: Salario, dtype: int64
Ciudad
Bogotá      2
Medellín    2
Cali        2
Name: count, dtype: int64
     Ciudad Genero  Edad
0    Bogotá      F  25.0
1    Bogotá      M  30.0
2      Cali      F  24.0
3      Cali      M  27.0
4  Medellín      F  22.0
5  Medellín      M  28.0


In [6]:
print("🎉 ¡Excelente! Ahora sabes cómo agrupar datos por variables categóricas y aplicar funciones estadísticas en pandas.")

🎉 ¡Excelente! Ahora sabes cómo agrupar datos por variables categóricas y aplicar funciones estadísticas en pandas.
