# Sesión 3: Introducción al análisis de datos con Pandas

**Objetivos:**
*   Presentar **Pandas**, la librería más importante para la ciencia de datos en Python.
*   Aprender a cargar un conjunto de datos desde un fichero CSV.
*   Realizar una inspección inicial para entender la estructura y calidad de los datos.
*   Aprender a detectar y manejar valores nulos (`NaN`).
*   Convertir columnas a sus tipos de datos correctos y más eficientes.
*   Seleccionar y filtrar datos para responder preguntas específicas.
*   Crear nuevas columnas a partir de datos existentes para enriquecer el análisis.
*   Crear agrupaciones usando `.groupby()`

## 1. Introducción a Pandas y carga de datos

### ¿Qué son las librerías?

Hasta ahora hemos usado funcionalidades que vienen con Python por defecto. Sin embargo, el verdadero poder de Python para el análisis de datos reside en su ecosistema de **librerías**: paquetes de código pre-escrito por profesionales que nos dan "superpoderes".

La librería más fundamental para la ciencia de datos en Python es **Pandas**. Nos proporciona estructuras de datos de alto rendimiento (como el DataFrame) y herramientas para el análisis y la manipulación de datos.

### Importando Pandas

Para usar una librería, primero debemos importarla. La convención universal para importar Pandas es la siguiente:

In [145]:
import pandas as pd

### Caso de Estudio: Siniestralidad Vial en Cataluña

Vamos a trabajar con un conjunto de datos ficticio pero realista sobre siniestros viales: `fatalities_catalonia.csv`.

Contiene las siguientes columnas:
*   `date`: Fecha del siniestro.
*   `region`: Provincia donde ocurrió.
*   `weather`: Condiciones meteorológicas.
*   `light_conditions`: Condiciones de luz.
*   `gender`: Género del conductor.
*   `driver_age`: Edad del conductor.
*   `vehicles_involved`: Número de vehículos implicados.
*   `fatalities`: Número de fallecidos.

Nuestro objetivo es cargar, limpiar y preparar estos datos para un futuro análisis.

### Cargando datos con `pd.read_csv()`

La función principal para cargar datos tabulares es `pd.read_csv()`. La estructura de datos central en Pandas se llama **DataFrame**, que podemos imaginar como una tabla de Excel o una hoja de cálculo.

In [146]:
# Creamos la ruta al fichero usando pathlib, como en la sesión anterior
from pathlib import Path

ruta_datos = Path("datos_curso")
ruta_fichero = ruta_datos / "fatalities_catalonia.csv"

# Usamos pd.read_csv para cargar los datos en un DataFrame
# El argumento `parse_dates` es muy útil: le dice a Pandas que intente convertir esa columna a un formato de fecha
df = pd.read_csv(ruta_fichero, parse_dates=["date"])

# La variable 'df' ahora contiene nuestro DataFrame
df

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
0,2023-01-15,Barcelona,Clear,Daylight,Male,45.0,2,1
1,2023-01-18,Tarragona,Rain,Dark,Female,31.0,1,1
2,2023-02-05,Girona,Clear,Daylight,Male,,3,0
3,2023-02-12,Barcelona,Fog,Twilight,Male,22.0,1,0
4,2023-03-01,Lleida,Clear,Daylight,Female,58.0,2,1
5,2023-03-20,Tarragona,Rain,Dark,,65.0,1,2
6,2023-04-11,Barcelona,Clear,Daylight,Male,28.0,2,0
7,2023-04-22,Girona,Clear,Daylight,Female,39.0,1,0
8,2023-05-09,Lleida,Rain,Dark,Male,50.0,1,1
9,2023-05-30,Barcelona,Clear,Daylight,Female,25.0,2,0


### Vistazo rápido: `.head()`, `.tail()`, `.sample()`

Estas funciones nos permiten ver una pequeña porción del DataFrame.

In [147]:
# .head() nos muestra las primeras 5 filas por defecto
df.head()

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
0,2023-01-15,Barcelona,Clear,Daylight,Male,45.0,2,1
1,2023-01-18,Tarragona,Rain,Dark,Female,31.0,1,1
2,2023-02-05,Girona,Clear,Daylight,Male,,3,0
3,2023-02-12,Barcelona,Fog,Twilight,Male,22.0,1,0
4,2023-03-01,Lleida,Clear,Daylight,Female,58.0,2,1


In [148]:
# .tail() nos muestra las últimas 5 filas
df.tail()

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
19,2023-10-18,Barcelona,Rain,Dark,Male,49.0,1,0
20,2023-11-12,Girona,Clear,Daylight,,34.0,2,1
21,2023-11-26,Lleida,Rain,Dark,Female,51.0,1,0
22,2023-12-08,Barcelona,Clear,Twilight,Male,23.0,3,2
23,2023-12-24,Tarragona,Fog,Dark,Female,43.0,1,0


In [149]:
# .sample(5) nos muestra 5 filas aleatorias, útil para evitar sesgos
df.sample(5)

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
18,2023-10-05,Tarragona,Clear,Daylight,Female,36.0,2,0
19,2023-10-18,Barcelona,Rain,Dark,Male,49.0,1,0
16,2023-09-10,Girona,Clear,Daylight,Male,62.0,1,0
20,2023-11-12,Girona,Clear,Daylight,,34.0,2,1
21,2023-11-26,Lleida,Rain,Dark,Female,51.0,1,0


### El DNI del DataFrame: `.info()`

El método `.info()` nos da un resumen técnico de nuestro DataFrame. Es una de las herramientas más importantes para la inspección inicial.

In [150]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   date               24 non-null     datetime64[ns]
 1   region             24 non-null     object        
 2   weather            24 non-null     object        
 3   light_conditions   24 non-null     object        
 4   gender             21 non-null     object        
 5   driver_age         22 non-null     float64       
 6   vehicles_involved  24 non-null     int64         
 7   fatalities         24 non-null     int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(4)
memory usage: 1.6+ KB


**¿Qué nos dice `.info()`?**
*   El número total de filas (entradas).
*   El número total de columnas.
*   Para cada columna:
    *   El nombre de la columna.
    *   El número de valores **no nulos**.
    *   El **tipo de dato** (`dtype`).
*   El uso de memoria.

**Observaciones clave de nuestros datos:**
1.  Tenemos 24 filas en total.
2.  Las columnas `gender`, `driver_age` y `fatalities` tienen valores **nulos** (faltantes), porque su cuenta de no-nulos es menor que 24.
3.  `date` es de tipo `datetime64[ns]`, ¡perfecto! Gracias a `parse_dates`.
4.  Las columnas de texto como `region` son de tipo `object`. Podríamos optimizar esto.

### Manejo de Valores Nulos

Los datos del mundo real casi siempre están incompletos. Necesitamos una estrategia para tratar con los valores nulos (también llamados `NaN` o `NA`).

#### Detección

Podemos obtener una cuenta exacta de nulos por columna con `.isnull().sum()`.

In [151]:
df.isnull().sum()

date                 0
region               0
weather              0
light_conditions     0
gender               3
driver_age           2
vehicles_involved    0
fatalities           0
dtype: int64

#### Estrategias de Manejo

1.  **Eliminar:** Si tenemos muy pocos nulos o una columna no es importante, podemos eliminar las filas (`.dropna()`). No es lo ideal, ya que perdemos información.
2.  **Imputar/Rellenar:** La mejor opción suele ser rellenar los nulos con un valor plausible (`.fillna()`).
    *   Para variables **numéricas** (como `driver_age`), se suele usar la **media** o la **mediana**.
    *   Para variables **categóricas** (como `gender`), se suele usar la **moda** (el valor más frecuente).

In [152]:
# 1. Rellenar 'driver_age' con la media de edad
media_edad = df['driver_age'].mean()
df['driver_age'] = df['driver_age'].fillna(media_edad)

# 2. Rellenar 'gender' con la moda
moda_genero = df['gender'].mode()[0] # .mode() devuelve una Serie, cogemos el primer elemento
df['gender'] = df['gender'].fillna(moda_genero)

# 3. Para 'fatalities', asumamos que si está nulo es porque no hubo. Lo rellenamos con 0.
df['fatalities'] = df['fatalities'].fillna(0)

# Comprobamos si todavía quedan nulos
df.isnull().sum()

date                 0
region               0
weather              0
light_conditions     0
gender               0
driver_age           0
vehicles_involved    0
fatalities           0
dtype: int64

### Conversión de Tipos de Datos

A menudo, Pandas carga texto como tipo `object`. Si una columna tiene un número limitado de categorías (como `region` o `weather`), podemos convertirla al tipo `category`. Esto ahorra memoria y puede acelerar operaciones como las agrupaciones.

También convertiremos `fatalities` y `driver_age` a enteros, ya que no tienen parte decimal.

In [153]:
df['region'] = df['region'].astype('category')
df['weather'] = df['weather'].astype('category')
df['light_conditions'] = df['light_conditions'].astype('category')
df['gender'] = df['gender'].astype('category')

df['fatalities'] = df['fatalities'].astype('int')
df['driver_age'] = df['driver_age'].astype('int')

# Volvemos a mirar .info() para ver los cambios
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   date               24 non-null     datetime64[ns]
 1   region             24 non-null     category      
 2   weather            24 non-null     category      
 3   light_conditions   24 non-null     category      
 4   gender             24 non-null     category      
 5   driver_age         24 non-null     int64         
 6   vehicles_involved  24 non-null     int64         
 7   fatalities         24 non-null     int64         
dtypes: category(4), datetime64[ns](1), int64(3)
memory usage: 1.6 KB


### Estadísticas Descriptivas

*   `.describe()`: Para columnas numéricas, nos da estadísticas como la media, desviación estándar, mínimo, máximo y percentiles.
*   `.value_counts()`: Para columnas categóricas, cuenta la frecuencia de cada categoría.

In [154]:
# Estadísticas de las columnas numéricas
df.describe()


Unnamed: 0,date,driver_age,vehicles_involved,fatalities
count,24,24.0,24.0,24.0
mean,2023-06-30 14:00:00,40.041667,1.583333,0.583333
min,2023-01-15 00:00:00,20.0,1.0,0.0
25%,2023-04-05 12:00:00,28.75,1.0,0.0
50%,2023-07-02 12:00:00,40.0,1.0,0.5
75%,2023-09-25 06:00:00,49.25,2.0,1.0
max,2023-12-24 00:00:00,65.0,3.0,2.0
std,,12.963089,0.717282,0.653863


In [155]:
# Frecuencias para la columna 'region'
df['region'].value_counts()


region
Barcelona    8
Tarragona    6
Girona       5
Lleida       5
Name: count, dtype: int64

In [156]:
# Podemos pedir las frecuencias relativas (porcentajes) con normalize=True
df['weather'].value_counts(normalize=True)


weather
Clear    0.583333
Rain     0.250000
Fog      0.166667
Name: proportion, dtype: float64

---
### ✏️ Ejercicio 1

1.  Carga de nuevo el fichero `fatalities_catalonia.csv` en un nuevo DataFrame llamado `df_ejercicio` (no olvides `parse_dates`).
2.  Muestra las 5 primeras filas y la información general con `.info()`.
3.  Calcula y muestra el número de valores nulos para cada columna.
4.  Imputa los valores nulos de `driver_age` con la **mediana** en lugar de la media.
5.  Imputa los valores nulos de `gender` y `fatalities` como hemos hecho antes.
6.  Convierte las columnas categóricas al tipo `category` y las numéricas a `int`.
7.  Al final, muestra un resumen de los hallazgos en una celda de Markdown:
    *   ¿Cuál es la edad media y mediana de los conductores?
    *   ¿Qué región tiene más siniestros registrados en este dataset?
    *   ¿Cuál es la condición meteorológica más común?

In [2]:
# Solución Ejercicio 1

## 3. Haciendo preguntas: selección y transformación

Una vez que nuestros datos están limpios, podemos empezar a hacerles preguntas. Esto implica seleccionar subconjuntos de datos (filas y columnas) y crear nuevas columnas.

### Selección de Columnas

Podemos seleccionar una o varias columnas usando corchetes `[]`.

In [158]:
# Seleccionar una columna (devuelve una Serie de Pandas)
df['driver_age']

0     45
1     31
2     40
3     22
4     58
5     65
6     28
7     39
8     50
9     25
10    41
11    40
12    29
13    48
14    55
15    20
16    62
17    27
18    36
19    49
20    34
21    51
22    23
23    43
Name: driver_age, dtype: int64

In [159]:
# Seleccionar varias columnas (pasando una lista de nombres)
# Devuelve un nuevo DataFrame
df[['date', 'region', 'fatalities']]

Unnamed: 0,date,region,fatalities
0,2023-01-15,Barcelona,1
1,2023-01-18,Tarragona,1
2,2023-02-05,Girona,0
3,2023-02-12,Barcelona,0
4,2023-03-01,Lleida,1
5,2023-03-20,Tarragona,2
6,2023-04-11,Barcelona,0
7,2023-04-22,Girona,0
8,2023-05-09,Lleida,1
9,2023-05-30,Barcelona,0


### Filtrado Condicional

Esta es una de las operaciones más potentes en Pandas. Nos permite seleccionar **filas** que cumplen una cierta condición.

In [160]:
# Paso 1: Creamos una condición. Esto devuelve una Serie de booleanos (True/False)
condicion = df['fatalities'] > 0
print(condicion.head())

# Paso 2: Usamos esta Serie booleana para filtrar el DataFrame
# Pandas devolverá solo las filas donde la condición es True
df[condicion]

0     True
1     True
2    False
3    False
4     True
Name: fatalities, dtype: bool


Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
0,2023-01-15,Barcelona,Clear,Daylight,Male,45,2,1
1,2023-01-18,Tarragona,Rain,Dark,Female,31,1,1
4,2023-03-01,Lleida,Clear,Daylight,Female,58,2,1
5,2023-03-20,Tarragona,Rain,Dark,Male,65,1,2
8,2023-05-09,Lleida,Rain,Dark,Male,50,1,1
10,2023-06-14,Tarragona,Clear,Daylight,Male,41,3,1
11,2023-06-28,Girona,Fog,Dark,Male,40,1,1
13,2023-07-19,Lleida,Clear,Twilight,Male,48,2,1
15,2023-08-25,Barcelona,Clear,Dark,Female,20,2,1
17,2023-09-22,Lleida,Fog,Twilight,Male,27,1,1


#### Filtrado Compuesto

Podemos combinar múltiples condiciones usando `&` (Y lógico) y `|` (O lógico). **Importante:** cada condición debe ir entre paréntesis.

In [161]:
# Siniestros en Barcelona Y donde llovía
df[(df['region'] == 'Barcelona') & (df['weather'] == 'Rain')]

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
19,2023-10-18,Barcelona,Rain,Dark,Male,49,1,0


In [162]:
# Siniestros donde había Niebla O las condiciones de luz eran 'Dark'
df[(df['weather'] == 'Fog') | (df['light_conditions'] == 'Dark')]

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
1,2023-01-18,Tarragona,Rain,Dark,Female,31,1,1
3,2023-02-12,Barcelona,Fog,Twilight,Male,22,1,0
5,2023-03-20,Tarragona,Rain,Dark,Male,65,1,2
8,2023-05-09,Lleida,Rain,Dark,Male,50,1,1
11,2023-06-28,Girona,Fog,Dark,Male,40,1,1
15,2023-08-25,Barcelona,Clear,Dark,Female,20,2,1
17,2023-09-22,Lleida,Fog,Twilight,Male,27,1,1
19,2023-10-18,Barcelona,Rain,Dark,Male,49,1,0
21,2023-11-26,Lleida,Rain,Dark,Female,51,1,0
23,2023-12-24,Tarragona,Fog,Dark,Female,43,1,0


#### Filtrado con `.isin()`

Si queremos filtrar por varios valores de una misma columna, `.isin()` es muy útil.

In [163]:
# Siniestros que ocurrieron en Girona o Lleida
regiones_interes = ['Girona', 'Lleida']
df[df['region'].isin(regiones_interes)]

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities
2,2023-02-05,Girona,Clear,Daylight,Male,40,3,0
4,2023-03-01,Lleida,Clear,Daylight,Female,58,2,1
7,2023-04-22,Girona,Clear,Daylight,Female,39,1,0
8,2023-05-09,Lleida,Rain,Dark,Male,50,1,1
11,2023-06-28,Girona,Fog,Dark,Male,40,1,1
13,2023-07-19,Lleida,Clear,Twilight,Male,48,2,1
16,2023-09-10,Girona,Clear,Daylight,Male,62,1,0
17,2023-09-22,Lleida,Fog,Twilight,Male,27,1,1
20,2023-11-12,Girona,Clear,Daylight,Male,34,2,1
21,2023-11-26,Lleida,Rain,Dark,Female,51,1,0


### Transformando Datos

A menudo necesitamos crear nuevas columnas a partir de las existentes para facilitar el análisis.

#### Trabajando con Fechas: el accesor `.dt`

Como hemos cargado la columna `date` como fecha, Pandas nos da acceso al accesor `.dt`, que tiene muchísimas propiedades útiles.

In [164]:
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day_of_week'] = df['date'].dt.day_name()

df.head()

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities,year,month,day_of_week
0,2023-01-15,Barcelona,Clear,Daylight,Male,45,2,1,2023,1,Sunday
1,2023-01-18,Tarragona,Rain,Dark,Female,31,1,1,2023,1,Wednesday
2,2023-02-05,Girona,Clear,Daylight,Male,40,3,0,2023,2,Sunday
3,2023-02-12,Barcelona,Fog,Twilight,Male,22,1,0,2023,2,Sunday
4,2023-03-01,Lleida,Clear,Daylight,Female,58,2,1,2023,3,Wednesday


#### Creando nuevas columnas

Podemos crear columnas a partir de operaciones lógicas o matemáticas.

In [165]:
# Creemos una columna 'is_weekend' (es fin de semana)
df['is_weekend'] = df['day_of_week'].isin(['Saturday', 'Sunday'])
df.head()

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities,year,month,day_of_week,is_weekend
0,2023-01-15,Barcelona,Clear,Daylight,Male,45,2,1,2023,1,Sunday,True
1,2023-01-18,Tarragona,Rain,Dark,Female,31,1,1,2023,1,Wednesday,False
2,2023-02-05,Girona,Clear,Daylight,Male,40,3,0,2023,2,Sunday,True
3,2023-02-12,Barcelona,Fog,Twilight,Male,22,1,0,2023,2,Sunday,True
4,2023-03-01,Lleida,Clear,Daylight,Female,58,2,1,2023,3,Wednesday,False


#### Discretización con `pd.cut()`

A veces es útil convertir una variable continua (como la edad) en una categórica (grupos de edad). `pd.cut()` es perfecta para esto.

In [166]:
# 1. Definimos los límites de los intervalos (bins)
bins = [0, 25, 40, 60, 100]

# 2. Definimos las etiquetas para cada intervalo
labels = ['Joven (0-25)', 'Adulto (26-40)', 'Mediana Edad (41-60)', 'Senior (61+)']

# 3. Usamos pd.cut para crear la nueva columna
df['age_group'] = pd.cut(df['driver_age'], bins=bins, labels=labels, right=False)

df.sample(5)

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities,year,month,day_of_week,is_weekend,age_group
19,2023-10-18,Barcelona,Rain,Dark,Male,49,1,0,2023,10,Wednesday,False,Mediana Edad (41-60)
7,2023-04-22,Girona,Clear,Daylight,Female,39,1,0,2023,4,Saturday,True,Adulto (26-40)
12,2023-07-07,Barcelona,Clear,Daylight,Female,29,1,0,2023,7,Friday,False,Adulto (26-40)
8,2023-05-09,Lleida,Rain,Dark,Male,50,1,1,2023,5,Tuesday,False,Mediana Edad (41-60)
1,2023-01-18,Tarragona,Rain,Dark,Female,31,1,1,2023,1,Wednesday,False,Adulto (26-40)


---
### ✏️ Ejercicio 2

Usando el DataFrame `df` ya limpio y transformado:

1.  Crea un nuevo DataFrame llamado `df_barcelona_fatal` que contenga únicamente los siniestros ocurridos en 'Barcelona' que hayan tenido al menos 1 fallecido (`fatalities >= 1`).
2.  ¿Cuántos siniestros con lluvia (`weather == 'Rain'`) ocurrieron en fin de semana (`is_weekend == True`)? Simplemente muestra el número de filas del DataFrame resultante.
3.  Crea un DataFrame llamado `df_jovenes_noche` que contenga los siniestros de conductores del grupo 'Joven (0-25)' que ocurrieron en condiciones de oscuridad (`light_conditions == 'Dark'`).
4.  ¿Cuál es la media de vehículos implicados (`vehicles_involved`) en los siniestros del grupo `df_jovenes_noche`?

In [3]:
# Solución Ejercicio 2

### Mensaje Clave

Ahora puedes coger un fichero de datos "sucio" del mundo real, cargarlo en Pandas, inspeccionarlo, limpiarlo, transformarlo y prepararlo para un análisis riguroso o una visualización. ¡Has adquirido una de las habilidades más importantes en la ciencia de datos!

## 4. Respondiendo preguntas con manipulación de datos

Ahora que sabemos seleccionar y transformar, podemos empezar a **agregar** datos para responder preguntas más complejas. La pregunta que guiará esta sección es:

**"¿Cuál es la siniestralidad media por región y por condición meteorológica?"**

Para responderla, necesitamos aprender dos operaciones clave: `sort_values()` y `groupby()`.

### Ordenando datos con `.sort_values()`

Podemos ordenar un DataFrame por una o más columnas.


In [168]:
# Ordenar por edad del conductor, de mayor a menor
df.sort_values(by='driver_age', ascending=False).head()

Unnamed: 0,date,region,weather,light_conditions,gender,driver_age,vehicles_involved,fatalities,year,month,day_of_week,is_weekend,age_group
5,2023-03-20,Tarragona,Rain,Dark,Male,65,1,2,2023,3,Monday,False,Senior (61+)
16,2023-09-10,Girona,Clear,Daylight,Male,62,1,0,2023,9,Sunday,True,Senior (61+)
4,2023-03-01,Lleida,Clear,Daylight,Female,58,2,1,2023,3,Wednesday,False,Mediana Edad (41-60)
14,2023-08-01,Tarragona,Rain,Daylight,Male,55,1,0,2023,8,Tuesday,False,Mediana Edad (41-60)
21,2023-11-26,Lleida,Rain,Dark,Female,51,1,0,2023,11,Sunday,True,Mediana Edad (41-60)


### Agrupación y Agregación: `.groupby()`

Esta es la herramienta más potente para el análisis de datos. Nos permite seguir el patrón **"Split-Apply-Combine"** (Dividir-Aplicar-Combinar):

1.  **Split (Dividir):** Dividir el DataFrame en grupos basados en alguna categoría (p. ej., agrupar por `region`).
2.  **Apply (Aplicar):** Aplicar una función a cada grupo de forma independiente (p. ej., calcular la media de `fatalities` para cada región).
3.  **Combine (Combinar):** Combinar los resultados en una nueva estructura de datos.


In [169]:
# Agrupamos por región y calculamos la media de las columnas numéricas para cada una
df.groupby('region', observed=True).mean(numeric_only=True)

Unnamed: 0_level_0,driver_age,vehicles_involved,fatalities,year,month,is_weekend
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Barcelona,30.125,1.75,0.5,2023.0,6.125,0.25
Girona,43.0,1.6,0.4,2023.0,6.4,0.8
Lleida,46.8,1.4,0.8,2023.0,7.0,0.2
Tarragona,45.166667,1.5,0.666667,2023.0,6.666667,0.166667


Podemos ser más específicos. Si solo nos interesa la media de `fatalities` y `vehicles_involved`:

In [170]:
df.groupby('region', observed=True)[['fatalities', 'vehicles_involved']].mean()

Unnamed: 0_level_0,fatalities,vehicles_involved
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,0.5,1.75
Girona,0.4,1.6
Lleida,0.8,1.4
Tarragona,0.666667,1.5


#### Agrupación por múltiples columnas

Podemos agrupar por más de una categoría para un análisis más granular.


In [171]:
# Calculamos la media de fallecidos por región Y por condición meteorológica
df.groupby(['region', 'weather'], observed=True)['fatalities'].mean()

region     weather
Barcelona  Clear      0.666667
           Fog        0.000000
           Rain       0.000000
Girona     Clear      0.250000
           Fog        1.000000
Lleida     Clear      1.000000
           Fog        1.000000
           Rain       0.500000
Tarragona  Clear      0.500000
           Fog        0.000000
           Rain       1.000000
Name: fatalities, dtype: float64

### Encadenamiento de Métodos

Una práctica muy común en Pandas es encadenar operaciones en una sola línea para escribir código más conciso y legible.

Por ejemplo, para responder nuestra pregunta inicial: "¿Cuál es la siniestralidad media por región y por condición meteorológica, mostrando los resultados de mayor a menor?"


In [172]:
(df.groupby(['region', 'weather'], observed=True)['fatalities']
 .mean()
 .sort_values(ascending=False))

region     weather
Girona     Fog        1.000000
Lleida     Clear      1.000000
           Fog        1.000000
Tarragona  Rain       1.000000
Barcelona  Clear      0.666667
Lleida     Rain       0.500000
Tarragona  Clear      0.500000
Girona     Clear      0.250000
Barcelona  Fog        0.000000
           Rain       0.000000
Tarragona  Fog        0.000000
Name: fatalities, dtype: float64

---
### ✏️ Ejercicio 3

Usando el DataFrame `df` limpio:

1.  Calcula la **media** de edad (`driver_age`) y de vehículos implicados (`vehicles_involved`) para cada `gender`.
2.  Encuentra el **máximo** número de fallecidos (`fatalities`) para cada grupo de edad (`age_group`).
3.  Calcula la **mediana** de la edad del conductor (`driver_age`) para cada combinación de `region` y `light_conditions`. Ordena los resultados de forma descendente para ver las combinaciones con la mediana de edad más alta.


In [4]:
# Solución Ejercicio 3