# Week 4 Workshop: Data Filtering & Selection - Solutions
Solutions to the exercises.

In [1]:
import pandas as pd
import numpy as np

# Load the Traffic Accident Vehicles dataset
df = pd.read_csv('../data/vehiculos_accidentes.csv')
df.head(3)

Unnamed: 0,marca_vehiculo,modelo_vehiculo,tipo_vehiculo,edad_vehiculo,fecha_accidente,gravedad_accidente,departamento_accidente,municipio_accidente,autoridad_de_transito
0,AKT,2026,MOTOCICLETA,1.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
1,BAJAJ,2022,MOTOCICLETA,4.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
2,RENAULT,2021,AUTOMOVIL,5.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA


### Task 1.1: Filter by vehicle type

In [2]:
task1_1 = df[df['tipo_vehiculo'] == 'MOTOCICLETA']
print(f'Number of rows: {len(task1_1)}')
task1_1.head()

Number of rows: 11301


Unnamed: 0,marca_vehiculo,modelo_vehiculo,tipo_vehiculo,edad_vehiculo,fecha_accidente,gravedad_accidente,departamento_accidente,municipio_accidente,autoridad_de_transito
0,AKT,2026,MOTOCICLETA,1.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
1,BAJAJ,2022,MOTOCICLETA,4.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
3,BAJAJ,2017,MOTOCICLETA,10.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
4,BAJAJ,2014,MOTOCICLETA,11.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
5,BAJAJ,2011,MOTOCICLETA,15.0,12/2025,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA


### Task 1.2: Filter by comparison

In [3]:
task1_2 = df[df['edad_vehiculo'] > 15]
print(f'Old vehicles involved in accidents: {len(task1_2)}')
print('Most common brands among them:')
print(task1_2['marca_vehiculo'].value_counts().head())

Old vehicles involved in accidents: 3369
Most common brands among them:
marca_vehiculo
CHEVROLET    864
HYUNDAI      336
RENAULT      243
YAMAHA       195
SUZUKI       190
Name: count, dtype: int64


### Task 1.3: Filter by exact text

In [4]:
task1_3 = df[df['departamento_accidente'] == 'ATLANTICO']
task1_3 = task1_3.sort_values('fecha_accidente')
task1_3.head(10)

Unnamed: 0,marca_vehiculo,modelo_vehiculo,tipo_vehiculo,edad_vehiculo,fecha_accidente,gravedad_accidente,departamento_accidente,municipio_accidente,autoridad_de_transito
19948,AKT,2016,MOTOCICLETA,10.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19939,AKT,2019,MOTOCICLETA,7.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19940,BAJAJ,2010,MOTOCICLETA,16.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19941,BAJAJ,2022,MOTOCICLETA,4.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19942,BAJAJ,2023,MOTOCICLETA,4.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19947,AKT,2023,MOTOCICLETA,3.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19944,TOYOTA,2020,CAMIONETA,6.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19945,RENAULT,2007,AUTOMOVIL,19.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19946,AKT,2023,MOTOCICLETA,4.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA
19943,RENAULT,2022,AUTOMOVIL,4.0,12/2022,CON HERIDOS,ATLANTICO,BARRANQUILLA,STRIA DTAL TTO BARRANQUILLA


### Task 1.4: Filter with not equal

In [5]:
print(f"Total records: {len(df)}")
fatal = df[df['gravedad_accidente'] != 'CON HERIDOS']
print(f"Fatal accidents: {len(fatal)}")
print(f"Percentage: {len(fatal) / len(df) * 100:.1f}%")

Total records: 20000
Fatal accidents: 1352
Percentage: 6.8%


### Task 2.1: Two AND conditions

In [None]:
task2_1 = df[(df['tipo_vehiculo'] == 'MOTOCICLETA') & (df['gravedad_accidente'] == 'CON MUERTOS')]
print(f'Fatal motorcycle accidents: {len(task2_1)}')


### Task 2.2: Three AND conditions

In [None]:
task2_2 = df[(df['tipo_vehiculo'] == 'AUTOMOVIL') & 
             (df['departamento_accidente'] == 'BOGOTA D.C.') & 
             (df['gravedad_accidente'] == 'CON HERIDOS')]
task2_2[['marca_vehiculo', 'modelo_vehiculo']]


### Task 2.3: OR and .isin()

In [None]:
# Approach 1: Using | (OR)
app1 = df[(df['marca_vehiculo'] == 'CHEVROLET') | (df['marca_vehiculo'] == 'TOYOTA') | (df['marca_vehiculo'] == 'MAZDA')]

# Approach 2: Using .isin()
app2 = df[df['marca_vehiculo'].isin(['CHEVROLET', 'TOYOTA', 'MAZDA'])]

# Verify both have the same number of rows
print(f'Approach 1 rows: {len(app1)}')
print(f'Approach 2 rows: {len(app2)}')


### Task 2.4: Mixed AND + OR

In [None]:
task2_4 = df[df['departamento_accidente'].isin(['ANTIOQUIA', 'VALLE DEL CAUCA']) & (df['edad_vehiculo'] > 10)]
task2_4.head()


### Task 2.5: NOT with .isin()

In [None]:
task2_5 = df[~df['tipo_vehiculo'].isin(['MOTOCICLETA', 'BUS'])]
print(f'Count: {len(task2_5)}')
task2_5['tipo_vehiculo'].value_counts()


### Task 3.1: .between() for model year

In [None]:
task3_1 = df[df['modelo_vehiculo'].between(2015, 2020)]
print(f'Records: {len(task3_1)}')
task3_1['modelo_vehiculo'].value_counts().sort_index()


### Task 3.2: .between() for age range

In [None]:
task3_2 = df[df['edad_vehiculo'].between(0, 5)]
print(f'Count: {len(task3_2)}')
print(f'Percentage: {len(task3_2) / len(df) * 100:.1f}%')


### Task 3.3: .str.contains() for text search

In [None]:
task3_3 = df[df['autoridad_de_transito'].str.contains('BOGOTA', na=False)]
task3_3['autoridad_de_transito'].unique()


### Task 3.4: .str.startswith()

In [None]:
task3_4 = df[df['marca_vehiculo'].str.startswith('CH', na=False)]
print(f"Unique brands: {task3_4['marca_vehiculo'].unique()}")
print(f"Total records: {len(task3_4)}")


### Task 3.5: .query() method

In [None]:
# Boolean indexing version (given):
result_bool = df[
    (df['edad_vehiculo'] > 10) &
    (df['departamento_accidente'] == 'ANTIOQUIA') &
    (df['tipo_vehiculo'] == 'MOTOCICLETA')
]

# YOUR CODE HERE - .query() version:
result_query = df.query('edad_vehiculo > 10 and departamento_accidente == "ANTIOQUIA" and tipo_vehiculo == "MOTOCICLETA"')

# Verify:
print(f"Boolean indexing: {len(result_bool)} rows")
print(f".query(): {len(result_query)} rows")


### Question 4.1: Fatal accidents by vehicle type

In [None]:
q4_1 = df[df['gravedad_accidente'] == 'CON MUERTOS']
q4_1['tipo_vehiculo'].value_counts()


**Your interpretation:** Motocicletas are overwhelmingly the most common vehicles involved in fatal accidents compared to other vehicle types.


### Question 4.2: Motorcycle accidents by department

In [None]:
q4_2 = df[df['tipo_vehiculo'] == 'MOTOCICLETA']
q4_2['departamento_accidente'].value_counts().head(10)


**Your interpretation:** Antioquia and Valle del Cauca have the highest number of motorcycle accidents, significantly higher than other departments.


### Question 4.3: Vehicle age and severity

In [None]:
df.groupby('gravedad_accidente')['edad_vehiculo'].mean()


**Your interpretation:** Vehicles involved in fatal accidents seem to have a slightly different average age compared to those that result only in injuries, although the difference might or might not be very substantial depending on the output.


### Question 4.4: Your own question
**Your question:** ¿Cuál es el promedio de edad de los vehículos de tipo 'MOTOCICLETA' que están en accidentes fatales vs accidentes con heridos en 'ANTIOQUIA'?


In [None]:
q4_4 = df[(df['tipo_vehiculo'] == 'MOTOCICLETA') & (df['departamento_accidente'] == 'ANTIOQUIA')]
q4_4.groupby('gravedad_accidente')['edad_vehiculo'].mean()


**Your interpretation:** Se calcularon los promedios de edad de las motocicletas en accidentes en Antioquia, separando por la gravedad del accidente, lo que nos puede dar un indicio si las motocicletas más viejas tienden a estar en accidentes más serios.


### Reflection 1
**Your answer:** `.query()` es bastante útil cuando hay múltiples condiciones ya que hace el código más legible y limpio, como se observó en el último ejercicio de la Parte 3.


### Reflection 2
**Your answer:**
1. ¿Cuáles marcas de vehículos están sobrerrepresentadas en accidentes en proporción a sus ventas?
2. ¿Hay una estacionalidad observable si agrupamos por mes usando la columna de `fecha_accidente` (si hubiese más años/meses disponibles)?
3. ¿Los vehículos más nuevos tienen menos accidentes donde hay muertos en comparación con los más viejos?


### Reflection 3
**Your answer:** 
Es crucial limpiar los datos antes de filtrarlos porque la presencia de valores Nulos o cadenas mal formateadas (p.ej., 'BOGOTA' vs 'BOGOTÁ') puede hacer que los filtros no capturen correctamente toda la información. Esto traería como consecuencia cálculos sesgados y conclusiones erróneas en el análisis posterior.
