# Notebook 1 ‚Äì Exploraci√≥n de Datos (EDA) con Datos de Accidentes de Tr√°nsito

**Objetivo del notebook:**  
Aprender a realizar una exploraci√≥n de datos (EDA) b√°sica y limpieza inicial usando un dataset real sobre accidentes de tr√°nsito y seguros en distintos estados de EE. UU.

**Dataset:**  
Cada fila representa un estado y contiene indicadores de choques fatales y costos de seguros:

- `Estado`
- `N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas`
- `Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad`
- `Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol`
- `Porcentaje de conductores involucrados en colisiones fatales que no estaban distra√≠dos`
- `Porcentaje de conductores involucrados en colisiones fatales que no hab√≠an estado involucrados en accidentes previos`
- `Primas de seguro de autom√≥vil ($)`
- `P√©rdidas incurridas por las compa√±√≠as de seguros por colisiones por conductor asegurado ($)`

En este notebook vamos a:

1. Importar el dataset y entender su estructura.
2. Revisar tipos de datos, valores faltantes y duplicados.
3. Detectar outliers num√©ricos de forma simple.
4. Crear algunas variables nuevas que tengan sentido anal√≠tico.
5. Dejar un **dataframe limpio y listo** para usar en modelos en el siguiente notebook.



In [47]:
# ============================================================
# 1. Importar librer√≠as y cargar el dataset
# ============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Opciones de visualizaci√≥n
pd.set_option('display.max_columns', None)
plt.style.use('default')

# Cargar el dataset (ajusta la ruta al archivo si es necesario)
# Por ejemplo: 'bad-drivers.csv' en la misma carpeta del notebook
df = pd.read_csv("bad-drivers.csv")

# Mirar las primeras filas
df.head()

Unnamed: 0,Estado,N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas,Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad,Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol,Porcentaje de conductores involucrados en colisiones fatales que no estaban distra√≠dos,Porcentaje de conductores involucrados en colisiones fatales que no hab√≠an estado involucrados en accidentes previos,Primas de seguro de autom√≥vil ($),P√©rdidas incurridas por las compa√±√≠as de seguros por colisiones por conductor asegurado ($)
0,Alabama,18.8,39,30.0,96,80.0,784.55,145.08
1,Alaska,18.1,41,25.0,90,94.0,1053.48,133.93
2,Arizona,18.6,35,28.0,84,96.0,899.47,110.35
3,Arkansas,22.4,18,26.0,94,95.0,827.34,142.39
4,California,12.0,35,28.0,91,89.0,878.41,165.63


## 2. Inspecci√≥n inicial del dataset

En esta secci√≥n queremos responder r√°pidamente:

- ¬øCu√°ntas filas y columnas tiene el dataset?
- ¬øQu√© tipo de dato tiene cada columna?
- ¬øHay valores faltantes?
- ¬øC√≥mo lucen las estad√≠sticas b√°sicas de las columnas num√©ricas?



In [48]:
# Dimensiones del dataset
print("Dimensiones del dataset (filas, columnas):", df.shape)

# Informaci√≥n general de tipos de datos y valores no nulos
df.info()

Dimensiones del dataset (filas, columnas): (52, 8)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 8 columns):
 #   Column                                                                                                                Non-Null Count  Dtype  
---  ------                                                                                                                --------------  -----  
 0   Estado                                                                                                                52 non-null     object 
 1   N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas                              52 non-null     float64
 2   Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad                                  52 non-null     int64  
 3   Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol               

In [49]:
# Estad√≠sticas descriptivas de las columnas num√©ricas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas,52.0,15.723077,4.109989,5.9,12.65,15.45,18.45,23.9
Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad,52.0,31.730769,9.538601,13.0,23.0,34.0,38.0,54.0
Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol,51.0,30.941176,4.692171,23.0,28.0,30.0,33.0,44.0
Porcentaje de conductores involucrados en colisiones fatales que no estaban distra√≠dos,52.0,85.961538,15.012363,10.0,83.5,88.0,95.0,100.0
Porcentaje de conductores involucrados en colisiones fatales que no hab√≠an estado involucrados en accidentes previos,51.0,88.647059,7.036543,76.0,82.5,88.0,95.0,100.0
Primas de seguro de autom√≥vil ($),52.0,893.6375,182.993177,641.96,768.69,860.075,1015.8225,1301.52
P√©rdidas incurridas por las compa√±√≠as de seguros por colisiones por conductor asegurado ($),52.0,134.791538,24.685192,82.75,114.7325,136.59,151.675,194.78


### Preguntas r√°pidas (para discutir en voz alta / comentar en celdas Markdown):

1. ¬øTe llama la atenci√≥n alg√∫n rango de valores (m√≠nimo, m√°ximo, promedio) en las variables num√©ricas?
2. ¬øHay columnas con valores muy diferentes entre el m√≠nimo y el m√°ximo que podr√≠an indicar presencia de **outliers**?
3. ¬øQu√© columnas parecen claramente num√©ricas y cu√°l es la √∫nica claramente categ√≥rica?


## 3. Renombrar columnas a un formato m√°s manejable

Los nombres originales son largos. Vamos a renombrarlos a `snake_case` para facilitar el trabajo en Python.

Adem√°s, esto es una **buena pr√°ctica** para futuros modelos.


In [50]:
# Mostrar nombres de columnas originales
df.columns.tolist()

['Estado',
 'N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas',
 'Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad',
 'Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol',
 'Porcentaje de conductores involucrados en colisiones fatales que no estaban distra√≠dos',
 'Porcentaje de conductores involucrados en colisiones fatales que no hab√≠an estado involucrados en accidentes previos',
 'Primas de seguro de autom√≥vil ($)',
 'P√©rdidas incurridas por las compa√±√≠as de seguros por colisiones por conductor asegurado ($)']

In [51]:
# Diccionario de renombre de columnas

rename_dict = {
    "Estado": "estado",
    "N√∫mero de conductores involucrados en colisiones fatales por cada mil millones de millas": "conductores_fatales_mm_millas",
    "Porcentaje de conductores involucrados en colisiones fatales con exceso de velocidad": "pct_exceso_velocidad",
    "Porcentaje de conductores involucrados en colisiones fatales bajo la influencia del alcohol": "pct_alcohol",
    "Porcentaje de conductores involucrados en colisiones fatales que no estaban distra√≠dos": "pct_no_distraidos",
    "Porcentaje de conductores involucrados en colisiones fatales que no hab√≠an estado involucrados en accidentes previos": "pct_sin_accidentes_previos",
    "Primas de seguro de autom√≥vil ($)": "primas_seguro",
    "P√©rdidas incurridas por las compa√±√≠as de seguros por colisiones por conductor asegurado ($)": "perdidas_por_conductor",
}

# Aplicar el cambio
df = df.rename(columns=rename_dict)

# Verificar
df.head()

Unnamed: 0,estado,conductores_fatales_mm_millas,pct_exceso_velocidad,pct_alcohol,pct_no_distraidos,pct_sin_accidentes_previos,primas_seguro,perdidas_por_conductor
0,Alabama,18.8,39,30.0,96,80.0,784.55,145.08
1,Alaska,18.1,41,25.0,90,94.0,1053.48,133.93
2,Arizona,18.6,35,28.0,84,96.0,899.47,110.35
3,Arkansas,22.4,18,26.0,94,95.0,827.34,142.39
4,California,12.0,35,28.0,91,89.0,878.41,165.63


## 4. Tipos de datos, valores faltantes y duplicados

Antes de hacer modelos o gr√°ficos, debemos asegurarnos de que:

- Cada columna tenga el **tipo de dato correcto** (num√©rico vs categ√≥rico).
- No haya **duplicados** problem√°ticos.
- Conozcamos la magnitud de los **valores faltantes**.


In [52]:
# 4.1 Revisar tipos de datos
df.dtypes

estado                            object
conductores_fatales_mm_millas    float64
pct_exceso_velocidad               int64
pct_alcohol                      float64
pct_no_distraidos                  int64
pct_sin_accidentes_previos       float64
primas_seguro                    float64
perdidas_por_conductor           float64
dtype: object

In [53]:
# Convertir `state` en tipo categ√≥rico (opcional pero recomendable)
df["estado"] = df["estado"].astype("category")

# Verificamos de nuevo
df.dtypes

estado                           category
conductores_fatales_mm_millas     float64
pct_exceso_velocidad                int64
pct_alcohol                       float64
pct_no_distraidos                   int64
pct_sin_accidentes_previos        float64
primas_seguro                     float64
perdidas_por_conductor            float64
dtype: object

In [54]:
# 4.2 Valores faltantes (conteo y porcentaje)
conteo_nulos = df.isna().sum()
nulos_pct = (conteo_nulos / len(df) * 100).round(2)

resumen_nulos = pd.DataFrame({
    "conteo_nulost": conteo_nulos,
    "nulos_pct": nulos_pct
}).sort_values(by="nulos_pct", ascending=False)

resumen_nulos

Unnamed: 0,conteo_nulost,nulos_pct
pct_alcohol,1,1.92
pct_sin_accidentes_previos,1,1.92
conductores_fatales_mm_millas,0,0.0
estado,0,0.0
pct_exceso_velocidad,0,0.0
pct_no_distraidos,0,0.0
primas_seguro,0,0.0
perdidas_por_conductor,0,0.0


In [55]:
# 4.3 Filas duplicadas
num_duplicates = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas en el dataset: {num_duplicates}")

N√∫mero de filas duplicadas en el dataset: 1


### EJERCICIO 1 (para que programen ustedes)

1. Si existieran filas duplicadas, decidan si corresponde eliminarlas o no.  
2. Si existieran valores faltantes, definan una estrategia simple (por ejemplo, eliminar filas con NA en variables cr√≠ticas).

> **Sugerencia**: usen `df.drop_duplicates()` y/o `df.dropna()` o imputaci√≥n sencilla (media/mediana) si tiene sentido.


In [63]:
# EJERCICIO 1: completa la limpieza seg√∫n las decisiones de tu grupo.
# A modo de ejemplo, aqu√≠ dejamos l√≠neas comentadas:

# 1) Eliminar filas completamente duplicadas
df = df.drop_duplicates()

# 2) Si quisieran eliminar filas con NA en alguna columna espec√≠fica:
# cols_criticas = ["drivers_fatal_per_billion_miles", "pct_speeding", "pct_alcohol"]
# df = df.dropna(subset=cols_criticas)

# Muestra la nueva forma del dataframe
df.shape

(51, 8)

## 5. Detecci√≥n simple de outliers (z-score)

Ahora vamos a detectar **outliers** num√©ricos usando un criterio sencillo:

- Para cada columna num√©rica, calculamos el **z-score**.
- Marcamos como outlier aquellos registros con |z| > 3 en al menos una columna.

Esto no es perfecto, pero es un buen primer filtro.

In [64]:
from scipy import stats

# Seleccionar solo columnas num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
numeric_cols

['conductores_fatales_mm_millas',
 'pct_exceso_velocidad',
 'pct_alcohol',
 'pct_no_distraidos',
 'pct_sin_accidentes_previos',
 'primas_seguro',
 'perdidas_por_conductor']

In [58]:
# Calcular z-scores para cada columna num√©rica (ignorando filas con NA)
z_scores = np.abs(stats.zscore(df[numeric_cols], nan_policy='omit'))

# z_scores es un array; construimos una m√°scara de outliers
outlier_mask = (z_scores > 3).any(axis=1)

print(f"N√∫mero de filas marcadas como outlier (|z|>3 en alguna variable num√©rica): {outlier_mask.sum()}")

# Mostrar algunas filas outlier para inspecci√≥n
df[outlier_mask].head()

N√∫mero de filas marcadas como outlier (|z|>3 en alguna variable num√©rica): 2


Unnamed: 0,estado,conductores_fatales_mm_millas,pct_exceso_velocidad,pct_alcohol,pct_no_distraidos,pct_sin_accidentes_previos,primas_seguro,perdidas_por_conductor
24,Mississippi,17.6,15,31.0,10,100.0,896.07,155.77
50,Wisconsin,13.8,36,33.0,39,84.0,670.31,106.62


In [59]:
# Estad√≠sticas descriptivas de las columnas num√©ricas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
conductores_fatales_mm_millas,52.0,15.723077,4.109989,5.9,12.65,15.45,18.45,23.9
pct_exceso_velocidad,52.0,31.730769,9.538601,13.0,23.0,34.0,38.0,54.0
pct_alcohol,51.0,30.941176,4.692171,23.0,28.0,30.0,33.0,44.0
pct_no_distraidos,52.0,85.961538,15.012363,10.0,83.5,88.0,95.0,100.0
pct_sin_accidentes_previos,51.0,88.647059,7.036543,76.0,82.5,88.0,95.0,100.0
primas_seguro,52.0,893.6375,182.993177,641.96,768.69,860.075,1015.8225,1301.52
perdidas_por_conductor,52.0,134.791538,24.685192,82.75,114.7325,136.59,151.675,194.78


## üìå Outliers en la variable `pct_no_distraidos`

Al analizar la distribuci√≥n de esta variable, se identificaron dos valores que se alejan significativamente del rango t√≠pico:

- **Mississippi** ‚Üí `pct_no_distraidos = 10`
- **Wisconsin** ‚Üí `pct_no_distraidos = 39`

Estos valores son **outliers** porque est√°n muy por debajo del resto de los estados y pueden afectar an√°lisis estad√≠sticos y modelos predictivos.


In [60]:
# EJERCICIO 2: decide qu√© hacer con los outliers.

# Ejemplo: eliminar outliers (si el grupo decide hacerlo)
# df_clean = df[~outlier_mask].copy()

# Ejemplo alternativo: mantenerlos, pero copiamos de todos modos
df_clean = df.copy()

df_clean.shape

(52, 8)

## 6. Creaci√≥n de variables nuevas

Vamos a crear algunas variables derivadas que pueden ser √∫tiles luego para modelos:

1. **ratio_losses_premiums**: qu√© proporci√≥n de las primas de seguro se ‚Äúpierde‚Äù en siniestros.  
   \[
   \text{ratio\_losses\_premiums} = \frac{\text{losses\_per\_insured\_driver}}{\text{car\_insurance\_premiums}}
   \]

2. **risk_speed_alcohol**: indicador simple de riesgo combinando % de choques con exceso de velocidad y % con alcohol.  
   \[
   \text{risk\_speed\_alcohol} = \text{pct\_speeding} + \text{pct\_alcohol}
   \]

3. **pct_safe_behaviour**: porcentaje aproximado de conductores que en choques fatales *no estaban distra√≠dos* y *no ten√≠an accidentes previos*.  
   (Esto es una aproximaci√≥n solo para fines did√°cticos.)


In [61]:
# 6.1 Crear ratio de p√©rdidas sobre primas
df_clean["ratio_losses_premiums"] = (
    df_clean["perdidas_por_conductor"] / df_clean["primas_seguro"]
)

# 6.2 Crear indicador combinado de riesgo (velocidad + alcohol)
df_clean["risk_speed_alcohol"] = (
    df_clean["pct_exceso_velocidad"] + df_clean["pct_alcohol"]
)

# 6.3 Aproximaci√≥n de "comportamiento seguro" combinando no distra√≠dos y sin accidentes previos
# Ojo: esto no es una f√≥rmula oficial, solo una aproximaci√≥n pedag√≥gica
df_clean["pct_safe_behaviour"] = (
    df_clean["pct_no_distraidos"] * df_clean["pct_sin_accidentes_previos"] / 100.0
)

df_clean[[
    "estado",
    "primas_seguro",
    "perdidas_por_conductor",
    "ratio_losses_premiums",
    "risk_speed_alcohol",
    "pct_safe_behaviour"
]].head()


Unnamed: 0,estado,primas_seguro,perdidas_por_conductor,ratio_losses_premiums,risk_speed_alcohol,pct_safe_behaviour
0,Alabama,784.55,145.08,0.184921,69.0,76.8
1,Alaska,1053.48,133.93,0.127131,66.0,84.6
2,Arizona,899.47,110.35,0.122683,63.0,80.64
3,Arkansas,827.34,142.39,0.172106,44.0,89.3
4,California,878.41,165.63,0.188557,63.0,80.99


## 7. Selecci√≥n de columnas para modelado

El objetivo del siguiente notebook ser√° construir un **modelo de regresi√≥n lineal**.  
Una opci√≥n razonable es predecir:

- **Target (Y):** `losses_per_insured_driver`  
- **Features (X):** variables que describen el riesgo de choques y las primas.

Ejemplo de columnas para el modelo:

- `drivers_fatal_per_billion_miles`
- `pct_speeding`
- `pct_alcohol`
- `pct_not_distracted`
- `pct_no_previous_accidents`
- `car_insurance_premiums`
- `ratio_losses_premiums`
- `risk_speed_alcohol`
- (y la variable nueva que ustedes definan)


In [62]:
# ==========================
# 3. Seleccionar X e y 
# ==========================

# Variable objetivo (lo que queremos predecir)
target_col = "primas_seguro"

# Variables predictoras (caracter√≠sticas del modelo)
feature_cols = [
    "conductores_fatales_mm_millas",
    "pct_exceso_velocidad",
    "pct_alcohol",
    "pct_no_distraidos",
    "pct_sin_accidentes_previos",
    "perdidas_por_conductor"
]

# Creamos un DataFrame con solo las columnas necesarias
df_model = df_clean[feature_cols + [target_col]].copy()

df_model.head()



Unnamed: 0,conductores_fatales_mm_millas,pct_exceso_velocidad,pct_alcohol,pct_no_distraidos,pct_sin_accidentes_previos,perdidas_por_conductor,primas_seguro
0,18.8,39,30.0,96,80.0,145.08,784.55
1,18.1,41,25.0,90,94.0,133.93,1053.48
2,18.6,35,28.0,84,96.0,110.35,899.47
3,22.4,18,26.0,94,95.0,142.39,827.34
4,12.0,35,28.0,91,89.0,165.63,878.41


## 8. Checkpoint final del Notebook 1

Al terminar este notebook deber√≠as tener:

- Un dataset con nombres de columnas limpios (`snake_case`).
- Tipos de datos adecuados (estado como categor√≠a, resto num√©rico).
- Revisi√≥n (y decisi√≥n) sobre duplicados, valores faltantes y outliers.
- Nuevas variables derivadas con sentido de negocio.
- Un dataframe `model_df` listo para usar en el **Notebook 2 ‚Äì Regresi√≥n Lineal**.

### Preguntas de reflexi√≥n (para 5 minutos finales)

1. ¬øQu√© variable crees que tendr√° mayor impacto en las p√©rdidas de las aseguradoras (`losses_per_insured_driver`) y por qu√©?  
2. ¬øQu√© decisiones de limpieza podr√≠an cambiar fuertemente los resultados de un futuro modelo?  
3. Si tuvieras que explicarle a alguien de negocio lo que hiciste en este notebook, ¬øc√≥mo lo resumir√≠as en 3 frases?

En la pr√≥xima sesi√≥n vamos a:

- Dividir `model_df` en conjuntos de entrenamiento y prueba.
- Entrenar un modelo de **regresi√≥n lineal**.
- Evaluar m√©tricas (MAE, RMSE, R¬≤).
- Analizar la importancia de las variables.

Guarda este notebook: lo vas a reutilizar directamente.
