# Análisis de Accidentes de Motocicleta en EE.UU. usando Python y el Dataset FARS

## Introducción

En esta práctica se desarrolla un análisis exploratorio de datos aplicando herramientas vistas en el curso, como **NumPy**, **Pandas** y **Matplotlib**, con el fin de profundizar en el tratamiento, manipulación y visualización de conjuntos de datos reales y complejos.

El conjunto de datos utilizado proviene de **FARS (Fatality Analysis Reporting System)**, un sistema gestionado por la *Administración Nacional de Seguridad del Tráfico en las Carreteras de Estados Unidos* (NHTSA), que recopila información detallada sobre accidentes de tráfico fatales ocurridos en todo el país.

Este análisis se enfoca exclusivamente en los accidentes de motocicleta, con el propósito de **extraer información relevante para la seguridad vial de los motociclistas**. A través del procesamiento y visualización de estos datos, se espera detectar patrones frecuentes, zonas del cuerpo más afectadas, influencia del uso de casco, factores de riesgo y otros elementos críticos para la prevención de accidentes fatales.

El trabajo se estructura en etapas que incluyen la carga y limpieza de los datos, su análisis descriptivo y la representación gráfica de los resultados más relevantes. Con esto, se busca no solo cumplir los objetivos técnicos de la asignatura, sino también generar una reflexión crítica sobre la importancia del análisis de datos en la toma de decisiones sociales.

---


In [7]:
# SECCIÓN 2 - Carga y exploración inicial de datos
import pandas as pd

# Ruta base donde se encuentran los archivos
ruta = 'Data/'

# Carga de archivos principales
df_person = pd.read_csv(ruta + 'PERSON.csv', encoding='latin1', low_memory=False)
df_vehicle = pd.read_csv(ruta + 'VEHICLE.csv', encoding='latin1', low_memory=False)
df_accident = pd.read_csv(ruta + 'ACCIDENT.csv', encoding='latin1', low_memory=False)

# Vista general
print("Dimensiones de los datasets:")
print(f"PERSON: {df_person.shape}")
print(f"VEHICLE: {df_vehicle.shape}")
print(f"ACCIDENT: {df_accident.shape}")

# Vistazo a las primeras filas de cada uno
print("\nPersonas involucradas:")
display(df_person.head(3))

print("\nVehículos involucrados:")
display(df_vehicle.head(3))

print("\nAccidentes registrados:")
display(df_accident.head(3))

# Comprobación de claves para unión (ST_CASE está en todos)
print("\n¿Hay claves duplicadas en ACCIDENT?")
print(df_accident['ST_CASE'].duplicated().any())  # Debe ser False

# Unión PERSON + VEHICLE (relación de muchos a muchos)
df_per_veh = pd.merge(df_person, df_vehicle, on=['ST_CASE', 'VEH_NO'], how='inner')

# Unión con ACCIDENT (1 a muchos)
df_full = pd.merge(df_per_veh, df_accident, on='ST_CASE', how='left')

# Renombramos la columna BODY_TYP (la que viene de la tabla vehicle)
df_full = df_full.rename(columns={'BODY_TYP_y': 'BODY_TYP'})

print(f"\nDataset combinado final: {df_full.shape}")
display(df_full.head())


Dimensiones de los datasets:
PERSON: (86396, 126)
VEHICLE: (54552, 201)
ACCIDENT: (35935, 81)

Personas involucradas:


Unnamed: 0,STATE,STATENAME,ST_CASE,VE_FORMS,VEH_NO,PER_NO,STR_VEH,COUNTY,DAY,DAYNAME,...,VPICMODEL,VPICMODELNAME,VPICBODYCLASS,VPICBODYCLASSNAME,ICFINALBODY,ICFINALBODYNAME,GVWR_FROM,GVWR_FROMNAME,GVWR_TO,GVWR_TONAME
0,1,Alabama,10001,1,1,1,0,51,1,1,...,2475.0,ES,13.0,Sedan/Saloon,0.0,Not Applicable,11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)",11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)"
1,1,Alabama,10001,1,1,2,0,51,1,1,...,2475.0,ES,13.0,Sedan/Saloon,0.0,Not Applicable,11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)",11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)"
2,1,Alabama,10001,1,1,3,0,51,1,1,...,2475.0,ES,13.0,Sedan/Saloon,0.0,Not Applicable,11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)",11.0,"Class 1: 6,000 lbs. or less (2,722 kg or less)"



Vehículos involucrados:


Unnamed: 0,STATE,STATENAME,ST_CASE,VEH_NO,VE_FORMS,NUMOCCS,NUMOCCSNAME,DAY,DAYNAME,MONTH,...,GVWR_FROM,GVWR_FROMNAME,GVWR_TO,GVWR_TONAME,TRLR1GVWR,TRLR1GVWRNAME,TRLR2GVWR,TRLR2GVWRNAME,TRLR3GVWR,TRLR3GVWRNAME
0,1,Alabama,10001,1,1,4,4,1,1,1,...,11,"Class 1: 6,000 lbs. or less (2,722 kg or less)",11,"Class 1: 6,000 lbs. or less (2,722 kg or less)",77,No Trailing Units,77,No Trailing Units,77,No Trailing Units
1,1,Alabama,10002,1,4,2,2,2,2,1,...,11,"Class 1: 6,000 lbs. or less (2,722 kg or less)",11,"Class 1: 6,000 lbs. or less (2,722 kg or less)",77,No Trailing Units,77,No Trailing Units,77,No Trailing Units
2,1,Alabama,10002,2,4,1,1,2,2,1,...,12,"Class 2: 6,001 - 10,000 lbs. (2,722 - 4,536 kg)",12,"Class 2: 6,001 - 10,000 lbs. (2,722 - 4,536 kg)",77,No Trailing Units,77,No Trailing Units,77,No Trailing Units



Accidentes registrados:


Unnamed: 0,STATE,STATENAME,ST_CASE,VE_TOTAL,VE_FORMS,PVH_INVL,PEDS,PERNOTMVIT,PERMVIT,PERSONS,...,ARR_HOUR,ARR_HOURNAME,ARR_MIN,ARR_MINNAME,HOSP_HR,HOSP_HRNAME,HOSP_MN,HOSP_MNNAME,FATALS,DRUNK_DR
0,1,Alabama,10001,1,1,0,0,0,4,4,...,3,3:00am-3:59am,10,10,99,Unknown,99,Unknown EMS Hospital Arrival Time,3,1
1,1,Alabama,10002,4,4,0,0,0,6,6,...,17,5:00pm-5:59pm,26,26,99,Unknown,99,Unknown EMS Hospital Arrival Time,1,0
2,1,Alabama,10003,2,2,0,0,0,2,2,...,15,3:00pm-3:59pm,15,15,99,Unknown,99,Unknown EMS Hospital Arrival Time,1,0



¿Hay claves duplicadas en ACCIDENT?
False

Dataset combinado final: (77790, 405)


Unnamed: 0,STATE_x,STATENAME_x,ST_CASE,VE_FORMS_x,VEH_NO,PER_NO,STR_VEH,COUNTY_x,DAY_x,DAYNAME_x,...,ARR_HOUR,ARR_HOURNAME,ARR_MIN,ARR_MINNAME,HOSP_HR,HOSP_HRNAME,HOSP_MN,HOSP_MNNAME,FATALS,DRUNK_DR
0,1,Alabama,10001,1,1,1,0,51,1,1,...,3,3:00am-3:59am,10,10,99,Unknown,99,Unknown EMS Hospital Arrival Time,3,1
1,1,Alabama,10001,1,1,2,0,51,1,1,...,3,3:00am-3:59am,10,10,99,Unknown,99,Unknown EMS Hospital Arrival Time,3,1
2,1,Alabama,10001,1,1,3,0,51,1,1,...,3,3:00am-3:59am,10,10,99,Unknown,99,Unknown EMS Hospital Arrival Time,3,1
3,1,Alabama,10001,1,1,4,0,51,1,1,...,3,3:00am-3:59am,10,10,99,Unknown,99,Unknown EMS Hospital Arrival Time,3,1
4,1,Alabama,10002,4,1,1,0,73,2,2,...,17,5:00pm-5:59pm,26,26,99,Unknown,99,Unknown EMS Hospital Arrival Time,1,0


In [15]:
print(df_motos.columns.tolist())

['STATE_x', 'STATENAME_x', 'ST_CASE', 'VE_FORMS_x', 'VEH_NO', 'PER_NO', 'STR_VEH', 'COUNTY_x', 'DAY_x', 'DAYNAME_x', 'MONTH_x', 'MONTHNAME_x', 'HOUR_x', 'HOURNAME_x', 'MINUTE_x', 'MINUTENAME_x', 'RUR_URB_x', 'RUR_URBNAME_x', 'FUNC_SYS_x', 'FUNC_SYSNAME_x', 'HARM_EV_x', 'HARM_EVNAME_x', 'MAN_COLL_x', 'MAN_COLLNAME_x', 'SCH_BUS_x', 'SCH_BUSNAME_x', 'MAKE_x', 'MAKENAME_x', 'MAK_MOD_x', 'MAK_MODNAME_x', 'BODY_TYP_x', 'BODY_TYPNAME_x', 'MOD_YEAR_x', 'MOD_YEARNAME_x', 'TOW_VEH_x', 'TOW_VEHNAME_x', 'SPEC_USE_x', 'SPEC_USENAME_x', 'EMER_USE_x', 'EMER_USENAME_x', 'ROLLOVER_x', 'ROLLOVERNAME_x', 'IMPACT1_x', 'IMPACT1NAME_x', 'FIRE_EXP_x', 'FIRE_EXPNAME_x', 'AGE', 'AGENAME', 'SEX', 'SEXNAME', 'PER_TYP', 'PER_TYPNAME', 'INJ_SEV', 'INJ_SEVNAME', 'SEAT_POS', 'SEAT_POSNAME', 'REST_USE', 'REST_USENAME', 'REST_MIS', 'REST_MISNAME', 'AIR_BAG', 'AIR_BAGNAME', 'EJECTION', 'EJECTIONNAME', 'EJ_PATH', 'EJ_PATHNAME', 'EXTRICAT', 'EXTRICATNAME', 'DRINKING', 'DRINKINGNAME', 'ALC_DET', 'ALC_DETNAME', 'ALC_STATUS

In [12]:
import numpy as np

# Filtrar solo conductores de motocicleta
df_motos = df_full[
    (df_full['PER_TYP'] == 1) &  # Conductor
    (df_full['BODY_TYP'].between(64, 67))  # Motocicleta
].copy()

print(f"Cantidad de motociclistas identificados: {df_motos.shape[0]}")

# Reemplazar valores en columnas clave
df_motos['HELM_USE'] = df_motos['HELM_USE'].replace({
    1: 'Sí',
    2: 'No',
    9: 'Desconocido'
})

df_motos['INJ_SEV'] = df_motos['INJ_SEV'].replace({
    0: 'Sin lesión',
    1: 'Lesión leve',
    2: 'Lesión moderada',
    3: 'Lesión grave',
    4: 'Fallecido',
    5: 'Desconocido'
})

df_motos['SEX'] = df_motos['SEX'].replace({
    1: 'Hombre',
    2: 'Mujer',
    9: 'Desconocido'
})

# Limpiar edades y descartar valores atípicos
df_motos = df_motos[df_motos['AGE'].between(10, 100)]

# Revisión general
print("\nResumen de variables clave:")
print(df_motos[['INJ_SEV', 'HELM_USE', 'AGE', 'SEX', 'WEATHER', 'HOUR', 'DRUGS']].describe(include='all'))


Cantidad de motociclistas identificados: 3376

Resumen de variables clave:
           INJ_SEV  HELM_USE          AGE     SEX      WEATHER         HOUR  \
count         3365    3365.0  3365.000000    3365  3365.000000  3365.000000   
unique           7       NaN          NaN       3          NaN          NaN   
top     Sin lesión       NaN          NaN  Hombre          NaN          NaN   
freq          2168       NaN          NaN    3246          NaN          NaN   
mean           NaN      20.0    47.060327     NaN     8.122140    12.010401   
std            NaN       0.0    13.331888     NaN    22.343103     7.471958   
min            NaN      20.0    15.000000     NaN     1.000000     0.000000   
25%            NaN      20.0    37.000000     NaN     1.000000     7.000000   
50%            NaN      20.0    48.000000     NaN     1.000000    12.000000   
75%            NaN      20.0    57.000000     NaN     2.000000    17.000000   
max            NaN      20.0    88.000000     NaN    99.