# <font color='darkblue'>**PROYECTO INTEGRADOR: <font color='black'>Accidentalidad Vial en Medellín**

## **Grupo 4:**
* Ximena Castañeda Ruiz
* Sara Sandoval Alvarez
* Catalina Betancur Higuita
* Juan Manuel Arredondo


### <font color='056938'>**Base de Incidentes Viales**



In [None]:
import pandas as pd
from datetime import time

file_id_1 = '1bwOGfsBMOvImQ-vfqcRX-VmKcvr73J7D'
df_incidentes = pd.read_csv(f'https://docs.google.com/uc?export=download&id={file_id_1}', sep=';', low_memory=False) # low_memory = False evita advertencias si hay mezcla de tipos de datos en columnas
df_incidentes.columns = [col.strip().replace('\ufeff', '') for col in df_incidentes.columns] # Se limpian los nombres de las columnas

df_incidentes['DIRECCION'] = df_incidentes['DIRECCION'].str.upper().str.strip() # Normalizar direcciones
df_incidentes['FECHA_ACCIDENTE'] = pd.to_datetime(df_incidentes['FECHA_ACCIDENTE'], errors='coerce', dayfirst=True) # Convertir fechas

#Eliminar las columnas que no se necesitan
df_incidentes.drop(columns=['FECHA_ACCIDENTES'], inplace=True)
df_incidentes.drop(columns=['NRO_RADICADO'], inplace=True)
df_incidentes.drop(columns=['DIRECCION ENCASILLADA'], inplace=True)
df_incidentes.drop(columns=['CBML'], inplace=True)
df_incidentes.drop(columns=['EXPEDIENTE'], inplace=True)

# Organizar Fecha
df_incidentes['FECHA'] = df_incidentes['FECHA_ACCIDENTE'].dt.date # Crear nueva columna 'FECHA'
df_incidentes['HORA'] = df_incidentes['FECHA_ACCIDENTE'].dt.time # Crear nueva columna 'HORA'
df_incidentes.drop(columns='FECHA_ACCIDENTE', inplace=True) # Eliminar la columna original

# Separar LOCATION en LATITUD y LONGITUD
df_incidentes['LONGITUD'] = df_incidentes['LOCATION'].apply(lambda x: eval(x)[0] if pd.notnull(x) else None)
df_incidentes['LATITUD'] = df_incidentes['LOCATION'].apply(lambda x: eval(x)[1] if pd.notnull(x) else None)
df_incidentes.drop(columns='LOCATION', inplace=True) # Eliminar la columna original

df_incidentes

Unnamed: 0,AÑO,CLASE_ACCIDENTE,DIRECCION,DISEÑO,GRAVEDAD_ACCIDENTE,MES,NUMCOMUNA,BARRIO,COMUNA,X,Y,CAUSANTE ACCIDENTE,FECHA,HORA,LONGITUD,LATITUD
0,2015,Caida Ocupante,CR 46 CL 43,Tramo de via,Con heridos,10,10,Barrio Colón,La Candelaria,834949.69,1182357.34,Moto-Moto,2015-10-21,05:58:00,-75.568801,6.243123
1,2015,Choque,CR 43 A CL 29,Tramo de via,Solo daños,11,10,San Diego,La Candelaria,834880.17,1180762.02,Vehículo-Vehículo,2015-11-05,03:00:00,-75.569388,6.228700
2,2015,Otro,CR 46 CL 37,Tramo de via,Con heridos,10,02,La Francia,Santa Cruz,837004.94,1188499.17,Vehículo-Moto,2015-10-21,07:40:00,-75.550391,6.298695
3,2015,Atropello,CR 34 CL 112,Tramo de via,Con heridos,10,01,Santo Domingo Savio No. 1,Popular,837688.53,1188663.05,Vehículo-Vehículo,2015-10-21,12:00:00,-75.544220,6.300194
4,2015,Choque,CR 50 CL 14,Tramo de via,Solo daños,11,15,Santa Fé,Guayabal,833903.11,1179469.60,Vehículo-Vehículo,2015-11-03,06:16:00,-75.578181,6.216992
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
270760,2017,Atropello,CR 28 CL 38 F,Lote o Predio,Con heridos,4,09,Loreto,Buenos Aires,836369.48,1181189.27,Vehículo-Vehículo,2017-04-21,17:30:00,-75.555946,6.232600
270761,2017,Caida Ocupante,CL 53 CR 69,Lote o Predio,Con heridos,3,11,Cuarta Brigada,Laureles Estadio,833145.10,1184279.21,Vehículo-Moto,2017-03-10,16:30:00,-75.585152,6.260449
270762,2017,Choque,CR 64 C CL 92,Tramo de via,Solo daños,3,05,Francisco Antonio Zea,Castilla,834679.61,1186944.12,Vehículo-Vehículo,2017-03-10,17:10:00,-75.571359,6.284578
270763,2017,Caida Ocupante,CR 78 A CL 92,Tramo de via,Con heridos,3,06,Kennedy,Doce de Octubre,833380.07,1187500.58,Ciclista-Motociclista,2017-03-10,20:00:00,-75.583113,6.289575


In [None]:
#Agrupamos la columna fecha por su respectiva fecha y hacemos el conteo de cuantos accidentes se presentaron en cada fecha respectivamente
df_agrupado = df_incidentes.groupby('FECHA').size().reset_index(name='NUMERO_INCIDENTES')
df_agrupado

Unnamed: 0,FECHA,NUMERO_INCIDENTES
0,2014-07-04,24
1,2014-07-05,124
2,2014-07-06,85
3,2014-07-07,175
4,2014-07-08,126
...,...,...
2246,2020-08-27,82
2247,2020-08-28,109
2248,2020-08-29,96
2249,2020-08-30,61


### <font color='056938'>**Base de Datos Metereológicos**

In [None]:
import requests
import pandas as pd
url = (
    "https://archive-api.open-meteo.com/v1/archive?"
    "latitude=6.25184&longitude=-75.56359"
    "&start_date=2014-01-01&end_date=2020-12-31"
    "&daily="
    "temperature_2m_max,temperature_2m_min,"
    "apparent_temperature_max,apparent_temperature_min,"
    "wet_bulb_temperature_2m_max,wet_bulb_temperature_2m_min,"
    "precipitation_sum,rain_sum,precipitation_hours,"
    "relative_humidity_2m_max,relative_humidity_2m_min,"
    "dew_point_2m_max,dew_point_2m_min,"
    "wind_speed_10m_max,wind_gusts_10m_max,wind_direction_10m_dominant,"
    "shortwave_radiation_sum,sunshine_duration,"
    "visibility_min,visibility_mean,visibility_max,"
    "soil_moisture_0_to_7cm_mean,soil_moisture_7_to_28cm_mean"
    "&timezone=auto"
)

response = requests.get(url)
data = response.json()
df_climadiario = pd.DataFrame(data["daily"])
df_climadiario["time"] = pd.to_datetime(df_climadiario["time"])
df_climadiario

Unnamed: 0,time,temperature_2m_max,temperature_2m_min,apparent_temperature_max,apparent_temperature_min,wet_bulb_temperature_2m_max,wet_bulb_temperature_2m_min,precipitation_sum,rain_sum,precipitation_hours,...,wind_speed_10m_max,wind_gusts_10m_max,wind_direction_10m_dominant,shortwave_radiation_sum,sunshine_duration,visibility_min,visibility_mean,visibility_max,soil_moisture_0_to_7cm_mean,soil_moisture_7_to_28cm_mean
0,2014-01-01,24.5,15.2,27.6,16.3,18.9,15.0,4.9,4.9,4.0,...,5.6,21.2,92,17.28,33984.21,,,,0.379,0.372
1,2014-01-02,24.3,15.1,27.8,16.2,19.2,15.0,0.3,0.3,2.0,...,5.6,22.3,148,18.81,36628.60,,,,0.374,0.373
2,2014-01-03,23.6,16.1,26.2,17.6,18.7,15.8,1.1,1.1,4.0,...,3.5,18.7,104,15.67,37438.18,,,,0.377,0.372
3,2014-01-04,25.3,15.0,28.6,16.2,19.5,14.9,0.6,0.6,1.0,...,4.2,24.1,105,20.07,37679.29,,,,0.367,0.370
4,2014-01-05,24.8,15.1,28.7,16.3,19.6,15.0,4.4,4.4,7.0,...,4.3,20.9,125,17.15,32924.44,,,,0.377,0.368
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2552,2020-12-27,22.6,14.8,25.7,15.6,20.4,14.6,6.1,6.1,16.0,...,6.8,25.2,256,14.62,33804.71,,,,0.406,0.399
2553,2020-12-28,24.8,16.0,26.5,17.2,18.4,15.5,4.3,4.3,7.0,...,7.6,28.8,80,18.50,38090.78,,,,0.408,0.408
2554,2020-12-29,24.9,14.8,27.4,15.9,18.4,14.6,0.7,0.7,5.0,...,5.5,22.3,67,20.07,38123.22,,,,0.385,0.396
2555,2020-12-30,26.0,15.8,28.4,17.3,18.4,15.5,0.8,0.8,6.0,...,7.9,29.2,66,21.89,38528.94,,,,0.374,0.386


In [None]:
columnas_renombrar = {
    'temperature_2m_max': 'TEMPERATURA_2M_MAX',
    'temperature_2m_min': 'TEMPERATURA_2M_MIN',
    'apparent_temperature_max': 'TEMP_APARENTE_MAX',
    'apparent_temperature_min': 'TEMP_APARENTE_MIN',
    'wet_bulb_temperature_2m_max': 'TEMP_BULBO_HÚMEDO_MAX',
    'wet_bulb_temperature_2m_min': 'TEMP_BULBO_HÚMEDO_MIN',
    'precipitation_sum': 'PRECIPITACIÓN_TOTAL',
    'rain_sum': 'LLUVIA_TOTAL',
    'precipitation_hours': 'HORAS_PRECIPITACIÓN',
    'relative_humidity_2m_max': 'HUMEDAD_RELATIVA_MAX',
    'relative_humidity_2m_min': 'HUMEDAD_RELATIVA_MIN',
    'dew_point_2m_max': 'PUNTO_ROCÍO_MAX',
    'dew_point_2m_min': 'PUNTO_ROCÍO_MIN',
    'wind_speed_10m_max': 'VIENTO_MAX_10M',
    'wind_gusts_10m_max': 'RÁFAGAS_VIENTO_MAX_10M',
    'wind_direction_10m_dominant': 'DIRECCIÓN_VIENTO_DOM',
    'shortwave_radiation_sum': 'RADIACIÓN_SOLAR_TOTAL',
    'sunshine_duration': 'DURACIÓN_SOL',
    'visibility_min': 'VISIBILIDAD_MIN',
    'visibility_mean': 'VISIBILIDAD_MEDIA',
    'visibility_max': 'VISIBILIDAD_MAX',
    'soil_moisture_0_to_7cm_mean': 'HUMEDAD_SUELO_0_7CM',
    'soil_moisture_7_to_28cm_mean': 'HUMEDAD_SUELO_7_28CM'}

df_climadiario = df_climadiario.rename(columns=columnas_renombrar)
df_climadiario

Unnamed: 0,time,TEMPERATURA_2M_MAX,TEMPERATURA_2M_MIN,TEMP_APARENTE_MAX,TEMP_APARENTE_MIN,TEMP_BULBO_HÚMEDO_MAX,TEMP_BULBO_HÚMEDO_MIN,PRECIPITACIÓN_TOTAL,LLUVIA_TOTAL,HORAS_PRECIPITACIÓN,...,VIENTO_MAX_10M,RÁFAGAS_VIENTO_MAX_10M,DIRECCIÓN_VIENTO_DOM,RADIACIÓN_SOLAR_TOTAL,DURACIÓN_SOL,VISIBILIDAD_MIN,VISIBILIDAD_MEDIA,VISIBILIDAD_MAX,HUMEDAD_SUELO_0_7CM,HUMEDAD_SUELO_7_28CM
0,2014-01-01,24.5,15.2,27.6,16.3,18.9,15.0,4.9,4.9,4.0,...,5.6,21.2,92,17.28,33984.21,,,,0.379,0.372
1,2014-01-02,24.3,15.1,27.8,16.2,19.2,15.0,0.3,0.3,2.0,...,5.6,22.3,148,18.81,36628.60,,,,0.374,0.373
2,2014-01-03,23.6,16.1,26.2,17.6,18.7,15.8,1.1,1.1,4.0,...,3.5,18.7,104,15.67,37438.18,,,,0.377,0.372
3,2014-01-04,25.3,15.0,28.6,16.2,19.5,14.9,0.6,0.6,1.0,...,4.2,24.1,105,20.07,37679.29,,,,0.367,0.370
4,2014-01-05,24.8,15.1,28.7,16.3,19.6,15.0,4.4,4.4,7.0,...,4.3,20.9,125,17.15,32924.44,,,,0.377,0.368
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2552,2020-12-27,22.6,14.8,25.7,15.6,20.4,14.6,6.1,6.1,16.0,...,6.8,25.2,256,14.62,33804.71,,,,0.406,0.399
2553,2020-12-28,24.8,16.0,26.5,17.2,18.4,15.5,4.3,4.3,7.0,...,7.6,28.8,80,18.50,38090.78,,,,0.408,0.408
2554,2020-12-29,24.9,14.8,27.4,15.9,18.4,14.6,0.7,0.7,5.0,...,5.5,22.3,67,20.07,38123.22,,,,0.385,0.396
2555,2020-12-30,26.0,15.8,28.4,17.3,18.4,15.5,0.8,0.8,6.0,...,7.9,29.2,66,21.89,38528.94,,,,0.374,0.386


###<font color='orange'> **BASE DE DATOS UNIFICADA**

In [None]:
# Asegurar que ambas columnas 'FECHA' sean del mismo tipo (datetime.date)
df_incidentes["FECHA"] = pd.to_datetime(df_incidentes["FECHA"]).dt.date
df_climadiario["FECHA"] = pd.to_datetime(df_climadiario["time"]).dt.date
df_climadiario.drop(columns="time", inplace=True)  # Eliminar columna duplicada
df_combinado = pd.merge(df_incidentes, df_climadiario, on="FECHA", how="left")

df_combinado

Unnamed: 0,AÑO,CLASE_ACCIDENTE,DIRECCION,DISEÑO,GRAVEDAD_ACCIDENTE,MES,NUMCOMUNA,BARRIO,COMUNA,X,...,VIENTO_MAX_10M,RÁFAGAS_VIENTO_MAX_10M,DIRECCIÓN_VIENTO_DOM,RADIACIÓN_SOLAR_TOTAL,DURACIÓN_SOL,VISIBILIDAD_MIN,VISIBILIDAD_MEDIA,VISIBILIDAD_MAX,HUMEDAD_SUELO_0_7CM,HUMEDAD_SUELO_7_28CM
0,2015,Caida Ocupante,CR 46 CL 43,Tramo de via,Con heridos,10,10,Barrio Colón,La Candelaria,834949.69,...,5.4,21.6,168.0,19.87,34963.92,,,,0.415,0.419
1,2015,Choque,CR 43 A CL 29,Tramo de via,Solo daños,11,10,San Diego,La Candelaria,834880.17,...,5.0,25.9,143.0,14.00,27068.13,,,,0.422,0.423
2,2015,Otro,CR 46 CL 37,Tramo de via,Con heridos,10,02,La Francia,Santa Cruz,837004.94,...,5.4,21.6,168.0,19.87,34963.92,,,,0.415,0.419
3,2015,Atropello,CR 34 CL 112,Tramo de via,Con heridos,10,01,Santo Domingo Savio No. 1,Popular,837688.53,...,5.4,21.6,168.0,19.87,34963.92,,,,0.415,0.419
4,2015,Choque,CR 50 CL 14,Tramo de via,Solo daños,11,15,Santa Fé,Guayabal,833903.11,...,6.5,28.1,219.0,18.20,35030.56,,,,0.412,0.416
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
270760,2017,Atropello,CR 28 CL 38 F,Lote o Predio,Con heridos,4,09,Loreto,Buenos Aires,836369.48,...,3.9,19.4,145.0,20.91,36795.66,,,,0.384,0.382
270761,2017,Caida Ocupante,CL 53 CR 69,Lote o Predio,Con heridos,3,11,Cuarta Brigada,Laureles Estadio,833145.10,...,5.8,33.1,90.0,13.03,21716.20,,,,0.405,0.395
270762,2017,Choque,CR 64 C CL 92,Tramo de via,Solo daños,3,05,Francisco Antonio Zea,Castilla,834679.61,...,5.8,33.1,90.0,13.03,21716.20,,,,0.405,0.395
270763,2017,Caida Ocupante,CR 78 A CL 92,Tramo de via,Con heridos,3,06,Kennedy,Doce de Octubre,833380.07,...,5.8,33.1,90.0,13.03,21716.20,,,,0.405,0.395


In [None]:
print(len(df_incidentes.columns))
print(df_incidentes.columns)
print(len(df_climadiario.columns))
print(df_climadiario.columns)
print(len(df_combinado.columns))
print(df_combinado.columns)

16
Index(['AÑO', 'CLASE_ACCIDENTE', 'DIRECCION', 'DISEÑO', 'GRAVEDAD_ACCIDENTE',
       'MES', 'NUMCOMUNA', 'BARRIO', 'COMUNA', 'X', 'Y', 'CAUSANTE ACCIDENTE',
       'FECHA', 'HORA', 'LONGITUD', 'LATITUD'],
      dtype='object')
24
Index(['TEMPERATURA_2M_MAX', 'TEMPERATURA_2M_MIN', 'TEMP_APARENTE_MAX',
       'TEMP_APARENTE_MIN', 'TEMP_BULBO_HÚMEDO_MAX', 'TEMP_BULBO_HÚMEDO_MIN',
       'PRECIPITACIÓN_TOTAL', 'LLUVIA_TOTAL', 'HORAS_PRECIPITACIÓN',
       'HUMEDAD_RELATIVA_MAX', 'HUMEDAD_RELATIVA_MIN', 'PUNTO_ROCÍO_MAX',
       'PUNTO_ROCÍO_MIN', 'VIENTO_MAX_10M', 'RÁFAGAS_VIENTO_MAX_10M',
       'DIRECCIÓN_VIENTO_DOM', 'RADIACIÓN_SOLAR_TOTAL', 'DURACIÓN_SOL',
       'VISIBILIDAD_MIN', 'VISIBILIDAD_MEDIA', 'VISIBILIDAD_MAX',
       'HUMEDAD_SUELO_0_7CM', 'HUMEDAD_SUELO_7_28CM', 'FECHA'],
      dtype='object')
39
Index(['AÑO', 'CLASE_ACCIDENTE', 'DIRECCION', 'DISEÑO', 'GRAVEDAD_ACCIDENTE',
       'MES', 'NUMCOMUNA', 'BARRIO', 'COMUNA', 'X', 'Y', 'CAUSANTE ACCIDENTE',
       'FECHA', 'HOR