## **DATASET OBLIGATORIO: *HOMICIDIOS***

### Importando librerías

In [1]:
import pandas as pd
import openpyxl

### Extracción y lectura de los datasets

`** NOTA ACLARATORIA **`
- Al momento de ver inicialmente el archivo de homicidios.xlsx se vio la necesidad de obtener la lista de las Comunas de CABA para saber a qué correspondían los valores numéricos indicados en este libro. Para tal fin, se ingresó a la página web del gobierno de CABA: https://buenosaires.gob.ar/comunas y se elaboró manualmente en Excel la lista partir de los valores mostrados en dicha página web.

In [2]:
deaths_facts = pd.read_excel("datasets/homicidios.xlsx", sheet_name="HECHOS")
deaths_victims = pd.read_excel("datasets/homicidios.xlsx", sheet_name="VICTIMAS")
communities= pd.read_excel("datasets/comunas.xlsx")

### Revisión panorámica de los datos correspondiente a `homicidios - hechos`

In [3]:
deaths_facts

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,,MOM,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,,LACARRA AV.,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,,TERRADA,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,4071.0,,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


In [4]:
deaths_facts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

### Plan de acción de las transformaciones a realizar en `homicidios - hechos`

Por diferencia se determinan las siguientes 4 columnas con datos nulos:
- **Calle**: un solo dato nulo.
- **Dirección Normalizada**: 8 nulos. 
- **Cruce**: 171 nulos (casi la cuarta parte de los datos).
- **Altura**: 567 nulos (más del 80% de los datos).

Tras la revisión exhaustiva de los datos y los nulos determinados, se toman las siguientes decisiones en función a la relevancia de los datos con respecto a los análisis a realizar posteriormente:

1° Llenar los nulos de la columna **Dirección Normalizada** con los de la columna **LUGAR_DEL_HECHO**.

2° Eliminar las columnas:
- **HORA**: ya se encuentra su valor en la columna **HH** y no se necesita ser tan precisos, es decir, se prescinde de los minutos.
- **LUGAR_DEL_HECHO**: porque sus datos están en la columna **Dirección Normalizada**.
- **Altura**: es numeración de la calle y la mayoria de los casos se producen en cruces, además sus datos también están en la columna **Dirección Normalizada**, al final.
- **XY (CABA)**: porque tiene información geoespacial, la cual está también en las columnas de coordenadas **pos x** y **pos y**.
- **PARTICIPANTES**: porque sus datos están en las columnas **VICTIMA** y **ACUSADO**.

3° Cambiar los tipos de datos de las siguientes columnas:
- **HH** a *int*, pero antes cambiar el valor del registro con valor "SD" a Nan.
- **pos x** y **pos y** a *float64*.

4° Reclasificar los valores en la columna:
- **TIPO_DE_CALLE**: de "GRAL PAZ" a "AUTOPISTA" porque así es la verdadera clasificación.
- **Cruce**: todos los que tenga datos (525) serán *CRUCE*, si están en blanco (NaN), *NO es cruce* (171).

5° Notificar a la autoridad competente de un gran problema de seguridad en el sistema de gestión de los datos de los siniestros viales porque no es posible que existan dos muertos y no se tenga datos principales al respecto, sólo se sabe las fechas y una hora:
- *Id del hecho*: 2016-0151 || 2016-0174
- *Fecha y hora*: 18/11/2016 20:35 || 27/12/2016

6° Eliminar los registros indicados en el punto anterior ya que no sería los únicos que no existan. Hay varios hechos cuyos ID no están correlativamente.

7° Crear la columna **DOW** para almacenar el día de semana correspondiente a la fecha del hecho.

8° Normalizar manualmente los valores de la columna **Calle** para poder realizar un mejor estudio sobre su correlación con las muertes.

In [5]:
## EJECUCIÓN DEL PLAN DE ACCIÓN ##

# 1° Rellenar las direcciones faltantes
deaths_facts["Dirección Normalizada"] = deaths_facts["Dirección Normalizada"].fillna(deaths_facts["LUGAR_DEL_HECHO"])
deaths_facts[deaths_facts["Dirección Normalizada"].isnull()]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO


In [6]:
# 2° Se eliminan las columnas indicadas
deaths_facts= deaths_facts.drop(columns=['HORA','LUGAR_DEL_HECHO','Altura','XY (CABA)','PARTICIPANTES'])
deaths_facts.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HH', 'TIPO_DE_CALLE',
       'Calle', 'Cruce', 'Dirección Normalizada', 'COMUNA', 'pos x', 'pos y',
       'VICTIMA', 'ACUSADO'],
      dtype='object')

In [7]:
# 3° Cambiar los tipos de valores de las columnas

# 3.1 Cambiar el tipo a la columna HH, pero hacer un cambio previo
deaths_facts.HH = deaths_facts.HH.replace('SD',0)
deaths_facts.HH = deaths_facts.HH.astype(int)

  deaths_facts.HH = deaths_facts.HH.replace('SD',0)


In [8]:
# 3.2 Convertir las coordenadas a tipo numérico (float)
deaths_facts.loc[deaths_facts['pos x']=='.','pos x'] = 0.0
deaths_facts['pos x'] = deaths_facts['pos x'].astype('float64')
deaths_facts['pos x'] = deaths_facts['pos x'].replace(0.0,pd.NA)
deaths_facts.loc[deaths_facts['pos y']=='.','pos y'] = 0.0
deaths_facts['pos y'] = deaths_facts['pos y'].astype('float64')
deaths_facts['pos y'] = deaths_facts['pos y'].replace(0.0,pd.NA)

In [9]:
# 4° Reclasificar los valors de las columnas

# 4.1  Cambiar a todos los que tengan 'GRAL PAZ' a 'AUTOPISTA' para la columna TIPO_DE_CALLE
deaths_facts.loc[deaths_facts.TIPO_DE_CALLE=='GRAL PAZ','TIPO_DE_CALLE']='AUTOPISTA'

In [10]:
# 4.2 "Cruce", primero cambiar los valores en 'CRUCE' y 'NO es cruce'
deaths_facts["Cruce"] = deaths_facts["Cruce"].fillna(False)
deaths_facts.loc[deaths_facts['Cruce'] != False, 'Cruce'] = True
deaths_facts['Cruce'] = deaths_facts['Cruce'].map({False: 'NO es cruce', True: 'CRUCE'})

In [11]:
# 5° Eliminar los 2 registros indicados
deaths_facts = deaths_facts.drop(deaths_facts[ deaths_facts.ID == "2016-0151"].index)
deaths_facts = deaths_facts.drop(deaths_facts[ deaths_facts.ID == "2016-0174"].index)

In [12]:
# 7° Creo una columna nueva "DOW" (day of week) que contenga el nombre del día de la semana, pero en inglés
deaths_facts['DOW'] = deaths_facts['FECHA'].dt.strftime('%A')

# Luego creo un diccionario para modificar a español los nombres de los días de la semana en inglés y lo aplico a "DOW" 
dic={  'Friday':'Vie',
       'Saturday': 'Sáb',
       'Sunday': 'Dom',  
       'Thursday': 'Jue',
        'Monday': 'Lun',
        'Wednesday': 'Mié',
       'Tuesday': 'Mar'}

deaths_facts.DOW=deaths_facts.DOW.replace(dic)

### Consolidación de tablas para `homicidios - hechos`

In [13]:
# Se fusiona por la columna común COMUNA con lo cual se añade la columna "Barrios" que tiene el nombre de cada comuna.

deaths_facts=deaths_facts.merge(communities, on="COMUNA", how="left")

In [14]:
deaths_facts.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HH,TIPO_DE_CALLE,Calle,Cruce,Dirección Normalizada,COMUNA,pos x,pos y,VICTIMA,ACUSADO,DOW,Barrios
0,2016-0001,1,2016-01-01,2016,1,1,4,AVENIDA,PIEDRA BUENA AV.,CRUCE,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,-58.47534,-34.68757,MOTO,AUTO,Vie,"Villa Soldati, Villa Riachuelo y Villa Lugano"
1,2016-0002,1,2016-01-02,2016,1,2,1,AUTOPISTA,"PAZ, GRAL. AV.",CRUCE,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,-58.508775,-34.669777,AUTO,PASAJEROS,Sáb,"Liniers, Mataderos y Parque Avellaneda"
2,2016-0003,1,2016-01-03,2016,1,3,7,AVENIDA,ENTRE RIOS AV.,NO es cruce,ENTRE RIOS AV. 2034,1,-58.390403,-34.631894,MOTO,AUTO,Dom,"Retiro, San Nicolás, Puerto Madero, San Telmo,..."


## Cambio de la columna COMUNA para el EDA

Para un mejor análisis, se crea una variable categórica para la columna COMUNA, agregando el término "Comuna" antes del número

In [15]:
# Agrego el término "Comuna" delante del dato numérico actual
deaths_facts["COMUNA"] = deaths_facts.COMUNA.apply(lambda x: "Comuna "+str(x))

In [16]:
deaths_facts.COMUNA.unique()

array(['Comuna 8', 'Comuna 9', 'Comuna 1', 'Comuna 11', 'Comuna 15',
       'Comuna 4', 'Comuna 7', 'Comuna 12', 'Comuna 3', 'Comuna 13',
       'Comuna 14', 'Comuna 10', 'Comuna 6', 'Comuna 2', 'Comuna 5'],
      dtype=object)

Se realiza un resumen descriptivo de los datos en `homicidios-hechos`

In [17]:
deaths_facts.describe()

Unnamed: 0,N_VICTIMAS,FECHA,AAAA,MM,DD,HH
count,694.0,694,694.0,694.0,694.0,694.0
mean,1.030259,2018-09-16 01:52:02.766570496,2018.194524,6.678674,15.917867,11.645533
min,1.0,2016-01-01 00:00:00,2016.0,1.0,1.0,0.0
25%,1.0,2017-04-04 18:00:00,2017.0,4.0,9.0,6.0
50%,1.0,2018-07-14 12:00:00,2018.0,7.0,16.0,11.0
75%,1.0,2020-01-04 18:00:00,2020.0,10.0,23.0,17.0
max,3.0,2021-12-30 00:00:00,2021.0,12.0,31.0,23.0
std,0.179644,,1.682067,3.566993,8.641515,6.697418


Como hay siniestros que originaron más de una muerte, se determina cuál es el número total de víctimas considerando que se han descartado a 2 por falta de datos y no servirían o afectarían el análisis a realizar

In [18]:
deaths_facts.N_VICTIMAS.sum()

715

## Tratamiento de los datos del dataset `homicidios- víctimas`

De forma similar a lo realizado en la sección anterior, se muestra un resumen del dataframe

In [19]:
deaths_victims.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
 10  Unnamed: 10          2 non-null      object        
dtypes: datetime64[ns](1), int64(3), object(7)
memory usage: 61.7+ KB


Se puede observar que hay 717 víctimas, pero en el de hechos hay 715, entonces se deben borran los registros correspondientes a los 2 ID borrados en el dataframe de hechos

In [20]:
# Eliminar los 2 registros correspondientes a los eliminados en el dataframe de hechos
deaths_victims = deaths_victims.drop(deaths_victims[ deaths_victims.ID_hecho == "2016-0151"].index)
deaths_victims = deaths_victims.drop(deaths_victims[ deaths_victims.ID_hecho == "2016-0174"].index)

### **Transformación de los datos**

#### *1- Conversión de los tipos de datos*

In [21]:
# Cambio la columna FECHA_FALLECIMIENTO a tipo datetime
deaths_victims.FECHA_FALLECIMIENTO = pd.to_datetime(deaths_victims.FECHA_FALLECIMIENTO, format='%Y-%m-%d', errors='coerce')

In [22]:
# Ahora la columna es del tipo datetime (fecha y hora completa) ahora sólo debe quedar en formato fecha sin la hora
deaths_victims.FECHA_FALLECIMIENTO = deaths_victims.FECHA_FALLECIMIENTO.dt.date

#Luego se reemplazan las fechas en cero con espacios vacios a fin de su manipulación
deaths_victims.FECHA_FALLECIMIENTO = deaths_victims.FECHA_FALLECIMIENTO.replace(pd.NaT,"")

In [23]:
#Cambio la columna edad a numerico y luego a tipo entero
deaths_victims.EDAD = pd.to_numeric(deaths_victims.EDAD, errors="coerce")
deaths_victims.EDAD = deaths_victims.EDAD.fillna(0)
deaths_victims.EDAD = deaths_victims.EDAD.astype(int)

In [24]:
deaths_victims.info()

<class 'pandas.core.frame.DataFrame'>
Index: 715 entries, 0 to 716
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             715 non-null    object        
 1   FECHA                715 non-null    datetime64[ns]
 2   AAAA                 715 non-null    int64         
 3   MM                   715 non-null    int64         
 4   DD                   715 non-null    int64         
 5   ROL                  715 non-null    object        
 6   VICTIMA              715 non-null    object        
 7   SEXO                 715 non-null    object        
 8   EDAD                 715 non-null    int32         
 9   FECHA_FALLECIMIENTO  715 non-null    object        
 10  Unnamed: 10          0 non-null      object        
dtypes: datetime64[ns](1), int32(1), int64(3), object(6)
memory usage: 64.2+ KB


In [25]:
deaths_victims.head(3)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,Unnamed: 10
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01,
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02,
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03,


#### *2- Creación de la columna `Rango_Etario`*

Será necesario para el EDA y se genera a partir de la columna **Edad**

In [26]:

# Definir los límites de los rangos etarios y las etiquetas
bins = [0, 20, 40, 60, 80, 100]
labels = ['Menos de 20', ' Entre 21- 40', 'Entre 41-60', 'Entre 61-80', 'Más de 80']

# Utilizar pd.cut() para crear la columna de rango etario
deaths_victims['Rango_Etario'] = pd.cut(deaths_victims['EDAD'], bins=bins, labels=labels, right=False)

deaths_victims.head(3)


Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,Unnamed: 10,Rango_Etario
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01,,Menos de 20
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02,,Entre 61-80
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03,,Entre 21- 40


#### *3- Eliminación de columnas*

Se proceden a eliminar las columnas "FECHA","AAAA","MM","DD" y "VICTIMA" que contienen la misma información que se encuentra en `homicidios_hechos`.

In [27]:
# Se eliminan las columnas repetidas e innecesarias
deaths_victims = deaths_victims.drop(columns=["FECHA","AAAA","MM","DD","VICTIMA",'Unnamed: 10'])
deaths_victims.columns

Index(['ID_hecho', 'ROL', 'SEXO', 'EDAD', 'FECHA_FALLECIMIENTO',
       'Rango_Etario'],
      dtype='object')

## **Consolidación de los datasets**

In [28]:
deaths_victims = deaths_victims.rename(columns={'ID_hecho': 'ID','ROL':'Rol', 'SEXO':'Sexo', 'EDAD':'Edad', 'FECHA_FALLECIMIENTO':'Fecha_Fallec'})
deadly_acc = deaths_facts.merge(deaths_victims, on="ID", how="left")
deadly_acc = deadly_acc.rename(columns={'N_VICTIMAS':'NUM_VICTIMAS','TIPO_DE_CALLE':'TIPO_CALLE','Dirección Normalizada':'Direccion','pos x':'Pos_X', 'pos y':'Pos_Y','DOW':'Dia_Sem'})
deadly_acc.columns

Index(['ID', 'NUM_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HH', 'TIPO_CALLE',
       'Calle', 'Cruce', 'Direccion', 'COMUNA', 'Pos_X', 'Pos_Y', 'VICTIMA',
       'ACUSADO', 'Dia_Sem', 'Barrios', 'Rol', 'Sexo', 'Edad', 'Fecha_Fallec',
       'Rango_Etario'],
      dtype='object')

In [29]:
deadly_acc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 715 entries, 0 to 714
Data columns (total 23 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   ID            715 non-null    object        
 1   NUM_VICTIMAS  715 non-null    int64         
 2   FECHA         715 non-null    datetime64[ns]
 3   AAAA          715 non-null    int64         
 4   MM            715 non-null    int64         
 5   DD            715 non-null    int64         
 6   HH            715 non-null    int32         
 7   TIPO_CALLE    715 non-null    object        
 8   Calle         715 non-null    object        
 9   Cruce         715 non-null    object        
 10  Direccion     715 non-null    object        
 11  COMUNA        715 non-null    object        
 12  Pos_X         704 non-null    object        
 13  Pos_Y         704 non-null    object        
 14  VICTIMA       715 non-null    object        
 15  ACUSADO       715 non-null    object    

In [30]:
deadly_acc.head(3)

Unnamed: 0,ID,NUM_VICTIMAS,FECHA,AAAA,MM,DD,HH,TIPO_CALLE,Calle,Cruce,...,Pos_Y,VICTIMA,ACUSADO,Dia_Sem,Barrios,Rol,Sexo,Edad,Fecha_Fallec,Rango_Etario
0,2016-0001,1,2016-01-01,2016,1,1,4,AVENIDA,PIEDRA BUENA AV.,CRUCE,...,-34.68757,MOTO,AUTO,Vie,"Villa Soldati, Villa Riachuelo y Villa Lugano",CONDUCTOR,MASCULINO,19,2016-01-01,Menos de 20
1,2016-0002,1,2016-01-02,2016,1,2,1,AUTOPISTA,"PAZ, GRAL. AV.",CRUCE,...,-34.669777,AUTO,PASAJEROS,Sáb,"Liniers, Mataderos y Parque Avellaneda",CONDUCTOR,MASCULINO,70,2016-01-02,Entre 61-80
2,2016-0003,1,2016-01-03,2016,1,3,7,AVENIDA,ENTRE RIOS AV.,NO es cruce,...,-34.631894,MOTO,AUTO,Dom,"Retiro, San Nicolás, Puerto Madero, San Telmo,...",CONDUCTOR,MASCULINO,30,2016-01-03,Entre 21- 40


Se realiza un resumen descriptivo de los datos de `accidentes`:

In [31]:
deadly_acc.describe()

Unnamed: 0,NUM_VICTIMAS,FECHA,AAAA,MM,DD,HH,Edad
count,715.0,715,715.0,715.0,715.0,715.0,715.0
mean,1.061538,2018-09-10 20:24:30.209790208,2018.18042,6.675524,15.935664,11.542657,39.159441
min,1.0,2016-01-01 00:00:00,2016.0,1.0,1.0,0.0,0.0
25%,1.0,2017-04-03 00:00:00,2017.0,4.0,9.0,6.0,24.0
50%,1.0,2018-07-10 00:00:00,2018.0,7.0,16.0,11.0,35.0
75%,1.0,2019-12-19 12:00:00,2019.0,10.0,23.0,17.0,55.0
max,3.0,2021-12-30 00:00:00,2021.0,12.0,31.0,23.0,95.0
std,0.257363,,1.671028,3.570954,8.676818,6.697281,21.944092


In [32]:
deadly_acc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 715 entries, 0 to 714
Data columns (total 23 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   ID            715 non-null    object        
 1   NUM_VICTIMAS  715 non-null    int64         
 2   FECHA         715 non-null    datetime64[ns]
 3   AAAA          715 non-null    int64         
 4   MM            715 non-null    int64         
 5   DD            715 non-null    int64         
 6   HH            715 non-null    int32         
 7   TIPO_CALLE    715 non-null    object        
 8   Calle         715 non-null    object        
 9   Cruce         715 non-null    object        
 10  Direccion     715 non-null    object        
 11  COMUNA        715 non-null    object        
 12  Pos_X         704 non-null    object        
 13  Pos_Y         704 non-null    object        
 14  VICTIMA       715 non-null    object        
 15  ACUSADO       715 non-null    object    

## **Archivado de la data procesada para el EDA**

Se guardan los datos del dataframe consolidad como csv para optimizar su manipulación en la siguiente etapa del proyecto.

In [33]:
deadly_acc.to_csv("datasets/deadly_acc.csv", index=False)