<a href="https://colab.research.google.com/github/vanesalinas/HenryPI_DataAnalyst_PT06/blob/main/EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Exploratory Data Analysis (EDA)***
---

> Explorar, entender y evaluar la calidad de los datos es una condicion previa al procesamiento de los mismos. Este analisis nos permitira saber si los datos que tenemos son suficientes para cumplir con el objetivo planteado asi como tambien permite identificar patrones de comportamiento, predecir sucesos e identificar oportunidades para crear un plan de accion que permita alcanzar dicho objetivo.

### ***Cargamos los datos y creamos un DataFrame***

---
Lo primero que haremos es cargar los datos en un DataFrame para poder manipularlos y observarlos.


In [1]:
#importamos las librerías a utilizar

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore') # Para evitar los avisos
%matplotlib inline

In [3]:
#Utilizaremos el parámetro sheet_name para especificar la hoja de debemos leer
df_hechos = pd.read_excel('/content/homicidios.xlsx', sheet_name='HECHOS')
df_victimas = pd.read_excel('/content/homicidios.xlsx', sheet_name='VICTIMAS')

###***Visualizamos el DataFrame***
---

In [4]:
#mostramos los primeros 5 registros en el dataset
df_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [5]:
df_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


### ***Y hacemos una exploracion de los datos***
---

*   Visualizamos la informacion general del DataFrame: la cantidad de datos, nombres de las columnas, indices, tipos de datos y el espacio que ocupa en memoria.
Conocer los tipos de datos de cada columna es importante ya que diferentes tipos de datos requieren diferentes técnicas de manejo y diferentes tipos de operaciones.

In [6]:
df_hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

In [7]:
df_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


*   Tamaño de DataFrame: verificamos la cantidad de filas y columnas de cada DataFrame


In [9]:
df_hechos.shape

(696, 21)

In [10]:
df_victimas.shape

(717, 10)

*   Resumen estadistico: nos muestra estadisticas de los datos numericos como valor minimo y maximo, media, desviacion estandar y cuartiles.



In [11]:
df_hechos.describe()

Unnamed: 0,N_VICTIMAS,AAAA,MM,DD,Altura,COMUNA
count,696.0,696.0,696.0,696.0,129.0,696.0
mean,1.030172,2018.188218,6.692529,15.936782,3336.635659,7.425287
std,0.179393,1.683754,3.571309,8.639646,3060.641793,4.38705
min,1.0,2016.0,1.0,1.0,30.0,0.0
25%,1.0,2017.0,4.0,9.0,1359.0,4.0
50%,1.0,2018.0,7.0,16.0,2551.0,8.0
75%,1.0,2020.0,10.0,23.0,4500.0,11.0
max,3.0,2021.0,12.0,31.0,16080.0,15.0


In [12]:
df_victimas.describe()

Unnamed: 0,AAAA,MM,DD
count,717.0,717.0,717.0
mean,2018.174338,6.688982,15.960948
std,1.672655,3.57514,8.683358
min,2016.0,1.0,1.0
25%,2017.0,4.0,9.0
50%,2018.0,7.0,16.0
75%,2019.0,10.0,23.0
max,2021.0,12.0,31.0


# ***Objetivo***
---

> El Observatorio de Movilidad y Seguridad Vial (OMSV), centro de estudios que se encuentra bajo la órbita de la Secretaría de Transporte del Gobierno de la Ciudad Autónoma de Buenos Aires, nos solicita la elaboración de un proyecto de anális de datos, con el fin de generar información que le permita a las autoridades locales tomar medidas para disminuir la cantidad de víctimas fatales de los siniestros viales.

Objetivo del proyecto de análisis de datos para reducir las víctimas fatales en siniestros viales:

"Utilizar técnicas de análisis de datos para identificar patrones, tendencias y factores de riesgo relacionados con los siniestros viales en la Ciudad Autónoma de Buenos Aires, con el fin de proporcionar información detallada y relevante a las autoridades locales. Esta información será utilizada para diseñar e implementar intervenciones efectivas, basadas en la evidencia proporcionada sobre homicidios en siniestros viales acaecidos en la Ciudad de Buenos Aires durante el periodo 2016-2021, para contribuir a la reducción significativa de la cantidad de víctimas fatales en accidentes de tráfico en el área urbana."




### ***Analisis de los datos***
---
En base a nuestro objetivo comenzaremos a analizar nuestros DataFrame para llegar a las conclusiones necesarias y esperadas para cumplir con éste.

In [18]:
#renombramos la columna ID del df_hechos para poder concatenar los datos de ambos DataFrame
df_hechos = df_hechos.rename(columns={'ID': 'ID_hecho'})

#unimos los DataFrame
df_combinado = pd.merge(df_hechos, df_victimas[['ID_hecho', 'ROL', 'SEXO', 'EDAD', 'FECHA_FALLECIMIENTO']], on='ID_hecho', how='left')

#visualizamos el nuevo DataFrame
df_combinado.head()

Unnamed: 0,ID_hecho,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD,CONDUCTOR,MASCULINO,18,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,29,2016-02-01 00:00:00
