# Análisis Exploratorio de Datos
En este reporte, se llevará a cabo una exploración detallada de los conjuntos de datos asociados con los conjuntos de hechos y víctimas. La meta principal consiste en comprender la organización de estos datos, detectar posibles patrones, y recopilar información significativa que pueda servir como guía para realizar el dashboard en PowerBI.

### Importación de bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Lectura de datos

In [2]:
hechos= pd.read_csv('../Datasets/CSV/hechos.csv')
victimas= pd.read_csv('../Datasets/CSV/victimas.csv')

### Estructura de los Dataframes

Visualizamos las primeras filas de los DataFrames

In [9]:
hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,victima,acusado,vehiculo1,vehiculo2,gravedad
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto,auto,moto,auto,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto,pasajeros,auto,pasajeros,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto,auto,moto,auto,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto,,moto,,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto,pasajeros,moto,pasajeros,fatal


In [10]:
victimas.head()

Unnamed: 0,id_hecho,fecha,rol,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,2016-0001,2016-01-01,conductor,moto,masculino,19.0,fatal
1,2016-0002,2016-01-02,conductor,auto,masculino,70.0,fatal
2,2016-0003,2016-01-03,conductor,moto,masculino,30.0,fatal
3,2016-0004,2016-01-10,conductor,moto,masculino,18.0,fatal
4,2016-0005,2016-01-21,conductor,moto,masculino,29.0,fatal


#### Tipos de datos

In [12]:
print("\nTipos de datos:")
hechos.dtypes # Muestra los tipos de datos de cada columna


Tipos de datos:


id_hecho       object
n_victimas      int64
fecha          object
hh            float64
tipo_calle     object
comuna        float64
longitud      float64
latitud       float64
victima        object
acusado        object
vehiculo1      object
vehiculo2      object
gravedad       object
dtype: object

In [13]:
print("\nTipos de datos:")
print(victimas.dtypes)  # Muestra los tipos de datos de cada columna


Tipos de datos:
id_hecho             object
fecha                object
rol                  object
vehiculo_victima     object
sexo_victima         object
edad_victima        float64
gravedad             object
dtype: object


### Valores nulos

In [24]:
print("\nPorcentaje de valores nulos en 'hechos':")
porcentaje_nulos_hechos = (hechos.isnull().sum() / hechos.shape[0]) * 100
print(round(porcentaje_nulos_hechos, 2).astype(str) + ' %') # Muestra la cantidad de valores nulos por columna


Porcentaje de valores nulos en 'hechos':
id_hecho        0.0 %
n_victimas      0.0 %
fecha           0.0 %
hh             0.04 %
tipo_calle    45.12 %
comuna         5.96 %
longitud       6.06 %
latitud        6.06 %
victima       43.88 %
acusado       62.54 %
vehiculo1     43.88 %
vehiculo2     62.61 %
gravedad        0.0 %
dtype: object


Las columnas tipo_calle, victima, acusado, vehiculo1 y vehiculo2 contienen una cantidad significativa de valores nulos. No obstante, al focalizarnos únicamente en los eventos catalogados con gravedad fatal, se evidenció una reducción considerable en la proporción de valores nulos en estas columnas.

In [25]:
print("\nPorcentaje de valores nulos en 'hechos' de gravedad fatal:")
porcentaje_nulos_hechos = (hechos.loc[hechos['gravedad']=='fatal'].isnull().sum() /hechos.loc[hechos['gravedad']=='fatal'].shape[0]) * 100
print(round(porcentaje_nulos_hechos, 2).astype(str) + ' %') # Muestra la cantidad de valores nulos por columna


Porcentaje de valores nulos en 'hechos' de gravedad fatal:
id_hecho       0.0 %
n_victimas     0.0 %
fecha          0.0 %
hh            0.14 %
tipo_calle    0.29 %
comuna        0.57 %
longitud       2.0 %
latitud        2.0 %
victima       1.29 %
acusado       3.29 %
vehiculo1     1.29 %
vehiculo2     5.72 %
gravedad       0.0 %
dtype: object


In [26]:
print("\nPorcentaje de valores nulos en 'hechos':")
porcentaje_nulos_victimas = (victimas.isnull().sum() / victimas.shape[0]) * 100
print(round(porcentaje_nulos_victimas, 2).astype(str) + ' %') # Muestra la cantidad de valores nulos por columna


Porcentaje de valores nulos en 'hechos':
id_hecho              0.0 %
fecha                 0.0 %
rol                 97.51 %
vehiculo_victima    57.49 %
sexo_victima         7.89 %
edad_victima        15.97 %
gravedad              0.0 %
dtype: object


Se observa que las columnas rol, vehiculo_victima y edad_victima presentan una proporción significativa de valores nulos en el conjunto de datos general. No obstante, si se restringe el  análisis a los accidentes catalogados con gravedad fatal, estas tasas de valores nulos experimentan una notable reducción.

In [27]:
print("\nPorcentaje de valores nulos en 'victimas' de gravedad fatal:")
porcentaje_nulos_victimas = (victimas.loc[victimas['gravedad']=='fatal'].isnull().sum() /victimas.loc[victimas['gravedad']=='fatal'].shape[0]) * 100
print(round(porcentaje_nulos_victimas, 2).astype(str) + ' %') # Muestra la cantidad de valores nulos por columna


Porcentaje de valores nulos en 'victimas' de gravedad fatal:
id_hecho             0.0 %
fecha                0.0 %
rol                 1.53 %
vehiculo_victima    1.26 %
sexo_victima        0.84 %
edad_victima        7.39 %
gravedad             0.0 %
dtype: object


In [28]:
# Cantidad de filas y columnas en el dataframe 'hechos'
print("Cantidad de filas y columnas en el dataframe 'hechos':", hechos.shape)

# Cantidad de filas y columnas en el dataframe 'victimas'
print("Cantidad de filas y columnas en el dataframe 'victimas':", victimas.shape)

Cantidad de filas y columnas en el dataframe 'hechos': (24481, 13)
Cantidad de filas y columnas en el dataframe 'victimas': (28322, 7)




Estadísticas Descriptivas:

Cálculo de estadísticas descriptivas básicas como media, mediana, desviación estándar, etc.
Visualización de Datos:

Creación de gráficos para visualizar la distribución de datos, como histogramas, diagramas de caja (box plots), diagramas de dispersión, etc.
Análisis de Correlación:

Exploración de relaciones entre variables mediante el cálculo de correlaciones.
Manejo de Valores Atípicos:

Identificación y manejo de valores atípicos que podrían afectar el análisis.
Exploración de Relaciones entre Variables:

Análisis de cómo las diferentes variables se relacionan entre sí.
Análisis de Tendencias y Patrones Temporales:

Si el conjunto de datos tiene una dimensión temporal, se deben explorar las tendencias y patrones a lo largo del tiempo.
Segmentación de Datos:

Segmentación de datos para comparar diferentes grupos y entender mejor las variaciones.
Conclusiones Preliminares:

Resumen de las observaciones clave y conclusiones preliminares derivadas del análisis exploratorio.