<a href="https://colab.research.google.com/github/marianaarboleda/pc-para-todas/blob/master/Visualizacion_Usa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Accidentalidad en Barranquilla

Nombre:  Mariana Arboleda

Vamos a continuar explorando nuestros datos, ahora directamente en Python, sin utilizar interfaces gráficas

Descarga los datos aquí: https://drive.google.com/file/d/1x6H6-I7pqUKmvU2LOz19opsbBCmzG4yW/view?usp=drive_link

Y súbelos a tu entorno (el ícono de la carpeta que está a la izquierda)

Siempre importamos los paquetes que vamos a utilizar. En este caso utilizamos Pandas para el manejo de los datos y Plotly para graficar (existen muchas más librerías, pero esta es mi favorita)

In [None]:
config_chart = {
    'scrollZoom': True, 'displaylogo': False, 'responsive': True,
    'editable': True,
    'toImageButtonOptions': {
        'format': 'png',  # one of png, svg, jpeg, webp
        'filename': 'custom_image',
        'height': None,
        'width': None,
        'scale': 6  # Multiply title/legend/axis/canvas sizes by this factor
    }
}

In [None]:
import pandas as pd
import plotly.express as px

Luego leemos los datos y exploramos sus características básicas

In [None]:
accidentes = pd.read_csv('Accidentalidad_en_Barranquilla.csv')

- Revisamos las primeras n filas para tener una idea de cómo se ven los datos. Deepnote es bastante robusto y nos permite visualizar n grandes.

In [None]:
accidentes

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
0,01/01/2015 12:00:00 AM,2015,enero,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,,1
1,01/01/2015 12:00:00 AM,2015,enero,Jue,04:20:00:AM,Solo daños,Choque,CRA 15 CLLE 21,,,1
2,01/01/2015 12:00:00 AM,2015,enero,Jue,04:40:00:PM,Con heridos,Choque,CRA 14 CLLE 35,2.0,,1
3,01/01/2015 12:00:00 AM,2015,enero,Jue,04:50:00:PM,Con heridos,Atropello,CRA 6 CLLE 90,1.0,,1
4,01/01/2015 12:00:00 AM,2015,enero,Jue,06:00:00:AM,Solo daños,Choque,CRA 6 CLLE 92,,,1
...,...,...,...,...,...,...,...,...,...,...,...
42173,11/28/2022 12:00:00 AM,2022,noviembre,Lun,08:30:00:PM,Con heridos,Choque,AV. CIRCUNVALAR CARRERA 3 SUR,2.0,,1
42174,11/29/2022 12:00:00 AM,2022,noviembre,Mar,02:00:00:PM,Con heridos,Choque,CALLE 61 CON CARRERA 25,1.0,,1
42175,11/29/2022 12:00:00 AM,2022,noviembre,Mar,03:00:00:PM,Con heridos,Choque,CALLE 69 CON CRA 49,1.0,,1
42176,11/29/2022 12:00:00 AM,2022,noviembre,Mar,07:05:00:PM,Con heridos,Atropello,CALLE 110 CON CARRERA 55,2.0,,1


- Miramos el tamaño de nuestra base de datos para conocer cuántas filas y columnas tiene

In [None]:
accidentes.shape

(42178, 11)

El resultado anterior significa que nuestros datos tienen 42178 filas y 11 columnas y lo podemos imprimir así:

In [None]:
print(f"El set de datos tiene {accidentes.shape[0]} filas y {accidentes.shape[1]} columnas")

El set de datos tiene 42178 filas y 11 columnas


Por último revisamos qué tan completos están los datos.

In [None]:
accidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42178 entries, 0 to 42177
Data columns (total 11 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   FECHA_ACCIDENTE                   42178 non-null  object 
 1   AÑO_ACCIDENTE                     42178 non-null  object 
 2   MES_ACCIDENTE                     42178 non-null  object 
 3   DIA_ACCIDENTE                     42178 non-null  object 
 4   HORA_ACCIDENTE                    42178 non-null  object 
 5   GRAVEDAD_ACCIDENTE                42178 non-null  object 
 6   CLASE_ACCIDENTE                   42178 non-null  object 
 7   SITIO_EXACTO_ACCIDENTE            42177 non-null  object 
 8   CANT_HERIDOS_EN _SITIO_ACCIDENTE  9756 non-null   float64
 9   CANT_MUERTOS_EN _SITIO_ACCIDENTE  295 non-null    float64
 10  CANTIDAD_ACCIDENTES               42178 non-null  int64  
dtypes: float64(2), int64(1), object(8)
memory usage: 3.5+ MB


Hay muchos datos nulos en las variables CANT_MUERTOS_... y en CANT_HERIDOS_EN... veamos de qué se trata.

## Preprocesamiento

A este paso de "dejar los datos listos" lo llamamos preprocesamiento de datos (data wrangling en los tutoriales de internet). Empecemos por entender qué son los datos nulos y cómo los podemos "rellenar"

In [None]:
accidentes[accidentes['CANT_HERIDOS_EN _SITIO_ACCIDENTE'].isna()]

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
1,01/01/2015 12:00:00 AM,2015,enero,Jue,04:20:00:AM,Solo daños,Choque,CRA 15 CLLE 21,,,1
4,01/01/2015 12:00:00 AM,2015,enero,Jue,06:00:00:AM,Solo daños,Choque,CRA 6 CLLE 92,,,1
5,01/01/2015 12:00:00 AM,2015,enero,Jue,07:50:00:PM,Solo daños,Choque,CALLE 99 CR 56,,,1
6,01/01/2015 12:00:00 AM,2015,enero,Jue,09:25:00:PM,Solo daños,Choque,CL 47 CR 24,,,1
7,01/02/2015 12:00:00 AM,2015,enero,Vie,01:00:00:PM,Solo daños,Choque,CLLE 64 CRA 44,,,1
...,...,...,...,...,...,...,...,...,...,...,...
42058,11/07/2022 12:00:00 AM,2022,noviembre,Lun,04:00:00:AM,Solo daños,Choque,CALLE 64 CON CARRERA 23,,,1
42118,11/16/2022 12:00:00 AM,2022,noviembre,Mié,11:30:00:AM,Solo daños,Choque,CARRERA 42F CON CALLE 76,,,1
42139,11/21/2022 12:00:00 AM,2022,noviembre,Lun,04:10:00:PM,Con muertos,Atropello,CALLE 17 CON CARRERA 34,,1.0,1
42162,11/26/2022 12:00:00 AM,2022,noviembre,Sáb,09:30:00:PM,Solo daños,Choque,CALLE 95 CARRERA 58,,,1


### ¿Qué significan los datos nulos? (responde en wooclap)

"Rellenemos" los datos nulos con un valor más significativo

In [None]:
accidentes.loc[:,'CANT_HERIDOS_EN _SITIO_ACCIDENTE'] = accidentes.loc[:,'CANT_HERIDOS_EN _SITIO_ACCIDENTE'].fillna(0)

### Haz lo mismo para la cantidad de muertos

accidentes.loc[:,'CANT_MUERTOS_EN _SITIO_ACCIDENTE'] = accidentes.loc[:,'CANT_MUERTOS_EN _SITIO_ACCIDENTE'].fillna(0)

In [None]:
accidentes[accidentes['CANT_HERIDOS_EN _SITIO_ACCIDENTE'].isna()]

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES


In [None]:
accidentes

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
0,01/01/2015 12:00:00 AM,2015,enero,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,0.0,1
1,01/01/2015 12:00:00 AM,2015,enero,Jue,04:20:00:AM,Solo daños,Choque,CRA 15 CLLE 21,0.0,0.0,1
2,01/01/2015 12:00:00 AM,2015,enero,Jue,04:40:00:PM,Con heridos,Choque,CRA 14 CLLE 35,2.0,0.0,1
3,01/01/2015 12:00:00 AM,2015,enero,Jue,04:50:00:PM,Con heridos,Atropello,CRA 6 CLLE 90,1.0,0.0,1
4,01/01/2015 12:00:00 AM,2015,enero,Jue,06:00:00:AM,Solo daños,Choque,CRA 6 CLLE 92,0.0,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...
42173,11/28/2022 12:00:00 AM,2022,noviembre,Lun,08:30:00:PM,Con heridos,Choque,AV. CIRCUNVALAR CARRERA 3 SUR,2.0,0.0,1
42174,11/29/2022 12:00:00 AM,2022,noviembre,Mar,02:00:00:PM,Con heridos,Choque,CALLE 61 CON CARRERA 25,1.0,0.0,1
42175,11/29/2022 12:00:00 AM,2022,noviembre,Mar,03:00:00:PM,Con heridos,Choque,CALLE 69 CON CRA 49,1.0,0.0,1
42176,11/29/2022 12:00:00 AM,2022,noviembre,Mar,07:05:00:PM,Con heridos,Atropello,CALLE 110 CON CARRERA 55,2.0,0.0,1


## Ya sabemos qué datos tenemos. Ahora, a pensar como detectives

¿Qué nos podemos preguntar? (Responde en wooclap)

### ¿Qué día suelen suceder más accidentes?

Variable de interés: Cantidad TOTAL de accidentes

Respecto a: los días de la semana

Método de agrupación: suma

El código de abajo crea una tabla dinámica de los datos. En index va la variable que quiero en el eje X, en values va la variable que quiero en el eje Y

In [None]:
pivot = (accidentes
        .pivot_table(
        index=['DIA_ACCIDENTE'],
         values='CANTIDAD_ACCIDENTES',
         aggfunc='sum'))
pivot = pivot.reset_index()
pivot

Unnamed: 0,DIA_ACCIDENTE,CANTIDAD_ACCIDENTES
0,Dom,4028
1,Jue,6235
2,Lun,6077
3,Mar,6714
4,Mié,6348
5,Sáb,6131
6,Vie,6654


In [None]:
fig = px.bar(pivot, x='DIA_ACCIDENTE', y='CANTIDAD_ACCIDENTES',
            color=None,
             facet_row=None, facet_col=None,
             color_discrete_sequence=px.colors.qualitative.Safe,
             barmode='stack',
             text='CANTIDAD_ACCIDENTES'
             )

fig.update_traces(textposition='outside', texttemplate='%{text}')
fig.show()

Pero no tiene sentido ordenar alfabéticamente los días. agregamos el argumento category_orders

In [None]:
fig = px.bar(pivot, x='DIA_ACCIDENTE', y='CANTIDAD_ACCIDENTES', color=None,
             facet_row=None, facet_col=None,
             color_discrete_sequence=px.colors.qualitative.Pastel,
             barmode='stack',
             text='CANTIDAD_ACCIDENTES',
             category_orders={'DIA_ACCIDENTE':['Lun','Mar',
             "Mié",'Jue','Vie','Sáb','Dom']},
             title='Cantidad de accidentes por día de la semana'
             )

fig.update_traces(textposition='outside', texttemplate='%{text}')
fig.show()

### ¿Cómo ha cambiado la cantidad de accidentes según la gravedad, en los últimos años?

Variable de interés: Cantidad de accidentes

Respecto a: Año y gravedad

Agrupación: suma

In [None]:
pivot_2 = accidentes.pivot_table(index=['AÑO_ACCIDENTE','GRAVEDAD_ACCIDENTE'], values='CANTIDAD_ACCIDENTES', aggfunc='sum')
pivot_2 = pivot_2.reset_index()
pivot_2

Unnamed: 0,AÑO_ACCIDENTE,GRAVEDAD_ACCIDENTE,CANTIDAD_ACCIDENTES
0,2015,Con heridos,698
1,2015,Con muertos,31
2,2015,Solo daños,5507
3,2016,Con heridos,701
4,2016,Con muertos,50
5,2016,Solo daños,5770
6,2017,Con heridos,847
7,2017,Con muertos,30
8,2017,Solo daños,5513
9,2018,Con heridos,1731


In [None]:
fig_2 = px.bar(pivot_2, x='AÑO_ACCIDENTE',color='GRAVEDAD_ACCIDENTE',
             y='CANTIDAD_ACCIDENTES',

             facet_row=None, facet_col=None,
             color_discrete_sequence=px.colors.qualitative.Set2,
             barmode='group',
             text='CANTIDAD_ACCIDENTES',
             )

fig_2.update_traces(textposition='outside', texttemplate='%{text}')
fig_2.show()

### Tu pregunta aquí:

In [None]:
### Tu código aquí


Interpreta tu gráfica




### Esto es un proceso cíclico: ¿Necesitamos preparar más nuestros datos?¿Qué otras variables se nos ocurren?

In [None]:
accidentes['MOMENTO_DIA'] = accidentes['HORA_ACCIDENTE'].str[-2:]
accidentes

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES,MOMENTO_DIA
0,01/01/2015 12:00:00 AM,2015,enero,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,,1,PM
1,01/01/2015 12:00:00 AM,2015,enero,Jue,04:20:00:AM,Solo daños,Choque,CRA 15 CLLE 21,0.0,,1,AM
2,01/01/2015 12:00:00 AM,2015,enero,Jue,04:40:00:PM,Con heridos,Choque,CRA 14 CLLE 35,2.0,,1,PM
3,01/01/2015 12:00:00 AM,2015,enero,Jue,04:50:00:PM,Con heridos,Atropello,CRA 6 CLLE 90,1.0,,1,PM
4,01/01/2015 12:00:00 AM,2015,enero,Jue,06:00:00:AM,Solo daños,Choque,CRA 6 CLLE 92,0.0,,1,AM
...,...,...,...,...,...,...,...,...,...,...,...,...
42173,11/28/2022 12:00:00 AM,2022,noviembre,Lun,08:30:00:PM,Con heridos,Choque,AV. CIRCUNVALAR CARRERA 3 SUR,2.0,,1,PM
42174,11/29/2022 12:00:00 AM,2022,noviembre,Mar,02:00:00:PM,Con heridos,Choque,CALLE 61 CON CARRERA 25,1.0,,1,PM
42175,11/29/2022 12:00:00 AM,2022,noviembre,Mar,03:00:00:PM,Con heridos,Choque,CALLE 69 CON CRA 49,1.0,,1,PM
42176,11/29/2022 12:00:00 AM,2022,noviembre,Mar,07:05:00:PM,Con heridos,Atropello,CALLE 110 CON CARRERA 55,2.0,,1,PM


### Estilito: https://plotly.com/python/styling-plotly-express/

### ¿Cuántos accidentes han habido por DÍA y MOMENTO DEL DÍA en total?

In [None]:
## Tabla dinámica



In [None]:
## Gráfica


### ¿Cómo se ven TODOS los accidentes por fecha?

In [None]:
accidentes['FECHA_ACCIDENTE'] = pd.to_datetime(accidentes['FECHA_ACCIDENTE'])
pivot_dia = accidentes.pivot_table(index=['FECHA_ACCIDENTE','MOMENTO_DIA'], values='CANTIDAD_ACCIDENTES', aggfunc='sum').reset_index()


In [None]:
fig_dia = px.line(pivot_dia, x='FECHA_ACCIDENTE', y='CANTIDAD_ACCIDENTES', color='MOMENTO_DIA')
fig_dia.update_traces(marker={
                           "opacity": 0.2,
                          })
fig_dia.show()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=a604fb99-467c-42c5-a40a-2f8acfebb01b' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>