<h1><center>EDA Avanzado con Python</center></h1> 

Parte de un buen entendimiento de los datos y, por lo tanto, del éxito de cualquier proyecto en el que estén involucrados los datos es, realizar un buen **A**nálisis **E**xploratorio de los **D**atos (**EDA**), habitualmente, hemos estado trabajando con archivos de texto plano o con extensión .csv, no obstante y, sobre todo, cuando estamos más volcados en tareas Big Data, el tamaño de estos archivos es importante, en algunas ocasiones puede llegar a ser bastante considerable, es por ello que es necesario considerar empezar a trabajar con diferentes formatos de archivos como los archivos binarios con extensión .parquet (de los que hablaremos y trabajamos en este seminario). 

Posteriormente, no estaremos simplemente realizando agrupaciones, gestionando nulos o viendo la cabezera del dataframe, realizaremos otras tareas más complejas como por ejemplo, conocer diferentes transformaciones que podemos realizar desde pandas en el momento de lectura de los datos en origen, desde una misma función, conociendo bien los parámetros, podemos ahorranos muchas líneas de código. Aprenderemos también a cómo gestionar y transformar distintos tipos de variables, especialmente tipo fecha y categóricas, cómo podemos obtener nuevas categorías para reducir variables categóricas más extensas, dándoles un nuevo formato, finalmente, con los datos limpios, obtendremos algunas métricas para comprender cómo trabajar con objetos series y mostrarlos como un reporte.

## Índice de contenidos

* [1 - Transformación de datos en origen](#item1)
* [2 - Análisis exploratorio de datos](#item2)
* [3 - Obtención de métricas](#item3)

<a name="item1"></a>
## Parte 1

Lo primero, descargamos los datos para realizar el EDA, en este caso, aprovecharemos la fuente Open Data, del ayuntamiento de Madrid, concretamente, datos sobre la accidentalidad de 2019, primero, descargaremos el csv y, comenzaremos a trabajar desde archivos parquet.

El csv puede descargarse desde este enlace https://datos.madrid.es/egob/catalogo/300228-19-accidentes-trafico-detalle.csv 

Si se desea analizar información de varios años de accidentalidad se puede consultar este enlace https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=7c2843010d9c3610VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default

Por supuesto, si se quieren tomar datos reales en portales de Open Data, se recomienda visitar el observatorio de datos abiertos de Madrid https://datos.madrid.es/portal/site/egob podrán encontrarse datos referentes a la Comunidad de Madrid en diferentes formatos (csv, xls, json, etc.). Además, se anima al alumno a seguir investigando más portales de datos abiertos, ya que son datos reales (interesantes para realizar EDA, practicar modelos de ML y tomar ideas para TFM) que ponen a disposición del ciudadano los gobiernos, por ejemplo, prueba a escribir en Google tu ciudad + Open Data.

In [1]:
import pandas as pd
import numpy  as np

In [2]:
# accidentes = pd.read_csv("2019_Accidentalidad.csv") # ParserError  
# accidentes.head()

En primera instancia, nos da un error de parseo, esto quiere decir que, no ha sido capaz de abrir el archivo en formato de filas x columnas con el delimitador por defecto (coma  , ), probamos otro delimitador

In [3]:
accidentes = pd.read_csv("2019_Accidentalidad.csv", sep=";") 
accidentes.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2018S017842,04/02/2019,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
1,2018S017842,04/02/2019,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
2,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,439139603,4470836854,S,
3,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,439139603,4470836854,N,
4,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,439139603,4470836854,N,


Ahora sí, se cargan los datos, pero, si vemos algunas columnas como "rango_edad" que tienen valores desconocido

In [4]:
accidentes.rango_edad.value_counts()

De 40 a 44 años    5744
De 25 a 29 años    5618
De 35 a 39 años    5583
De 30 a 34 años    5468
Desconocido        5294
De 45 a 49 años    4958
De 50 a 54 años    4256
De 21 a 24 años    3353
De 55 a 59 años    3265
De 60 a 64 años    2037
De 18 a 20 años    1536
Más de 74 años     1199
De 65 a 69 años    1033
De 70 a 74 años     732
Menor de 5 años     524
De 10 a 14 años     493
De 6 a 9 años       374
De 15 a 17 años     344
Name: rango_edad, dtype: int64

Estos valores "desconocido" debemos formatearlos como nulos, por lo tanto, deberíamos ir recorriendo cada una de las columnas buscando los valores únicos y formateándolos a NaN, no obstante, ese paso, no es necesario, Pandas nos provee de parámetros en las funciones de lectura de archivos como na_values donde, pasaremos una lista en la que cada coincidencia de la misma, será tratada como un valor nulo.

In [5]:
# Antes de detectar nulos
accidentes.isnull().sum()

num_expediente              0
fecha                       0
hora                        0
localizacion                0
numero                      0
cod_distrito                0
distrito                    0
tipo_accidente              0
estado_meteorológico     5130
tipo_vehiculo             176
tipo_persona                0
rango_edad                  0
sexo                        0
cod_lesividad           21769
lesividad               21769
coordenada_x_utm            0
coordenada_y_utm            0
positiva_alcohol          109
positiva_droga          51649
dtype: int64

In [6]:
# Después de detectar nulos
accidentes = pd.read_csv("2019_Accidentalidad.csv", 
                         sep=";", 
                         na_values=["DESCONOCIDO", 
                                    "DESCONOCIDA", 
                                    "desconocido", 
                                    "desconocida",
                                    "null", 
                                    "NULL", 
                                    "Null"
                                    "Desconocido", 
                                    "Desconocida",
                                    "-"]) 
accidentes.head()

accidentes.isnull().sum()

num_expediente              0
fecha                       0
hora                        0
localizacion                0
numero                      0
cod_distrito                0
distrito                    0
tipo_accidente              0
estado_meteorológico     5130
tipo_vehiculo             176
tipo_persona                0
rango_edad                  0
sexo                        0
cod_lesividad           21769
lesividad               21769
coordenada_x_utm            0
coordenada_y_utm            0
positiva_alcohol          109
positiva_droga          51649
dtype: int64

Una vez reconocidos los valores nulos, vamos a ver qué tipo de dato es cada variable.

In [7]:
accidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51811 entries, 0 to 51810
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   num_expediente        51811 non-null  object 
 1   fecha                 51811 non-null  object 
 2   hora                  51811 non-null  object 
 3   localizacion          51811 non-null  object 
 4   numero                51811 non-null  object 
 5   cod_distrito          51811 non-null  int64  
 6   distrito              51811 non-null  object 
 7   tipo_accidente        51811 non-null  object 
 8   estado_meteorológico  46681 non-null  object 
 9   tipo_vehiculo         51635 non-null  object 
 10  tipo_persona          51811 non-null  object 
 11  rango_edad            51811 non-null  object 
 12  sexo                  51811 non-null  object 
 13  cod_lesividad         30042 non-null  float64
 14  lesividad             30042 non-null  object 
 15  coordenada_x_utm   

Vemos que, una columna en específico "fecha", es de tipo object (podría interpretarse como categórica o cadena de textp), pero, este no es el objectivo, es necesario que sea detectada como datetime, por supuesto, podemos cambiar el tipo con funciones como `to_datetime()` https://dataindependent.com/pandas/pandas-to-datetime-string-to-date-pd-to_datetime/ pero, seguimos teniendo parámetros que nos permiten automatizar estas tareas como, utilizar el parámetro parse_dates

In [8]:
# Después de detectar nulos
accidentes = pd.read_csv("2019_Accidentalidad.csv", 
                         sep=";", 
                         na_values=["DESCONOCIDO", 
                                    "DESCONOCIDA", 
                                    "desconocido", 
                                    "desconocida",
                                    "null", 
                                    "NULL", 
                                    "Null"
                                    "Desconocido", 
                                    "Desconocida",
                                    "-"]
                        , parse_dates=["fecha"]) 
accidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51811 entries, 0 to 51810
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   num_expediente        51811 non-null  object        
 1   fecha                 51811 non-null  datetime64[ns]
 2   hora                  51811 non-null  object        
 3   localizacion          51811 non-null  object        
 4   numero                51811 non-null  object        
 5   cod_distrito          51811 non-null  int64         
 6   distrito              51811 non-null  object        
 7   tipo_accidente        51811 non-null  object        
 8   estado_meteorológico  46681 non-null  object        
 9   tipo_vehiculo         51635 non-null  object        
 10  tipo_persona          51811 non-null  object        
 11  rango_edad            51811 non-null  object        
 12  sexo                  51811 non-null  object        
 13  cod_lesividad   

In [9]:
accidentes.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
1,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
2,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,439139603,4470836854,S,
3,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,439139603,4470836854,N,
4,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,439139603,4470836854,N,


Aunque, todavía quedarían ciertas tareas para mejorar más los datos en origen, es decir, en el momento que son cargados desde pandas, vamos a volcar la información a formato  __parquet__, esto, tiene un propósito, pero primero ¿Qué es Apache **Parquet**?

"*Sabemos que es posible que nunca hayas oído hablar del formato de archivo Apache Parquet con anterioridad. El formato Parquet, es un tipo de fichero que contiene datos (de tipo tabla) en su interior, de forma similar a cuando hablamos del fichero tipo CSV. Aunque parezca obvio, los ficheros parquet tienen extensión .parquet y a diferencia de un CSV, no es un fichero en texto plano (se representa de forma binaria), lo que significa que no lo podemos abrir y examinar con un simple editor de texto. El formato parquet es un tipo de formato de los que clasificamos en orientados-a-columnas (column-oriented file format). Como habrás adivinado, existen otros formatos orientados-a-filas o row-oriented. Tal es el caso de los formatos tipo CSV, TSV o AVRO.*

*Pero, ¿qué significa que un formato de datos sea o esté orientado a filas o a columnas? En un fichero CSV (recordamos, orientado a filas) cada registro es una fila. En Parquet, sin embargo, es cada columna la que se almacena de forma independiente. La diferencia más extrema la notamos cuándo, en un fichero de tipo CSV, queremos leer solamente una columna. A pesar de que solo queremos acceder a la información de una columna, por el tipo de formato, tenemos irremediablemente que leer todas las filas de la tabla. Cuando usamos formato Parquet, cada columna es accesible de forma independiente al resto. Como los datos en cada columna se espera que sean homogéneos (del mismo tipo), el formato parquet abre un sin fin de posibilidades a la hora de codificar, comprimir y optimizar el almacenamiento de los datos. De lo contrario, si lo que queremos es almacenar datos con el objetivo de leer muchas filas completas muy a menudo, el formato parquet nos penalizará en esas lecturas y no seremos eficientes ya que estamos utilizando orientación a columnas para leer filas.*

*Otra característica de Parquet es que es un formato de datos autodescriptivo que integra el esquema o la estructura dentro de los datos en sí. Es decir, propiedades (o metadatos) de los datos como el tipo (si es un número entero, un real o una cadena de texto), el número de valores, el tipo de compresión (los datos se pueden comprimir para ahorrar espacio), etc. están incluidas en el propio fichero junto con los datos como tal. De esta forma, cualquier programa que se utilice para leer los datos, puede acceder a estos metadatos, para por ejemplo, determinar sin ambigüedades, qué tipo de datos se espera leer en una columna determinada. A quien no le ha pasado de importar un CSV en un programa y encontrarse con que los datos están mal interpretados (números como textos, fechas como números, etc.)*" Fuente: https://datos.gob.es/es/blog/por-que-deberias-de-usar-ficheros-parquet-si-procesas-muchos-datos

Más info sobre parquet: https://www.diegocalvo.es/formatos-de-ficheros-big-data/

Como tal, una de sus principales características hemos visto que es el espacio, vamos a exportar estos datos a parquet y, posteriormente revisar cuánto ocupan respecto al mismo archivo como csv.

In [10]:
# Exportamos a csv
accidentes.to_csv("Accidentes_Formated.csv")

# Exportamos a parquet
accidentes.to_parquet("Accidentes_Formated.parquet")

In [11]:
# Observamos la diferencia entre ambos archivos

%ls

 El volumen de la unidad C no tiene etiqueta.
 El n£mero de serie del volumen es: 5CB2-1188

 Directorio de C:\Users\JMMoreno\Desktop\PRESENCIAL_DATA_SCIENCE_5_EDICION\GRUPO_2\6_29_11_2022_Pandas

30/11/2022  15:04    <DIR>          .
30/11/2022  15:04    <DIR>          ..
30/11/2022  15:02    <DIR>          .ipynb_checkpoints
01/12/2020  15:33            25.784 2_2_1_Ejercicio_complementario_Pandas_Numpy.ipynb
07/11/2022  22:58            97.098 2_2_2_EDA_AVANZADO.ipynb
04/05/2021  13:44            52.090 2_2_Pandas.ipynb
21/11/2022  15:17         1.033.035 2_2_Pandas.pdf
21/11/2022  15:17         7.919.269 2_2_Pandas.pptx
07/11/2022  10:40        10.879.202 2019_Accidentalidad.csv
30/11/2022  15:04        11.100.466 Accidentes_Formated.csv
30/11/2022  15:04         1.522.216 Accidentes_Formated.parquet
26/05/2020  16:06         1.538.529 airports.csv
30/11/2020  15:49               411 compras_dos.csv
30/11/2020  15:50               411 compras_tres.csv
13/04/2020  05:53             

<a name="item2"></a>

## 2 - Análisis exploratorio de datos

Leemos los datos como archivo parquet.

In [12]:
# Si da problemas instalar pyarrow
#  si tras instalar pyarrow sigue dando problemas investigar más
#  o, simplemente trabajar con csv

acc_parquet = pd.read_parquet("Accidentes_Formated.parquet")
acc_parquet.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
1,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,
2,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,439139603,4470836854,S,
3,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,439139603,4470836854,N,
4,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,439139603,4470836854,N,


Tal y como hemos visto anteriormente, hemos transformado en origen de datos, la columna fecha como tipo datetime, no obstante, tenemos la columna hora. Atendiendo a los formatos de tipo datetime en python podemos encontrarnos con algo como: **dd/mm/yyyy hh:mm:ss**, por lo tanto, para obtener diferencias completas de fechas y, aprovechar mejor las funciones de date time ¿porqué no concatenar dichas columnas y trabajarlas en formato hora/fecha?

In [13]:
acc_parquet["fecha_ms"] = acc_parquet.fecha + pd.to_timedelta(acc_parquet.hora)

In [14]:
acc_parquet.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,fecha_ms
0,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,,2019-04-02 09:10:00
1,2018S017842,2019-04-02,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,,2019-04-02 09:10:00
2,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,439139603,4470836854,S,,2019-01-01 03:45:00
3,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,439139603,4470836854,N,,2019-01-01 03:45:00
4,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,439139603,4470836854,N,,2019-01-01 03:45:00


Una vez creada la nueva columna con el formato de fecha en hora y minutos, vamos a observar de nuevo los tipos de los datos 

In [15]:
acc_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51811 entries, 0 to 51810
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   num_expediente        51811 non-null  object        
 1   fecha                 51811 non-null  datetime64[ns]
 2   hora                  51811 non-null  object        
 3   localizacion          51811 non-null  object        
 4   numero                51811 non-null  object        
 5   cod_distrito          51811 non-null  int64         
 6   distrito              51811 non-null  object        
 7   tipo_accidente        51811 non-null  object        
 8   estado_meteorológico  46681 non-null  object        
 9   tipo_vehiculo         51635 non-null  object        
 10  tipo_persona          51811 non-null  object        
 11  rango_edad            51811 non-null  object        
 12  sexo                  51811 non-null  object        
 13  cod_lesividad   

Vemos que hay varios datos que pueden ser tratados como category, los cambiamos con pandas categorical. Obtenemos los nombres de dichas columnas

In [16]:
object_columns = acc_parquet.columns[5:15].union(acc_parquet.columns[17:19], sort=False)
object_columns

# Más info sobre funciones sobre Index https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.union.html

Index(['cod_distrito', 'distrito', 'tipo_accidente', 'estado_meteorológico',
       'tipo_vehiculo', 'tipo_persona', 'rango_edad', 'sexo', 'cod_lesividad',
       'lesividad', 'positiva_alcohol', 'positiva_droga'],
      dtype='object')

In [17]:
acc_parquet[object_columns] = acc_parquet[object_columns].astype("category")

In [18]:
acc_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51811 entries, 0 to 51810
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   num_expediente        51811 non-null  object        
 1   fecha                 51811 non-null  datetime64[ns]
 2   hora                  51811 non-null  object        
 3   localizacion          51811 non-null  object        
 4   numero                51811 non-null  object        
 5   cod_distrito          51811 non-null  category      
 6   distrito              51811 non-null  category      
 7   tipo_accidente        51811 non-null  category      
 8   estado_meteorológico  46681 non-null  category      
 9   tipo_vehiculo         51635 non-null  category      
 10  tipo_persona          51811 non-null  category      
 11  rango_edad            51811 non-null  category      
 12  sexo                  51811 non-null  category      
 13  cod_lesividad   

Siguiendo con las transformaciones que podemos realizar sobre variables categóricas, tenemos algunas variables como cod_lesividad que contienen números indicando categorías, el significado literal de estos códigos se encuentra en la variable __lesividad__, no obstante, es muy común que a veces, tengamos que reducir el número de categorías o simplemente, hacerlas más legibles, por lo tanto, ¿qué podemos hacer en estos casos? 

Lo mejor es crear un nuevo tipo categórico que transforme los códigos numéricos en nuevas categorías, en nuestro caso, vamos a transformas esos códigos a categorías y, reducir el número de las mismas, dándoles un nombre más corto y entendible.

A través de diccionarios de datos, podemos establecer clave:valor para cada tipo de lesividad, creando una nueva variable llamada "gravedad" del accidente, que contendrá los siguientes tipos:
+ 14.0:Ileso
+ 3.0:Grave
+ 4.0:Fallecido
+ resto_valores:Leve

A continuación, vemos los valores originales

In [19]:
acc_parquet.lesividad.value_counts()

Sin asistencia sanitaria                                     16609
Asistencia sanitaria sólo en el lugar del accidente           7113
Ingreso inferior o igual a 24 horas                           2157
Asistencia sanitaria inmediata en centro de salud o mutua     1551
Atención en urgencias sin posterior ingreso                   1322
Asistencia sanitaria ambulatoria con posterioridad             715
Ingreso superior a 24 horas                                    539
Fallecido 24 horas                                              34
Se desconoce                                                     2
Name: lesividad, dtype: int64

y los códigos asociados a cada valor literal...

In [20]:
acc_parquet.cod_lesividad.value_counts()

14.0    16609
7.0      7113
2.0      2157
6.0      1551
1.0      1322
5.0       715
3.0       539
4.0        34
77.0        2
Name: cod_lesividad, dtype: int64

In [21]:
# Creamos un tipo categórico para poder hacer los match con la variable
# lesividad
c_gravedad = pd.api.types.CategoricalDtype(
    categories=["Ileso", "Grave", "Leve", "Fallecido"], ordered = True
)
c_gravedad

CategoricalDtype(categories=['Ileso', 'Grave', 'Leve', 'Fallecido'], ordered=True)

In [22]:
# Generamos los valores que harán match con los valores del tipo 
#  categórico creado anteriormente, todos aquellos que no se 
#  encuentren en el diccionario de dato serán Leve
dict_gravedad = {
    14.0 : "Ileso",
    3.0  : "Grave",
    4.0  : "Fallecido"
}

Aplicamos el tipo categórico y el diccionario a una nueva columna llamada "gravedad"

In [23]:
acc_parquet["gravedad"] = acc_parquet.cod_lesividad.map(dict_gravedad).astype(c_gravedad).fillna("Leve")

# acc_parquet["gravedad"] = acc_parquet.cod_lesividad.\
#     apply(func = lambda x: dict_gravedad.get(x, "Leve") \
#                         if ~np.isnan(x) else "Ileso").astype(c_gravedad)

Observamos cómo queda la nueva distribución de los accidentes

In [24]:
acc_parquet.gravedad.value_counts()

Leve         34629
Ileso        16609
Grave          539
Fallecido       34
Name: gravedad, dtype: int64

Una vez que hemos limpiado los datos, los exportamos para posteriormente realizar análisis, por supuesto, de nuevo como parquet.

In [25]:
acc_parquet.to_parquet("accidentes_clean.parquet")

<a name="item3"></a>
## 3 - Obtención de métricas

Obtenemos algunas estadísticas a través de los datos transformados previamente, de nuevo cargamos el dataset en formato parquet

In [26]:
df = pd.read_parquet("accidentes_clean.parquet")

Obtenemos el número de conductores implicados por el tipo de vehículo que conducían y, la gravedad del accidente.

In [27]:
grupos = df[df["tipo_persona"] == "Conductor"].groupby(["tipo_vehiculo", "gravedad"])\
                                                            .count()["num_expediente"]
grupos

tipo_vehiculo        gravedad 
Autobus EMT          Ileso          2
                     Grave          0
                     Leve           1
                     Fallecido      0
Autobús              Ileso        458
                                 ... 
VMU eléctrico        Fallecido      0
Vehículo articulado  Ileso         29
                     Grave          0
                     Leve          70
                     Fallecido      0
Name: num_expediente, Length: 120, dtype: int64

Obtenemos el número porcentaje por tipo de gravedad y tipo de vehículo.

In [28]:
grupos_grav_percentage = grupos.groupby("gravedad").sum() / grupos.sum()
grupos_grav_percentage

gravedad
Ileso        0.323000
Grave        0.007141
Leve         0.669425
Fallecido    0.000434
Name: num_expediente, dtype: float64

In [29]:
grupos_veh_percentage = round(grupos / grupos.groupby("tipo_vehiculo").sum(),2)
grupos_veh_percentage

tipo_vehiculo        gravedad 
Autobus EMT          Ileso        0.67
                     Grave        0.00
                     Leve         0.33
                     Fallecido    0.00
Autobús              Ileso        0.51
                                  ... 
VMU eléctrico        Fallecido    0.00
Vehículo articulado  Ileso        0.29
                     Grave        0.00
                     Leve         0.71
                     Fallecido    0.00
Name: num_expediente, Length: 120, dtype: float64

Finalmente, creamos un indicador sintético basado en el ratio entre el % de accidentes por vehículo y por gravedad, posteriormente, lo mostramos de forma gráfica a través de las opciones de estilo de pandas.

In [30]:
grav_ratio = (grupos_veh_percentage / grupos_grav_percentage) -1
grav_ratio

tipo_vehiculo        gravedad 
Autobus EMT          Ileso        1.074303
                     Grave       -1.000000
                     Leve        -0.507040
                     Fallecido   -1.000000
Autobús              Ileso        0.578947
                                    ...   
VMU eléctrico        Fallecido   -1.000000
Vehículo articulado  Ileso       -0.102167
                     Grave       -1.000000
                     Leve         0.060612
                     Fallecido   -1.000000
Name: num_expediente, Length: 120, dtype: float64

In [31]:
grav_ratio.unstack(1).style.format("{:.0%}").background_gradient(cmap="coolwarm")

gravedad,Ileso,Grave,Leve,Fallecido
tipo_vehiculo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Autobus EMT,107%,-100%,-51%,-100%
Autobús,58%,-100%,-27%,-100%
Autobús articulado,67%,-100%,-31%,-100%
Autocaravana,-7%,-100%,5%,-100%
Bicicleta,-63%,320%,27%,-100%
Bicicleta EPAC (pedaleo asistido),-100%,-100%,49%,-100%
Camión de bomberos,-100%,-100%,49%,-100%
Camión rígido,8%,-100%,-3%,-100%
Caravana,-100%,-100%,49%,-100%
Ciclo,-47%,-100%,24%,-100%
