<p align="center">
  <img width="100" height="100" src="../images/logo.png">
</p>

<div>
<h1>01. EDA</h1> 

Canadian Car Accidents Practice <br>
<strong>Aprendizaje Automático</strong> <br>
<strong>Master Universitario en Ciencia de Datos<strong>
</div>

<div style='text-align:right'>Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>

---

## 1.0 Introducción

En este notebook nos disponemos a realizar el análisis del conjunto de datos. Nuestro objetivo es comprender los datos que estamos manejando de forma que podamos tratarlos de la mejor manera posible para poder responder a las necesidades de negocios que se plantean y elaborar los modelos óptimos.

Es IMPORTANTE haber revisado previamente el notebook ```00.Introducción```, en el cual se explican los objetivos de negocio que se tendrán en cuenta al elaborar este análisis.

Para este trabajo estamos utilizando un entorno de propósito espécifico.

In [1]:
# Verificamos el entorno: ML_P1
!conda info


     active environment : ML_P1
    active env location : C:\Users\carviagu\anaconda3\envs\ML_P1
            shell level : 2
       user config file : C:\Users\carviagu\.condarc
 populated config files : 
          conda version : 4.10.3
    conda-build version : 3.21.4
         python version : 3.8.8.final.0
       virtual packages : __cuda=11.3=0
                          __win=0=0
                          __archspec=1=x86_64
       base environment : C:\Users\carviagu\anaconda3  (writable)
      conda av data dir : C:\Users\carviagu\anaconda3\etc\conda
  conda av metadata url : None
           channel URLs : https://repo.anaconda.com/pkgs/main/win-64
                          https://repo.anaconda.com/pkgs/main/noarch
                          https://repo.anaconda.com/pkgs/r/win-64
                          https://repo.anaconda.com/pkgs/r/noarch
                          https://repo.anaconda.com/pkgs/msys2/win-64
                          https://repo.anaconda.com/pkgs/msys2/no

## Librerías

In [27]:
import pandas as pd
import numpy as np

## 1.1 Los Datos

Primer vistazo a los datos

### 1.1.1 Importación

####################Explicación de parquet**

In [9]:
accidents_df = pd.read_parquet("../data/NCDB_1999_to_2014.parquet")

In [10]:
accidents_df.head(5)

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_ID,V_TYPE,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER
0,1999,1,1,20,2,2,34,UU,1,5,...,1,06,1990,1,M,41,11,1,UU,1
1,1999,1,1,20,2,2,34,UU,1,5,...,2,01,1987,1,M,19,11,1,UU,1
2,1999,1,1,20,2,2,34,UU,1,5,...,2,01,1987,2,F,20,13,2,02,2
3,1999,1,1,8,2,1,1,UU,5,3,...,1,01,1986,1,M,46,11,1,UU,1
4,1999,1,1,8,2,1,1,UU,5,3,...,99,NN,NNNN,1,M,5,99,2,UU,3


In [11]:
print('Total de filas del dataset: ', len(accidents_df.index))

Total de filas del dataset:  5860405


In [49]:
print('Total de columnas del dataset: ', len(accidents_df.columns))

Total de columnas del dataset:  22


In [None]:
# SPLIT DE TRAIN Y TEST

### 1.1.2 Diccionario de datos
Para comprender mejor los datos que acabamos de importar se ha elaborado un Diccionario de Datos. Este puede encontrarse en la carpeta ```docs``` del repositorio con el nombre ```DiccionarioDatosESP.pdf```. En el hemos introducido brevemente el dataset y explicado de forma detalla cada variable del mismo. A continuación revisamos su contenido.

El dataset a utilizar es Canadian Car Accidents (```NCDB_1999_to_2014.csv```). Este proporciona información relativa a accidentes por colisiones de vehículos en Canada. A prior, podemos comentar que este dataset posee un total de **22 variables de estudio** o columnas. Que se agrupan en tres grupos: **Datos relativos al accidente**, **Datos relativos al vehículo** y **Datos relativos a la persona(s) involucradas**. 

## 1.2 Análisis: EDA

### 1.2.1 Análisis de tipos
Analizamos el número de columnas, sus nombres y tipos:

Total de columnas del dataset:  22


In [13]:
print('Listado de columnas con su respectivo tipo de dato')
print('--------------------------------------------------')
types_df = accidents_df.dtypes.reset_index()
types_df.columns = ['columna', 'tipo_dato']
types_df

Listado de columnas con su respectivo tipo de dato
--------------------------------------------------


Unnamed: 0,columna,tipo_dato
0,C_YEAR,int64
1,C_MNTH,object
2,C_WDAY,object
3,C_HOUR,object
4,C_SEV,int64
5,C_VEHS,object
6,C_CONF,object
7,C_RCFG,object
8,C_WTHR,object
9,C_RSUR,object


Podemos observar que la mayoría de columnas son tratados como ```object```. Es extraño pues un primer vistazo con la función ```head``` a mostrado que en su mayoría se corresponden con valores enteros, los que sabemos, por el diccionario de datos elaborado, se refieren a categorías. Un estudio más detenido de los datos nos enseña la existencia de valores especiales que justifican la lectura de estas columnas como ```object```, los cuales estudiamos a continuación.

### 1.2.2 Análisis de valores especiales

Estudiamos valores especiales del dataset.

En este dataset los valores especiales se clasifican en tres tipos:
* ```Q```: Este valor indica que se corresponde con una categoría distinta a las demás.
* ```N```: Este valor indica que el criterio de valoración no es aplicable. Este se corresponde generalmente, con tuplas que son valores dummies y por lo tanto no necesita esta información.
* ```U```: Este valor indica que se desconoce, un valor faltante.
* ```X```: Este valor indica que el valor está clasificado y no ha sido proporcionado.

Estos valores, si bien son universales al dataset, no están presentes en todas las variables. Además se presentan de distinta manera, pudiendo presentarse de los siguientes formatos: ```U```, ```UU``` y ```UUUU```.

Estos valores no representan la misma información y por lo tanto deberán tratarse de forma distinta.

A continuación, presentamos una tabla resumen de la existencia de estos valores en el dataset. Cada columna referencia el número de ocurrencias de cada valor (en cualquiera de sus formas) en la columna, el porcentaje sobre el total de valores de la columna, y también el total de los cuatro tipos.

In [42]:
def special_values_summary(df):
    # Valores especiales
    Q = ['Q', 'QQ', 'QQQQ']
    N = ['N', 'NN', 'NNNN']
    U = ['U', 'UU', 'UUUU']
    X = ['X', 'XX', 'XXXX']
    vals_hist = [Q, N, U, X]

    # Conteo y porcentajes
    cols_svals_df = pd.DataFrame(data = df.columns, columns = ['column_name'])

    # Bucle de creación de columnas de conteo
    for value in vals_hist:
    
        totals = list()
        for col in cols_svals_df['column_name']:
            totals.append(df[df[col].isin(value)][col].count())
        
        cols_svals_df[value[0]] = totals
    
        percentajes = list()
        for col in cols_svals_df['column_name']:
            percentajes.append(np.round(cols_svals_df[cols_svals_df['column_name'] == col][value[0]] / 
                                        len(df.index) * 100, decimals = 1)[0])
        
        cols_svals_df[value[0] + '%'] = percentajes
    

    cols_svals_df['total'] = cols_svals_df['Q'] + cols_svals_df['N'] + cols_svals_df['U'] + cols_svals_df['X']
    return cols_svals_df

In [48]:
special_values_summary(accidents_df)

<class 'list'>
<class 'list'>
<class 'list'>
<class 'list'>


Unnamed: 0,column_name,Q,Q%,N,N%,U,U%,X,X%,total
0,C_YEAR,0,[0.0],0,[0.0],0,[0.0],0,[0.0],0
1,C_MNTH,0,[0.0],0,[0.0],385,[0.0],0,[0.0],385
2,C_WDAY,0,[0.0],0,[0.0],1323,[0.0],0,[0.0],1323
3,C_HOUR,0,[0.0],0,[0.0],59409,[1.0],0,[0.0],59409
4,C_SEV,0,[0.0],0,[0.0],0,[0.0],0,[0.0],0
5,C_VEHS,0,[0.0],0,[0.0],541,[0.0],0,[0.0],541
6,C_CONF,284980,[4.9],0,[0.0],179019,[3.1],0,[0.0],463999
7,C_RCFG,144298,[2.5],0,[0.0],504648,[8.6],0,[0.0],648946
8,C_WTHR,15013,[0.3],0,[0.0],87975,[1.5],0,[0.0],102988
9,C_RSUR,170217,[2.9],0,[0.0],78451,[1.3],0,[0.0],248668


Este análisis de existencia de variables especiales demuestra que la variable C_SEV, la que nos indica la existencia de fallecidos en el accidente, no posee valores especiales. Por lo que a priori, si bien todavía no hemos finalizado el EDA de este dataset, esta sería nuestra variable candidata a elaborar el modelo.

### 1.2.3 Valores missing o faltantes
Por otro lado existen unas variables propiamente nulas en el modelo, que podemos observar a continuación:

In [21]:
# Columnas donde existen valores nulos, es decir, NAs
temp_df = accidents_df.isnull().sum().reset_index()
temp_df.columns = ['column_name', 'NAs']
temp_df[temp_df.NAs > 0]

Unnamed: 0,column_name,NAs
5,C_VEHS,3


Observamos que en al columna de número de vehículos involucrados en un accidente existen tres valores nulos. 

### 1.2.4 Repeticiones en el dataset
A continuación vamos a analizar la existencia de tuplas repetidas en el dataset que tenemos. Cuando mostramos las 6 primeras filas de este dataframe pudimos observar como existian valores repetidos en las primeras columnas del dataframe, referentes a la información de accidentes, pero sin embargo la información correspondiente a vehiculos y personas se iba diferenciando.

Veamos una agregación por accidentes, es decir, varibales ```C_*```:

In [64]:
acc_columns = ['C_YEAR', 'C_MNTH', 'C_WDAY', 
               'C_HOUR', 'C_SEV', 'C_VEHS', 
               'C_CONF', 'C_RCFG', 'C_WTHR', 
               'C_RSUR', 'C_RALN', 'C_TRAF']


acc_group_df = accidents_df.groupby(acc_columns).count()['V_ID']
acc_group_df.columns = ['total_rows']
acc_group_df.reset_index()
acc_group_df

C_YEAR  C_MNTH  C_WDAY  C_HOUR  C_SEV  C_VEHS  C_CONF  C_RCFG  C_WTHR  C_RSUR  C_RALN  C_TRAF
1999    01      1       00      2      01      01      01      1       4       1       18         1
                                                                       5       1       18         1
                                                               2       1       1       18         1
                                                               6       3       2       18         2
                                                       UU      1       2       3       18         1
                                                                                                 ..
2014    12      7       UU      2      02      UU      02      U       U       1       03         2
        UU      U       14      2      01      02      01      1       5       4       18         1
                        22      1      01      06      01      2       4       Q       18         2
      

Podemos observar un total de 1.850.395 filas, que se corresponden con los distintos accidentes registrados en el dataset.

---

<div style='text-align:center'>Elaborado por Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>