## Análisis exploratorio datos preparados.

El proposito de este notebook es utilizar el dataset generado en el primer proceso de preparación de datos para realizar analisis exploratorio en los datos, graficas, correlaciones y poder establecer tecnicas para el uso o arreglo de datos.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

### Extracción datos.

In [None]:
URL_PREPARED_DATA = 'Prepared_Data'
FILE_NAME = 'siniestros-prepared.csv'

In [None]:
dfsiniestros = pd.read_csv(URL_PREPARED_DATA+'/'+FILE_NAME)
# revisar columnas (4,26) 

### Cantidad de datos.

In [None]:
dfsiniestros.shape

### Validación de datos.
1.  Validamos los tipos de datos de cada columna.
2.  Validamos la cantidad de valores nan por cada columna.

In [None]:
dfsiniestros.info()

In [None]:
for column in dfsiniestros.columns:
    if (dfsiniestros[column].isna().sum()):
        print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

### Remplazo de valores vacios *(na)*
- Columna Edad:
    - Se remplaza los valores ```SIN INFORMACION``` en la columna *```EDAD_PROCESADA```*.
    - Se remplaza los valores ```NaN``` en la columna *```EDAD_PROCESADA```*.

In [None]:
edadlimpia = dfsiniestros[dfsiniestros['EDAD_PROCESADA'] !='SIN INFORMACION'][['EDAD_PROCESADA','SEXO']].dropna()
edadlimpia['EDAD_PROCESADA'] = edadlimpia['EDAD_PROCESADA'].astype(float)

In [None]:
proedades = edadlimpia.groupby(['SEXO'])['EDAD_PROCESADA'].describe()[['mean','count']].reset_index()
#prueba.columns = prueba.columns.droplevel(0)
print('Promedio Edades Agrupado por SEXO:')
print(proedades)

In [None]:
print('Moda Edades Agrupado por SEXO:')
moedmasculino = edadlimpia[edadlimpia['SEXO'] == 'MASCULINO'].mode()
print(moedmasculino)
moedfemenino = edadlimpia[edadlimpia['SEXO'] == 'FEMENINO'].mode()
print(moedfemenino)
moednoaplica = edadlimpia[edadlimpia['SEXO'] == 'NO APLICA'].mode()
print(moednoaplica)

#### Conclusion para poblar valores *(na)* campo ```EDAD_PROCESADA```
Como se observo en las anteriores operaciones donde se extrajeron los valores promedio y moda de los valores que actualmente tiene este campo, para contribuir a que la distribucion de los datos se mantengan agrupados por ```SEXO``` se utilizaran los siguientes valores:

- MASCULINO: Se utilizara la moda ```27```
- FEMENINO: Se utilizara el promedio ```38```
- NO APLICA: Se utilizara el promedio ```40```

*Nota: Se toma la decisión de usar estadisticos para la cada ```SEXO``` para que los datos no quedaran planos y nos afectaran la distribucion.*

In [None]:
edadmasculino = round(moedmasculino['EDAD_PROCESADA'].get(0),0)
edadmasculino

In [None]:
edadfemenino = round(proedades[proedades['SEXO'] == 'FEMENINO']['mean'].values[0],0)
edadfemenino

In [None]:
edadnoaplica = round(proedades[proedades['SEXO'] == 'NO APLICA']['mean'].values[0],0)
edadnoaplica

In [None]:
dfsiniestros = dfsiniestros.copy()

Remplazo de Valores ```na``` columna ```EDAD_PROCESADA```

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'MASCULINO') & (dfsiniestros['EDAD_PROCESADA'].isna())),'EDAD_PROCESADA'] = edadmasculino 

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'FEMENINO') & (dfsiniestros['EDAD_PROCESADA'].isna())),'EDAD_PROCESADA'] = edadmasculino 

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'NO APLICA') & (dfsiniestros['EDAD_PROCESADA'].isna())),'EDAD_PROCESADA'] = edadmasculino 

Remplazo de Valores ```'Sin Informacion'``` columna ```EDAD_PROCESADA```

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'MASCULINO') & (dfsiniestros['EDAD_PROCESADA'] == 'SIN INFORMACION')),'EDAD_PROCESADA'] = edadmasculino 

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'FEMENINO') & (dfsiniestros['EDAD_PROCESADA'] == 'SIN INFORMACION')),'EDAD_PROCESADA'] = edadmasculino 

In [None]:
dfsiniestros.loc[((dfsiniestros['SEXO'] == 'NO APLICA') & (dfsiniestros['EDAD_PROCESADA'] == 'SIN INFORMACION')),'EDAD_PROCESADA'] = edadmasculino 

Validación de tipos de datos en la columna ```EDAD_PROCESADA```

Se convierten todos los tipos de datos de columna ```EDAD_PROCESADA```

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].astype(float)

## VALIDAR ELIMINACIONES```TIPO_DISENNO```

In [None]:
del dfsiniestros['TIPODISENNO']

In [None]:
del dfsiniestros['TIPOFALLA']

In [None]:
del dfsiniestros['KEYID']

In [None]:
del dfsiniestros['Unnamed: 0']

In [None]:
del dfsiniestros['CON_BICICLETA']

- Columna __LLEVACINTURON__:
    - Se remplaza los valores ```NaN``` en la columna *```LLEVACINTURON```* con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['LLEVACINTURON'].fillna('0', inplace=True)
dfsiniestros['LLEVACINTURON'].value_counts(dropna=False)

- Columna __LLEVACHALECO__:
    - Se remplaza los valores ```NaN``` en la columna __*```LLEVACHALECO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['LLEVACHALECO'].fillna('0', inplace=True)
dfsiniestros['LLEVACHALECO'].value_counts(dropna=False)

- Columna __LLEVACASCO__:
    - Se remplaza los valores ```NaN``` en la columna __*```LLEVACASCO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['LLEVACASCO'].fillna('0', inplace=True)
dfsiniestros['LLEVACASCO'].value_counts(dropna=False)

- Columna __SERVICIOVEHICULO__:
    - Se remplaza los valores ```NaN``` en la columna __*```SERVICIOVEHICULO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['SERVICIOVEHICULO'].fillna('Particular', inplace=True)
dfsiniestros['SERVICIOVEHICULO'].value_counts(dropna=False)

- Columna __VEHICULO_VIAJABA_CLASIFICADO__:
    - Se remplaza los valores ```NaN``` en la columna __*```VEHICULO_VIAJABA_CLASIFICADO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['VEHICULO_VIAJABA_CLASIFICADO'].value_counts(dropna=False)

- Columna __CLASEVEHICULO__:
    - Se remplaza los valores ```NaN``` en la columna __*```CLASEVEHICULO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['CLASEVEHICULO'].fillna('Automovil', inplace=True)
dfsiniestros['CLASEVEHICULO'].value_counts(dropna=False)

- Columna __CHOQUECODIGO__:
    - Se remplaza los valores ```NaN``` en la columna __*```CHOQUECODIGO```*__ con ```0``` este siendo una variable de categoria y el  ```0``` significando que para el siniestro no aplica esta categoria.

In [None]:
dfsiniestros['CHOQUECODIGO'].fillna('0', inplace=True)
dfsiniestros['CHOQUECODIGO'].value_counts(dropna=False)

- Columna __MODELOVEHICULO__:
    - Se remplaza los valores ```NaN``` en la columna *```MODELOVEHICULO```* con la moda de los valores correctos.

In [None]:
dfsiniestros.info()

In [None]:
dfpruebba = dfsiniestros.copy()

In [None]:
dfpruebba.columns

In [None]:
for column in dfsiniestros.columns:
    if (dfsiniestros[column].isna().sum() != 0 ):
        print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

In [None]:
for column in dfsiniestros.columns:
    print(column)
    print(dfsiniestros[column].value_counts(dropna=False))

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].replace('SIN INFORMACION',round(eda.mean(),0))

In [None]:
dfsiniestros['EDAD_PROCESADA'].map(type).value_counts()

In [None]:
round(eda.mode().get(0),0)

In [None]:
dfsiniestros['EDAD_PROCESADA'].fillna(round(eda.mode().get(0),0), inplace=True)
epa = dfsiniestros['EDAD_PROCESADA']

In [None]:
for column in dfsiniestros.columns:
    print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].astype(float)

In [None]:
dfsiniestros.corr()

In [None]:
dfsiniestros['EDAD_PROCESADA'].map(type).value_counts()

In [None]:
graedadagrup = dfsiniestros.groupby(['EDAD_PROCESADA']).size().reset_index(name='CANTIDAD')
graedadagrup

In [None]:
for column in dfsiniestros.columns:
    print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].astype(float)

In [None]:
gragpcoun = dfsiniestros.groupby([[]'DIRECCION']).size().reset_index(name='CANTIDAD')
gragpcoun

In [None]:
dfsiniestros.head()

In [None]:
dfsiniestros.info()

In [None]:
dfsiniestros.columns

### Cantidad de dfsiniestros por gravedad.

In [None]:
gragpcoun = dfsiniestros.groupby(['GRAVEDADCOD']).size().reset_index(name='CANTIDAD')
gragpcoun

In [None]:
lstgrave = ['Con Muertos','Con Heridos','Solo Daños']

In [None]:
plt.figure()
plt.bar(lstgrave, gragpcoun['CANTIDAD'], width=0.5, color='#FF616D')
plt.title("Cantidad de dfsiniestros por gravedad.")
plt.ylabel("Cantidad dfsiniestros.")
plt.xlabel("Gravedad Siniestro.")
plt.xticks(rotation=90)
lstcant = gragpcoun['CANTIDAD'].to_numpy()

for i in range(len(lstcant)):
    plt.annotate(lstcant[i], (i-0.15, 2000+lstcant[i]))

plt.show()
plt.close()

In [None]:
gracogpcoun = dfsiniestros.groupby(['GRAVEDAD_PROCESADA']).size().reset_index(name='CANTIDAD')
gracogpcoun = gracogpcoun.sort_values(by=['CANTIDAD'], ascending=True)
gracogpcoun

In [None]:
lstCantidad = gracogpcoun['GRAVEDAD_PROCESADA'].to_numpy()
lstCantidad

In [None]:
plt.figure()
plt.bar(gracogpcoun['GRAVEDAD_PROCESADA'], gracogpcoun['CANTIDAD'], width=0.7, color='#053742')
plt.title("Cantidad de dfsiniestros por gravedad.")
plt.ylabel("Gravedad dfsiniestros.")
plt.xlabel("Cantidad Siniestro.")
plt.xticks(rotation=90)
lstcant = gracogpcoun['CANTIDAD'].to_numpy()
lstgrave = gracogpcoun['GRAVEDAD_PROCESADA'].to_numpy()

for i in range(len(lstcant)):
    plt.annotate(lstcant[i], (i-0.15, 2000+lstcant[i]))

plt.show()
plt.close()

In [None]:
dfsiniestros[['GRAVEDAD_PROCESADA','GRAVEDADCOD']].value_counts()

In [None]:
dfsiniestros[['EDAD_PROCESADA','GRAVEDADCOD']].value_counts()

In [None]:
graedadagrup = dfsiniestros.groupby(['EDAD_PROCESADA','GRAVEDADCOD']).size().reset_index(name='CANTIDAD')
#gracogpcoun = gracogpcoun.sort_values(by=['CANTIDAD'], ascending=True)
graedadagrup

In [None]:
plt.figure()
plt.plot(graedadagrup['EDAD_PROCESADA'], graedadagrup['CANTIDAD'],'g-')
plt.xlabel('Edad Procesada')
plt.ylabel('Cantidad')
plt.savefig('pruebaas')
plt.show()
plt.close()

In [None]:
dfsiniestros.info()