## Análisis exploratorio datos preparados.

El proposito de este notebook es utilizar el dataset generado en el primer proceso de preparación de datos para realizar analisis exploratorio en los datos, graficas, correlaciones y poder establecer tecnicas para el uso o arreglo de datos.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

### Extracción datos.

In [None]:
URL_PREPARED_DATA = 'Prepared_Data'
FILE_NAME = 'siniestros-prepared.csv'

In [None]:
dfsiniestros = pd.read_csv(URL_PREPARED_DATA+'/'+FILE_NAME)
# revisar columnas (4,26) 

### Cantidad de datos.

In [None]:
dfsiniestros.shape

### Validación de datos.
1.  Validamos los tipos de datos de cada columna.
2.  Validamos la cantidad de valores nan por cada columna.

In [None]:
dfsiniestros.info()

In [None]:
for column in dfsiniestros.columns:
    print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

### Remplazo de valores vacios *(na)*
- Columna Edad:
    - Se remplaza los valores ```SIN INFORMACION``` en la columna *```EDAD_PROCESADA```* con el promedio de todas las edades.
    - Se remplaza los valores ```NaN``` en la columna *```EDAD_PROCESADA```* con la moda de todas las edades.

In [None]:
edadlimpia = dfsiniestros[dfsiniestros['EDAD_PROCESADA'] !='SIN INFORMACION'][['EDAD_PROCESADA','SEXO']].dropna()
edadlimpia['EDAD_PROCESADA'] = edadlimpia['EDAD_PROCESADA'].astype(float)

In [None]:
edades = edadlimpia.groupby(['SEXO'])['EDAD_PROCESADA'].describe()[['mean','count']].reset_index()
#prueba.columns = prueba.columns.droplevel(0)
edades

In [None]:
prueba = edadlimpia[edadlimpia['SEXO'] == 'MASCULINO'].mode()
print(prueba)
prueba = edadlimpia[edadlimpia['SEXO'] == 'FEMENINO'].mode()
print(prueba)
prueba = edadlimpia[edadlimpia['SEXO'] == 'NO APLICA'].mode()
print(prueba)

In [None]:
prueba.FEMENINO['mean']

In [None]:
edades.describe()

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].replace('SIN INFORMACION',round(eda.mean(),0))

In [None]:
round(eda.mode().get(0),0)

In [None]:
dfsiniestros['EDAD_PROCESADA'].fillna(round(eda.mode().get(0),0), inplace=True)
epa = dfsiniestros['EDAD_PROCESADA']

In [None]:
for column in dfsiniestros.columns:
    print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].astype(float)

In [None]:
dfsiniestros.corr()

In [None]:
dfsiniestros['EDAD_PROCESADA'].map(type).value_counts()

In [None]:
graedadagrup = dfsiniestros.groupby(['EDAD_PROCESADA']).size().reset_index(name='CANTIDAD')
graedadagrup

In [None]:
for column in dfsiniestros.columns:
    print(f'Columna {column} tienen {dfsiniestros[column].isna().sum()} registros en nan')

In [None]:
dfsiniestros['EDAD_PROCESADA'] = dfsiniestros['EDAD_PROCESADA'].astype(float)

In [None]:
gragpcoun = dfsiniestros.groupby([[]'DIRECCION']).size().reset_index(name='CANTIDAD')
gragpcoun

In [None]:
dfsiniestros.head()

In [None]:
dfsiniestros.info()

In [None]:
dfsiniestros.columns

### Cantidad de dfsiniestros por gravedad.

In [None]:
gragpcoun = dfsiniestros.groupby(['GRAVEDADCOD']).size().reset_index(name='CANTIDAD')
gragpcoun

In [None]:
lstgrave = ['Con Muertos','Con Heridos','Solo Daños']

In [None]:
plt.figure()
plt.bar(lstgrave, gragpcoun['CANTIDAD'], width=0.5, color='#FF616D')
plt.title("Cantidad de dfsiniestros por gravedad.")
plt.ylabel("Cantidad dfsiniestros.")
plt.xlabel("Gravedad Siniestro.")
plt.xticks(rotation=90)
lstcant = gragpcoun['CANTIDAD'].to_numpy()

for i in range(len(lstcant)):
    plt.annotate(lstcant[i], (i-0.15, 2000+lstcant[i]))

plt.show()
plt.close()

In [None]:
gracogpcoun = dfsiniestros.groupby(['GRAVEDAD_PROCESADA']).size().reset_index(name='CANTIDAD')
gracogpcoun = gracogpcoun.sort_values(by=['CANTIDAD'], ascending=True)
gracogpcoun

In [None]:
lstCantidad = gracogpcoun['GRAVEDAD_PROCESADA'].to_numpy()
lstCantidad

In [None]:
plt.figure()
plt.bar(gracogpcoun['GRAVEDAD_PROCESADA'], gracogpcoun['CANTIDAD'], width=0.7, color='#053742')
plt.title("Cantidad de dfsiniestros por gravedad.")
plt.ylabel("Gravedad dfsiniestros.")
plt.xlabel("Cantidad Siniestro.")
plt.xticks(rotation=90)
lstcant = gracogpcoun['CANTIDAD'].to_numpy()
lstgrave = gracogpcoun['GRAVEDAD_PROCESADA'].to_numpy()

for i in range(len(lstcant)):
    plt.annotate(lstcant[i], (i-0.15, 2000+lstcant[i]))

plt.show()
plt.close()

In [None]:
dfsiniestros[['GRAVEDAD_PROCESADA','GRAVEDADCOD']].value_counts()

In [None]:
dfsiniestros[['EDAD_PROCESADA','GRAVEDADCOD']].value_counts()

In [None]:
graedadagrup = dfsiniestros.groupby(['EDAD_PROCESADA','GRAVEDADCOD']).size().reset_index(name='CANTIDAD')
#gracogpcoun = gracogpcoun.sort_values(by=['CANTIDAD'], ascending=True)
graedadagrup

In [None]:
plt.figure()
plt.plot(graedadagrup['EDAD_PROCESADA'], graedadagrup['CANTIDAD'],'g-')
plt.xlabel('Edad Procesada')
plt.ylabel('Cantidad')
plt.savefig('pruebaas')
plt.show()
plt.close()

In [None]:
dfsiniestros.info()