## Importar Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import datetime
from sklearn.preprocessing import OneHotEncoder,MinMaxScaler

## Primera mirada

In [None]:
df = pd.read_csv('train.csv')

In [None]:
df.shape

In [None]:
df.isna().sum()

Notar que en este caso:
- ```Image path``` : Contiene el path al archivo
- ```Insurance_company``` : Nombre de la compañía de seguros involucrada
- ```Cost_of_vehicle``` : Costo inicial del vehículo involucrado, en USD 
- ```Min_coverage``` : Monto de la cobertura mínima
- ```Max_coverage```: Monto de la cobertura máxima
- ```Expiry_date```: Fecha de expiración de la cobertura           
- ```Condition```: 0 si el auto está sin daños, 1 si está dañado 

Como criterio conservador, simplemente voy a omitir de la muestra los datos faltantes

In [None]:
df.dropna(inplace =True)

In [None]:
df[df.Amount!=0]['Amount'].hist(bins =20);

Lo primero que voy a hacer es expresar el daño en términos relativos al costo original del vehículo

In [None]:
df['relative_amount'] = df['Amount']/df['Cost_of_vehicle']

Se nota asimetría de los montos relativos, hacia daños bajos

Por el momento, vamos a trabajar solo con los datos que tenemos OK

In [None]:
df.relative_amount.hist(bins=30)

Voy a separar, momentáneamente, vehículos dañados de los que no lo están

In [None]:
df_sin_danno = df[df['Amount']==0]
df_con_danno = df[df['Amount']!=0]

In [None]:
df_sin_danno = df_sin_danno.assign(severidad='indemne')

In [None]:
df_con_danno = df_con_danno.assign(severidad=pd.qcut(df.relative_amount,
                                                     q=[0,0.33,0.66,1],
                                                     labels=['leve','media','severa']))

In [None]:
df_con_danno.severidad.value_counts()

In [None]:
len(df[df.Amount==0])

In [None]:
df = pd.concat([df_con_danno,df_sin_danno],axis=0) 

In [None]:
df

A su vez, respecto de los montos de cobertura máxima y mínima, parece razonable expresar en términos relativos

In [None]:
df['p_min_cov'] = df['Min_coverage']/df['Cost_of_vehicle']
df['p_max_cov'] = df['Max_coverage']/df['Cost_of_vehicle']

In [None]:
df['Insurance_company'].value_counts().sort_index()

En una primera versión del modelo, codificaremos la compañía de seguros

In [None]:
ins_cos=pd.get_dummies(df['Insurance_company'],prefix='Co')

In [None]:
df = pd.concat([df,ins_cos],axis=1)

A su vez, vamos a encontrar los días restantes que el vehículo está bajo cobertura

In [None]:
HOY = pd.to_datetime(datetime.date(2021,6,30))

In [None]:
df['Expiry_date']=pd.to_datetime(df['Expiry_date'])

In [None]:
df['dias_pendientes_cobertura']=(df['Expiry_date']-HOY).dt.days.astype(int)

Y vamos a escalar otras variables de interés

In [None]:
mms = MinMaxScaler()

In [None]:
df[['Cost_of_vehicle','dias_pendientes_cobertura']]=mms.fit_transform(df[['Cost_of_vehicle',
                                                                          'dias_pendientes_cobertura']])

In [None]:
df.columns

In [None]:
df.drop(columns = ['Insurance_company','Min_coverage','Max_coverage','Expiry_date','Condition',
                   'Amount','relative_amount','p_min_cov'],inplace=True)

Por último, elimino las columnas que no resultan de interés (notar que la cobertura mínima es fija).

In [None]:
df