# 0.0 IMPORTS, FUNCTIONS AND CONNECTIONS

## 0.1 PACKAGES AND LIBRARIES

In [13]:
import pandas as pd
import psycopg2 as pg
import seaborn as sns
import pickle
import warnings
import dotenv
import os

from matplotlib import pyplot as plt
from sqlalchemy import create_engine
#from sklearn.preprocessing import RobustScaler, MinMaxScaler

from IPython.core.display import HTML
from IPython.display import Image

## 0.2 Helper Function

In [14]:
warnings.filterwarnings ('ignore')

def jupyter_settings():
    %matplotlib inline
    %pylab inline
    
    plt.style.use( 'bmh' )
    plt.rcParams['figure.figsize'] = [25, 12]
    plt.rcParams['font.size'] = 24
    
    display( HTML( '<style>.container { width:90% !important; }</style>') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    
    sns.set()

In [15]:
jupyter_settings()

%pylab is deprecated, use %matplotlib inline and import the required libraries.
Populating the interactive namespace from numpy and matplotlib


## 0.3 Database Connections

In [19]:
dotenv.load_dotenv(dotenv.find_dotenv())
#url_sql = os.getenv('url_sql')
#engine = create_engine(url_sql)

host = os.getenv('PA004_HOST')
port = os.getenv('PA004_PORT')
dbname = os.getenv('PA004_DATABASE')
username = os.getenv('PA004_USERNAME')
password = os.getenv('PA004_PASSWORD')

conn = pg.connect(host=host, port=port, dbname=dbname, user=username, password=password)

cur = conn.cursor()

OperationalError: connection to server on socket "/var/run/postgresql/.s.PGSQL.5432" failed: No such file or directory
	Is the server running locally and accepting connections on that socket?


In [18]:
sql_query = '''
SELECT u.id, u.age, u.region_code, u.policy_sales_channel,
       i.previously_insured, i.annual_premium, i.vintage, i.response,
       v.driving_license, v.vehicle_age, v.vehicle_damage
       FROM pa004.users u LEFT JOIN pa004.insurance i ON (u.id = i.id)
                          LEFT JOIN pa004.vehicle v  ON (u.id = v.id)                   
                          '''
cur.execute(sql_query)
df_raw = pd.read_sql_query(sql_query, con=conn)

cur.close()
conn.close()

NameError: name 'cur' is not defined

In [None]:
df_raw.head()

# 1.0 DESCRIÇÃO DOS DADOS

In [None]:
df1 = df_raw.copy()

## 1.1 Data Dimensions

In [None]:
print(f'Number of Rows: {df1.shape[0]}')
print(f'Number of Rows: {df1.shape[1]}')

## 1.2 Changing Data Types

In [None]:
df1.dtypes

In [None]:
df1['region_code'] = df1['region_code'].astype(int64)

df1['policy_sales_channel'] = df1['policy_sales_channel'].astype(int64)

df1['vehicle_damage'] = df1['vehicle_damage'].apply(lambda x: 1 if x == 'Yes' else 0)

## 1.3 Check NA

In [None]:
df1.isna().sum()

## 1.4 Numerical Data Description

In [None]:
# Data Selection
df1_num = df1.select_dtypes(include=['int64', 'float64'])

#Central Tendency
ct1 = pd.DataFrame(df1_num.apply(np.mean)).T
ct2 = pd.DataFrame(df1_num.apply(np.median)).T

#Dispersion 
d1 = pd.DataFrame(df1_num.apply(min)).T
d2 = pd.DataFrame(df1_num.apply(max)).T
d3 = pd.DataFrame(df1_num.apply(lambda x: x.max() - x.min())).T
d4 = pd.DataFrame(df1_num.apply(np.std)).T
d5 = pd.DataFrame(df1_num.apply(lambda x: x.skew())).T
d6 = pd.DataFrame(df1_num.apply(lambda x: x.kurtosis())).T

df_descript = pd.concat([d1, d2, d3, ct1, ct2, d4, d5, d6]).T
df_descript.columns = ['min','max', 'range', 'average', 'median', 'std', 'skew', 'kurtosis']
df_descript

## 1.5 Categorical Data Description

In [None]:
df_cat = df1[['vehicle_age', 'id']].groupby('vehicle_age').count().reset_index()

sns.barplot(data=df_cat, x='vehicle_age', y='id');

# 2.0 FEATURE ENGINEERING

In [None]:
df2 = df1.copy()
reorder_columns = ['id', 'age', 'region_code', 'policy_sales_channel',
       'previously_insured', 'annual_premium', 'vintage',
       'driving_license', 'vehicle_age', 'vehicle_damage', 'response']

df2 = df2.reindex(columns=reorder_columns)

## 2.1 Hypothesis Mindmap

In [None]:
Image('img/MindMapHypothesis.png')

## 2.2 Criação de Hipóteses

### 2.2.1 Hipóteses de Assinantes

1. Quanto maior a idade, maior propensão do cliente adquirir um plano seguro de saúde.
2. Quanto maior o salário, maior a propensão do cliente a adquirir um plano de seguro de saúde.
3. Quanto mais próx a um centro urbano(região), maior a propensão do cliente adquirir um plano de seguro de saúde.
    *Há alguma região com maior compra de aquisição de seguros?

### 2.2.2 Hipótese do Produto (Assinatura de seguro veícular)

1. Clientes que já ativaram/possuem o seguro veícular possuem menor propensão de adquirir um  novo plano de seguro veícular.
2. Clientes que pagam mais caro pela assinatura possuem menor propensão a adquirir um plano de saúde.
3. Clientes com mais dias de assinatura possuem maior propensão a adquirir um plano de saúde.
4. Clientes ficam mais propensos a assinar um plano de saúde conjunto após a realização de campanhas de marketing.
5. Clientes ficam mais propensos a assinar um plano de saúde com a realização de promoção conjunta ao plano de seguro veícular.

### 2.2.3 Hipóteses do Veículo em Seguridade

1. Clientes com a licença de habilitação são mais propensos a adquirir um plano de seguro de saúde.
2. Clientes com veículos mais antigos são mais propensos a adquirir um plano de seguro de saúde.
3. Clientes com veículos já danificados são mais propensos a adquirir um plano de seguro de saúde.

## 2.3 Hipóteses Selecionadas

1. Quanto maior a idade, maior propensão do cliente adquirir um plano seguro veícular.

2. Clientes que já ativaram/possuem o seguro veícular possuem menor propensão de adquirir um  novo plano de seguro veícular.
3. Clientes que pagam mais caro pela assinatura possuem menor propensão a adquirir um plano de seguro veícular.
4. Clientes com mais dias de assinatura possuem maior propensão a adquirir um plano de seguro veícular.

5. Clientes com licença de habilitação são mais propensos a adquirir um plano de seguro veícular.
6. Clientes com veículos mais antigos são mais propensos a adquirir um plano de seguro veícular.
7. Clientes com veículos já danificados são mais propensos a adquirir um plano de seguro veícular.

8. Clientes de determinada região são mais propensos a adquirir um plano de seguro veícular.

In [None]:
df2.head()

# 3.0 Exploratory Data Analysis

In [None]:
df3 = df2.copy()

## 3.1 Análise Univariada

### 3.1.1 Variável Numérica

In [None]:
df3_num = df3.select_dtypes(include=['int64', 'float64'])

df3_num.hist(bins=25);

In [None]:
#response -> disparidade muito grande entre números de pessoas que não adquiriram o seguro veícular (0) e as que adquiriram (1).

### 3.1.2 Variável Categórica

In [None]:
df3['vehicle_age'].drop_duplicates()

## 3.2 Análise Bivariada

### H.1 Quanto maior a idade, maior a propensão do cliente em adquirir um seguro veícular.
**Verdadeiro** -> Nota-se maior concentração entre 40 e 50 anos dentre os que mostraram interesse no seguro veícular

In [None]:
plt.subplot(1,3,1)
plt.title ('Overall age distribution', fontsize=18)
sns.boxplot(df3, x='response', y='age');

plt.subplot(1,3,2)
plt.title('No Response',fontsize=18)
aux = df3.loc[df3['response'] == 0, :]
sns.histplot(aux, x='age');

plt.subplot(1,3,3)
plt.title('Yes Response', fontsize=18)
aux = df3.loc[df3['response'] == 1, :]
sns.histplot(aux, x='age');

### H.2 Clientes que já ativaram/possuem o seguro veícular possuem menor propensão de adquirir um  novo plano de seguro veícular.

**Verdadeiro** -> IMPORTANTE: Essa amostragem pode demonstrar um vazamento de dados; algo que não confere aprendizado ao algoritmo. Basicamente, ele irá dar um resposta pronta ao modelo, onde 100% dos clientes com seguro não tem interesse de troca ou nova aquisição.

In [None]:
aux2 = pd.crosstab(df3['previously_insured'], df3['response'])
aux2 = aux2.apply(lambda x: x/x.sum(), axis=1)
aux2

### H.3 Clientes que pagam mais caro pela assinatura possuem menor propensão a adquirir um plano de seguro veícular.
**Falso** -> Nota-se pela forma de ambas as distribuições (com ou sem interesse de compra), que a medidas de tendência central (média/mediana) não variam muito entre as distribuições.

In [None]:
plt.title('Overall Annual Premium Distribution', fontsize=18)
aux3 = df3.loc[ (df3['annual_premium'] > 10000) & (df3['annual_premium'] < 80000), :]
sns.histplot(aux3, x='annual_premium', hue='response');

In [None]:
#Nota-se que há uma contagem muito grande (ordem de 65k de entradas) com annual premium padronizado no valor de $2630,00
    #possívelmente o 'plano básico/padrão' da seguradora de saúde

out1 = df3[['annual_premium','response']].groupby('annual_premium').count().sort_values('response',ascending=False).reset_index()
out1.head()

### H.4 Clientes com mais dias de assinatura possuem maior propensão a adquirir um plano de seguro veícular.
**Falso** -> Nenhuma diferença observada relacionando-se dias de assinatura x interesse de compra

In [None]:
plt.subplot(1,2,1)
plt.title('Yes Response', fontsize=18)
aux4 = df3.loc[df3['response'] == 0, :]
sns.histplot(aux4, x='vintage');

plt.subplot(1,2,2)
plt.title('No Response', fontsize=18)
aux4 = df3.loc[df3['response'] == 1, :]
sns.histplot(aux4, x='vintage');

### H.5 Clientes com licença de habilitação são mais propensos a adquirir um plano de seguro veícular.
**Verdadeiro** -> Proporcionalmente, houve maior interesse de compra por parte de clientes com carteira de habilitação

In [None]:
aux5 = pd.crosstab(df3['driving_license'], df3['response'])
aux5 = aux5.apply(lambda x: x/x.sum(), axis=1)
aux5

### H.6 Clientes com veículos mais antigos são mais propensos a adquirir um plano de seguro veícular.
**Verdadeiro** -> proporcionalmente, para carros de >2 anos de idade despertam maior interesse de compra de seguro em comparação aos demais

In [None]:
df3[['vehicle_age', 'response']].value_counts(normalize=True).reset_index()

### H.7 Clientes com veículos já danificados são mais propensos a adquirir um plano de seguro veícular.
**Verdadeiro** -> Proporção percentual muito maior de interessados em compra de seguro entre aqueles que possuem veículos danificados

In [None]:
aux7 = pd.crosstab(df3['vehicle_damage'], df3['response']).apply(lambda x: x/x.sum(), axis = 1)
aux7

### H.8 Clientes de determinada região são mais propensos a adquirir um plano de seguro veícular.
**Falso** -> Proporcionalmente, não há uma região específica onde o interesse de compra se destaque

In [None]:
plt.title('Region Overview')
aux8 = df3[['id', 'region_code', 'response']].groupby(['region_code', 'response']).count().reset_index()
sns.scatterplot(aux8, x='region_code', y='id', hue='response');

### H.9 Verificar se existe alguma discrepância em proporção de interessados em adquirir seguro de acordo com o código de contato
**Verdadeiro** -> Sim, alguns códigos possuem proporção muito maior de interessados.

In [None]:
#Redo stacked barchart (!!!)
aux9 = pd.crosstab(df3['policy_sales_channel'], df3['response']).apply(lambda x: x/x.sum(), axis = 1)

ax1 = aux9.plot(kind='bar',
          stacked=True,
          colormap='tab10',
          figsize = (40, 10));
plt.xlabel('Policy sales Channel',fontsize=30);
plt.xticks(fontsize=15);
plt.xlim(-1, 83);
plt.ylabel('Proportion', fontsize = 30);
plt.yticks(fontsize=20);

ax1.legend(loc='lower right', prop={'size': 20}, title_fontsize= 20, title= 'Response');

ax2 = aux9.plot(kind='bar',
          stacked=True,
          colormap='tab10',
          figsize = (40, 10));
plt.xlabel('Policy sales Channel',fontsize=30);
plt.xticks(fontsize=15);
plt.xlim(82, 163);
plt.ylabel('Proportion', fontsize = 30);
plt.yticks(fontsize=20);

ax2.legend(loc='lower right', prop={'size': 20}, title_fontsize= 20, title= 'Response');

# 4.0 DATA PREPARATION

In [None]:
df4 = df3.copy()

In [None]:
df4_num = df4.select_dtypes(include=['int64', 'float64'])
df4_num.head()