# Módulo 10 atividade 1

Uma instituição financeira quer conhecer melhor o perfil de renda de seus novos clientes para diversos fins, por exemplo, melhor dimensionar o limite de cartões de crédito dos novos clientes, sem necessariamente solicitar olerites ou documentações que impactem na experiência do seu cliente.

Para isto, conduziu um estudo com alguns clientes, comprovando suas rendas através de olerites e outros documentos, e pretende construir um modelo preditivo para esta renda com base em algumas variáveis que já possui em seu banco de dados.

As variáveis são intuitivas - note que há uma variável 'index' que é um identificador do cliente e que em geral o ```read_csv``` do pandas coloca também uma variável sequencial.

Estes dados estão no arquivo ```previsao_de_renda.csv```. Carregue-o em um *dataframe*.

1) Avalie a estrutura de correlação das variáveis quantitativas através de um gráfico de "matriz de dispersão" e através da avaliação gráfica da matriz de correlações. Veja se você identifica algum padrão interessante ou que te faça sentido.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
df = pd.read_csv(filepath_or_buffer=filepath)

df

In [None]:
df.drop(columns=['Unnamed: 0', 'index', 'mau'], inplace=True)

print(df.info(), '\n')

In [None]:
print('Quantidade de linhas duplicadas:', df.duplicated().sum())

In [None]:
print('Quantidade total de linhas:', len(df), '\n')

print('Quantidade após remoção das linhas duplicadas:', 
      len(df.drop_duplicates()), '\n')

df.drop_duplicates(inplace=True)
df.reset_index(inplace=True, drop=True)
df

In [None]:
df.corr()

In [None]:
sns.pairplot(data=df, 
             hue='tipo_renda', 
             vars=['qtd_filhos', 
                   'idade', 
                   'tempo_emprego', 
                   'qt_pessoas_residencia', 
                   'renda'])

plt.show()

In [None]:
cmap = sns.diverging_palette(h_neg=250, 
                             h_pos=359, 
                             as_cmap=True, 
                             sep=1, 
                             center = 'light')

sns.clustermap(data=df.corr(), 
               figsize=(10, 10), 
               center=0, 
               cmap=cmap)

plt.show()

2) Avalie um gráfico de dispersão (*scatterplot*) específico para as duas variáveis mais correlacionadas com *renda*.

In [None]:
plt.figure(figsize=(16,9))

sns.scatterplot(x='tempo_emprego',  # <- 1ª
                y='renda', 
                hue='tipo_renda', 
                size='idade',  # <- 2ª
                data=df,
                alpha=0.4)

# Linha de tendência:
sns.regplot(x='tempo_emprego', y='renda', data=df, scatter=False, color='.3')

plt.show()

In [None]:
plt.figure(figsize=(16,9))

sns.scatterplot(x='idade',  # <- 1ª
                y='renda', 
                hue='tipo_renda', 
                size='tempo_emprego',  # <- 2ª
                data=df,
                alpha=0.4)

# Linha de tendência:
sns.regplot(x='idade', y='renda', data=df, scatter=False, color='.3')

plt.show()

3) Na su aopinião, há outliers na variável renda?

In [None]:
Sim. Como mencionado anteriormente, há outliers na variável de renda de clientes do tipo de renda empresarial; 
no entanto, devido à baixa incidência, é possível que esses outliers não afetem significativamente os resultados de tendência

4) Calcule o logaritmo da variável renda e repita a sequência de análise

In [None]:
df_log = df.copy()
df_log['renda'] = np.log(df_log['renda'])

plt.figure(figsize=(16,9))

sns.scatterplot(x='tempo_emprego',  # <- 1ª
                y='renda', 
                hue='tipo_renda', 
                size='idade',  # <- 2ª
                data=df_log,
                alpha=0.4)

# Linha de tendência:
sns.regplot(x='tempo_emprego', 
            y='renda', 
            data=df_log, 
            scatter=False, 
            color='.3')

plt.show()

In [None]:
df_log = df.copy()
df_log['renda'] = np.log(df_log['renda'])

plt.figure(figsize=(16,9))

sns.scatterplot(x='idade',  # <- 1ª
                y='renda', 
                hue='tipo_renda', 
                size='tempo_emprego',  # <- 2ª
                data=df_log,
                alpha=0.4)

# Linha de tendência:
sns.regplot(x='idade', 
            y='renda', 
            data=df_log, 
            scatter=False, 
            color='.3')

plt.show()

5) A aplicação do LOG você acha que melhorou ou piorou a análise?

In [None]:
pd.concat(objs=[df.corr().tail(1), 
                df_log.corr().tail(1)], 
          axis=0
         ).reset_index(drop=True).rename(index={0:'renda', 
                                                1:'renda_log'})