# <font color='blue'>Projeto 4</font>
## <font color='blue'>Análise de Dados Para Campanhas de Marketing de Instituições Financeiras</font>

### Tratamento de valores ausentes
- Deleção
    - Deletar coluna com mais de 30% de valores ausentes
    - Deletar linha que não esteja 100% preenchida (listwise).
- Imputação
    - Variável Qualitativa
        - Imputação Múltipla
        - Nova Categoria
    - Variável Quantitativa
        - Imputação de Medida de Tendência Central
        

           
#### Imputação 
A imputação para variáveis quantitativas visa substituir valores ausentes por valores
numéricos que representem a informação contida na variável.
A principal técnica de imputação nesse caso é usar uma medida de **tendência central** da
variável e então imputar os valores ausentes com essa medida. As medidas de tendência central
são: média, mediana e moda.

- A média é a média aritmética dos valores da variável. Normalmente usamos a média
quando a variável segue uma distribuição normal e não tem outliers (valores além de 1.5 a 3
acima ou abaixo do intervalo interquartil).
- A mediana é o valor do meio da distribuição quando os dados estão ordenados.
Normalmente usamos a mediana quando a média não pode ser usada.
- A moda é o valor que parece com mais frequência na variável e pode ser uma opção
quando a média não puder ser usada.

Outra técnica para imputação de variáveis quantitativas é usar o forward ou backward fill
preenchendo o valor ausente com o último valor válido, fazendo isso para frente (forward) ou
para trás (backward).
Podemos ainda usar Machine Learning para prever o valor ausente e então realizar a
imputação.

Para variáveis **qualitativas** não podemos usar medidas de tendência central, pois essas
medidas são calculas para variáveis **quantitativas**.

A técnica mais comum com variáveis qualitativas é a imputação múltipla, quando
verificamos os valores ausentes e checamos as regras associadas a outras variáveis (técnica usada no Projeto 2).
Por exemplo: Uma variável cor do automóvel tem como categorias azul, prata e branco e
possui valores ausentes. Podemos verificar uma outra variável chamada potencia_motor e
verificar qual a cor associada e então preencher o valor ausente com base nessa regra.
Outra alternativa é criar uma nova categoria e preencher os valores ausentes. No exemplo
da cor do carro poderíamos preencher o valor ausente com “Não Definido”, por exemplo.

Podemos ainda preencher o valor ausente com a categoria mais frequente. No exemplo
da cor do automóvel, considerando que prata seja a cor que apareceu mais vezes nos registros,
usaríamos essa categoria para preencher os valores ausentes.

**Os exemplos citados são chamados de imputação para variáveis qualitativas.**

## Instalando e Carregando os Pacotes

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

## Carregando os Dados

In [None]:
# Carrega o dataset
df = pd.read_csv("dados/dataset.csv") 

In [None]:
# Shape
df.shape

In [None]:
# Amostra
df.head()

## Análise Exploratória

In [None]:
# Info
df.info()

In [None]:
# Temos valores nulos? Sim ou não?
df.isna().any()

In [None]:
# Temos valores nulos? Quantos?
df.isna().sum()

In [None]:
# Não usaremos a coluna ID. Vamos removê-la.
df.drop(["customerid"], axis = 1, inplace = True)

In [None]:
# Colunas
df.columns

> Exercício 1: A coluna "jobedu" parece ter duas informações. Vamos separar em duas colunas.

In [None]:
# Resolução do Exercício 1:

df['education'] = df.jobedu.str.split(',').str.get(0)
df['job'] = df.jobedu.str.split(',').str.get(1)
df.drop(['jobedu'], axis=1, inplace=True)
df.head()


In [None]:
# Solução proposta pela DSA:

# Fazemos o split da coluna jobedu e criamos a coluna job com o primeiro elemento antes da vírgula
df['job'] = df["jobedu"].apply(lambda x:x.split(",")[0])
# Fazemos o split da coluna jobedu e criamos a coluna education com o segundo elemento antes da vírgula
df['education'] = df["jobedu"].apply(lambda x:x.split(",")[1])
# Drop da coluna "jobedu" 
df.drop(["jobedu"], axis = 1, inplace = True)

## Tratamento de Valores Ausentes

> Vamos primeiro tratar a variável que representa a idade.

In [None]:
# Valores ausentes no dataframe
df.isna().any()

In [None]:
# Valores ausentes da variável age
df.age.isnull().sum()

In [None]:
# Calcula o percentual de valores ausentes na variável age
df.age.isnull().mean()*100

Como o percentual é baixo não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 20 linhas no dataset) ou podemos aplicar imputação. Vamos usar a segunda opção.

Analisando a variável age através de gráficos

In [None]:
# Histograma
df.age.plot(kind = "hist")
plt.title("Histograma da Variável Idade\n")
plt.show()

In [None]:
# Boxplot
sns.boxplot(df.age)
plt.title("Boxplot da Variável Idade\n")
plt.show()

In [None]:
# Vamos verificar qual é a média de idade.
df.age.mean()

In [None]:
# Vamos verificar qual é a mediana, valor do meio da distribuição quando os dados estão ordenados.
df.age.median()

In [None]:
# Vamos verificar qual é a moda, o valor que aparece com mais frequência.
df.age.mode()

> Exercício 2: Vamos imputar os valores ausentes da variável age com uma medida de tendência central. Escolha uma das medidas, aplique a imputação e justifique sua escolha. Deixamos a variável como float ou como int? Se convertemos, fazemos isso antes ou depois da imputação?

In [None]:
# Resolução do Exercício 2:

# A escolha no presente caso se deu pela Imputação por se tratar de total de valores ausentes inferior a 30%.
# A média não seria a melhor escolha por se tratar de uma variável que não segue uma distribuição normal. 
# A moda se mostra como uma escolha mais acertada uma vez que a média e a mediana
# traz resultados bem próximos e ainda como a os valores ausentes são poucos a moda interfere de maneira menos agressiva.
# Deixaremos a variavel como o type int uma vez se tratar de idade o valor inteiro trará melhor interpretação dos dados e,
# a conversão se dará apenas ao final da imputação para que não se perca informação no processo.

df['age'] = df['age'].fillna('32')
df['age'].isnull().sum()

In [None]:
df['age'] = df['age'].astype("int")
df['age'].dtypes

In [None]:
df.info()

In [None]:
# Solução proposta pela DSA

# Vamos preencher com a moda pois são poucos valores ausentes e assim alteramos muito pouco o padrão nos dados.
df.age.fillna("32", inplace = True)

# Agora convertemos para int
df.age = df.age.astype("int")

# Tipo da variável
df.age.dtypes

# Percentual de valores ausentes
df.age.isnull().mean()*100

## Tratamento de Valores Ausentes

> Vamos agora tratar a variável que representa o mês.

In [None]:
# Valores ausentes na variável
df.month.isnull().sum()

In [None]:
# Percentual de valores ausentes
df.month.isnull().mean()*100

Como o percentual é menor que 30% não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 50 linhas no dataset) ou podemos aplicar imputação. Vamos usar a segunda opção.

In [None]:
# Tipo da variável
df.month.dtypes

In [None]:
# Categorias da variável
df.month.value_counts()

> Exercício 3: Vamos imputar os valores ausentes da variável month. Escolha uma estratégia e aplique no dataset.

In [None]:
# Resolução do Exercício 3:

# Por se tratar de uma variável Qualitativa (ou Categórica) não há que se falar em medidas de tendência central (média,
# mediana e moda (obs: a moda também pode ser usada em variáveis Categóricas por se tratar de um 'valor' que 
# 'aparece mais vezes')) estratégia essa usada quando se trata de variável Quantitativa (ou Numérica). No presente caso a 
# imputação se dá por uma informação que poderá ser adquirida ou presumida, por exemplo com base em uma regra aplicada a
# uma outra coluna do dataset, se não for possível, a solução é imputar algum outro valor, neste caso optamos por
# 'desconhecido' (unknown).

df['month'].fillna('unknown', inplace=True)
df['month'].value_counts()

In [None]:
# Solução proposta pela DSA:

# Vamos imputar com a moda, o valor mais frequente da variável, pois são poucos registros
df.month.mode()

In [None]:
# Imputação com a moda
df.month.fillna("may, 2017", inplace = True)

In [None]:
# Valores ausentes tratados com sucesso
df.month.isnull().sum()

## Tratamento de Valores Ausentes

> Vamos agora tratar a variável que representa o salário.

In [None]:
# Valores ausentes na variável
df.salary.isnull().sum()

In [None]:
# Calcula o percentual de valores ausentes na variável salary
df.salary.isnull().mean()*100

Como o percentual é baixo não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 26 linhas no dataset) ou podemos aplicar imputação. Vamos usar a segunda opção.

Mas espere. Vamos checar algo aqui.

In [None]:
df.head()

Existe salário igual a zero? Não. O valor zero é provavelmente um valor ausente (confirmar com a área de negócio).

In [None]:
# Histograma
df.salary.plot(kind = "hist")
plt.title("Histograma da Variável Salário\n")
plt.show()

In [None]:
# Boxplot
sns.boxplot(df.salary)
plt.title("Boxplot da Variável Salário\n")
plt.show()

In [None]:
var = df['salary']
var.describe()

In [None]:
# Vamos verificar qual é a média de salário.
df.salary.mean()

In [None]:
# Vamos verificar qual é a mediana.
df.salary.median()

In [None]:
# Vamos verificar qual é a moda.
df.salary.mode()

> Exercício 4: Vamos imputar os valores ausentes da variável salary com uma medida de tendência central. Precisamos também tratar os valores iguais a zero. Escolha sua estratégia, aplique a imputação e justifique sua escolha. 

In [None]:
# Resolução Exercício 4:

# No presente caso temos dois conjuntos de valores ausentes, os dados que apresentam valores NaN e os dados que apresentam
# valores 0.0. A estratégia é aplicar a mediana para todos os valores ausentes, desta forma vamos antes padronizar os
# valores e depois aplicar a mediana para todos.

# Padronizar valores NaN - Transformar os valores Nan em 0.0
df['salary'].value_counts(dropna=False)

In [None]:
df['salary'] = df['salary'].fillna(0.0)
df['salary'].value_counts(dropna=False)

In [None]:
# Aplicar a mediana para todos os valores 0.0 - função replace -> df[column_name].replace([old_value], new_value) 
df['salary'] = df['salary'].replace(0.0, df['salary'].median())
df['salary'].value_counts(dropna=False) 

In [None]:
# Verificando as variáveis que ainda contém valores ausentes
df.isna().any()

In [None]:
# Solução proposta pela DSA:

# Vamos preencher com a mediana pois os dados parecem assimétricos (nesse caso a média não pode ser usada) 
# e o valor mais frequente está muito abaixo da média e da mediana (por isso não usaremos a moda)
df.salary.fillna("60000", inplace = True)

In [None]:
df.head()

In [None]:
# Histograma (vai gerar erro)
df.salary.plot(kind = "hist")
plt.title("Histograma da Variável Salário\n")
plt.show()

In [None]:
# Tipo da variável - usamos '6000' str quando deveriamos ter usado 6000 float
df.salary.dtypes

In [None]:
# Convertemos para o tipo float
df.salary = df.salary.astype("float")

In [None]:
# Tipo da variável
df.salary.dtypes

In [None]:
# Histograma
df.salary.plot(kind = "hist")
plt.title("Histograma da Variável Salário\n")
plt.show()

In [None]:
# Boxplot
sns.boxplot(df.salary)
plt.title("Boxplot da Variável Salário\n")
plt.show()

In [None]:
# Registros para cada salário
df.salary.value_counts()

In [None]:
# Replace do zero pela mediana
df['salary'] = df['salary'].replace(0, df['salary'].median())

In [None]:
# Registros para cada salário
df.salary.value_counts()

In [None]:
# Histograma
df.salary.plot(kind = "hist")
plt.title("Histograma da Variável Salário\n")
plt.show()

In [None]:
# Boxplot
sns.boxplot(df.salary)
plt.title("Boxplot da Variável Salário\n")
plt.show()

In [None]:
# Calcula o percentual de valores ausentes na variável salary
df.salary.isnull().mean()*100

## Tratamento de Valores Ausentes

> Vamos agora tratar a variável que representa a resposta (variável alvo).

In [None]:
df.head()

In [None]:
# Valores ausentes
df.response.isnull().sum()

In [None]:
# Calcula o percentual
df.response.isnull().mean()*100

Como o percentual é baixo (e a variável é o alvo da nossa análise) não podemos eliminar a coluna. Podemos então eliminar os registros com valores ausentes (nesse caso perderíamos 30 linhas no dataset) ou podemos aplicar imputação.

> Exercício 5: Escolha sua estratégia, aplique e justifique sua escolha. 

In [None]:
# Resolução Exercício 5:

# A solução aqui foi apagar os registros ausentes. Como se trata da variável alvo, regras de padrão serão avaliados na 
# análise, sendo assim não há que aplicar regras para imputação de valores ausentes. Considerou ainda o valor baixo de 
# valores ausentes o que implica em pouca ou nenhuma alteração no dataset ao apagar esses dados.

df.isna().sum()

In [None]:
df = df.dropna()
df.isna().sum()

## Tratamento de Valores Ausentes

> Vamos agora tratar a variável pdays.

In [None]:
# Valores ausentes
df.pdays.isnull().sum()

In [None]:
# Describe
df.pdays.describe()

-1 indica valor ausente

In [None]:
# Vamos fazer relace de -1 por NaN
df.pdays = df.pdays.replace({-1.0:np.NaN})

In [None]:
# Valores ausentes
df.pdays.isnull().sum()

In [None]:
# Calcula o percentual
df.pdays.isnull().mean()*100

> Exercício 6: Escolha sua estratégia, aplique e justifique sua escolha. 

In [None]:
# Resolução Exercício 6:

# Aqui os valores ausentes superam a 80%, assim essa informação se torna inútil para o trabalho de análise, restando 
# apenas a escolha em descartar esses resgistros.

df.drop(['pdays'], axis = 1, inplace = True)
df.head()

In [None]:
df.isnull().sum()

In [None]:
# Solução proposta pela DSA:

# Drop da coluna "pdays" pois tem mais de 30% dos valores ausentes
df.drop(["pdays"], axis = 1, inplace = True)

## Conclusão e Análise dos Dados


### Análise Univariada - Uma única variável
Visualização dos Dados para Análise Univariada

In [None]:
# Proporção da variável de estado civil
df.marital.value_counts(normalize = True)

In [None]:
# Plot
df.marital.value_counts(normalize = True).plot(kind = "barh")
plt.title("Proporção da variável de estado civil\n")
plt.legend()
plt.show()

In [None]:
# Proporção da variável de job
df.job.value_counts(normalize = True)

In [None]:
# Plot
plt.figure(figsize = (10,6))
df.job.value_counts(normalize = True).plot(kind = "barh")
plt.title("Proporção da variável de job\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.legend()
plt.show()

In [None]:
# Proporção da variável education
df.education.value_counts(normalize = True)

In [None]:
# Plot
plt.figure(figsize = (10,6))
df.education.value_counts(normalize = True).plot(kind = "pie")
plt.title("Proporção da variável de education\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.legend()
plt.legend(bbox_to_anchor=(1.31,0.4))
plt.show()

In [None]:
# Proporção da variável response
df.response.value_counts(normalize = True)

In [None]:
# Plot
plt.figure(figsize = (4,4))
df.response.value_counts(normalize = True).plot(kind = "pie")
plt.title("Proporção da variável response\n", fontdict = {'fontsize': 15, 'fontweight' : 5, 'color' : 'Green'})
plt.legend()
plt.show()

## Análise Multivariada - Duas ou mais variáveis
Visualização dos Dados para Análise Multivariada

In [None]:
# Scatter Plot
sns.scatterplot(df["balance"], df["salary"])
plt.title("Scatter Plot Entre Saldo e Salário\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.show()

In [None]:
# Scatter Plot
sns.scatterplot(df["balance"], df["age"])
plt.title("Scatter Plot Entre Saldo e Idade\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.show()

In [None]:
# Pair Plot
sns.pairplot(df[["salary","balance","age"]])
plt.show()

In [None]:
# Calcula a correlação
res = df[["salary", "balance", "age"]].corr()

In [None]:
# Mapa de Correlação
plt.figure(figsize = (10,5))
sns.heatmap(res, annot = True, cmap = "Reds")
plt.title("Mapa de Correlação\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.show()

In [None]:
# Agrupa o salário pela variável resposta e calcula a média
df.groupby(by = ["response"])["salary"].mean()

In [None]:
# Agrupa o salário pela variável resposta e calcula a mediana
df.groupby(by = ["response"])["salary"].median()

In [None]:
# Boxplot
plt.figure(figsize = (10,5))
sns.boxplot(df["response"], df["salary"])
plt.title("Salário x Resposta\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.show()

In [None]:
# Agrupa educação por salário e calcula a média
df.groupby(by = ["education"])["salary"].mean()

In [None]:
# Cria a variável response_flag como tipo numérico onde response "yes"= 1, "no"= 0
df["response_flag"] = np.where(df["response"] == "yes",1,0)
df.head()

In [None]:
# Mapa de correlação
res1 = df.pivot_table(index = "education", columns = "marital", values = "response_flag", aggfunc = "mean")
sns.heatmap(res1, annot = True, cmap = "RdYlGn")
plt.title("Education vs Marital vs Response Flag\n", fontdict = {'fontsize': 20, 'fontweight' : 5, 'color' : 'Green'})
plt.show()

### Relatório
- Foram tratados todos os valores ausentes. Quando os valores ausentes não execederam a 30% foram aplicadas técnicas
de Imputação usando mediana ou moda conforme cada caso. Quando esse valor excedeu a 30% foi aplicado a técnica de drop;
- Ao analisar os dados foram observados o seguinte:
    - A função que mais aparece no conjunto de dados é a Blue Color;
    - Não se verificou correlação entre salário e idade;
    - Foi verificado que a média de salário é ligeiramente maior para o grupo que comprou o produto;
    - Também foi verificado que a média salarial é maior conforme aumenta o nível de escolaridade;
    - Foi identificado como cliente menos provável em comprar o perfil casado/baixa escolaridade;
    - Foi identificado como cliente com maior potencial em comprar os perfis solteiro/estudante e divorciado/aposentado.
    

# Fim