In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

## Coletando nossos dados

In [None]:
url = 'https://github.com/Mirlaa/oficina-limpeza-tratamento/raw/main/dado/dados_oficina.csv'

In [None]:
df = pd.read_csv(url)
df.head()

## Do que se tratam os dados

**Dicionário de dados:** Informação sobre nossos dados.

- `id`: Identificação única de cada registro;
- `idade`: Idade do cliente;
- `profissao`: Profissão do cliente;
- `estado_civil`: Estado civil do cliente;
- `educacao`: Nível de educação do cliente;
- `inadimplencia`: Indica se o cliente está inadimplente
- `saldo`: Saldo na conta do cliente;
- `habitacao`: Indica se o cliente possui habitação;
- `emprestimo`: Indica se o cliente possui empréstimo;
- `contato`: Tipo de contato com o cliente;
- `dia`: Dia do mês do último contato;
- `mes`: Mês do último contato;
- `duracao`: Duração da última ligação em segundos;
- `campanha`: Número de contatos realizados durante esta campanha;
- `contatos_anteriores`: Número de contatos realizados antes desta campanha;
- `resultado_campanha_anterior`: Resultado da campanha anterior; e
- `alvo`: Alvo da campanha.

In [None]:
df.info()

**Observações:**

- existem várias colunas com valores nulos
- todos os valores estão no tipo apropriado, caso não estivessem usaríamos o método [`astype`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html)

In [None]:
df.describe()

**Observações:**

- Coluna `idade` com valores irreais
- Valores nulos em algumas colunas

In [None]:
df.nunique()

**Observações:**

- Coluna `id` mostra que tem ids duplicados
- Temos colunas numéricas com apenas duas categorias, podem ser binários

## Lidando com duplicados e nulos

### Dados duplicados

Amostras duplicadas são dados que possuem **os mesmos valores** em colunas correspondentes.

Por exemplo, não há distinção da amostra A para amostra B, justamente porque todos os valores de colunas correspondentes são iguais. Por isso, transmitem **apenas uma informação.**

In [None]:
df.duplicated().sum()

In [None]:
df[df.duplicated()]

O que fazer com essas amostras? Devemos removê-las do banco de dados.

Podemos citar três motivos principais para a remoção das amostras duplicadas:

- **Viés do modelo**: se há amostras duplicadas no conjunto de dados, pode ser que o modelo de machine learning dê mais importância para essas amostras repetidas.
- **Melhora do desempenho do modelo**: se inserimos amostras duplicadas, vão ser necessários mais cálculos e poder de processamento, além de ser um desperdício computacional trabalhar com amostras com o mesmo valor e que transmitem a mesma informação.
- **Aumento da qualidade dos resultados**: vamos inserir informações únicas, sem dados repetidos. Ou seja, vão ser mais relevantes para o modelo.

In [None]:
df.drop_duplicates(inplace=True)
df

In [None]:
df.duplicated().sum()

### Dados nulos

Dados nulos são valores que estão ausentes ou são desconhecidos na base de dados.

In [None]:
df.isnull().sum()

**Observações:**

- Apenas as colunas `idade` e `saldo` são colunas numéricas e ambas contém pouquíssimos dados nulos
- As colunas `profissao`, `educacao`, `resultado_campanha_anterior` contém dados nulos com diferentes valores.

### Dados numéricos

Não sabemos os valores originais em `idade` e `saldo`, mas não podemos substituir por qualquer valor.

- Viés nos dados: o modelo de machine learning vai tentar procurar padrões que vão estar incorretos, pois não são os dados reais. Isso pode levar a previsões enganosas, incorretas e que não são satisfatórias.
- Distorção de resultados: inserir um valor que não é o correto faz com que o modelo aprenda com dados incorretos e, consequentemente, levam a previsões que podem ser incorretas.

In [None]:
df.dropna(subset=['idade','saldo'])

In [None]:
df.dropna(subset=['idade','saldo'], inplace=True)

In [None]:
df.isnull().sum()

### Dados textuais

In [None]:
for col in ['profissao','educacao','resultado_campanha_anterior']:
    print(f"Coluna: {col}")
    print(df[col].unique())
    print("\n")

In [None]:
df['profissao'].fillna('desconhecido', inplace = True)
df['educacao'].fillna('desconhecido', inplace = True)
df['resultado_campanha_anterior'].fillna('desconhecido', inplace = True)

In [None]:
df.isnull().sum()

Vamos resetar os índices devido a esses índices saltados que devem ser evitados em machine learning.

In [None]:
df.reset_index(drop=True, inplace=True)

## Verificando outliers

Outliers, que são valores atípicos ou um ponto fora da curva. Em estatística, isso significa um dado que se distancia muito da distribuição padrão que os dados apresentam.

In [None]:
df_numericos = df.select_dtypes(include="number")
df_numericos.head()

**Conhecendo o boxplot:**

![](https://github.com/Mirlaa/oficina-limpeza-tratamento/blob/main/boxplot.png?raw=true)

No centro da caixa, encontramos a mediana, que divide os dados ao meio, com 50% à esquerda e 50% à direita.

Nos cantos superiores esquerdo e direito da caixa, estão os quartis Q1 e Q3, que dividem os dados em quatro partes iguais, cada uma com 25% dos dados. Até Q1, temos os 25% menores dados, enquanto Q3 abrange os 25% maiores.

Entre Q1 e Q3, encontramos os 75% dos dados, onde Q2 é a mediana. A partir de Q3, temos os 25% finais dos dados.

Acima da caixa, calculamos o IIQ (Intervalo Interquartil), que é a diferença entre Q3 e Q1.

À esquerda e à direita da caixa, existem duas arestas. Na aresta esquerda, calculamos o limite inferior como "Q1 - 1,5 x IIQ", e na aresta direita, o limite superior como "Q3 + 1,5 x IIQ". Valores abaixo do limite inferior ou acima do limite superior são considerados candidatos a outliers, que estamos buscando identificar.

In [None]:
df_numericos.describe()

In [None]:
plt.rcParams["figure.figsize"] = (22, 3)
sns.boxplot(x=df['idade'])

In [None]:
df = df[df['idade']>= 18]
df = df[df['idade']< 120]

In [None]:
plt.rcParams["figure.figsize"] = (22, 3)
sns.boxplot(x=df['idade'])

In [None]:
sns.boxplot(x=df['contatos_anteriores'])

In [None]:
df = df[df['contatos_anteriores']<=40]

In [None]:
sns.boxplot(x=df['contatos_anteriores'])

In [None]:
df = df.reset_index(drop=True)

## Trabalhando com dados categóricos

### Ajuste de dados de texto

In [None]:
df_textos = df.select_dtypes(exclude="number")
df_textos.head()

**Observações:**

- Quando vemos a coluna `contato` notamos que existem dados **vazios** nas primeiras linhas, vamos verificar que tipo de dado é esse.

In [None]:
for col in df_textos.columns:
    print(f"Coluna: {col}")
    print(df_textos[col].unique())
    print("\n")

In [None]:
df['contato'] = df['contato'].replace(' ', 'outro')

In [None]:
df['contato'].unique()

Variáveis categóricas são uma forma de agrupar informações em categorias diferentes, sem um valor numérico associado a elas, como o caso das variáveis numéricas.

Não conseguimos atribuir um valor numérico para essas variáveis, apenas classificá-las em categorias distintas.

**Variáveis categóricas binárias:**

- São um tipo especial de variável categórica que apresenta apenas duas categorias possíveis, como sim/não, verdadeiro/falso, ou presente/ausente. As variáveis categóricas binárias são úteis para analisar a distribuição de dados em apenas duas categorias distintas.

**Variáveis categóricas nominais:**

- Não têm uma ordem específica ou hierarquia entre as categorias. Por exemplo, ao analisar as preferências musicais de um grupo de pessoas, é possível usar variáveis categóricas nominais para classificar as pessoas em grupos como "rock," "jazz," ou "pop."

**Variáveis categóricas ordinais:**

- Possuem uma ordem específica entre as categorias. Por exemplo, ao analisar o nível de escolaridade de um grupo de pessoas, é possível usar esse tipo de variável para classificá-las em grupos como "ensino fundamental completo," "ensino médio completo," ou "ensino superior completo," seguindo uma ordem hierárquica.

### Dados categóricos - binários

**Observações:**

- Existem colunas binárias em formato de texto: `inadimplencia`, `habitacao`, `emprestimo`, `alvo`

In [None]:
binario_map = {
    'sim': 1,
    'não': 0
}

df['alvo'].map(binario_map)

In [None]:
# Aplicar as traduções às colunas categóricas
df['inadimplencia'] = df['inadimplencia'].map(binario_map)
df['habitacao'] = df['habitacao'].map(binario_map)
df['emprestimo'] = df['emprestimo'].map(binario_map)
df['alvo'] = df['alvo'].map(binario_map)

### Dados categóricos - multicategórico

In [None]:
df

O ID é único para cada um dos 45.200 clientes registrados na nossa base de dados.

Essa é uma coluna categórica, mas não faz sentido mantê-la no nosso conjunto de dados, pois ela não nos traz nenhuma informação relevante para o modelo de machine learning.

In [None]:
df.drop('id', axis=1, inplace=True)
df

In [None]:
df_textos = df.select_dtypes(exclude="number")
df_textos.head()

O ***One-Hot Encoding*** é uma técnica de pré-processamento usada para lidar com colunas categóricas em um DataFrame, transformando essas categorias em representações binárias, onde cada categoria se torna uma nova coluna binária (0 ou 1).

Vamos ver um exemplo, temos um DataFrame que possui uma coluna de cores com valores categóricos:

|    | Cor      |
|---:|:---------|
|  0 | Vermelho |
|  1 | Azul     |
|  2 | Verde    |
|  3 | Vermelho |
|  4 | Amarelo  |

Ao aplicar o *One-Hot Encoding* convertemos cada cor (categoria) em uma coluna binária:

| | Cor_Amarelo | Cor_Azul | Cor_Verde | Cor_Vermelho |
|---:|-----:|---------:|-------:|-------:|
|  0 |  0 |          0 |0 |   1 |
|  1 |  0 |          1 |0 |   0 |
|  2 |  0 |          0 |1 |   0 |
|  3 |  0 |          0 |0 |   1 |
|  4 |  1 |          0 |0 |   0 |

Cada categoria única na coluna 'Cor' se torna uma nova coluna binária no DataFrame codificado. Por exemplo, 'Vermelho' se torna uma coluna chamada 'Cor_Vermelho', onde temos 1 para as linhas em que a cor é 'Vermelho' e 0 caso contrário. O mesmo princípio se aplica às outras cores.

In [None]:
df = pd.get_dummies(df)
df

In [None]:
df.info()

# Métodos do projeto

Links da documentação para os métodos utilizados na oficina.

- [`read_csv`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas-read-csv)
- [`info`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html#pandas.DataFrame.info)
- [`describe`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe)
- [`nunique`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html#pandas.DataFrame.nunique)
- [`duplicated`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html#pandas.DataFrame.duplicated)
- [`Funções built-in`](https://docs.python.org/3/library/functions.html)
- [`drop_duplicates`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html#pandas.DataFrame.drop_duplicates)
- [`dropna`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna)
- [`unique`](https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html#pandas.Series.unique)
- [`isnull`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html#pandas.DataFrame.isnull)
- [`fillna`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)
- [`reset_index`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html#pandas.DataFrame.reset_index)
- [`select_dtypes`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html#pandas.DataFrame.select_dtypes)
- [`plt.rcParams`](https://matplotlib.org/stable/users/explain/customizing.html#customizing-with-dynamic-rc-settings)
- [`sns.boxplot`](https://seaborn.pydata.org/generated/seaborn.boxplot.html)
- [`replace`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html#pandas.DataFrame.replace)
- [`map`](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas.Series.map)
- [`drop`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html#pandas.DataFrame.drop)
- [`get_dummies`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html#pandas-get-dummies)