In [32]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [33]:
data = pd.read_csv('../data/adult.data', header=None)
# Renomear as colunas
columns = ['Idade', 'Classe Trabalhadora', 'fnlwgt', 'Educação', 'N da Educação', 'Estado Civil', 'Ocupação', 'Relacionamento', 'Raça', 'Sexo', 'Ganho de Capital', 'Perda de Capital', 'Horas por Semana', 'País de Origem', 'Classe']
data.columns = columns

In [34]:
data.head()

Unnamed: 0,Idade,Classe Trabalhadora,fnlwgt,Educação,N da Educação,Estado Civil,Ocupação,Relacionamento,Raça,Sexo,Ganho de Capital,Perda de Capital,Horas por Semana,País de Origem,Classe
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### Revisão dos Insights da Análise Exploratória

#### 1. Distribuições de Características Numéricas e Categóricas

- **Idade**:
  - A distribuição da idade é relativamente simétrica, com a maioria dos indivíduos entre 20 e 50 anos.
  - Outliers foram identificados em idades avançadas (acima de 70 anos), com alguns indivíduos ainda economicamente ativos.
  
- **N de Educação**:
  - A maioria dos indivíduos possui um nível de educação até o ensino médio (`HS-grad`) ou alguns anos de faculdade (`Some-college`).
  - A mediana de anos de educação é 10, indicando uma população com educação média a alta.

- **Horas por Semana**:
  - A maioria dos indivíduos trabalha 40 horas por semana, com outliers significativos abaixo de 20 horas e acima de 60 horas.
  
- **Ganho de Capital e Perda de Capital**:
  - Ambas as variáveis têm uma distribuição altamente assimétrica, com muitos zeros e alguns valores extremamente altos (outliers).
  - Os outliers identificados nessas variáveis indicam que uma pequena fração da população obteve ganhos/perdas de capital significativos.

#### 2. Distribuições de Variáveis Categóricas

- **Classe de Trabalho**:
  - A maioria dos indivíduos pertence à classe `Private`, seguida por `Self-emp-not-inc` e `Local-gov`. O emprego privado domina a amostra.

- **Educação**:
  - As categorias mais comuns são `HS-grad`, `Some-college`, e `Bachelors`, indicando que a maioria das pessoas tem educação até o ensino médio ou superior.

- **Estado Civil**:
  - A categoria `Married-civ-spouse` é a mais comum, sugerindo que muitos indivíduos estão em casamentos civis.

- **Ocupação**:
  - As ocupações mais frequentes são `Prof-specialty`, `Craft-repair`, e `Exec-managerial`, indicando que a amostra contém muitos trabalhadores em ocupações técnicas e administrativas.

- **País de Origem**:
  - A maioria dos indivíduos é dos Estados Unidos, com poucos representantes de outros países, o que pode influenciar fortemente a análise.

#### 3. Relações Entre Variáveis

- **Idade vs. Horas por Semana**:
  - Não foi identificada uma forte correlação entre idade e o número de horas trabalhadas por semana. 

- **Educação vs. Número de Educação**:
  - A relação entre `Educação` e `N de Educação` é altamente correlacionada, como esperado, já que ambas representam o nível educacional de maneiras diferentes (categórica vs. numérica).

- **Ganho de Capital vs. Perda de Capital**:
  - Há uma correlação moderada entre `Ganho de capital` e `Perda de capital`, sugerindo que ganhos e perdas de capital podem estar relacionados, mas não fortemente.

#### 4. Presença de Valores Ausentes

- **Valores Ausentes Identificados**:
  - Variáveis como `Classe Trabalhadora`, `Ocupação`, e `País de Origem` apresentam valores ausentes.
  - Os valores ausentes foram tratados usando a imputação pela moda (valor mais frequente) nas variáveis categóricas.

#### 5. Outliers Identificados

- **Outliers Detectados**:
  - Outliers foram identificados em variáveis como `age`, `Ganho de capital`, e `Perda de capital`. Esses outliers podem impactar a análise e modelagem, especialmente se forem mantidos nos dados.


***

### Limpeza de Dados

#### 1. Tratamento de Valores Ausentes

**Observações:**
- Na analise feita nao foram encontrados valores ausentes nas variáveis numéricas e categóricas. porem poderiamos aplicar a tecnica de imputação pela moda para as variáveis categóricas e imputação pela média para as variáveis numéricas, caso houvesse valores ausentes.

- Exemplo de uso da tecnica de imputação pela moda para as variáveis categóricas
    ```python	
    # Imputação pela moda para variáveis categóricas
    data['Nome da coluna'].fillna(data['Nome da coluna'].mode()[0], inplace=True)
    # Exemplo de imputação pela média para variáveis numéricas
    data['Nome da coluna'].fillna(data['Nome da coluna'].mean(), inplace=True)
    ```

In [35]:
data.isnull().sum()

Idade                  0
Classe Trabalhadora    0
fnlwgt                 0
Educação               0
N da Educação          0
Estado Civil           0
Ocupação               0
Relacionamento         0
Raça                   0
Sexo                   0
Ganho de Capital       0
Perda de Capital       0
Horas por Semana       0
País de Origem         0
Classe                 0
dtype: int64

In [36]:
data['Ganho de Capital'].fillna(data['Ganho de Capital'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Ganho de Capital'].fillna(data['Ganho de Capital'].mean(), inplace=True)


In [37]:
data['Ganho de Capital'] = data['Ganho de Capital'].astype(int)

In [38]:
# se a coluna ganho de capital tiver o valor 0 substituir pela média dos valores da coluna
data['Ganho de Capital'].replace(0, data['Ganho de Capital'].mean(), inplace=True)
data['Perda de Capital'].replace(0, data['Perda de Capital'].mean(), inplace=True)
data

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Ganho de Capital'].replace(0, data['Ganho de Capital'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Perda de Capital'].replace(0, data['Perda de Capital'].mean(), inplace=True)


Unnamed: 0,Idade,Classe Trabalhadora,fnlwgt,Educação,N da Educação,Estado Civil,Ocupação,Relacionamento,Raça,Sexo,Ganho de Capital,Perda de Capital,Horas por Semana,País de Origem,Classe
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174.000000,87.30383,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,1077.648844,87.30383,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,1077.648844,87.30383,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,1077.648844,87.30383,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,1077.648844,87.30383,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,1077.648844,87.30383,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,1077.648844,87.30383,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,1077.648844,87.30383,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,1077.648844,87.30383,20,United-States,<=50K


#### 2. Tratamento de Outliers

**Observações:**
- Outliers foram identificados em variáveis numéricas como Idade, Ganho de Capital, e Perda de Capital, Esses outliers podem distorcer a análise e o desempenho de modelos de machine learning, especialmente os modelos baseados em distâncias, como KNN ou SVM.

**Abordagem:**
- Em vez de remover os outliers diretamente (o que pode resultar na perda de dados importantes), podemos considerar técnicas como:
    - Capping (Capagem): Limitar os valores extremos ao percentil 1% e 99% para evitar que outliers distorçam o modelo.
    - Transformações Logarítmicas: Em casos de distribuições altamente assimétricas, como em Capital de Ganho e Perda de capital, a aplicação de uma transformação logarítmica pode ajudar a suavizar os outliers.

In [39]:
# Função para aplicar capagem nos outliers
def cap_outliers(df, column):
    lower_limit = df[column].quantile(0.01)
    upper_limit = df[column].quantile(0.99)
    df[column] = np.clip(df[column], lower_limit, upper_limit)
    return df

# Aplicando capagem nas variáveis com outliers
data = cap_outliers(data, 'Idade')
data = cap_outliers(data, 'Ganho de Capital')
data = cap_outliers(data, 'Perda de Capital')

In [40]:
data.head()

Unnamed: 0,Idade,Classe Trabalhadora,fnlwgt,Educação,N da Educação,Estado Civil,Ocupação,Relacionamento,Raça,Sexo,Ganho de Capital,Perda de Capital,Horas por Semana,País de Origem,Classe
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174.0,87.30383,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,1077.648844,87.30383,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,1077.648844,87.30383,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,1077.648844,87.30383,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,1077.648844,87.30383,40,Cuba,<=50K


***

### Tratamento de Variáveis Categóricas
- O tratamento de variáveis categóricas é uma etapa essencial na preparação de dados para modelos de machine learning. Modelos supervisionados geralmente exigem que as variáveis sejam numéricas, então precisamos converter as variáveis categóricas para um formato adequado.

#### 1. Identificação das Variáveis Categóricas

In [42]:
# identificar todas as variáveis categóricas presentes no conjunto de dados
# Identificando as variáveis categóricas no conjunto de dados
categorical_columns = data.select_dtypes(include=['object']).columns
categorical_columns


Index(['Classe Trabalhadora', 'Educação', 'Estado Civil', 'Ocupação',
       'Relacionamento', 'Raça', 'Sexo', 'País de Origem', 'Classe'],
      dtype='object')

#### 2. Codificação One-Hot

- A codificação one-hot é apropriada quando as variáveis categóricas não possuem uma ordem intrínseca. Cada categoria é transformada em uma coluna binária (0 ou 1)
- Isso é necessário para variáveis como `Classe de Trabalho`, `Ocupação`, e `País de Origem`, que não possuem uma ordem natural.

In [43]:
data_encoded = pd.get_dummies(data, columns=categorical_columns, drop_first=True)

In [44]:
data_encoded.head()

Unnamed: 0,Idade,fnlwgt,N da Educação,Ganho de Capital,Perda de Capital,Horas por Semana,Classe Trabalhadora_ Federal-gov,Classe Trabalhadora_ Local-gov,Classe Trabalhadora_ Never-worked,Classe Trabalhadora_ Private,...,País de Origem_ Puerto-Rico,País de Origem_ Scotland,País de Origem_ South,País de Origem_ Taiwan,País de Origem_ Thailand,País de Origem_ Trinadad&Tobago,País de Origem_ United-States,País de Origem_ Vietnam,País de Origem_ Yugoslavia,Classe_ >50K
0,39,77516,13,2174.0,87.30383,40,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
1,50,83311,13,1077.648844,87.30383,13,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
2,38,215646,9,1077.648844,87.30383,40,False,False,False,True,...,False,False,False,False,False,False,True,False,False,False
3,53,234721,7,1077.648844,87.30383,40,False,False,False,True,...,False,False,False,False,False,False,True,False,False,False
4,28,338409,13,1077.648844,87.30383,40,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False


#### 3. Codificação de Rótulos (Label Encoding)
- A codificação de rótulos (label encoding) é apropriada quando as variáveis categóricas possuem uma ordem ou um ranking natural. Isso é comum em variáveis como `Educação` (ex.: ensino médio, graduação, pós-graduação), No caso da variável `Classe`, que é binária (<=50K ou >50K), também podemos aplicar a codificação de rótulos.

In [45]:
from sklearn.preprocessing import LabelEncoder

# Aplicando Label Encoding na variável 'income'
le = LabelEncoder()
data_encoded['Classe'] = le.fit_transform(data['Classe'])

# Exibindo as primeiras linhas para verificar o resultado
data_encoded['Classe'].head()

0    0
1    0
2    0
3    0
4    0
Name: Classe, dtype: int64

In [47]:
data.columns

Index(['Idade', 'Classe Trabalhadora', 'fnlwgt', 'Educação', 'N da Educação',
       'Estado Civil', 'Ocupação', 'Relacionamento', 'Raça', 'Sexo',
       'Ganho de Capital', 'Perda de Capital', 'Horas por Semana',
       'País de Origem', 'Classe'],
      dtype='object')

In [48]:
data_encoded.columns

Index(['Idade', 'fnlwgt', 'N da Educação', 'Ganho de Capital',
       'Perda de Capital', 'Horas por Semana',
       'Classe Trabalhadora_ Federal-gov', 'Classe Trabalhadora_ Local-gov',
       'Classe Trabalhadora_ Never-worked', 'Classe Trabalhadora_ Private',
       ...
       'País de Origem_ Scotland', 'País de Origem_ South',
       'País de Origem_ Taiwan', 'País de Origem_ Thailand',
       'País de Origem_ Trinadad&Tobago', 'País de Origem_ United-States',
       'País de Origem_ Vietnam', 'País de Origem_ Yugoslavia', 'Classe_ >50K',
       'Classe'],
      dtype='object', length=102)

: 