In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [2]:
data = pd.read_csv('../data/adult.data', header=None)
# Renomear as colunas
columns = ['Idade', 'Classe Trabalhadora', 'fnlwgt', 'Educação', 'N da Educação', 'Estado Civil', 'Ocupação', 'Relacionamento', 'Raça', 'Sexo', 'Ganho de Capital', 'Perda de Capital', 'Horas por Semana', 'País de Origem', 'Classe']
data.columns = columns

In [3]:
data.head()

Unnamed: 0,Idade,Classe Trabalhadora,fnlwgt,Educação,N da Educação,Estado Civil,Ocupação,Relacionamento,Raça,Sexo,Ganho de Capital,Perda de Capital,Horas por Semana,País de Origem,Classe
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### Revisão dos Insights da Análise Exploratória

#### 1. Distribuições de Características Numéricas e Categóricas

- **Idade**:
  - A distribuição da idade é relativamente simétrica, com a maioria dos indivíduos entre 20 e 50 anos.
  - Outliers foram identificados em idades avançadas (acima de 70 anos), com alguns indivíduos ainda economicamente ativos.
  
- **N de Educação**:
  - A maioria dos indivíduos possui um nível de educação até o ensino médio (`HS-grad`) ou alguns anos de faculdade (`Some-college`).
  - A mediana de anos de educação é 10, indicando uma população com educação média a alta.

- **Horas por Semana**:
  - A maioria dos indivíduos trabalha 40 horas por semana, com outliers significativos abaixo de 20 horas e acima de 60 horas.
  
- **Ganho de Capital e Perda de Capital**:
  - Ambas as variáveis têm uma distribuição altamente assimétrica, com muitos zeros e alguns valores extremamente altos (outliers).
  - Os outliers identificados nessas variáveis indicam que uma pequena fração da população obteve ganhos/perdas de capital significativos.

#### 2. Distribuições de Variáveis Categóricas

- **Classe de Trabalho**:
  - A maioria dos indivíduos pertence à classe `Private`, seguida por `Self-emp-not-inc` e `Local-gov`. O emprego privado domina a amostra.

- **Educação**:
  - As categorias mais comuns são `HS-grad`, `Some-college`, e `Bachelors`, indicando que a maioria das pessoas tem educação até o ensino médio ou superior.

- **Estado Civil**:
  - A categoria `Married-civ-spouse` é a mais comum, sugerindo que muitos indivíduos estão em casamentos civis.

- **Ocupação**:
  - As ocupações mais frequentes são `Prof-specialty`, `Craft-repair`, e `Exec-managerial`, indicando que a amostra contém muitos trabalhadores em ocupações técnicas e administrativas.

- **País de Origem**:
  - A maioria dos indivíduos é dos Estados Unidos, com poucos representantes de outros países, o que pode influenciar fortemente a análise.

#### 3. Relações Entre Variáveis

- **Idade vs. Horas por Semana**:
  - Não foi identificada uma forte correlação entre idade e o número de horas trabalhadas por semana. 

- **Educação vs. Número de Educação**:
  - A relação entre `Educação` e `N de Educação` é altamente correlacionada, como esperado, já que ambas representam o nível educacional de maneiras diferentes (categórica vs. numérica).

- **Ganho de Capital vs. Perda de Capital**:
  - Há uma correlação moderada entre `Ganho de capital` e `Perda de capital`, sugerindo que ganhos e perdas de capital podem estar relacionados, mas não fortemente.

#### 4. Presença de Valores Ausentes

- **Valores Ausentes Identificados**:
  - Variáveis como `Classe Trabalhadora`, `Ocupação`, e `País de Origem` apresentam valores ausentes.
  - Os valores ausentes foram tratados usando a imputação pela moda (valor mais frequente) nas variáveis categóricas.

#### 5. Outliers Identificados

- **Outliers Detectados**:
  - Outliers foram identificados em variáveis como `age`, `Ganho de capital`, e `Perda de capital`. Esses outliers podem impactar a análise e modelagem, especialmente se forem mantidos nos dados.


***

### Limpeza de Dados

#### 1. Tratamento de Valores Ausentes

**Observações:**
- Na analise feita nao foram encontrados valores ausentes nas variáveis numéricas e categóricas. porem poderiamos aplicar a tecnica de imputação pela moda para as variáveis categóricas e imputação pela média para as variáveis numéricas, caso houvesse valores ausentes.

- Exemplo de uso da tecnica de imputação pela moda para as variáveis categóricas
    ```python	
    # Imputação pela moda para variáveis categóricas
    data['Nome da coluna'].fillna(data['Nome da coluna'].mode()[0], inplace=True)
    # Exemplo de imputação pela média para variáveis numéricas
    data['Nome da coluna'].fillna(data['Nome da coluna'].mean(), inplace=True)
    ```

In [6]:
data.isnull().sum()

Idade                  0
Classe Trabalhadora    0
fnlwgt                 0
Educação               0
N da Educação          0
Estado Civil           0
Ocupação               0
Relacionamento         0
Raça                   0
Sexo                   0
Ganho de Capital       0
Perda de Capital       0
Horas por Semana       0
País de Origem         0
Classe                 0
dtype: int64

#### 2. Tratamento de Outliers