In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

Exploração dos dados

In [None]:
#Importando a base de dados
base_census = pd.read_csv('adult.data')

#Ela veio sem o nome das colunas, criei uma variavel com o nome das colunas
column_names = ['age', 'workclass', 'final-weight', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loos', 'hour-per-week', 'native-country', 'income']

#Atribui os nomes para as colunas utilizando o .columns
base_census.columns = column_names

display(base_census )


In [None]:
#Para visualizar algumas estatisticas, analise inicial
base_census.describe()

In [None]:
#Verificar se existe valores faltantes
base_census.isnull().sum()

Visualização dos dados

In [None]:
np.unique(base_census['income'], return_counts=True)

In [None]:
#Gráfico do seaborn
sns.countplot(x = base_census['income']);

In [None]:
#Histogramas
plt.hist(x = base_census['age']);

In [None]:
#Histograma
plt.hist(x= base_census['education-num']);

In [None]:
#Histograma
plt.hist(x = base_census['hour-per-week']);

In [None]:
#Gráfico dinamico
grafico = px.treemap(base_census, path=['workclass', 'age'])
grafico.show()

In [None]:
#Gráfico dinâmico 2 - Treemap é bom para ver agrupamento de dados e relações 
grafico = px.treemap(base_census, path=['occupation', 'relationship', 'age'])
grafico.show()

In [None]:
#Grafico de categoria paralelas
grafico = px.parallel_categories(base_census, dimensions=['occupation', 'relationship'])
grafico.show()

In [None]:
#Grafico de categoria paralelas
grafico = px.parallel_categories(base_census, dimensions=['workclass', 'occupation', 'income'])
grafico.show()

In [None]:
#Grafico de categoria paralelas
grafico = px.parallel_categories(base_census, dimensions=['education', 'income'])
grafico.show()

Divisão entre previsores e classe

In [None]:
x_census = base_census.iloc[:, 0:14].values

x_census

In [None]:
y_census = base_census.iloc[:, 14].values
y_census

Tratamento de atributos categóricos 

LabelEncoder

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
#Transformando strings em numeros - teste
label_encoder_teste = LabelEncoder()
teste = label_encoder_teste.fit_transform(x_census[:,1])

teste

In [None]:
# Variaveis com Label Encoder para todas as colunas string
label_encoder_workclass = LabelEncoder()
label_encoder_education = LabelEncoder()
label_encoder_marital = LabelEncoder()
label_encoder_occupation = LabelEncoder()
label_encoder_relationship = LabelEncoder()
label_encoder_race = LabelEncoder()
label_encoder_sex = LabelEncoder()
label_encoder_country = LabelEncoder()

In [None]:
#Label Encoder sendo aplicado em todas colunas strings
x_census[:, 1] = label_encoder_workclass.fit_transform(x_census[:, 1])
x_census[:, 3] = label_encoder_education.fit_transform(x_census[:, 3])
x_census[:, 5] = label_encoder_marital.fit_transform(x_census[:, 5])
x_census[:, 6] = label_encoder_occupation.fit_transform(x_census[:, 6])
x_census[:, 7] = label_encoder_relationship.fit_transform(x_census[:, 7])
x_census[:, 8] = label_encoder_race.fit_transform(x_census[:, 8])
x_census[:, 9] = label_encoder_sex.fit_transform(x_census[:, 9])
x_census[:, 13] = label_encoder_country.fit_transform(x_census[:, 13])
x_census 

OneHotEncoder

In [None]:
""" Carro 

-------------------------------------------------------------
GOL  PALIO   UNO - Algoritmo vai dar prioridade para o Uno
1      2      3 
------------------------------------------------------------- 

-------------------------------------------------------------
Com o OneHotEncoder - Será codificado

GOL   1 0 0
Palio 0 1 0
Uno   0 0 1
-------------------------------------------------------------
"""

len(np.unique(base_census['workclass']))

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

In [None]:
#Criando a variavel com o OnehotEncoder
onehotencoder_census = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1, 3, 5, 6, 7, 8, 9, 13])], remainder='passthrough')

In [None]:
#Transformando a base census
x_census = onehotencoder_census.fit_transform(x_census).toarray()

In [None]:
x_census

In [None]:
x_census.shape

Escanolamento de valores - deixar todos na mesma escala

In [None]:
from sklearn.preprocessing import StandardScaler #Para aplicar a padronização
scaler_census = StandardScaler()
x_census = scaler_census.fit_transform(x_census)
x_census[0]

Divisão das bases em treinamento e teste

In [None]:
from sklearn.model_selection import train_test_split

Credit data

In [None]:
x_census_treinamento, x_census_teste, y_census_treinamento, y_census_teste = train_test_split(x_census, y_census, test_size=0.15, random_state=0)

In [None]:
x_census_treinamento.shape, y_census_treinamento.shape

In [None]:
x_census_teste.shape, y_census_teste.shape

Salvar as variavéis

In [35]:
import pickle

In [36]:
with open('census.pkl', mode = 'wb') as f:
    pickle.dump([x_census_treinamento, y_census_treinamento, x_census_teste, y_census_teste], f)