In [None]:
import pprint
import pandas as pd

# Importação da base de dados:
base = pd.read_csv('census.csv')
pprint.pprint(base)
pprint.pprint(base.describe())

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.io as pio

# Visualização dos dados:
np.unique(base['income'], return_counts=True)

sns.countplot(x=base['income'], data=base)
plt.xlabel('Renda')
plt.ylabel('Quantidade')
plt.title('Renda dos cadastrados')
plt.show()

plt.hist(base['age'])
plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.title('Idade dos cadastrados')
plt.show()

plt.hist(base['education-num'])
plt.xlabel('Anos estudados')
plt.ylabel('Quantidade')
plt.title('Quantidade de anos estudados')
plt.show()

plt.hist(base['hour-per-week'])
plt.xlabel('Horas trabalhadas')
plt.ylabel('Quantidade')
plt.title('Horas semanais trabalhadas')
plt.show()

'''grafico = px.treemap(base, path=['workclass'])
grafico.show()

grafico1 = px.treemap(base, path=['workclass', 'age'])
grafico1.show()

grafico2 = px.parallel_categories(base, dimensions=['age', 'income'])
grafico2.show()'''

In [None]:
# Visão de todas as colunas:
print(base.columns, end='\n\n')

# Divisão entre previsores e classe:
#   Previsores:
X_base = base.iloc[:, 0:14].values
print(X_base, end='\n\n')
print(X_base[0], end='\n\n')

#   Classe:
Y_base = base.iloc[:, 14].values
print(Y_base, end='\n\n')

In [None]:
# OBS: Como há valores categóricos (string) devemos fazer o tratamento deste valores,
# de modo a transformá-los em números usando o LabelEncoder ou OneHotEncoder

#   LabelEncoder:

from sklearn.preprocessing import LabelEncoder

for linha in range(0, len(X_base)):
    for coluna in range(0, 14):
        if isinstance(X_base[linha, coluna], str):
            label_encoder = LabelEncoder()
            X_base[:, coluna] = label_encoder.fit_transform(X_base[:, coluna])


'''
label_encoder_workclass = LabelEncoder()
X_base[:, 1] = label_encoder_workclass.fit_transform(X_base[:, 1])

label_encoder_education = LabelEncoder()
X_base[:, 3] = label_encoder_education.fit_transform(X_base[:, 3])

label_encoder_marital_status = LabelEncoder()
X_base[:, 5] = label_encoder_marital_status.fit_transform(X_base[:, 5])

label_encoder_occupation = LabelEncoder()
X_base[:, 6] = label_encoder_occupation.fit_transform(X_base[:, 6])

label_encoder_relationship = LabelEncoder()
X_base[:, 7] = label_encoder_relationship.fit_transform(X_base[:, 7])

label_encoder_race = LabelEncoder()
X_base[:, 8] = label_encoder_race.fit_transform(X_base[:, 8])

label_encoder_sex = LabelEncoder()
X_base[:, 9] = label_encoder_sex.fit_transform(X_base[:, 9])

label_encoder_native_country = LabelEncoder()
X_base[:, 13] = label_encoder_native_country.fit_transform(X_base[:, 13])

print(X_base[0], end='\n\n')'''

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

onehotenconder_census = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1, 3, 5, 6, 7, 8, 9, 13])], remainder='passthrough')
X_base = onehotenconder_census.fit_transform(X_base).toarray()

In [None]:
# Escalonamento de valores 

from sklearn.preprocessing import StandardScaler
scaler_census = StandardScaler()
X_base = scaler_census.fit_transform(X_base)
print(X_base)

# Todos os valores foram deixados na mesma escala.

In [None]:
# Divisão das bases de treinamento e teste

from sklearn.model_selection import train_test_split

X_base_treinamento, X_base_teste, Y_base_treinamento, Y_base_teste = train_test_split(X_base, Y_base, test_size = 0.15, random_state=0)


In [None]:
X_base_treinamento.shape, Y_base_treinamento.shape

In [None]:
X_base_teste.shape, Y_base_teste.shape

In [None]:
# Armazenamento da base já pré-processada:

import pickle

with open('census.pkl', mode='wb') as f:
    pickle.dump([X_base_treinamento, Y_base_treinamento, X_base_teste, Y_base_teste], f)
