<a href="https://colab.research.google.com/github/atritiack/exemplo/blob/main/AC2_Software_Product.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Atividade Contínua 02 - Software Product**

# Parte 1: Importação de bibliotecas

In [1]:
import pandas as pd

# Conversão de dados categóricos em numéricos:
from sklearn.preprocessing import LabelEncoder
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

# Normalização dos dados
from sklearn.preprocessing import StandardScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

# Separação em dados de treino e teste
from sklearn.model_selection import train_test_split
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html


# Parte 2: Preparação dos dados

O conjunto de dados modificado "census.csv" consiste em aproximadamente 32.000 registros de dados, com cada registro de dados tendo 13 características.

https://archive.ics.uci.edu/dataset/20/census+income

Este conjunto de dados é uma versão modificada do conjunto de dados publicado no artigo "*Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid*", de Ron Kohavi.

Artigo:

https://aaai.org/papers/033-scaling-up-the-accuracy-of-naive-bayes-classifiers-a-decision-tree-hybrid/


In [2]:
# Criando um dataframe a partir do dados do arquivo
df = pd.read_csv('/content/census.csv')
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [3]:
# Seleção de atributos (Dados de entrada)
# Com o método .iloc selecionamos (por índice) todas as linhas,
# e as colunas de 1 a 13 (o segundo parâmetro é excludente)
X = df.iloc[:, 0:14].values

In [4]:
X

array([[39, ' State-gov', 77516, ..., 0, 40, ' United-States'],
       [50, ' Self-emp-not-inc', 83311, ..., 0, 13, ' United-States'],
       [38, ' Private', 215646, ..., 0, 40, ' United-States'],
       ...,
       [58, ' Private', 151910, ..., 0, 40, ' United-States'],
       [22, ' Private', 201490, ..., 0, 20, ' United-States'],
       [52, ' Self-emp-inc', 287927, ..., 0, 40, ' United-States']],
      dtype=object)

In [5]:
# Seleção do target (Dados de saída)
# Com o método .iloc selecionamos (por índice) todas as linhas, apenas a coluna 14 (income)
y = df.iloc[:, 14].values

In [6]:
# Em Machine Learning, o "Label Encoding" é o processo de conversão
# de variáveis categóricas em variáveis numéricas (inteiros).

# Em nosso dataframe, as colunas com variáveis categóricas (e seus índices) são:
# workclass (1), education (3), marital (5), occupation (6), relationship (7), race (8), sex (9) e country (13)

# Criaremos variáveis com o nome das colunas e aplicaremos a transformação para cada uma deles com o LabelEncoder():
le_workclass = LabelEncoder()
le_education = LabelEncoder()
le_marital = LabelEncoder()
le_occupation = LabelEncoder()
le_relationship = LabelEncoder()
le_race = LabelEncoder()
le_sex = LabelEncoder()
le_country = LabelEncoder()

In [7]:
# Usando o método .fit_transform aplicamos os novos valores transformados às colunas:
X[:,1] = le_workclass.fit_transform(X[:,1])
X[:,3] = le_education.fit_transform(X[:,3])
X[:,5] = le_marital.fit_transform(X[:,5])
X[:,6] = le_occupation.fit_transform(X[:,6])
X[:,7] = le_relationship.fit_transform(X[:,7])
X[:,8] = le_race.fit_transform(X[:,8])
X[:,9] = le_sex.fit_transform(X[:,9])
X[:,13] = le_country.fit_transform(X[:,13])

In [None]:
X.shape

In [8]:
# Padronização
# É o redimensionamento dos recursos para criar um “padrão” garantindo
# que os novos dados tenham média zero e desvio padrão igual a 1
scaler = StandardScaler()

# Salvando os novos dados já padronizados:
X = scaler.fit_transform(X)

In [None]:
X

In [9]:
# Com o método train_test_split separamos os dados em treino e teste:
# X_treino e y_treino: dados para treinamento dos modelos (80% dos dados iniciais)
# X_teste e y_teste: dados para teste e avaliação dos modelos (20% dos dados iniciais)

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.20)

In [10]:
X_treino.shape, X_teste.shape

((26048, 14), (6513, 14))

## PCA (Principal component analysis)

Documentação PCA:

https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

In [11]:
from sklearn.decomposition import PCA

In [12]:
pca = PCA(n_components=8)

In [15]:
X_treino_pca = pca.fit_transform(X_treino)
X_teste_pca = pca.transform(X_teste)

In [16]:
X_treino_pca.shape, X_teste_pca.shape

((26048, 8), (6513, 8))