## Modelo de Aprendizado Supervisionado

O dataset que escolhemos para a NAC foi o Adult, cuja finalidade é prever se a renda anual de uma pessoa é menor-igual ou maior do que US $50.000.

As previsões são feitas com base em informações pessoais, como:

- Idade
- Grau de Escolaridade.
- Estado Civil.
- Ocupação Profissional.
- Etnia.
- Sexo.
- País de Origem.
- etc.

### Importando as bibliotecas

Vamos começar importando as bibliotecas necessárias, e acessando a nossa base de dados.

In [44]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

pd.set_option("display.precision", 3)
pd.set_option("display.max_columns",300)

df = pd.read_csv("../data/adult.csv", index_col=0)

Ao chamar a variável python df, podemos visualizar o nosso dataset. Vamos fazer isso usando o head, para vermos apenas os primeiros valores da base de dados.

In [45]:
df.head()

Unnamed: 0_level_0,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,income
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


A coluna <i>income</i> (a última da tabela) retorna a classe de cada indivíduo. Informando se ele possui renda menor ou maior do que 50 mil.

Essa base de dados é composta por 32.561 elementos.

In [46]:
df.shape[0]

32561

Vamos dar uma olhada no <i>income</i> e ver quantas pessoas ganham menos que 50 mil e quantas ganham mais.

In [47]:
#chamando a variável income
df["income"].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

O retorno que tivemos é que 24.720 pessoas da nossa base de dados possuem renda menor-igual a 50 mil, enquanto 7.841 pessoas têm uma renda superior a 50 mil.

Se quisermos saber os valores percentuais desses números, podemos fazer:

In [24]:
# Dividindo x e y
x = df.drop(columns="income")
y = df['income']

# Dividindo dados para treino e dados para teste
x_train, x_test, y_train, y_test = train_test_split(x, y, 
                                                    test_size = 0.3, 
                                                    random_state = 42)

# Treinando o modelo
model = LogisticRegression().fit(x_train, y_train)
# Fazendo as predições
y_pred = model.predict(x_test)

ValueError: could not convert string to float: ' United-States'

In [12]:
x.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba


In [17]:
y

0        1
1        1
2        1
3        1
4        1
5        1
6        1
7        1
8        1
9        1
10       1
11       1
12       1
13       1
14       1
15       1
16       1
17       1
18       1
19       1
20       1
21       1
22       1
23       1
24       1
25       1
26       1
27       1
28       1
29       1
        ..
32531    1
32532    1
32533    1
32534    1
32535    1
32536    1
32537    1
32538    1
32539    1
32540    1
32541    1
32542    1
32543    1
32544    1
32545    1
32546    1
32547    1
32548    1
32549    1
32550    1
32551    1
32552    1
32553    1
32554    1
32555    1
32556    1
32557    1
32558    1
32559    1
32560    1
Name: income, Length: 32561, dtype: int64