# Regressão Logística com SKLearn

Objetivo: prever com base nos atributos previsores da tabela abaixo, qual é o salário da pessoa. Se ela vai ganhar mais do que 50k dólares, ou menos ou igual a 50k dólares.

In [2]:
import pandas as pd
url = 'https://raw.githubusercontent.com/diegogrr/UdemyTF/master/classificacao/census.csv'
base = pd.read_csv(url)
base.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Ver os valores únicos da coluna income (*renda*):

In [3]:
base['income'].unique()

array([' <=50K', ' >50K'], dtype=object)

Visualizar a quantidade de registros da base utilizada:

In [4]:
base.shape

(32561, 15)

x: atributos previsores;

y: resposta que é a classe;

In [0]:
x = base.iloc[:, 0:14].values
y = base.iloc[:,14].values

## Pré-processamentos

Transformar os atributos categóricos em números.

Exemplo: onde temos "State-gov" passa a ser "1";

In [0]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()

Para ter uma ideia dos atributos, vamos visualizar o primeiro registro:

In [12]:
print(x[0])

[39 ' State-gov' 77516 ' Bachelors' 13 ' Never-married' ' Adm-clerical'
 ' Not-in-family' ' White' ' Male' 2174 0 40 ' United-States']


Transformar os índices:

In [0]:
x[:,1] = label_encoder.fit_transform(x[:,1])
x[:,3] = label_encoder.fit_transform(x[:,3])
x[:,5] = label_encoder.fit_transform(x[:,5])
x[:,6] = label_encoder.fit_transform(x[:,6])
x[:,7] = label_encoder.fit_transform(x[:,7])
x[:,8] = label_encoder.fit_transform(x[:,8])
x[:,9] = label_encoder.fit_transform(x[:,9])
x[:,13] = label_encoder.fit_transform(x[:,13])

Para checar se houve a transformação corretamente, vamos checar o primeiro registro:

In [14]:
print(x[0])

[39 7 77516 9 13 4 1 1 4 1 2174 0 40 39]


### Escalonamento dos Valores

Há uma grande diferença esclar entre os valores, será necessário um escalonamento.

In [0]:
from sklearn.preprocessing import StandardScaler

Neste momento temos duas opções:

*   Padronização - que o `StandardScaler()`;
*   Normalização - que é o `MinMaxScaler()`.

Recomenda-se utilizar a padronização porque ele é mais robusto contra outliers se você tiver registros fora do padrão.

In [18]:
scaler_x = StandardScaler()
x = scaler_x.fit_transform(x) # como todos os dados são numéricos, não é preciso informar as colunas para a transformação.


[ 0.03067056  2.15057856 -1.06361075 -0.33543693  1.13473876  0.92163395
 -1.3178091  -0.27780504  0.39366753  0.70307135  0.1484529  -0.21665953
 -0.03542945  0.29156857]


Obser que os registros agora estão escalonados:

In [19]:
print(x[0])

[ 0.03067056  2.15057856 -1.06361075 -0.33543693  1.13473876  0.92163395
 -1.3178091  -0.27780504  0.39366753  0.70307135  0.1484529  -0.21665953
 -0.03542945  0.29156857]


### Divisão da Base de Dados

Entre treinamento e teste.


*   70% para o treinamento
*   30% para o teste


In [0]:
from sklearn.model_selection import train_test_split
x_treinamento, x_teste, y_treinamento, y_teste = train_test_split(x, y, test_size = 0.3)

Registros para o treinamento (aprendizado):

In [22]:
print(x_treinamento.shape)
print(y_treinamento.shape)

(22792, 14)
(22792,)


Registros para os testes (generalização):

In [23]:
print(x_teste.shape, y_teste.shape)

(9769, 14) (9769,)


## Criação do Modelo

`max_iter` = quantas repetições queremos realizar para ele ajustar o algoritmo.

In [0]:
from sklearn.linear_model import LogisticRegression
classificador = LogisticRegression(max_iter=10000)

### Treinamento

In [27]:
classificador.fit(x_treinamento, y_treinamento)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=10000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### Previsões

Vamos submeter os registro da variável `x_teste` ao classificador.

In [29]:
previsoes = classificador.predict(x_teste)
print(previsoes)

[' >50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


## Comparativo

Entre a predição (`previsoes`) e as respostas que nós sabemos (`y_teste`).

In [32]:
from sklearn.metrics import accuracy_score
taxa_acerto = accuracy_score(y_teste,previsoes)
print(taxa_acerto)

0.8273108813594022


Observer que tivemos uma taxa de acerto de 82% com a regressão logística do SKlearn.