In [30]:
# imports
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Regressão logística com sklearn na prática

Aqui vamos aplicar regressão logística em um banco de dados chamado 'census.csv'.

O objetivo é conseguirmos predizer se a pessoa terá uma renda maior ou menor que 50 mil por ano.

Ou seja, vamos utilizar a regressão logística para prever rótulos. 
Exemplos: se a pessoa vai jogar ou não tênis, se a pessoa vai pagar ou não


In [6]:
# Lendo o banco de dados
base = pd.read_csv("census.csv")

# Para confirmarmos se está tudo certo com o banco olhamos o começinho dele.
base.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [8]:
# Observando a quantidade de classes da coluna que queremos prever
base['income'].unique()

array([' <=50K', ' >50K'], dtype=object)

Nota-se que tem apenas duas opções, então podemos aplicar a regressão logística.


In [10]:
# Analisando o tamanho da base
base.shape

(32561, 15)

In [14]:
# Agora vamos separar os atributos (o que usamos para prever) dos labels (o que queremos prever)
X = base.iloc[:, 0:14].values # atributos
Y = base.iloc[:, 14].values   # labels

# Visualizando os resultados
print("Atributos : \n", X)
print("\n \nLabels : \n", Y)

Atributos : 
 [[39 ' State-gov' 77516 ... 0 40 ' United-States']
 [50 ' Self-emp-not-inc' 83311 ... 0 13 ' United-States']
 [38 ' Private' 215646 ... 0 40 ' United-States']
 ...
 [58 ' Private' 151910 ... 0 40 ' United-States']
 [22 ' Private' 201490 ... 0 20 ' United-States']
 [52 ' Self-emp-inc' 287927 ... 0 40 ' United-States']]

 
Labels : 
 [' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' >50K']


Para conseguirmos utilizar a regressão logística, precisamos transformar os atributos que são string em valores numéricos.
A imagem abaixo ilustra esse processo.
![LabelEncoder](LabelEncoder.png)

E precisamos fazer isso para todas colunas que possuam atributos que não sejam numéricos.

In [17]:
# Realizando as conversões
label_encoder = LabelEncoder()
X[:,1] = label_encoder.fit_transform(X[:,1])
X[:,3] = label_encoder.fit_transform(X[:,3])
X[:,5] = label_encoder.fit_transform(X[:,5])
X[:,6] = label_encoder.fit_transform(X[:,6])
X[:,7] = label_encoder.fit_transform(X[:,7])
X[:,8] = label_encoder.fit_transform(X[:,8])
X[:,9] = label_encoder.fit_transform(X[:,9])
X[:,13] = label_encoder.fit_transform(X[:,13])

In [18]:
# Visualizando os resultados
X[:,1]

array([7, 6, 4, ..., 4, 4, 5], dtype=object)

In [20]:
# Agora vamos padronizar os dados (e não normalizar)
scaler_x= StandardScaler()
X_padronizado = scaler_x.fit_transform(X)

print("Atributos padronizados: \n", X_padronizado)

Atributos padronizados: 
 [[ 0.03067056  2.15057856 -1.06361075 ... -0.21665953 -0.03542945
   0.29156857]
 [ 0.83710898  1.46373585 -1.008707   ... -0.21665953 -2.22215312
   0.29156857]
 [-0.04264203  0.09005041  0.2450785  ... -0.21665953 -0.03542945
   0.29156857]
 ...
 [ 1.42360965  0.09005041 -0.35877741 ... -0.21665953 -0.03542945
   0.29156857]
 [-1.21564337  0.09005041  0.11095988 ... -0.21665953 -1.65522476
   0.29156857]
 [ 0.98373415  0.77689313  0.92989258 ... -0.21665953 -0.03542945
   0.29156857]]


In [22]:
# Aqui estamos separando 30% do dataset para testarmos e 70% para treinarmos o modelo
X_train, X_test, Y_train, Y_test = train_test_split(X_padronizado, Y, test_size = 0.3)

# Analisando as dimensões
print("X_train: ", X_train.shape)
print("X_test: ", X_test.shape)
print("Y_train: ", Y_train.shape)
print("Y_test: ", Y_test.shape)

X_train:  (22792, 14)
X_test:  (9769, 14)
Y_train:  (22792,)
Y_test:  (9769,)


In [26]:
# Criando o modelo de fato
classificador = LogisticRegression(max_iter = 10000)
classificador.fit(X_train, Y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=10000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [29]:
# Realizando as previsoes
previsoes = classificador.predict(X_test)
print(previsoes)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


In [31]:
# Analisando a taxa de acerto
taxa_acerto = accuracy_score(Y_test, previsoes)
taxa_acerto

0.8261848705087522