# Regressão Logística com Python
### Aplicando o algoritmo de classificação usando o método de regressão logística para uma base de dados do censo.

#### Pré-processamento da base de dados

In [15]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo os registros da base de dados para o objeto "dataframe"
dataframe = pd.read_csv('census.csv', encoding = 'utf-8', sep = ',')

# separando os atributos previsores e classe 
previsores = dataframe.iloc[:, 0:14].values
classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o objeto "labelencoder_previsores" para fazer a transformação dos atributos categóricos em numéricos
labelencoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido 
# "LabelEncoder_previsores"
previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto onehotencoder
onehotencoder = ColumnTransformer(transformers = [('OneHot', OneHotEncoder(), [1,3,5,6,7,8,9,13])], 
                                  remainder = 'passthrough')

# transformando os atributos previsores em variáveis do tipo "dummy"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escaolonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base 
#de dados

# separando as bases de dados entre modelos de treinamento e modelos de teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                             classe,
                                                                                             test_size = 0.15, 
                                                                                             random_state = 0)

> **OBS**: esse foi o pré-processamento com resultados mais satisfatórios para essa base de dados.

#### Regressão Logística com Python

In [16]:
# importando a biblioteca sklearn do python
from sklearn.linear_model import LogisticRegression
# a função 'LogisticRegression' é a responsável por aplicar o método de regressão linear no algoritmo

In [17]:
# criando o objeto 'classificador' para conseguir encontrar a melhor curva sigmoidal possível com a base de 
# dados em questão
classificador = LogisticRegression()

In [18]:
# aplicando o treinamento com a base de dados armazenada no objeto 'dataframe'
classificador.fit(previsores, classe)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [19]:
# visualizando o parâmetro b0
print(classificador.intercept_)

[-2.10016648]


In [20]:
# visualizando os parâmetros obtidos para cada um dos campos de dados
print(classificador.coef_)

[[-6.64661373e-02  1.06870272e-01 -1.29004721e-02 -7.96492534e-02
   5.96165019e-02  5.54886408e-02 -9.66775007e-02 -3.53798046e-02
  -1.47246962e-01 -8.99841467e-02 -1.11358466e-01 -3.85900067e-02
  -3.55273844e-02 -3.48729509e-02 -1.01379356e-01 -7.34902055e-02
  -1.17147923e-02  1.90254838e-02  1.44889981e-01  1.13312269e-01
  -7.34381962e-02  1.34304472e-01 -4.74479358e-01  1.26534365e-01
   1.86096732e-02 -2.27004905e-01  5.30622265e-02  7.56693492e-01
  -7.56941822e-02 -5.36947586e-01 -1.38749251e-01 -9.16652604e-02
  -7.14006359e-02 -7.59221435e-03 -1.98223996e-02  1.60328227e-02
   2.52157693e-01 -1.74669375e-01 -1.41062792e-01 -7.33889786e-02
  -2.55739470e-01 -2.75013494e-01  1.63812281e-01  7.72291939e-02
   8.12226508e-02  1.05149597e-01 -2.87921524e-02 -6.98611675e-02
   1.74757185e-01 -9.02521506e-02 -2.98034254e-01  8.36462390e-02
   2.60913910e-01 -4.75952732e-02  3.06591828e-02 -2.84212910e-02
  -2.87795567e-02  2.89817310e-02 -2.02425904e-01  2.02425904e-01
  -1.80368

#### testando a capacidade de predição do algoritmo

In [21]:
# visualizando a predição para os previsores teste
resultado = classificador.predict(previsores_teste)

In [22]:
# visualizando a predição para o modelo de teste
print(resultado)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' >50K']


In [23]:
# visualizando a classe para testes original
print(classe_teste)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


In [24]:
# importando a biblioteca sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score

In [25]:
# calculando a porcentagem de acertos do algoritmo
precisao = accuracy_score(classe_teste, resultado)

In [26]:
# visualizando a precisão de acertos do algoritmo
precisao

0.8517911975435005

A precisão de acertos do algoritmo em acertar as classificações foi de **85.18%**.

In [27]:
# criando a matriz de confusão para analisar a quantidade de acertos e erros
matriz = confusion_matrix(classe_teste, resultado)

In [28]:
# visualizando a matriz de confusão
print(matriz)

[[3432  261]
 [ 463  729]]


Observando a matriz de confusão acima, é possível observar que 3432 dados foram analisados corretamente para as pessoas que recebem menos de 50 mil anualmente, juntamente com 729 pessoas que recebem a mais que isso por ano. Entretanto, 261 dados referentes a pessoas que recebem menos que a quantia analisada foram classificadas indevidamente como se recebessem mais que isso. Além disso, 463 dados referentes a pessoas que recebem mais que a quantia em questão foram classificadas como se recebessem menos.

In [29]:
# importando a biblioteca collections
import collections

In [30]:
#visualizando a quantidade de registros para cada uma das classe
collections.Counter(classe_teste)

Counter({' <=50K': 3693, ' >50K': 1192})

### Alguma dúvida: Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);