In [None]:
import pandas as pd

# Configuração para exibir todas as colunas
pd.set_option('display.max_columns', 64) 

# Configuração para exibir todas as linhas
pd.set_option('display.max_rows', 64) 

# Carrega o arquivo
arquivo = pd.read_csv('./data/Data_train_reduced.csv') 

In [None]:
# Exibe as 5 primeiras linhas
arquivo.head()

In [None]:
# Exibe a quantidade de linhas e colunas
arquivo.shape

In [None]:
# Exibe os tipos de dados
arquivo.dtypes

In [None]:
# Conta a quantidade de valores faltantes por coluna
faltantes = arquivo.isnull().sum() 

# Calcula o percentual de valores faltantes por coluna
faltantes_percentual = (arquivo.isnull().sum() / len(arquivo['Product'])) * 100

# Exibe o percentual de valores faltantes por coluna
print(faltantes_percentual)

In [None]:
# Remove as colunas que não serão utilizadas
arquivo.drop('q8.20', axis=1, inplace=True)
arquivo.drop('q8.18', axis=1, inplace=True)
arquivo.drop('q8.17', axis=1, inplace=True)
arquivo.drop('q8.8', axis=1, inplace=True)
arquivo.drop('q8.9', axis=1, inplace=True)
arquivo.drop('q8.10', axis=1, inplace=True)
arquivo.drop('q8.2', axis=1, inplace=True)
arquivo.drop('Respondent.ID', axis=1, inplace=True)
arquivo.drop('Product', axis=1, inplace=True)
arquivo.drop('q1_1.personal.opinion.of.this.Deodorant', axis=1, inplace=True)

In [None]:
# Substitui os valores faltantes pela mediana
arquivo['q8.12'].fillna(arquivo['q8.12'].median(), inplace=True)
arquivo['q8.7'].fillna(arquivo['q8.7'].median(), inplace=True)

In [None]:
# Conta a quantidade de valores faltantes por coluna
faltantes = arquivo.isnull().sum()

# Calcula o percentual de valores faltantes por coluna
faltantes_percentual = (arquivo.isnull().sum() / len(arquivo['Product.ID'])) * 100

# Exibe o percentual de valores faltantes por coluna
print(faltantes_percentual)

In [None]:
# Separando as variaveis entre preditoras e target
y = arquivo['Instant.Liking']                   # Variável target
x = arquivo.drop('Instant.Liking', axis=1)      # Variáveis preditoras

In [None]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Definindo os valores que serão testados em LogisticRegression
valores_C = np.array([0.01, 0.1, 0.5, 1, 2, 3, 5, 10, 50, 100])
regularizacao = ['l1', 'l2']
valores_grid = {
    'C':valores_C,
    'penalty':regularizacao
}

# Criando o modelo
modelo = LogisticRegression(solver='liblinear')

# Criando os grids
grid_regressao_logistica = GridSearchCV(estimator=modelo, param_grid=valores_grid, cv=5)

# Treinando o modelo
grid_regressao_logistica.fit(x, y)

# Imprimindo a melhor acurácia e os melhores parametros
print(f'Melhor acurácia: {grid_regressao_logistica.best_score_}')
print(f'Parametro C: {grid_regressao_logistica.best_estimator_.C}')
print(f'Regularização: {grid_regressao_logistica.best_estimator_.penalty}')