#### Para este exemplo, vamos utilizar as bibliotecas pandas e scikit-learn.
 * Primeiro, vamos importar as bibliotecas necessárias e criar um pequeno conjunto de dados fictício
 * para ilustrar as etapas de pré-processamento.

In [49]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Criando um conjunto de dados de exemplo
data = {
    'Idade': [25, 32, 47, 51, 62],
    'Salário': [50000, 60000, 85000, 90000, 120000],
    'Gênero': ['Masculino', 'Feminino', 'Feminino', 'Masculino', 'Feminino'],
    'Comprou': ['Sim', 'Não', 'Sim', 'Não', 'Sim']
}

# Convertendo em um DataFrame do pandas
df = pd.DataFrame(data)
print("Dataset de exemplo:\n", df)


Dataset de exemplo:
    Idade  Salário     Gênero Comprou
0     25    50000  Masculino     Sim
1     32    60000   Feminino     Não
2     47    85000   Feminino     Sim
3     51    90000  Masculino     Não
4     62   120000   Feminino     Sim


### Passo 2: Limpeza e Pré-processamento dos Dados

* No pré-processamento, normalmente fazemos:
 * 1- Tratar valores ausentes: Verificar se há valores nulos e decidir como lidar com eles.
 * 2- Codificar variáveis categóricas: Transformar variáveis de texto em variáveis numéricas.
 * 2- Normalizar ou padronizar dados numéricos: Escalar as variáveis para que estejam na mesma faixa de valores.



### 1. Codificação de Variáveis Categóricas

Vamos transformar as variáveis "Gênero" e "Comprou" em valores numéricos.

In [50]:
# Codificação de variáveis categóricas
label_encoder = LabelEncoder()
df['Gênero'] = label_encoder.fit_transform(df['Gênero'])
df['Comprou'] = label_encoder.fit_transform(df['Comprou'])
print("\nDataset após codificação:\n", df)



Dataset após codificação:
    Idade  Salário  Gênero  Comprou
0     25    50000       1        1
1     32    60000       0        0
2     47    85000       0        1
3     51    90000       1        0
4     62   120000       0        1


 # 2. Normalização dos Dados Numéricos
Para dados numéricos, como idade e salário, geralmente aplicamos a normalização para deixar os valores na mesma escala.

In [51]:
# Normalizando idade e salário
scaler = StandardScaler()
df[['Idade', 'Salário']] = scaler.fit_transform(df[['Idade', 'Salário']])
print("\nDataset após normalização:\n", df)



Dataset após normalização:
       Idade   Salário  Gênero  Comprou
0 -1.382872 -1.261372       1        1
1 -0.856780 -0.854478       0        0
2  0.270562  0.162758       0        1
3  0.571186  0.366205       1        0
4  1.397904  1.586887       0        1


# Passo 3: Divisão dos Dados em Conjunto de Treino e Teste
Dividimos os dados em duas partes: treino e teste. O conjunto de treino será usado para treinar o modelo, <br>
e o conjunto de teste, para avaliar o desempenho.

In [52]:
# Separando variáveis de entrada e saída
X = df[['Idade', 'Salário', 'Gênero']]
y = df['Comprou']

# Dividindo os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("\nDados de treino:\n", X_train)
print("\nDados de teste:\n", X_test)



Dados de treino:
       Idade   Salário  Gênero
4  1.397904  1.586887       0
2  0.270562  0.162758       0
0 -1.382872 -1.261372       1
3  0.571186  0.366205       1

Dados de teste:
      Idade   Salário  Gênero
1 -0.85678 -0.854478       0


A Regressão Logística é um modelo de classificação que ajuda a prever a probabilidade de uma amostra pertencer a uma classe específica<br>  (por exemplo, "Sim" ou "Não"). <br>
Embora o nome sugira "regressão", ele é usado principalmente para problemas de classificação binária.

# Passo 1: Importando e Treinando o Modelo de Regressão Logística
Primeiro, vamos importar o modelo da biblioteca scikit-learn, instanciá-lo e treiná-lo com nossos dados de treino.

In [53]:
from sklearn.linear_model import LogisticRegression

# Criando o modelo de Regressão Logística
#model = LogisticRegression()

# Treinando o modelo com os dados de treino
#model.fit(X_train, y_train)



# Recriando o modelo com ajuste no parâmetro solver
model = LogisticRegression(solver='liblinear', class_weight='balanced')

# Treinando o modelo novamente
model.fit(X_train, y_train)


# Passo 2: Fazendo Previsões
Depois de treinar o modelo, vamos usá-lo para fazer previsões sobre o conjunto de teste.

In [54]:
# Fazendo previsões com o conjunto de teste
# y_pred = model.predict(X_test)
# print("\nPrevisões do modelo:\n", y_pred)


# Realizando novas previsões e avaliação
y_pred = model.predict(X_test)





# Passo 3: Avaliação do Modelo
Para avaliar o desempenho do modelo, podemos calcular a acurácia (proporção de previsões corretas)<br>
e gerar uma matriz de confusão para entender quantas previsões o modelo acertou e errou.

In [55]:
from sklearn.metrics import accuracy_score, confusion_matrix

# # Calculando a acurácia
# accuracy = accuracy_score(y_test, y_pred)
# print("\nAcurácia do modelo:", accuracy)

# # Matriz de Confusão
# conf_matrix = confusion_matrix(y_test, y_pred)
# print("\nMatriz de Confusão:\n", conf_matrix)
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

print("\nNova Acurácia do modelo:", accuracy)
print("\nNova Matriz de Confusão:\n", conf_matrix)




Nova Acurácia do modelo: 0.0

Nova Matriz de Confusão:
 [[0 1]
 [0 0]]
