In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Se você ainda não possui o pandas e scikit-learn instalados, instale-os usando:
# pip install pandas scikit-learn

# Seu exemplo de DataFrame
data = {'Mês': ['julho', 'julho', 'julho', 'agosto', 'agosto', 'agosto', 'setembro', 'setembro', 'setembro'],
        'proposta': [154, 198, 230, 190, 185, 155, 320, 355, 395],
        'Região': ['São Paulo', 'Porto Alegre', 'Curitiba', 'Porto Alegre', 'Curitiba', 'São Paulo', 'São Paulo', 'Curitiba', 'Porto Alegre'],
        'Vendedor': ['Paulo', 'João', 'Carla', 'João', 'Carla', 'Paulo', 'Paulo', 'Carla', 'João'],
        'PCA': [90, 10, 30, 90, 50, 50, 10, 10, 50],
        'Contrato': [0, 1, 1, 1, 0, 0, 1, 0, 1]}

df = pd.DataFrame(data)

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder = LabelEncoder()
df['Mês'] = label_encoder.fit_transform(df['Mês'])
df['Região'] = label_encoder.fit_transform(df['Região'])
df['Vendedor'] = label_encoder.fit_transform(df['Vendedor'])

# Separando as features (X) e o target (y)
X = df.drop('Contrato', axis=1)
y = df['Contrato']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão logística
model = LogisticRegression()

# Treinando o modelo
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliando o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)

# Imprimindo os resultados
print(f'Acurácia: {accuracy:.2f}')
print('Matriz de Confusão:')
print(conf_matrix)
print('Relatório de Classificação:')
print(classification_rep)


Acurácia: 0.00
Matriz de Confusão:
[[0 1]
 [1 0]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00       1.0
           1       0.00      0.00      0.00       1.0

    accuracy                           0.00       2.0
   macro avg       0.00      0.00      0.00       2.0
weighted avg       0.00      0.00      0.00       2.0



In [7]:
import pandas as pd
import numpy as np

# Criando a base de dados inicial
data = {'Mês': ['julho', 'julho', 'julho', 'agosto', 'agosto', 'agosto', 'setembro', 'setembro', 'setembro'],
        'proposta': [154, 198, 230, 190, 185, 155, 320, 355, 395],
        'Região': ['São Paulo', 'Porto Alegre', 'Curitiba', 'Porto Alegre', 'Curitiba', 'São Paulo', 'São Paulo', 'Curitiba', 'Porto Alegre'],
        'Vendedor': ['Paulo', 'João', 'Carla', 'João', 'Carla', 'Paulo', 'Paulo', 'Carla', 'João'],
        'PCA': [90, 10, 30, 90, 50, 50, 10, 10, 50],
        'Contrato': [0, 1, 1, 1, 0, 0, 1, 0, 1]}

df = pd.DataFrame(data)

# Adicionando dados para outubro, novembro e dezembro
for mes in ['outubro', 'novembro', 'dezembro']:
    proposta = np.random.randint(100, 400, size=3)
    regiao = np.random.choice(['São Paulo', 'Porto Alegre', 'Curitiba'], size=3)
    vendedor = np.random.choice(['Paulo', 'João', 'Carla'], size=3)
    pca = np.random.randint(10, 100, size=3)
    contrato = np.random.choice([0, 1], size=3)

    novo_data = {'Mês': [mes]*3,
                 'proposta': proposta,
                 'Região': regiao,
                 'Vendedor': vendedor,
                 'PCA': pca,
                 'Contrato': contrato}

    df = pd.concat([df, pd.DataFrame(novo_data)], ignore_index=True)

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder = LabelEncoder()
df['Mês'] = label_encoder.fit_transform(df['Mês'])
df['Região'] = label_encoder.fit_transform(df['Região'])
df['Vendedor'] = label_encoder.fit_transform(df['Vendedor'])

# Separando as features (X) e o target (y)
X = df.drop('Contrato', axis=1)
y = df['Contrato']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão logística
model = LogisticRegression()

# Treinando o modelo
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliando o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)

# Imprimindo os resultados
print(f'Acurácia: {accuracy:.2f}')
print('Matriz de Confusão:')
print(conf_matrix)
print('Relatório de Classificação:')
print(classification_rep)


Acurácia: 0.25
Matriz de Confusão:
[[0 2]
 [1 1]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       0.33      0.50      0.40         2

    accuracy                           0.25         4
   macro avg       0.17      0.25      0.20         4
weighted avg       0.17      0.25      0.20         4



In [9]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Nova instância para previsão
nova_instancia = {'Região': 'São Paulo',
                  'Vendedor': 'Paulo',
                  'PCA': 90,
                  'Contrato': 1}

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder = LabelEncoder()
nova_instancia['Região'] = label_encoder.transform([nova_instancia['Região']])[0]
nova_instancia['Vendedor'] = label_encoder.transform([nova_instancia['Vendedor']])[0]

# Criando um DataFrame para a nova instância
nova_instancia_df = pd.DataFrame([nova_instancia])

# Previsão de probabilidade
probabilidades = model.predict_proba(nova_instancia_df)

# Extraindo a probabilidade para Contrato 1 (índice 1)
prob_contrato_1 = probabilidades[0, 1]

print(f"A probabilidade prevista para Contrato 1 é: {prob_contrato_1:.2f}")



NotFittedError: This LabelEncoder instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

In [13]:
import pandas as pd
import numpy as np

# Dados originais
dados_originais = {'proposta': [154, 198, 230, 190, 185, 155, 320, 355, 395],
                   'Região': ['São Paulo', 'Porto Alegre', 'Curitiba', 'Porto Alegre', 'Curitiba', 'São Paulo', 'São Paulo', 'Curitiba', 'Porto Alegre'],
                   'Vendedor': ['Paulo', 'João', 'Carla', 'João', 'Carla', 'Paulo', 'Paulo', 'Carla', 'João'],
                   'PCA': [90, 10, 30, 90, 50, 50, 10, 10, 50],
                   'Contrato': [0, 1, 1, 1, 0, 0, 1, 0, 1]}

# Criando DataFrame com os dados originais
df_original = pd.DataFrame(dados_originais)

# Número total de registros desejados
total_registros = 5000

# Replicando os dados originais para atingir o total de 5000 registros
df_replicado = pd.concat([df_original] * (total_registros // len(df_original)), ignore_index=True)

# Se necessário, adicionar registros extras para completar até 5000
resto = total_registros % len(df_original)
df_replicado = pd.concat([df_replicado, df_original.head(resto)], ignore_index=True)

# Visualizando parte do DataFrame gerado
print(df_replicado.head(5000))


      proposta        Região Vendedor  PCA  Contrato
0          154     São Paulo    Paulo   90         0
1          198  Porto Alegre     João   10         1
2          230      Curitiba    Carla   30         1
3          190  Porto Alegre     João   90         1
4          185      Curitiba    Carla   50         0
...        ...           ...      ...  ...       ...
4995       154     São Paulo    Paulo   90         0
4996       198  Porto Alegre     João   10         1
4997       230      Curitiba    Carla   30         1
4998       190  Porto Alegre     João   90         1
4999       185      Curitiba    Carla   50         0

[5000 rows x 5 columns]


In [15]:
import pandas as pd
import numpy as np

# Dados originais
dados_originais = {'proposta': [154, 198, 230, 190, 185, 155, 320, 355, 395],
                   'Região': ['São Paulo', 'Porto Alegre', 'Curitiba', 'Porto Alegre', 'Curitiba', 'São Paulo', 'São Paulo', 'Curitiba', 'Porto Alegre'],
                   'Vendedor': ['Paulo', 'João', 'Carla', 'João', 'Carla', 'Paulo', 'Paulo', 'Carla', 'João'],
                   'PCA': [90, 10, 30, 90, 50, 50, 10, 10, 50],
                   'Contrato': [0, 1, 1, 1, 0, 0, 1, 0, 1]}

# Criando DataFrame com os dados originais
df_original = pd.DataFrame(dados_originais)

# Número total de registros desejados
total_registros = 5000

# Gerando dados aleatórios para completar até 5000 registros
dados_aleatorios = {
    'proposta': np.random.randint(100, 400, total_registros),
    'Região': np.random.choice(['São Paulo', 'Porto Alegre', 'Curitiba'], total_registros),
    'Vendedor': np.random.choice(['Paulo', 'João', 'Carla'], total_registros),
    'PCA': np.random.randint(10, 100, total_registros),
    'Contrato': np.random.choice([0, 1], total_registros)
}

# Criando DataFrame com os dados aleatórios
df_aleatorio = pd.DataFrame(dados_aleatorios)

# Visualizando parte do DataFrame gerado
print(df_aleatorio.head(10000))


      proposta        Região Vendedor  PCA  Contrato
0          166  Porto Alegre    Paulo   76         1
1          148      Curitiba    Carla   57         1
2          290  Porto Alegre    Paulo   57         1
3          206     São Paulo    Paulo   91         0
4          204     São Paulo     João   49         1
...        ...           ...      ...  ...       ...
4995       195     São Paulo    Paulo   81         1
4996       235     São Paulo    Paulo   71         1
4997       321  Porto Alegre     João   14         0
4998       120      Curitiba     João   34         0
4999       259     São Paulo    Carla   12         1

[5000 rows x 5 columns]


In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Dados aleatórios
dados_aleatorios = {
    'proposta': np.random.randint(100, 400, 5000),
    'Região': np.random.choice(['São Paulo', 'Porto Alegre', 'Curitiba'], 5000),
    'Vendedor': np.random.choice(['Paulo', 'João', 'Carla'], 5000),
    'PCA': np.random.randint(10, 100, 5000),
    'Contrato': np.random.choice([0, 1], 5000)
}

# Criando DataFrame com os dados aleatórios
df = pd.DataFrame(dados_aleatorios)

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder = LabelEncoder()
df['Região'] = label_encoder.fit_transform(df['Região'])
df['Vendedor'] = label_encoder.fit_transform(df['Vendedor'])

# Separando as features (X) e o target (y)
X = df.drop('Contrato', axis=1)
y = df['Contrato']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão logística
modelo_regressao_logistica = LogisticRegression()

# Treinando o modelo
modelo_regressao_logistica.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = modelo_regressao_logistica.predict(X_test)

# Avaliando o desempenho do modelo
acuracia = accuracy_score(y_test, y_pred)
matriz_confusao = confusion_matrix(y_test, y_pred)
relatorio_classificacao = classification_report(y_test, y_pred)

# Imprimindo os resultados
print(f'Acurácia: {acuracia:.2f}')
print('Matriz de Confusão:')
print(matriz_confusao)
print('Relatório de Classificação:')
print(relatorio_classificacao)

# Criando uma instância com os valores fornecidos
nova_instancia = pd.DataFrame({'proposta': [200],  # Pode ajustar o valor da proposta conforme necessário
                                'Região': ['São Paulo'],
                                'Vendedor': ['Paulo'],
                                'PCA': [90],
                                'Contrato': [1]})

# Convertendo variáveis categóricas em numéricas usando Label Encoding
nova_instancia['Região'] = label_encoder.transform(nova_instancia['Região'])
nova_instancia['Vendedor'] = label_encoder.transform(nova_instancia['Vendedor'])

# Fazendo a previsão
previsao_contrato = modelo_regressao_logistica.predict(nova_instancia.drop('Contrato', axis=1))

# Imprimindo a previsão
print(f'A previsão para a Região=São Paulo, PCA=90 e Contrato=1 é: {previsao_contrato[0]}')



Acurácia: 0.49
Matriz de Confusão:
[[328 190]
 [321 161]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.51      0.63      0.56       518
           1       0.46      0.33      0.39       482

    accuracy                           0.49      1000
   macro avg       0.48      0.48      0.47      1000
weighted avg       0.48      0.49      0.48      1000



ValueError: y contains previously unseen labels: 'São Paulo'

In [20]:
import numpy as np


In [21]:
pip install pandas numpy scikit-learn




In [22]:
import pandas as pd
import numpy as np  # Adicionando a importação do NumPy
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Dados aleatórios
dados_aleatorios = {
    'proposta': np.random.randint(100, 400, 5000),
    'Região': np.random.choice(['São Paulo', 'Porto Alegre', 'Curitiba'], 5000),
    'Vendedor': np.random.choice(['Paulo', 'João', 'Carla'], 5000),
    'PCA': np.random.randint(10, 100, 5000),
    'Contrato': np.random.choice([0, 1], 5000)
}

# Criando DataFrame com os dados aleatórios
df = pd.DataFrame(dados_aleatorios)

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder = LabelEncoder()
df['Região'] = label_encoder.fit_transform(df['Região'])
df['Vendedor'] = label_encoder.fit_transform(df['Vendedor'])

# Separando as features (X) e o target (y)
X = df.drop('Contrato', axis=1)
y = df['Contrato']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão logística
modelo_regressao_logistica = LogisticRegression()

# Treinando o modelo
modelo_regressao_logistica.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = modelo_regressao_logistica.predict(X_test)

# Avaliando o desempenho do modelo
acuracia = accuracy_score(y_test, y_pred)
matriz_confusao = confusion_matrix(y_test, y_pred)
relatorio_classificacao = classification_report(y_test, y_pred)

# Imprimindo os resultados
print(f'Acurácia: {acuracia:.2f}')
print('Matriz de Confusão:')
print(matriz_confusao)
print('Relatório de Classificação:')
print(relatorio_classificacao)

# Criando uma instância com os valores fornecidos
nova_instancia = pd.DataFrame({'proposta': [200],  # Pode ajustar o valor da proposta conforme necessário
                                'Região': ['São Paulo'],
                                'Vendedor': ['Paulo'],
                                'PCA': [90],
                                'Contrato': [1]})

# Convertendo variáveis categóricas em numéricas usando Label Encoding
nova_instancia['Região'] = label_encoder.transform(nova_instancia['Região'])
nova_instancia['Vendedor'] = label_encoder.transform(nova_instancia['Vendedor'])

# Fazendo a previsão
previsao_contrato = modelo_regressao_logistica.predict(nova_instancia.drop('Contrato', axis=1))

# Imprimindo a previsão
print(f'A previsão para a Região=São Paulo, PCA=90 e Contrato=1 é: {previsao_contrato[0]}')


Acurácia: 0.50
Matriz de Confusão:
[[156 348]
 [154 342]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.50      0.31      0.38       504
           1       0.50      0.69      0.58       496

    accuracy                           0.50      1000
   macro avg       0.50      0.50      0.48      1000
weighted avg       0.50      0.50      0.48      1000



ValueError: y contains previously unseen labels: 'São Paulo'

In [23]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Dados aleatórios
dados_aleatorios = {
    'proposta': np.random.randint(100, 400, 5000),
    'Região': np.random.choice(['São Paulo', 'Porto Alegre', 'Curitiba'], 5000),
    'Vendedor': np.random.choice(['Paulo', 'João', 'Carla'], 5000),
    'PCA': np.random.randint(10, 100, 5000),
    'Contrato': np.random.choice([0, 1], 5000)
}

# Criando DataFrame com os dados aleatórios
df = pd.DataFrame(dados_aleatorios)

# Convertendo variáveis categóricas em numéricas usando Label Encoding
label_encoder_regiao = LabelEncoder()
df['Região'] = label_encoder_regiao.fit_transform(df['Região'])

label_encoder_vendedor = LabelEncoder()
df['Vendedor'] = label_encoder_vendedor.fit_transform(df['Vendedor'])

# Separando as features (X) e o target (y)
X = df.drop('Contrato', axis=1)
y = df['Contrato']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão logística
modelo_regressao_logistica = LogisticRegression()

# Treinando o modelo
modelo_regressao_logistica.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = modelo_regressao_logistica.predict(X_test)

# Avaliando o desempenho do modelo
acuracia = accuracy_score(y_test, y_pred)
matriz_confusao = confusion_matrix(y_test, y_pred)
relatorio_classificacao = classification_report(y_test, y_pred)

# Imprimindo os resultados
print(f'Acurácia: {acuracia:.2f}')
print('Matriz de Confusão:')
print(matriz_confusao)
print('Relatório de Classificação:')
print(relatorio_classificacao)

# Criando uma instância com os valores fornecidos
nova_instancia = pd.DataFrame({'proposta': [200],  # Pode ajustar o valor da proposta conforme necessário
                                'Região': ['São Paulo'],
                                'Vendedor': ['Paulo'],
                                'PCA': [90]})

# Convertendo variáveis categóricas em numéricas usando Label Encoding
nova_instancia['Região'] = label_encoder_regiao.transform(nova_instancia['Região'])
nova_instancia['Vendedor'] = label_encoder_vendedor.transform(nova_instancia['Vendedor'])

# Fazendo a previsão
previsao_contrato = modelo_regressao_logistica.predict(nova_instancia)

# Imprimindo a previsão
print(f'A previsão para a Região=São Paulo, PCA=90 é: {previsao_contrato[0]}')


Acurácia: 0.49
Matriz de Confusão:
[[183 313]
 [199 305]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.48      0.37      0.42       496
           1       0.49      0.61      0.54       504

    accuracy                           0.49      1000
   macro avg       0.49      0.49      0.48      1000
weighted avg       0.49      0.49      0.48      1000

A previsão para a Região=São Paulo, PCA=90 é: 0


In [24]:
df

Unnamed: 0,proposta,Região,Vendedor,PCA,Contrato
0,208,1,2,82,0
1,217,2,1,93,0
2,153,1,2,33,0
3,135,1,1,22,1
4,137,2,1,59,1
...,...,...,...,...,...
4995,215,1,0,22,0
4996,244,0,2,29,0
4997,371,2,2,88,1
4998,257,0,0,51,1
