<a href="https://colab.research.google.com/github/KoreTane/PredictiveLeadManagement/blob/main/Predict_Studants.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler, OneHotEncoder

In [2]:
dfml = pd.read_excel('CrmAgendaClientes.xlsx')
warnings.filterwarnings('ignore')

In [3]:
dfml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1666 entries, 0 to 1665
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   DATA 1º CONTATO   1666 non-null   datetime64[ns]
 1   TRIMESTRE         1666 non-null   int64         
 2   NOME COMPLETO     1664 non-null   object        
 3   IDADE             1666 non-null   int64         
 4   FAIXA ETARIA      1666 non-null   object        
 5   GENERO            1666 non-null   object        
 6   TELEFONE          1666 non-null   object        
 7   TIPO CONTATO      1666 non-null   object        
 8   VIA               1666 non-null   object        
 9   ESTILOS           1666 non-null   object        
 10  DATA AGENDAMENTO  1666 non-null   object        
 11  TURNO             1666 non-null   object        
 12  PROFESSOR         1666 non-null   object        
 13  COMPARECEU        1666 non-null   object        
 14  SITUAÇÃO_FINAL    1666 n

In [4]:
# Transformação das colunas categóricas em numéricas
encoder = OneHotEncoder()
X = dfml[['TRIMESTRE', 'IDADE', 'FAIXA ETARIA', 'GENERO', 'TIPO CONTATO', 'VIA', 'ESTILOS', 'COMPARECEU']]
X = encoder.fit_transform(X).toarray()
y = dfml['SITUAÇÃO_FINAL'].astype('category').cat.codes

In [5]:
X

array([[1., 0., 0., ..., 0., 0., 1.],
       [1., 0., 0., ..., 0., 1., 0.],
       [1., 0., 0., ..., 0., 1., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 1.],
       [1., 0., 0., ..., 0., 1., 0.],
       [1., 0., 0., ..., 0., 0., 1.]])

In [6]:
# Seleção das colunas relevantes

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalização dos dados
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [7]:
# Criação do modelo de regressão aleatória
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinamento do modelo
model.fit(X_train, y_train)

In [8]:
# Predição dos resultados
y_pred = model.predict(X_test)

# Avaliação do modelo com o erro médio quadrático
mse = mean_squared_error(y_test, y_pred)
print(f'Erro médio quadrático: {mse:.2f}') # MSE de 0.39 é um resultado muito bom e indica que o modelo está fazendo uma boa previsão.

Erro médio quadrático: 0.39


In [9]:
# Entrada de novos dados para prever
novos_dados = pd.DataFrame({
    'TRIMESTRE': [1],
    'IDADE': [20],
    'FAIXA ETARIA': ['ADULTO'],
    'GENERO': ['MASCULINO'],
    'TIPO CONTATO': ['CAPTAÇÃO'],
    'VIA': ['FACEBOOK'],
    'ESTILOS': ['BALLET CLÁSSICO'],
    'COMPARECEU': ['NÃO']
})

# Transformação dos novos dados em numéricos
novos_dados = encoder.transform(novos_dados).toarray()
novos_dados = scaler.transform(novos_dados)

# Previsão da entrada de alunos
previsao = model.predict(novos_dados)
print(f'Previsão da entrada de alunos: {previsao[0]}')


Previsão da entrada de alunos: 0.03
