In [2]:
import pandas as pd
import numpy as np

# Definindo os dados
np.random.seed(42)  # Para reprodutibilidade

# Gerar 500 linhas de dados fictícios
data = {
    'nome': [f'Cliente {i}' for i in range(1, 501)],
    'telefone': [f'(11) 9{np.random.randint(10000000, 99999999)}' for _ in range(500)],
    'email': [f'cliente{i}@exemplo.com' for i in range(1, 501)],
    'genero': np.random.choice(['Masculino', 'Feminino'], 500),
    'segmento': np.random.choice(['A', 'B', 'C'], 500),
    'tamanho': np.random.choice(['Pequeno', 'Médio', 'Grande'], 500),
    'areaProduto': np.random.choice(['Área 1', 'Área 2', 'Área 3'], 500),
    'funcao': np.random.choice(['Função 1', 'Função 2', 'Função 3'], 500),
    'estrategiaMarketing': np.random.choice(['Estrategia A', 'Estrategia B'], 500),
    'ia': np.random.choice(['Sim', 'Não'], 500),
    'estrategiaAtendimento': np.random.choice(['Proativa', 'Reativa'], 500),
    'aumentoProdutividade': np.random.choice(['Sim', 'Não'], 500),
    'comunicacao': np.random.choice(['Boa', 'Regular', 'Ruim'], 500),
    'ambienteIntegrado': np.random.choice(['Sim', 'Não'], 500),
    'capacitacao': np.random.choice(['Sim', 'Não'], 500),
    'reducaoCusto': np.random.choice(['Sim', 'Não'], 500),
    'conversao': np.random.choice(['Sim', 'Não'], 500),
    'vendas': np.random.randint(100, 1000, size=500),
    'ferramentas': np.random.choice(['Ferramenta A', 'Ferramenta B', 'Ferramenta C'], 500),
    'timeVendas': np.random.choice(['Time 1', 'Time 2'], 500),
    'estrategiaEmpresa': np.random.choice(['Estrategia 1', 'Estrategia 2'], 500),
    'marca': np.random.choice(['Marca A', 'Marca B'], 500),
    'jornada': np.random.choice(['Jornada 1', 'Jornada 2'], 500),
    'marketingOportunidade': np.random.choice(['Sim', 'Não'], 500),
}

# Criando o DataFrame
df = pd.DataFrame(data)

# Gerar uma coluna de produto sugerido com base em algumas regras simples
df['produto_sugerido'] = np.where(df['segmento'] == 'A', 'Produto 1',
                                   np.where(df['segmento'] == 'B', 'Produto 2', 'Produto 3'))

# Exibir as primeiras linhas do DataFrame
#print(df.head())

# Salvar em um arquivo CSV (opcional)
df.to_csv('dados_clientes.csv', index=False)


In [3]:
df

Unnamed: 0,nome,telefone,email,genero,segmento,tamanho,areaProduto,funcao,estrategiaMarketing,ia,...,reducaoCusto,conversao,vendas,ferramentas,timeVendas,estrategiaEmpresa,marca,jornada,marketingOportunidade,produto_sugerido
0,Cliente 1,(11) 975682867,cliente1@exemplo.com,Feminino,C,Médio,Área 3,Função 1,Estrategia B,Sim,...,Não,Não,457,Ferramenta A,Time 2,Estrategia 1,Marca B,Jornada 1,Sim,Produto 3
1,Cliente 2,(11) 966755036,cliente2@exemplo.com,Masculino,A,Médio,Área 1,Função 1,Estrategia A,Sim,...,Não,Sim,717,Ferramenta A,Time 2,Estrategia 1,Marca A,Jornada 1,Sim,Produto 1
2,Cliente 3,(11) 966882282,cliente3@exemplo.com,Feminino,C,Grande,Área 1,Função 3,Estrategia A,Sim,...,Sim,Sim,606,Ferramenta B,Time 2,Estrategia 2,Marca A,Jornada 2,Não,Produto 3
3,Cliente 4,(11) 931081788,cliente4@exemplo.com,Feminino,C,Pequeno,Área 1,Função 1,Estrategia B,Não,...,Sim,Não,658,Ferramenta A,Time 1,Estrategia 2,Marca A,Jornada 2,Não,Produto 3
4,Cliente 5,(11) 923315092,cliente5@exemplo.com,Masculino,C,Médio,Área 2,Função 1,Estrategia B,Não,...,Não,Não,280,Ferramenta C,Time 2,Estrategia 1,Marca A,Jornada 1,Não,Produto 3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,Cliente 496,(11) 957685442,cliente496@exemplo.com,Feminino,B,Médio,Área 2,Função 3,Estrategia A,Sim,...,Não,Sim,114,Ferramenta B,Time 2,Estrategia 1,Marca A,Jornada 1,Sim,Produto 2
496,Cliente 497,(11) 944045504,cliente497@exemplo.com,Feminino,B,Médio,Área 2,Função 2,Estrategia A,Não,...,Não,Não,615,Ferramenta C,Time 1,Estrategia 2,Marca A,Jornada 1,Não,Produto 2
497,Cliente 498,(11) 992396202,cliente498@exemplo.com,Masculino,A,Grande,Área 3,Função 1,Estrategia B,Sim,...,Sim,Não,290,Ferramenta B,Time 2,Estrategia 2,Marca B,Jornada 1,Sim,Produto 1
498,Cliente 499,(11) 945610155,cliente499@exemplo.com,Feminino,A,Grande,Área 1,Função 2,Estrategia A,Não,...,Sim,Sim,267,Ferramenta C,Time 1,Estrategia 1,Marca B,Jornada 1,Não,Produto 1


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier

# Preparar os dados
X = df.drop(columns=['nome', 'telefone', 'email', 'produto_sugerido'])
y = df['produto_sugerido']

# Codificar variáveis categóricas
X = pd.get_dummies(X, drop_first=True)

# Dividir em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar o modelo
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Avaliar o modelo
accuracy = model.score(X_test, y_test)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')


Acurácia do modelo: 100.00%


In [8]:

# Separar características e rótulos
X = df.drop('produto_sugerido', axis=1)
y = df['produto_sugerido']

# Definindo quais colunas são categóricas
categorical_features = X.select_dtypes(include=['object']).columns.tolist()

# Criando o pré-processador com tratamento para categorias desconhecidas
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)  # Ignorando categorias desconhecidas
    ],
    remainder='drop'  # Deixar de fora as colunas não categóricas
)

# Criando o pipeline
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier())
])

# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar o modelo
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Acurácia do modelo: 100.00%
              precision    recall  f1-score   support

   Produto 1       1.00      1.00      1.00        34
   Produto 2       1.00      1.00      1.00        34
   Produto 3       1.00      1.00      1.00        32

    accuracy                           1.00       100
   macro avg       1.00      1.00      1.00       100
weighted avg       1.00      1.00      1.00       100

[[34  0  0]
 [ 0 34  0]
 [ 0  0 32]]


In [9]:
import joblib

# Salvar o modelo treinado
joblib.dump(model, 'indicacaoSolucao.pkl')

['indicacaoSolucao.pkl']