In [1]:
# Importação das bibliotecas necessárias
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split
from sklearn import metrics
import numpy as np
import pandas as pd
from IPython.display import Image
from sklearn.datasets import load_iris
import pydot
import graphviz
from ipywidgets import interactive
from IPython.display import SVG,display
from graphviz import Source   
from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt


In [2]:

# Criando dados aleatórios
np.random.seed(42)  # Para tornar os resultados reproduzíveis
idades = np.random.randint(18, 70, 10000)
rendas = np.random.randint(30000, 100000, 10000)
tipos_plano = np.random.choice(['A', 'B', 'C'], size=10000)
segmentos = np.random.choice(['Jovem', 'Média Idade'], size=10000)
cidades = np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Salvador'], size=10000)
escolaridade = np.random.choice(['Ensino Médio', 'Graduação', 'Pós-Graduação', 'Mestrado', 'Doutorado'], size=10000)
profissoes = np.random.choice(['Engenheiro', 'Médico', 'Professor', 'Advogado', 'Programador'], size=10000)
sexo = np.random.choice(['Masculino', 'Feminino'], size=10000)

# Criando o DataFrame
clientes = pd.DataFrame({
    'Idade': idades,
    'Renda': rendas,
    'Tipo_Plano': tipos_plano,
    'Segmento': segmentos,
    'Cidade': cidades,
    'Escolaridade': escolaridade,
    'Profissão': profissoes,
    'Sexo': sexo
})

# Verificando os tamanhos dos arrays
print(len(idades), len(rendas), len(tipos_plano), len(segmentos), len(cidades), len(escolaridade), len(profissoes), len(sexo))


10000 10000 10000 10000 10000 10000 10000 10000


In [None]:
# Dividindo os dados em features (X) e target (y)
X = clientes.drop(columns=['Tipo_Plano'])
y = clientes['Tipo_Plano']

In [None]:
# Convertendo variáveis categóricas em numéricas
X = pd.get_dummies(X)

In [None]:
# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Instanciando o objeto classificador
clf = DecisionTreeClassifier()

# Treinando o modelo de árvore de decisão
clf = clf.fit(X_train, y_train)

In [None]:
# Verificando as features mais importantes para o modelo de árvore de decisão treinado
feature_importance = clf.feature_importances_
for feature, importance in zip(X.columns, feature_importance):
    print("{}:{}".format(feature, importance))

In [None]:
# Executando o algoritmo de árvore de decisão com o conjunto de teste
resultado = clf.predict(X_test)

In [None]:
resultado

In [None]:
# Testando com uma nova amostra
nova_amostra = np.array([[25, 50000, 1, 0, 1, 0]])
nova_amostra = nova_amostra[:, :4]  # Drop the extra columns
resultado_nova_amostra = clf.predict(nova_amostra)
probabilidade_nova_amostra = clf.predict_proba(nova_amostra)

In [None]:
probabilidade_nova_amostra

In [None]:
# Métricas de Validação
print(metrics.classification_report(y_test, resultado))

In [None]:
# Visualizando a árvore de decisão
#dot_data = export_graphviz(clf, out_file=None, feature_names=X.columns, class_names=clf.classes_, filled=True, rounded=True, special_characters=True)
#graph = graphviz.Source(dot_data)
#graph

In [None]:

# Visualizando as fronteiras criadas pela árvore
def visualize_fronteiras(msamples_split):
    clf = DecisionTreeClassifier(min_samples_split=msamples_split)
    tree = clf.fit(X.values[:, :2], y)

    plt.figure(figsize=(8,5))
    plot_decision_regions(X.values[:, :2], y.values, clf=tree, legend=2)

    plt.xlabel('Idade')
    plt.ylabel('Renda')
    plt.title('Decision Tree on Customer Data')
    plt.show()


In [None]:

y = y.map({'A': 0, 'B': 1, 'C': 2}).astype(int)


In [None]:

visualize_fronteiras(2)


In [None]:
visualize_fronteiras(10)

In [None]:
visualize_fronteiras(20)