## Oficina 10 - Etapas da mineração 
''''''''''''''''''''''''''''''''

Processo CRISP-DM - Rede de supermercado 

#### Entendimento do negócio 

	- Objetivo: Atrair mais clientes apoiadores, em uma rede de supermecados que possuem projetos de colaboração, onde os clientes que compram com mais frequencia recebem descontos nas suas compras.
	- Qual o impacto financeiro: Aumentar os lucros
	- Quais variáveis podem influenciar: Idade, sexo, renda, histórico de compras, frequencia de compra 

#### Entendimento de dados 

	- Coletar dados como: idade, sexo, renda, frequência de compras 
	idade: indentificar qual o publico que mais consome (crianças, jovens ou idosos)
	renda: como a renda dos clientes impactam no seu poder de compra
	frequencia de compras: qual sua frequêcia de compras naquela rede de supermercado 

#### Preparação dos dados

	- Tratar valores faltantes
	- codificar variáveis (sexo = 0 ou 1)
	- Normalização dos dados 

#### Modelagem 

	- Algoritmo para modela os dados: Floresta de decisões 
	
#### Avaliação

	- Testando o modelo 
	- Analisando a matriz de confusão 

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuração do seed para reprodutibilidade
np.random.seed(42)

# Número de clientes
n_clientes = 100

# Gerando dados sintéticos
dados = {
    "nome": np.random.choice(list("abcdefghijklmnopqrstuvwxyz"), n_clientes),  # Nomes aleatórios
    "idade": np.random.randint(18, 70, n_clientes),  # Idades entre 18 e 70 anos
    "sexo": np.random.choice(["Masculino", "Feminino"], n_clientes),  # Sexo
    "renda": np.random.uniform(1000, 10000, n_clientes).round(2),  # Renda entre 1000 e 10000
    "historico_compras": np.random.randint(10, 500, n_clientes),  # Histórico de compras
    "frequencia_compras": np.random.choice(["Baixa", "Média", "Alta"], n_clientes)  # Frequência de compras
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Remover a coluna 'nome' pois não é relevante para o modelo
df.drop(columns=["nome"], inplace=True)

# Codificação das variáveis categóricas
label_sexo = LabelEncoder()
df["sexo"] = label_sexo.fit_transform(df["sexo"])  # Masculino = 0, Feminino = 1

label_frequencia = LabelEncoder()
df["frequencia_compras"] = label_frequencia.fit_transform(df["frequencia_compras"])  # Baixa=0, Média=1, Alta=2

# Separação entre features e target
X = df.drop(columns=["frequencia_compras"])
y = df["frequencia_compras"]

# Divisão entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalização das variáveis numéricas
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Modelagem com floresta de decisão 
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Previsões
y_pred = modelo.predict(X_test)

# Avaliação do modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))


Acurácia: 0.5
Matriz de Confusão:
 [[2 3 1]
 [0 4 3]
 [2 1 4]]
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.50      0.33      0.40         6
           1       0.50      0.57      0.53         7
           2       0.50      0.57      0.53         7

    accuracy                           0.50        20
   macro avg       0.50      0.49      0.49        20
weighted avg       0.50      0.50      0.49        20

