In [None]:
# ============================================
# FASE 1: Importar librerías
# ============================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# ============================================
# FASE 2: Cargar los datos (ventas_export.csv)
# ============================================
from google.colab import files
print("📁 Sube tu archivo ventas_export.csv desde tu PC")
uploaded = files.upload()

# Cargar el dataset
df = pd.read_csv("ventas_export.csv")

print("\n✅ Datos cargados correctamente. Primeras filas:")
print(df.head())

# ============================================
# FASE 3: Análisis exploratorio
# ============================================
print("\n📊 Información general del dataset:")
print(df.info())

print("\n📈 Estadísticas descriptivas:")
print(df.describe())

# ============================================
# FASE 4: Agrupar datos por cliente
# ============================================
clientes = df.groupby("cliente_id").agg({
    "id": "count",
    "cantidad": "sum"
}).reset_index()

clientes.columns = ["cliente_id", "num_compras", "total_cantidad"]

print("\n👥 Datos agregados por cliente:")
print(clientes.head())

# ============================================
# FASE 5: Crear variable target “alto_valor”
# ============================================
# Definimos como cliente de alto valor si tiene más compras que el promedio
umbral = clientes["num_compras"].mean()
clientes["alto_valor"] = np.where(clientes["num_compras"] > umbral, 1, 0)

print(f"\n🎯 Umbral de alto valor: {umbral:.2f}")
print("\nDistribución de clases (0 = bajo valor, 1 = alto valor):")
print(clientes["alto_valor"].value_counts())

# ============================================
# FASE 6: Visualización de los datos
# ============================================
plt.figure(figsize=(6,4))
sns.countplot(x="alto_valor", data=clientes, palette="coolwarm")
plt.title("Distribución de clientes por tipo de valor")
plt.xlabel("Tipo de cliente")
plt.ylabel("Cantidad de clientes")
plt.show()

# ============================================
# FASE 7: Preparación para modelamiento
# ============================================
X = clientes[["num_compras", "total_cantidad"]]
y = clientes["alto_valor"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# ============================================
# FASE 8: Entrenamiento del modelo
# ============================================
modelo = DecisionTreeClassifier(max_depth=3, random_state=42)
modelo.fit(X_train, y_train)

# ============================================
# FASE 9: Evaluación del modelo
# ============================================
y_pred = modelo.predict(X_test)

print("\n📋 Reporte de clasificación:")
print(classification_report(y_test, y_pred))

print("\n🎯 Precisión del modelo: {:.2f}%".format(accuracy_score(y_test, y_pred)*100))

# ============================================
# FASE 10: Matriz de confusión
# ============================================
plt.figure(figsize=(4,3))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, cmap="Blues", fmt="d")
plt.title("Matriz de confusión")
plt.xlabel("Predicción")
plt.ylabel("Valor real")
plt.show()

# ============================================
# FASE 11: Visualización del árbol de decisión
# ============================================
plt.figure(figsize=(10,6))
plot_tree(modelo, filled=True, feature_names=X.columns, class_names=["Bajo valor", "Alto valor"])
plt.title("Árbol de Decisión - Clasificación de Clientes")
plt.show()


📁 Sube tu archivo ventas_export.csv desde tu PC


TypeError: 'NoneType' object is not subscriptable