<a href="https://colab.research.google.com/github/YiyoMb/extraccion-conocimiento-bd/blob/main/notebooks/main.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# PROYECTO: EXTRACCI√ìN DE CONOCIMIENTO EN BASES DE DATOS
# Configuraci√≥n inicial del entorno de trabajo

# ==============================================================================
# PASO 1: INSTALACI√ìN DE LIBRER√çAS NECESARIAS
# ==============================================================================

# Instalamos las librer√≠as que no vienen por defecto en Colab
!pip install plotly dash
!pip install mlxtend  # Para an√°lisis de asociaci√≥n (Market Basket Analysis)
!pip install wordcloud  # Para visualizaciones avanzadas

# ==============================================================================
# PASO 2: IMPORTACI√ìN DE LIBRER√çAS PRINCIPALES
# ==============================================================================

# Manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning - Modelos Supervisados
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, classification_report

# Machine Learning - Modelos No Supervisados
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# An√°lisis de Asociaci√≥n
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder

# Utilidades
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Todas las librer√≠as importadas correctamente")
print("‚úÖ Entorno configurado para el proyecto")

# ==============================================================================
# PASO 3: CONFIGURACI√ìN DE PAR√ÅMETROS GLOBALES
# ==============================================================================

# Configuraci√≥n para reproducibilidad
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Configuraci√≥n de visualizaciones
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Configuraci√≥n global aplicada")
print("üöÄ ¬°Listo para comenzar el an√°lisis de datos!")

# ==============================================================================
# DESCARGA Y PREPARACI√ìN DEL DATASET: ONLINE RETAIL
# ==============================================================================

# Descargar el dataset desde UCI
import urllib.request
import os

print("üì• Descargando dataset Online Retail...")

# URL del dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx"
filename = "Online_Retail.xlsx"

# Crear carpeta de datos si no existe
if not os.path.exists('datos'):
    os.makedirs('datos')

# Descargar el archivo
try:
    urllib.request.urlretrieve(url, f'datos/{filename}')
    print("‚úÖ Dataset descargado exitosamente")
except Exception as e:
    print(f"‚ùå Error al descargar: {e}")
    print("üí° Descarga manual desde: https://archive.ics.uci.edu/ml/datasets/Online+Retail")

# ==============================================================================
# CARGA INICIAL DEL DATASET
# ==============================================================================

try:
    # Cargar el dataset
    print("\nüìä Cargando dataset...")
    df = pd.read_excel(f'datos/{filename}')

    print("‚úÖ Dataset cargado exitosamente")
    print(f"üìè Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")

    # Informaci√≥n b√°sica del dataset
    print("\nüîç INFORMACI√ìN B√ÅSICA DEL DATASET:")
    print("="*50)
    print(f"üìã Columnas: {list(df.columns)}")
    print(f"üíæ Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # Primeras filas
    print("\nüëÄ PRIMERAS 5 FILAS:")
    print("="*50)
    print(df.head())

    # Informaci√≥n de tipos de datos
    print("\nüìä TIPOS DE DATOS:")
    print("="*50)
    print(df.info())

    # Estad√≠sticas b√°sicas
    print("\nüìà ESTAD√çSTICAS B√ÅSICAS:")
    print("="*50)
    print(df.describe())

except FileNotFoundError:
    print("‚ùå Archivo no encontrado. Por favor, descarga manualmente el dataset.")
    print("üìÅ Gu√°rdalo en la carpeta 'datos' con el nombre 'Online_Retail.xlsx'")
except Exception as e:
    print(f"‚ùå Error al cargar el dataset: {e}")

print("\nüéØ SIGUIENTE PASO: An√°lisis exploratorio de datos")
print("üìù Crearemos el notebook '01_analisis_exploratorio.ipynb'")

# ==============================================================================
# CONFIGURACI√ìN GIT PARA COLAB - EJECUTAR SOLO UNA VEZ
# ==============================================================================

# Configura tu identidad (CAMBIAR POR TUS DATOS REALES)
!git config --global user.email "diegobalderas.864eyou@gmail.com"
!git config --global user.name "YiyoMb"

print("‚úÖ Git configurado correctamente")
email = !git config --global user.email
print("üìß Email:", email[0])
name = !git config --global user.name
print("üë§ Nombre:", name[0])

# Verificar que GitHub funciona (opcional)
print("\nüîó Para verificar conexi√≥n con GitHub:")
print("   1. Ve a Archivo > Guardar copia en GitHub")
print("   2. Selecciona tu repositorio")
print("   3. Si aparece, ¬°todo est√° funcionando!")

Collecting dash
  Downloading dash-3.1.1-py3-none-any.whl.metadata (10 kB)
Collecting retrying (from dash)
  Downloading retrying-1.4.1-py3-none-any.whl.metadata (7.5 kB)
Downloading dash-3.1.1-py3-none-any.whl (7.9 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m7.9/7.9 MB[0m [31m46.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading retrying-1.4.1-py3-none-any.whl (12 kB)
Installing collected packages: retrying, dash
Successfully installed dash-3.1.1 retrying-1.4.1
‚úÖ Todas las librer√≠as importadas correctamente
‚úÖ Entorno configurado para el proyecto
‚úÖ Configuraci√≥n global aplicada
üöÄ ¬°Listo para comenzar el an√°lisis de datos!
üì• Descargando dataset Online Retail...
‚úÖ Dataset descargado exitosamente

üìä Cargando dataset...
‚úÖ Dataset cargado exitosamente
üìè Dimensiones: 541,909 filas √ó 8 columnas

üîç INFORMACI√ìN B√ÅSICA DEL DATASET:
üìã Columnas: ['InvoiceNo', 'S