# üìä An√°lisis Exploratorio de Datos - SmartHabits

**Objetivo**: Realizar un an√°lisis exploratorio completo de los datos de h√°bitos sostenibles para entender patrones, distribuciones y relaciones en el comportamiento de los usuarios.

**Autor**: Irving Morales Dom√≠nguez (220732)  
**Proyecto**: SmartHabits - Sistema de H√°bitos Sostenibles  
**Fecha**: Enero 2025

---


## üìö Importaci√≥n de Librer√≠as


In [None]:
# Librer√≠as b√°sicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings

# Librer√≠as para conexi√≥n a API/Base de datos
import requests
import json
from supabase import create_client, Client
from datetime import datetime, timedelta
import os
from dotenv import load_dotenv

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configuraci√≥n de visualizaci√≥n
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Librer√≠as importadas correctamente")


## üóÇÔ∏è Conexi√≥n a Datos Reales de SmartHabits

Vamos a conectarnos a la API de SmartHabits y a la base de datos Supabase para obtener los datos reales de usuarios y sus h√°bitos sostenibles.


In [None]:
# Cargar variables de entorno
load_dotenv()

# Configuraci√≥n de conexi√≥n a Supabase
SUPABASE_URL = os.getenv('SUPABASE_URL', 'https://your-project.supabase.co')
SUPABASE_KEY = os.getenv('SUPABASE_ANON_KEY', 'your-anon-key')

# Configuraci√≥n de la API de SmartHabits
API_BASE_URL = os.getenv('SMARTHABITS_API_URL', 'http://localhost:3000/api')

print("üîß Configuraci√≥n de conexiones:")
print(f"   ‚Ä¢ Supabase URL: {SUPABASE_URL}")
print(f"   ‚Ä¢ API Base URL: {API_BASE_URL}")

# Funci√≥n para conectar a Supabase
def connect_to_supabase():
    try:
        supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)
        return supabase
    except Exception as e:
        print(f"‚ùå Error conectando a Supabase: {e}")
        return None

# Funci√≥n para obtener datos de la API
def fetch_from_api(endpoint):
    try:
        response = requests.get(f"{API_BASE_URL}/{endpoint}")
        if response.status_code == 200:
            return response.json()
        else:
            print(f"‚ùå Error en API {endpoint}: {response.status_code}")
            return None
    except Exception as e:
        print(f"‚ùå Error conectando a API: {e}")
        return None

print("‚úÖ Funciones de conexi√≥n configuradas")


In [None]:
# Intentar obtener datos reales de SmartHabits
print("üîÑ Intentando conectar a datos reales...")

# Inicializar cliente de Supabase
supabase = connect_to_supabase()
use_real_data = False

if supabase:
    try:
        # Obtener usuarios
        users_response = supabase.table('users').select('*').execute()
        
        # Obtener h√°bitos/actividades
        habits_response = supabase.table('user_habits').select('*').execute()
        
        # Obtener categor√≠as de h√°bitos
        categories_response = supabase.table('habit_categories').select('*').execute()
        
        if users_response.data and habits_response.data:
            print("‚úÖ Datos reales obtenidos de Supabase")
            
            # Convertir a DataFrames
            users_df = pd.DataFrame(users_response.data)
            habits_df = pd.DataFrame(habits_response.data)
            categories_df = pd.DataFrame(categories_response.data)
            
            use_real_data = True
            
            print(f"   ‚Ä¢ Usuarios: {len(users_df)}")
            print(f"   ‚Ä¢ Registros de h√°bitos: {len(habits_df)}")
            print(f"   ‚Ä¢ Categor√≠as: {len(categories_df)}")
            
        else:
            print("‚ö†Ô∏è No se encontraron datos en Supabase")
            
    except Exception as e:
        print(f"Error obteniendo datos de Supabase: {e}")

# Intentar API como alternativa
if not use_real_data:
    print("üîÑ Intentando API de SmartHabits...")
    
    users_data = fetch_from_api('users')
    habits_data = fetch_from_api('habits')
    
    if users_data and habits_data:
        users_df = pd.DataFrame(users_data)
        habits_df = pd.DataFrame(habits_data)
        use_real_data = True
        print("‚úÖ Datos obtenidos de API")
        print(f"   ‚Ä¢ Usuarios: {len(users_df)}")
        print(f"   ‚Ä¢ H√°bitos: {len(habits_df)}")

print(f"üéØ Usando datos {'reales' if use_real_data else 'simulados'}")


In [None]:
# Fallback: Generar datos simulados si no hay conexi√≥n a datos reales
if not use_real_data:
    print("üìä Generando datos simulados para demostraci√≥n...")
    
    # Configuraci√≥n de semilla para reproducibilidad
    np.random.seed(42)
    
    # Par√°metros de simulaci√≥n
    n_users = 1000
    n_days = 90  # 3 meses de datos
    
    # Categor√≠as de h√°bitos sostenibles de SmartHabits
    habit_categories = [
        'reciclaje', 'transporte_sostenible', 'ahorro_energia', 
        'consumo_agua', 'alimentacion_sostenible', 'compras_responsables'
    ]
    
    # Generar datos de usuarios simulados
    users_data = []
    for user_id in range(1, n_users + 1):
        # Perfil de usuario
        user_type = np.random.choice(['principiante', 'intermedio', 'avanzado'], p=[0.4, 0.4, 0.2])
        age_group = np.random.choice(['18-25', '26-35', '36-45', '46+'], p=[0.3, 0.4, 0.2, 0.1])
        
        # Nivel de actividad base seg√∫n tipo de usuario
        if user_type == 'principiante':
            activity_base = np.random.uniform(0.1, 0.4)
        elif user_type == 'intermedio':
            activity_base = np.random.uniform(0.4, 0.7)
        else:  # avanzado
            activity_base = np.random.uniform(0.7, 0.95)
        
        users_data.append({
            'user_id': user_id,
            'user_type': user_type,
            'age_group': age_group,
            'activity_base': activity_base,
            'created_at': datetime.now() - timedelta(days=np.random.randint(30, 180))
        })
    
    users_df = pd.DataFrame(users_data)
    
    # Generar datos de actividad diaria por h√°bito
    habits_data = []
    for _, user in users_df.iterrows():
        user_id = user['user_id']
        activity_base = user['activity_base']
        
        # Generar preferencias por categor√≠a de h√°bito
        category_preferences = np.random.dirichlet(np.ones(len(habit_categories)) * 2)
        
        for day in range(n_days):
            # Variaci√≥n temporal
            day_of_week = day % 7
            weekend_factor = 0.7 if day_of_week >= 5 else 1.0
            time_trend = 1 + (day / n_days) * 0.3
            
            for i, category in enumerate(habit_categories):
                prob = activity_base * category_preferences[i] * weekend_factor * time_trend
                prob = min(prob, 0.95)
                
                completed = np.random.binomial(1, prob)
                
                if completed:
                    base_points = {'reciclaje': 10, 'transporte_sostenible': 15, 'ahorro_energia': 12,
                                  'consumo_agua': 8, 'alimentacion_sostenible': 20, 'compras_responsables': 25}
                    
                    points = base_points[category] * np.random.uniform(0.8, 1.2)
                    co2_saved = points * np.random.uniform(0.05, 0.15)
                    
                    habits_data.append({
                        'user_id': user_id,
                        'habit_category': category,
                        'completed_date': datetime.now() - timedelta(days=n_days-day),
                        'points_earned': round(points, 2),
                        'co2_saved_kg': round(co2_saved, 3),
                        'day_of_week': day_of_week,
                        'completed': True
                    })
    
    habits_df = pd.DataFrame(habits_data)
    
    print(f"Datos simulados generados:")
    print(f"   ‚Ä¢ Usuarios: {len(users_df)}")
    print(f"   ‚Ä¢ Registros de h√°bitos: {len(habits_df)}")
    print(f"   ‚Ä¢ Actividades completadas: {habits_df['completed'].sum():,}")

# Mostrar informaci√≥n b√°sica de los datos obtenidos
print("\\n=== INFORMACI√ìN DE DATOS ===")
print(f"Fuente: {'Datos reales de SmartHabits' if use_real_data else 'Datos simulados'}")
print(f"Usuarios √∫nicos: {users_df['user_id'].nunique():,}")
if 'habit_category' in habits_df.columns:
    print(f"Categor√≠as de h√°bitos: {habits_df['habit_category'].nunique()}")
print(f"Total registros de actividad: {len(habits_df):,}")
