In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración inicial
plt.style.use('seaborn')

# Funciones de carga y validación
def cargar_datos(ruta):
    """
    Carga los datasets de MovieLens y realiza una validación inicial
    """
    try:
        df = pd.read_csv(ruta)
        print(f"Dataset cargado: {ruta}")
        print(f"Dimensiones: {df.shape}")
        return df
    except Exception as e:
        print(f"Error al cargar {ruta}: {e}")
        return None

def analisis_basico(df, nombre_dataset):
    """
    Realiza un análisis estadístico básico del dataset
    """
    print(f"\n--- Análisis Básico: {nombre_dataset} ---")
    
    # Información general
    print("\nInformación del Dataset:")
    print(df.info())
    
    # Resumen estadístico
    print("\nResumen Estadístico:")
    print(df.describe())
    
    # Valores nulos
    print("\nValores Nulos:")
    print(df.isnull().sum())

def analisis_ratings(ratings):
    """
    Análisis específico para el dataset de ratings
    """
    plt.figure(figsize=(15,5))
    
    # Distribución de calificaciones
    plt.subplot(131)
    ratings['rating'].hist(bins=20)
    plt.title('Distribución de Calificaciones')
    plt.xlabel('Calificación')
    plt.ylabel('Frecuencia')
    
    # Número de ratings por usuario
    plt.subplot(132)
    ratings.groupby('userId').size().hist(bins=50)
    plt.title('Ratings por Usuario')
    plt.xlabel('Número de Ratings')
    plt.ylabel('Frecuencia')
    
    # Número de ratings por película
    plt.subplot(133)
    ratings.groupby('movieId').size().hist(bins=50)
    plt.title('Ratings por Película')
    plt.xlabel('Número de Ratings')
    plt.ylabel('Frecuencia')
    
    plt.tight_layout()
    plt.show()
    
    # Estadísticas adicionales
    print("\nEstadísticas de Ratings:")
    print(f"Total de Usuarios: {ratings['userId'].nunique()}")
    print(f"Total de Películas: {ratings['movieId'].nunique()}")
    print(f"Ratings por Usuario (Promedio): {ratings.groupby('userId').size().mean():.2f}")
    print(f"Ratings por Película (Promedio): {ratings.groupby('movieId').size().mean():.2f}")

def analisis_movies(movies):
    """
    Análisis específico para el dataset de películas
    """
    # Distribución de géneros
    movies['genres'] = movies['genres'].str.split('|')
    genre_counts = movies.explode('genres')['genres'].value_counts()
    
    plt.figure(figsize=(12,6))
    genre_counts.plot(kind='bar')
    plt.title('Distribución de Géneros')
    plt.xlabel('Género')
    plt.ylabel('Número de Películas')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
    
    print("\nDistribución de Géneros:")
    print(genre_counts)

def analisis_genome_tags(genome_tags):
    """
    Análisis de genome tags
    """
    print("\nAnálisis de Genome Tags:")
    print(f"Total de Tags Únicos: {genome_tags['tagId'].nunique()}")
    print(f"Total de Entradas: {len(genome_tags)}")
    
    # Top 10 tags más frecuentes
    top_tags = genome_tags.groupby('tag').size().sort_values(ascending=False).head(10)
    
    plt.figure(figsize=(10,5))
    top_tags.plot(kind='bar')
    plt.title('Top 10 Tags')
    plt.xlabel('Tag')
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

def main_eda():
    # URLs de descarga (reemplazar con tus URLs de Google Drive o descarga)
    urls = {
        'ratings': 'ratings.csv',
        'movies': 'movies.csv',
        'genome_tags': 'genome-tags.csv',
        'genome_scores': 'genome-scores.csv'
    }
    
    # Cargar datasets
    datasets = {nombre: cargar_datos(ruta) for nombre, ruta in urls.items()}
    
    # Análisis de cada dataset
    for nombre, df in datasets.items():
        if df is not None:
            if nombre == 'ratings':
                analisis_basico(df, nombre)
                analisis_ratings(df)
            elif nombre == 'movies':
                analisis_basico(df, nombre)
                analisis_movies(df)
            elif nombre == 'genome_tags':
                analisis_basico(df, nombre)
                analisis_genome_tags(df)
            else:
                analisis_basico(df, nombre)

# Ejecutar EDA
if __name__ == '__main__':
    main_eda()