# üìä An√°lisis Exploratorio de Datos - MovieLens 100K

**Objetivo:** Explorar y entender el dataset de pel√≠culas y calificaciones

**Fecha:** 22 de noviembre de 2024

**Dataset:** MovieLens 100K
- 100,000 calificaciones
- 1,682 pel√≠culas
- 943 usuarios

## Contenido
1. Carga de datos
2. Exploraci√≥n inicial
3. Estad√≠sticas descriptivas
4. Visualizaciones
5. Conclusiones

In [4]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np


print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


In [8]:
# Cargar el dataset de calificaciones (ratings)
# Formato: user_id | item_id | rating | timestamp

columns = ['user_id', 'item_id', 'rating', 'timestamp']
ratings = pd.read_csv('../data/raw/ml-100k/u.data', 
                      sep='\t', 
                      names=columns,
                      encoding='latin-1')

# Mostrar informaci√≥n b√°sica
print(f"üìä Total de calificaciones: {len(ratings):,}")
print(f"üë• Total de usuarios: {ratings['user_id'].nunique():,}")
print(f"üé¨ Total de pel√≠culas: {ratings['item_id'].nunique():,}")
print("\nüîç Primeras 5 filas:")
ratings.head()

üìä Total de calificaciones: 100,000
üë• Total de usuarios: 943
üé¨ Total de pel√≠culas: 1,682

üîç Primeras 5 filas:


Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


In [6]:
# Cargar informaci√≥n de las pel√≠culas
movie_columns = ['item_id', 'title', 'release_date', 'video_release_date',
                 'imdb_url', 'unknown', 'Action', 'Adventure', 'Animation',
                 'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 
                 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery',
                 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western']

movies = pd.read_csv('../data/raw/ml-100k/u.item', 
                     sep='|', 
                     names=movie_columns,
                     encoding='latin-1')

print(f"üé¨ Total de pel√≠culas en el cat√°logo: {len(movies):,}")
movies.head()

üé¨ Total de pel√≠culas en el cat√°logo: 1,682


Unnamed: 0,item_id,title,release_date,video_release_date,imdb_url,unknown,Action,Adventure,Animation,Children,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [7]:
# Estad√≠sticas descriptivas de las calificaciones
print("üìä ESTAD√çSTICAS DE LAS CALIFICACIONES\n")
print(ratings['rating'].describe())

# Distribuci√≥n de calificaciones
print("\nüìà Distribuci√≥n de calificaciones:")
print(ratings['rating'].value_counts().sort_index())

üìä ESTAD√çSTICAS DE LAS CALIFICACIONES

count    100000.000000
mean          3.529860
std           1.125674
min           1.000000
25%           3.000000
50%           4.000000
75%           4.000000
max           5.000000
Name: rating, dtype: float64

üìà Distribuci√≥n de calificaciones:
rating
1     6110
2    11370
3    27145
4    34174
5    21201
Name: count, dtype: int64


In [None]:
# Visualizaci√≥n de la distribuci√≥n de ratings
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
ratings['rating'].value_counts().sort_index().plot(kind='bar', color='skyblue')
plt.title('üìä Distribuci√≥n de Calificaciones', fontsize=16, fontweight='bold')
plt.xlabel('Calificaci√≥n', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\n‚≠ê Calificaci√≥n promedio: {ratings['rating'].mean():.2f}")
print(f"üìà Calificaci√≥n m√°s com√∫n: {ratings['rating'].mode()[0]}")

In [None]:
# Unir ratings con informaci√≥n de pel√≠culas
df = ratings.merge(movies[['item_id', 'title']], on='item_id')

# Top 10 pel√≠culas con m√°s calificaciones
top_movies = df['title'].value_counts().head(10)

print("üé¨ TOP 10 PEL√çCULAS M√ÅS VALORADAS:\n")
for i, (movie, count) in enumerate(top_movies.items(), 1):
    print(f"{i:2d}. {movie:50s} - {count:4d} valoraciones")

# Visualizaci√≥n
plt.figure(figsize=(12, 6))
top_movies.plot(kind='barh', color='coral')
plt.title('üé¨ Top 10 Pel√≠culas M√°s Valoradas', fontsize=16, fontweight='bold')
plt.xlabel('N√∫mero de Valoraciones', fontsize=12)
plt.ylabel('Pel√≠cula', fontsize=12)
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de actividad de usuarios
user_activity = ratings.groupby('user_id').size()

print("üë• ESTAD√çSTICAS DE USUARIOS:\n")
print(f"üìä Promedio de calificaciones por usuario: {user_activity.mean():.1f}")
print(f"üìà M√°ximo de calificaciones por un usuario: {user_activity.max()}")
print(f"üìâ M√≠nimo de calificaciones por un usuario: {user_activity.min()}")

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
plt.hist(user_activity, bins=50, color='lightgreen', edgecolor='black')
plt.title('üë• Distribuci√≥n de Actividad de Usuarios', fontsize=16, fontweight='bold')
plt.xlabel('N√∫mero de Calificaciones por Usuario', fontsize=12)
plt.ylabel('Cantidad de Usuarios', fontsize=12)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Crear matriz usuario-pel√≠cula
ratings_matrix = ratings.pivot_table(
    values='rating',
    index='user_id',
    columns='item_id',
    fill_value=0
)

print("üìä MATRIZ DE CALIFICACIONES:\n")
print(f"Dimensiones: {ratings_matrix.shape}")
print(f"Usuarios: {ratings_matrix.shape[0]}")
print(f"Pel√≠culas: {ratings_matrix.shape[1]}")
print(f"Total de celdas: {ratings_matrix.shape[0] * ratings_matrix.shape[1]:,}")
print(f"Calificaciones existentes: {len(ratings):,}")
print(f"Dispersi√≥n: {(len(ratings) / (ratings_matrix.shape[0] * ratings_matrix.shape[1]) * 100):.2f}%")

In [None]:
print("=" * 60)
print("üìù CONCLUSIONES DEL AN√ÅLISIS EXPLORATORIO")
print("=" * 60)
print()
print("‚úÖ Dataset cargado exitosamente")
print(f"‚úÖ {len(ratings):,} calificaciones de {ratings['user_id'].nunique()} usuarios")
print(f"‚úÖ {ratings['item_id'].nunique()} pel√≠culas en el cat√°logo")
print(f"‚úÖ Calificaci√≥n promedio: {ratings['rating'].mean():.2f}/5")
print(f"‚úÖ Matriz de datos muy dispersa ({(len(ratings) / (ratings_matrix.shape[0] * ratings_matrix.shape[1]) * 100):.2f}%)")
print()
print("üéØ PR√ìXIMOS PASOS:")
print("   1. Limpiar datos (valores faltantes, outliers)")
print("   2. Preparar datos para el modelo")
print("   3. Implementar algoritmo de recomendaci√≥n")
print()
print("=" * 60)