# Semana 1: Uso de Pandas y NumPy.
## Práctica Dirigida

Objetivo: Familiarizarse con la carga, inspección, selección y filtrado de datos usando Pandas y NumPy.



Author: Dan Santivañez

Organización: Haciendo Ciencia

# ¿Qué es Pandas?

Pandas es una biblioteca de Python diseñada para la **manipulación y análisis de datos tabulares**. Permite trabajar con datos estructurados (como tablas o archivos CSV) de forma sencilla y eficiente, utilizando dos estructuras principales: **Series** (columnas unidimensionales) y **DataFrames** (tablas bidimensionales).

### Características principales:
- **Carga de datos**: Lee archivos como CSV fácilmente (ej. `movies.csv`, `ratings.csv`).
- **Inspección y limpieza**: Ofrece funciones para explorar datos (`head()`, `info()`) y manejar valores nulos.
- **Selección y filtrado**: Permite seleccionar columnas, filtrar filas y realizar operaciones complejas sin bucles.
- **Construido sobre NumPy**: Combina la eficiencia de NumPy con una interfaz amigable para datos tabulares.





# ¿Qué es NumPy?

NumPy es una biblioteca fundamental de Python para **computación numérica**. Proporciona soporte para trabajar con **arrays multidimensionales** (objetos llamados `ndarray`) y ofrece funciones matemáticas de alto rendimiento para operar sobre ellos.

### Características principales:
- **Arrays eficientes**: Los arrays de NumPy son más rápidos y ocupan menos memoria que las listas de Python.
- **Operaciones vectorizadas**: Permite realizar cálculos matemáticos (sumas, multiplicaciones, etc.) en todos los elementos de un array sin necesidad de bucles.
- **Base para otras bibliotecas**: NumPy es la base de Pandas, SciPy, y otras herramientas de análisis de datos.

##Instrucciones:

Descarga los archivos movies.csv y ratings.csv desde el enlace de Kaggle proporcionado.

In [4]:
import kagglehub
import pandas as pd
import numpy as np
import os

# Descargar la base d
path = kagglehub.dataset_download("parasharmanas/movie-recommendation-system")

print("Dirección de los archivos:", path)

# Construct the file paths for movies.csv and ratings.csv
movies_path = os.path.join(path, 'movies.csv')
ratings_path = os.path.join(path, 'ratings.csv')



Dirección de los archivos: /kaggle/input/movie-recommendation-system


#### 1. Inspección inicial de movies_df

Muestra las primeras 5 filas de movies_df usando head().
Lista los nombres de las columnas de movies_df.



In [6]:
# Cargar los datos
movies_df = pd.read_csv(movies_path)
ratings_df = pd.read_csv(ratings_path)

In [None]:
# Películas
n=5
print(f"Primeras {n} películas:")
movies_df.head(n)

In [None]:
n=5
print(f"Primeros {n} ratings:")
ratings_df.head(n)

#### 2. Dimensiones de los datos

Usa shape para encontrar el número de filas y columnas en movies_df y ratings_df.

In [None]:
print("Dimensiones de movies_df:", movies_df.shape)
print("Dimensiones de ratings_df:", ratings_df.shape)


#### 3. Resumen de los datos

Utiliza info() en ratings_df para verificar los tipos de datos y valores nulos.

¿Cuál es el tipo de dato de la columna rating?

In [None]:
ratings_df.info()

#### 4. Estadística descriptiva

Utiliza describe() en ratings_df para obtener estadísticas de la columna rating.

¿Cuál es el rating promedio?

In [None]:
estadisticas_sin_count = ratings_df.describe().drop(index='count').round(2)
estadisticas_sin_count

#### 5. Seleccionar columnas

Selecciona y muestra solo la columna title de movies_df.

¿El resultado es una Series o un DataFrame?

Pregunta: ¿Cuál es la media de los ratings?

In [None]:
titles = movies_df['title']
print(titles)
print(type(titles))  # Respuesta: pandas.core.series.Series

#### 6. Seleccionar múltiples columnas

Crea un nuevo DataFrame con solo movieId y genres de movies_df.

Muestra las primeras 3 filas.

In [None]:
subset_df = movies_df[['movieId', 'genres']]
print(subset_df.head(3))

#### 7. Filtrado Simple

Filtra movies_df para mostrar películas que contengan "Comedy" en la columna genres (usa str.contains('Comedy', na=False)).

¿Cuántas películas son comedias?

In [None]:
# Forma de realizar la consulta (Obten los registros de df movies, aquellos que en generos contengan Comedy muestralos excepto los vacíos)
comedy_movies = movies_df[movies_df['genres'].str.contains('Comedy', na=False)]
print(comedy_movies)
print("Número de películas de comedia:", len(comedy_movies))


#### 8. Filtrado con Múltiples Condiciones

Filtra ratings_df para mostrar filas donde rating > 4.0 y userId == 1.

Muestra las primeras 5 filas del resultado.

In [None]:
high_rated_user1 = ratings_df[(ratings_df['rating'] > 4.0) & (ratings_df['userId'] == 1)]
print(high_rated_user1.head())


#### 9. Operaciones con NumPy

Convierte la columna rating de ratings_df a un arreglo de NumPy.

Calcula la mediana de los ratings usando np.median().

In [None]:
ratings_array = ratings_df['rating'].to_numpy()
median_rating = np.median(ratings_array)
print("Mediana de los ratings:", median_rating)


#### 10. Verificación de Datos Faltantes

Utiliza isnull().sum() para contar los valores nulos en cada columna de movies_df y ratings_df.

¿Existen valores nulos?

In [None]:
print("Valores nulos en movies_df:\n", movies_df.isnull().sum())
print("Valores nulos en ratings_df:\n", ratings_df.isnull().sum())

## Problemas más complejos

#### 1. Contando Películas de Comedia

Agrega una columna is_comedy a movies_df que sea True si "Comedy" está presente en genres y False en caso contrario.

Cuenta el número de películas de comedia.

In [None]:
movies_df['is_comedy'] = movies_df['genres'].str.contains('Comedy', na=False)
comedy_count = movies_df['is_comedy'].sum()
print("Número de películas de comedia:", comedy_count)
# Explicación: str.contains busca 'Comedy' en genres; sum() cuenta los valores True.


#### 2. Rating Promedio por Película

Agrupa ratings_df por movieId y calcula el rating promedio para cada película.

Muestra las primeras 5 filas.

In [None]:
avg_ratings = ratings_df.groupby('movieId')['rating'].mean().reset_index()
print(avg_ratings.head())
# Explicación: groupby agrupa los ratings por movieId; mean() calcula el promedio.


#### 3. Películas Mejor Valoradas
Une movies_df con el promedio de ratings obtenido en la pregunta anterior utilizando movieId.

Filtra las películas con un rating promedio > 4.5.

Muestra los títulos y los ratings promedio de las primeras 5 películas que cumplan la condición.

In [None]:
merged_df = movies_df.merge(avg_ratings, on='movieId')
top_rated = merged_df[merged_df['rating'] > 4.5][['title', 'rating']]
print(top_rated.head())
# Explicación: merge combina los DataFrames; el filtrado mantiene solo las películas mejor valoradas.


#### 4. Usuarios Más Activos

Agrupa ratings_df por userId y cuenta el número de ratings por usuario.

Ordena en forma descendente y muestra los 10 usuarios principales.

In [None]:
user_activity = ratings_df.groupby('userId').size().sort_values(ascending=False)
print(user_activity.head(10))
# Explicación: size() cuenta los ratings por usuario; sort_values() ordena de mayor a menor.


#### 5. Distribución de Ratings


Utiliza value_counts() en la columna rating de ratings_df para contar la cantidad de cada rating.

¿Cuál es el rating más común?


In [None]:
rating_counts = ratings_df['rating'].value_counts()
print(rating_counts)
most_common = rating_counts.idxmax()
print("Rating más común:", most_common)
# Explicación: value_counts() cuenta los ratings; idxmax() encuentra el rating más frecuente.


#### 6. Utilizando Lambda

Utilizando el DataFrame movies_df, crea una nueva columna llamada **genre_count** que contenga el número de géneros asociados a cada película. Para ello, usa el método apply() junto con una función lambda que divida la cadena de la columna genres por el delimitador "|" y cuente el número de elementos resultantes.

In [None]:
# Crear la nueva columna 'genre_count' que cuenta la cantidad de géneros en cada película
movies_df['genre_count'] = movies_df['genres'].apply(lambda x: len(x.split('|')))

# Mostrar las primeras filas para verificar el resultado
print(movies_df[['title', 'genres', 'genre_count']].head())


# Ejercicio Reto

Escribe una función que reciba un userId como entrada y realice lo siguiente:

- Identifique los **géneros de las películas valoradas con ≥4.0** por el usuario (usando ratings_df y movies_df).

- Encuentre **otras películas** (no valoradas por el usuario) que **compartan al menos un género con estas películas** altamente valoradas.

- Calcule el **rating promedio para estas películas candidatas**, considerando **únicamente aquellas películas con al menos 50 valoraciones**.

- Devuelva las **5 películas no valoradas con los ratings promedio más altos**, incluyendo sus títulos, géneros y el promedio de ratings.

Aplica la función para userId = 1 y muestra los resultados.