# Proyecto                                                                                                                                 Noelia Otazo Rojo
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 30 reviews?

## 1. Preparación.
Importamos las librerías necesarias.

In [14]:
import pandas as pd

## 2. Importación de datos.
Cargamos el contenido de movies.dat y de ratings.dat. Para ello necesitamos especificar la codificación ISO-8859-1.

In [15]:
# Cargamos movies.dat
movies_columns = ['movieId', 'title', 'genres']
movies = pd.read_csv('./dataset/movies.dat', sep='::', engine='python', names=movies_columns, encoding='ISO-8859-1')

print(movies.head())

   movieId                               title                        genres
0        1                    Toy Story (1995)   Animation|Children's|Comedy
1        2                      Jumanji (1995)  Adventure|Children's|Fantasy
2        3             Grumpier Old Men (1995)                Comedy|Romance
3        4            Waiting to Exhale (1995)                  Comedy|Drama
4        5  Father of the Bride Part II (1995)                        Comedy


In [16]:
# Cargamos ratings.dat
ratings_columns = ['userId', 'movieId', 'rating', 'timestamp']
ratings = pd.read_csv('./dataset/ratings.dat', sep='::', engine='python', names=ratings_columns, encoding='ISO-8859-1')

print(ratings.head())

   userId  movieId  rating  timestamp
0       1     1193       5  978300760
1       1      661       3  978302109
2       1      914       3  978301968
3       1     3408       4  978300275
4       1     2355       5  978824291


Necesitamos cargar tambien users.dat, ya que sin ese fichero de datos no podríamos sacar si hay usuarios que no tengan ninguna review.

In [17]:
# Cargamos users.dat
users_columns = ['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code']
users = pd.read_csv('./dataset/users.dat', sep='::', engine='python', names=users_columns, encoding='ISO-8859-1')

print(users.head())

   UserID Gender  Age  Occupation Zip-code
0       1      F    1          10    48067
1       2      M   56          16    70072
2       3      M   25          15    55117
3       4      M   45           7    02460
4       5      M   25          20    55455


### 2. Análisis de datos.
#### ¿Hay algun usuario sin ninguna review?

In [18]:
# Convertimos las columnas de ID de usuario a sets para facilitar la comparación
usuarios = set(users['UserID'])
usuarios_con_reviews = set(ratings['userId'])

# Usuarios sin ninguna review
usuarios_sin_reviews = usuarios - usuarios_con_reviews
num_usuarios_sin_reviews = len(usuarios_sin_reviews)

# Imprimimos los resultados
print(f"Número de usuarios sin ninguna review: {num_usuarios_sin_reviews}")


Número de usuarios sin ninguna review: 0


#### ¿Cuántos usuarios tienen menos de 30 reviews?

In [19]:
# Contamos las reviews por usuario
reviews_por_usuario = ratings.groupby('userId').size()

# Filtramos aquellos con menos de 30 reviews
usuarios_menos_30_reviews = reviews_por_usuario[reviews_por_usuario < 30]
num_usuarios_menos_30_reviews = len(usuarios_menos_30_reviews)

print(f"Número de usuarios con menos de 30 reviews: {num_usuarios_menos_30_reviews}")

Número de usuarios con menos de 30 reviews: 751
