In [9]:
# Librerías
import sqlite3  # Módulo para conectar con la base de datos
import pandas as pd  # Módulo para trabajar con dataframes


# Conectar a la base de datos
conn = sqlite3.connect("data/db_movies")  # Conectamos con la base de datos
cur = conn.cursor()  # Creamos un cursor

# Consultamos las tablas de la base de datos
cur.execute("select name from sqlite_master where type='table'")
print(cur.fetchall())

[('ratings',), ('movies',), ('movies_clean',), ('full_table',), ('data_clean',)]


# Preprocesado y unión

In [2]:
# Consulta movies y colocamos en un dataframe
movies = pd.read_sql_query("SELECT * FROM movies", conn)
movies.info()

# Verificar si hay valores nulos
print("---------------------------------NULOS---------------------")
print(movies.isnull().sum())

# Buscar duplicados en title y ver coincidencias
print("------------------------------DUPLICADOS---------------------")
movies[movies.duplicated(subset=["title"], keep=False)].sort_values(by="title")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB
---------------------------------NULOS---------------------
movieId    0
title      0
genres     0
dtype: int64
------------------------------DUPLICADOS---------------------


Unnamed: 0,movieId,title,genres
4169,6003,Confessions of a Dangerous Mind (2002),Comedy|Crime|Drama|Thriller
9106,144606,Confessions of a Dangerous Mind (2002),Comedy|Crime|Drama|Romance|Thriller
650,838,Emma (1996),Comedy|Drama|Romance
5601,26958,Emma (1996),Romance
5854,32600,Eros (2004),Drama
9135,147002,Eros (2004),Drama|Romance
2141,2851,Saturn 3 (1980),Adventure|Sci-Fi|Thriller
9468,168358,Saturn 3 (1980),Sci-Fi|Thriller
5931,34048,War of the Worlds (2005),Action|Adventure|Sci-Fi|Thriller
6932,64997,War of the Worlds (2005),Action|Sci-Fi


Vemos que hay 5 peliculas que contienen valores duplicados, pero estos se diferencian en los generos, procedemos a buscar en páginas web de películas para verificar los generos de cada una de ellas y proceder a eliminar los duplicados.

In [3]:
import funciones as fn

# Ejecutamos el archivo sql
fn.ejecutar_sql("preprocessing.sql", cur)
# Consultamos las tablas de la base de datos
cur.execute("select name from sqlite_master where type='table' ")
# Mostramos las tablas
cur.fetchall()

[('ratings',),
 ('movies',),
 ('movies_clean',),
 ('full_table',),
 ('data_clean',)]

La función realiza: preprocesado de duplicados y unión de los datasets y depuración de peliculas y usuarios

* full_table (tabla sin depurar) se crea para analizar las gráficas y tomar decisiones de depurar
* tabla data_clean (tabla depurada) es la tabla final depurando peliculas y usuarios

In [4]:
# Consulta movies y colocamos en un dataframe
movies = pd.read_sql_query("SELECT * FROM movies_clean", conn)
movies.info()

# Verificar si hay valores nulos
print("---------------------------------NULOS---------------------")
print(movies.isnull().sum())

# Buscar duplicados en title y ver coincidencias
print("------------------------------DUPLICADOS---------------------")
movies[movies.duplicated(subset=["title"], keep=False)].sort_values(by="title")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9737 entries, 0 to 9736
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9737 non-null   int64 
 1   title    9737 non-null   object
 2   genres   9737 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.3+ KB
---------------------------------NULOS---------------------
movieId    0
title      0
genres     0
dtype: int64
------------------------------DUPLICADOS---------------------


Unnamed: 0,movieId,title,genres


# Tabla unida sin depurar peliculas ni usuarios

In [33]:
# Consulta movies y colocamos en un dataframe
df = pd.read_sql_query("SELECT * FROM full_table", conn)
df.info()

# Verificar si hay valores nulos
print("---------------------------------NULOS---------------------")
print(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   movieId    100836 non-null  int64  
 1   title      100836 non-null  object 
 2   genres     100836 non-null  object 
 3   userId     100836 non-null  int64  
 4   rating     100836 non-null  float64
 5   timestamp  100836 non-null  int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 4.6+ MB
---------------------------------NULOS---------------------
movieId      0
title        0
genres       0
userId       0
rating       0
timestamp    0
dtype: int64


In [45]:
###calcular la distribución de calificaciones y graficar con plotly y go
import plotly.express as px

# Calcular la distribución de calificaciones
tabla = pd.read_sql_query(
    """
    SELECT rating, COUNT(*) AS conteo
    FROM full_table
    GROUP BY rating
    ORDER BY rating
    """,
    conn,
)

# Graficar con plotly
data  = go.Bar( x=tabla.rating,y=tabla.conteo, text=tabla.conteo, textposition="outside")
Layout=go.Layout(title="<b>Distribución de calificaciones",xaxis={'title':'Rating'},yaxis={'title':'Conteo'}, title_x = 0.5)
go.Figure(data,Layout)

Vemos que el dataset no tiene calificaciones en 0, no hay que eliminar ninguna película por falta de calificaciones.

In [11]:
### calcular cada usuario cuátos peliculas calificó
rating_users = pd.read_sql(
    """ select "userId" as userId,
                         count(*) as cnt_rat
                         from full_table
                         group by "userId"
                         order by cnt_rat asc
                         """,
    conn,
)

fig = px.histogram(
    rating_users,
    x="cnt_rat",
    title="Hist frecuencia de numero de calificaciones por usario",
)
fig.show()


rating_users.describe()

Unnamed: 0,userId,cnt_rat
count,610.0,610.0
mean,305.5,165.304918
std,176.236111,269.480584
min,1.0,20.0
25%,153.25,35.0
50%,305.5,70.5
75%,457.75,168.0
max,610.0,2698.0


In [12]:
#### filtrar usuarios con más de 25 películas calificados (para tener calificación confiable)
rating_users2 = pd.read_sql(
    """ select "userId" as userId,
                         count(*) as cnt_rat
                         from full_table
                         group by "userId"
                         having cnt_rat >=25
                         order by cnt_rat asc
                         """,
    conn,
)


### gráfica distribución después de filtrar datos
fig = px.histogram(
    rating_users2,
    x="cnt_rat",
    title="Hist frecuencia de numero de calificaciones por usuario",
)
fig.show()


### ver distribución después de filtros
rating_users2.describe()

Unnamed: 0,userId,cnt_rat
count,547.0,547.0
mean,303.956124,181.839122
std,176.291378,279.905223
min,1.0,25.0
25%,151.5,43.5
50%,306.0,86.0
75%,455.5,190.5
max,610.0,2698.0


* Se filtran los usuarios que han calificado más de 25 películas, ya que menos de ahí se considera que no es un usuario con experiencia en el cine.

* Se decide dejar los usuarios que han visto 2698 películas aunque son pocos, son datos lógicos, ya que se considera que es un número razonable de películas y puede ser un usuario con muchos años de experiencia en el cine. (Suponiendo 2698 peliculas cada una de 2 horas, viendo 3 a la semana = 2698*2(dur.pelicula)/3(semanas) = 1798 semanas = 1798/52 (semanas en un año) = 34.5 años)

In [13]:
#### verificar cuantas calificaciones tiene cada pelicula
rating_movies = pd.read_sql(
    """ select movieId as movieId ,
                         count(*) as cnt_rat
                         from full_table
                         group by "movieId"
                         order by cnt_rat desc
                         """,
    conn,
)

fig = px.histogram(
    rating_movies,
    x="cnt_rat",
    title="Hist frecuencia de numero de calificaciones para cada pelicula",
)
fig.show()

### analizar distribucion de calificaciones por libro
rating_movies.describe()

Unnamed: 0,movieId,cnt_rat
count,9719.0,9719.0
mean,42221.740714,10.375141
std,52177.716338,22.40622
min,1.0,1.0
25%,3243.5,1.0
50%,7294.0,3.0
75%,76519.5,9.0
max,193609.0,329.0


Vemos que sin el filtro hay 9719 peliculas que han sido calificadas, pero tener en cuenta que una pelicula es recomendada por pocas calificaciones, no es un buen criterio

In [14]:
####Filtrar películas que no tengan más de 30 calificaciones
rating_movies2 = pd.read_sql(
    """ select movieId ,
                         count(*) as cnt_rat
                         from full_table
                         group by "movieId"
                         having cnt_rat>=30
                         order by cnt_rat desc
                         """,
    conn,
)

fig = px.histogram(
    rating_movies2,
    x="cnt_rat",
    title="Hist frecuencia de numero de calificaciones para cada pelicula",
)
fig.show()

rating_movies2.describe()

Unnamed: 0,movieId,cnt_rat
count,882.0,882.0
mean,14538.518141,65.783447
std,27857.290961,42.543129
min,1.0,30.0
25%,1093.25,39.0
50%,2556.5,50.0
75%,6376.0,77.0
max,152081.0,329.0


Vemos que hay 882 peliculas que han sido calificadas mas de 30 veces

# Tabla final depurada

In [41]:
# Ver tabla data_clean
data_clean = pd.read_sql_query("SELECT * FROM data_clean", conn)
data_clean.info()
data_clean.sample(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56219 entries, 0 to 56218
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   movieId    56219 non-null  int64  
 1   title      56219 non-null  object 
 2   genres     56219 non-null  object 
 3   userId     56219 non-null  int64  
 4   rating     56219 non-null  float64
 5   timestamp  56219 non-null  int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 2.6+ MB


Unnamed: 0,movieId,title,genres,userId,rating,timestamp
19791,1213,Goodfellas (1990),Crime|Drama,339,4.5,1460182421
37200,3578,Gladiator (2000),Action|Adventure|Drama,307,3.5,1186161400
44412,6157,Daredevil (2003),Action|Crime,219,1.5,1195349012
30450,2355,"Bug's Life, A (1998)",Adventure|Animation|Children|Comedy,384,4.0,996440857
55582,109487,Interstellar (2014),Sci-Fi|IMAX,560,3.0,1469652912
11740,586,Home Alone (1990),Children|Comedy,177,3.0,1435533702
11018,527,Schindler's List (1993),Drama|War,421,5.0,1311494599
38449,3916,Remember the Titans (2000),Drama,357,3.5,1348626997
29326,2167,Blade (1998),Action|Horror|Thriller,272,3.5,1533566237
18550,1196,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Sci-Fi,567,2.0,1525288379
