# Taller 2  Gestión de Datos - Pontificia Universidad Javeriana

Integrantes:
 - Laura Carolina Tinjacá Cristancho 
 - Andrés Leonardo Medina Quijano

# Instalación e importación de librerías

In [None]:
!pip install --upgrade google-cloud-bigquery

In [None]:
!pip install pandas-gbq

In [None]:
!pip install db-dtypes

In [None]:
# Importamos las librerías a utilizar
import pymongo

import pandas as pd
import matplotlib.pyplot as plt

from google.cloud import bigquery
from google.oauth2 import service_account

# Manejo de datos

## Llamado a la fuente de datos

In [None]:
# Llamamos la BD y la colección movies de Mongo
DB_NAME = "sample_mflix"
COLLECTION = "movies"

In [None]:
# Realizamos la conexión a Mongo
client = pymongo.MongoClient("mongodb+srv://lctc:palestina@cluster0.689j9e0.mongodb.net/?retryWrites=true&w=majority", server_api = pymongo.server_api.ServerApi('1'))

In [None]:
# Asignamos la BD a una variable
db = client[DB_NAME]

In [None]:
# Asignamos la colección a una variable
col = db[COLLECTION]

### Definición de dataframes

### Películas

In [None]:
# Definimos las columnas que hacen parte de la tabla movies
movie = col.find({}, {"_id": 1, "title": 1, "year": 1, "awards.wins": 1, "awards.nominations": 1, "runtime": 1})

In [None]:
# Renombramos las columnas del dataframe creado
df_movies = pd.json_normalize(movie).rename(columns = {"_id":"id_movie","awards.wins": "wins", "awards.nominations": "nominations"})

In [None]:
# Verificamos los registros y columnas de la tabla movies
df_movies.shape

In [None]:
# Limpiando años con valores extraños
df_movies['year'] =  df_movies['year'].apply(lambda x: str(x).replace("è1998", ""))
df_movies['year'] =  df_movies['year'].apply(lambda x: str(x).replace("è2012", ""))
df_movies['year'] =  df_movies['year'].apply(lambda x: str(x).replace("è2007", ""))
df_movies['year'] =  df_movies['year'].apply(lambda x: str(x).replace("è", ""))

In [None]:
# Convertir columnas al tipo de dato requerido
df_movies['id_movie'] = df_movies['id_movie'].astype('str')
df_movies['year'] = df_movies['year'].astype('int')

In [None]:
# Previsualización de los datos de la tabla movies
df_movies.head()

### Géneros de películas

In [None]:
# Definimos las columnas que hacen parte de la tabla genres
genre = col.find({}, {"_id": 1, "genres": 1})

In [None]:
# Asignamos los datos como dataframe
df_genres = pd.json_normalize(genre).rename(columns = {"_id" : "id_movie"})

In [None]:
# Verificamos los registros y columnas de la tabla genres
df_genres.shape

In [None]:
# Previsualización de los datos de la tabla generos
df_genres.head()

In [None]:
# Eliminar las películas que no tengan ningún género asociado
df_genres.dropna(inplace=True)

In [None]:
# Creación de un nuevo Dataframe para almacenar los generos procesados
df_genres_final = pd.DataFrame(columns = ['id_movie', 'genre'])

In [None]:
# Función para recorrer cada valor de la columna de géneros y guardarlos como una fila nueva en otro Dataframe
def array_to_row(row):
    genres=row['genres']
    for x in genres:
        df_genres_final.loc[len(df_genres_final.index)] = [row['id_movie'], x]

In [None]:
# Llamado a la función para procesar los géneros
df_genres.apply(array_to_row,axis=1)

In [None]:
# Previsualización de los datos de la tabla generos definitiva
df_genres_final.head(10)

In [None]:
# Convertir columnas al tipo de dato requerido
df_genres_final['id_movie'] = df_genres_final['id_movie'].astype('str')

### Países de películas

In [None]:
# Definimos las columnas que hacen parte de la tabla countries
countries = col.find({}, {"_id": 1, "countries": 1})

In [None]:
# Asignamos los datos como dataframe
df_countries = pd.json_normalize(countries).rename(columns = {"_id" : "id_movie"})

In [None]:
# Verificamos los registros y columnas de la tabla countries
df_countries.shape

In [None]:
# Previsualización de los datos de la tabla países
df_countries.head(10)

In [None]:
# Eliminar las películas que no tengan ningún país asociado
df_countries.dropna(inplace=True)

In [None]:
# Creación de un nuevo Dataframe para almacenar los generos procesados
df_countries_final = pd.DataFrame(columns = ['id_movie', 'country'])

In [None]:
# Función para recorrer cada valor de la columna de géneros y guardarlos como una fila nueva en otro Dataframe
def array_to_row_countries(row):
    countries=row['countries']
    for x in countries:
        df_countries_final.loc[len(df_countries_final.index)] = [row['id_movie'], x]

In [None]:
# Llamado a la función para procesar los géneros
df_countries.apply(array_to_row_countries,axis=1)

In [None]:
# Previsualización de los datos de la tabla países definitiva
df_countries_final.head(10)

In [None]:
# Convertir columnas al tipo de dato requerido
df_countries_final['id_movie'] = df_countries_final['id_movie'].astype('str')

### Calificaciones de la crítica

In [None]:
# Definimos las columnas que hacen parte de la tabla rating
rating = col.find({}, {"_id": 1, "imdb.rating": 1, "tomatoes.viewer.rating": 1})

In [None]:
# Asignamos los datos como dataframe
df_rating = pd.json_normalize(rating).rename(columns = {"_id" : "id_movie", "imdb.rating" : "imdb_rating", "tomatoes.viewer.rating" : "tomatoes_rating"})

In [None]:
# Verificamos los registros y columnas de la tabla countries
df_rating.shape

In [None]:
df_rating.head(5)

In [None]:
# Rellenar los valores no definidos con cero
df_rating.dropna(inplace=True)

In [None]:
df_rating.head(10)

In [None]:
# Convertir columnas al tipo de dato requerido
df_rating['id_movie'] = df_rating['id_movie'].astype('str')

In [None]:
# Reemplazar valores nulos
import numpy as np 
df_rating=df_rating.replace('',np.nan)
df_rating.dropna(inplace=True)
df_rating['imdb_rating'].unique()
df_rating['tomatoes_rating'].unique()

# Bigquery

## Conexión

In [None]:
# Definir las credenciales de conexión a BigQuery
credentials = service_account.Credentials.from_service_account_file("./javeriana-dataprep.json", scopes = ["https://www.googleapis.com/auth/cloud-platform"])

In [None]:
# Definir la conexión con Bigquery
client = bigquery.Client(credentials = credentials, project = credentials.project_id)

## Esquemas

### Películas

In [None]:
# Crear el esquema
job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("id_movie", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("title", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("year", bigquery.enums.SqlTypeNames.INT64),
        bigquery.SchemaField("nominations", bigquery.enums.SqlTypeNames.INT64),
        bigquery.SchemaField("wins", bigquery.enums.SqlTypeNames.INT64)
    ],
    # Drod and re-create table, if exist
    write_disposition = "WRITE_TRUNCATE",
)

In [None]:
# Nombre de la tabla
BQ_TABLE_NAME = "dataprep.gd_movies"

In [None]:
# Enviar el job para crear el esquema a BigQuery
job = client.load_table_from_dataframe(
    df_movies, BQ_TABLE_NAME, job_config = job_config
)

job.result()

In [None]:
# Verificar la creación de la tabla
table = client.get_table(BQ_TABLE_NAME)

print("Loaded {} rows and {} columns to {}".format(table.num_rows, len(table.schema), BQ_TABLE_NAME))

In [None]:
# consulta los datos de la tabla para verificar
query = """SELECT * FROM `javeriana-dataprep.dataprep.gd_movies` limit 10 """

pd.read_gbq(query, credentials = credentials)

### Géneros

In [None]:
# Crear el esquema
job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("id_movie", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("genre", bigquery.enums.SqlTypeNames.STRING)
    ],
    # Drod and re-create table, if exist
    write_disposition = "WRITE_TRUNCATE",
)

In [None]:
# Nombre de la tabla
BQ_TABLE_NAME = "dataprep.gd_genres"

In [None]:
# Enviar el job para crear el esquema a BigQuery
job = client.load_table_from_dataframe(
    df_genres_final, BQ_TABLE_NAME, job_config = job_config
)

job.result()

In [None]:
# Verificar la creación de la tabla
table = client.get_table(BQ_TABLE_NAME)

print("Loaded {} rows and {} columns to {}".format(table.num_rows, len(table.schema), BQ_TABLE_NAME))

In [None]:
# consulta los datos de la tabla para verificar
query = """SELECT * FROM `javeriana-dataprep.dataprep.gd_genres` limit 10 """

pd.read_gbq(query, credentials = credentials)

### Países

In [None]:
# Crear el esquema
job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("id_movie", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("country", bigquery.enums.SqlTypeNames.STRING)
    ],
    # Drod and re-create table, if exist
    write_disposition = "WRITE_TRUNCATE",
)

In [None]:
# Nombre de la tabla
BQ_TABLE_NAME = "dataprep.gd_countries"

In [None]:
# Enviar el job para crear el esquema a BigQuery
job = client.load_table_from_dataframe(
    df_countries_final, BQ_TABLE_NAME, job_config = job_config
)

job.result()

In [None]:
# Verificar la creación de la tabla
table = client.get_table(BQ_TABLE_NAME)

print("Loaded {} rows and {} columns to {}".format(table.num_rows, len(table.schema), BQ_TABLE_NAME))

In [None]:
# consulta los datos de la tabla para verificar
query = """SELECT * FROM `javeriana-dataprep.dataprep.gd_countries` limit 10 """

pd.read_gbq(query, credentials = credentials)

### Ratings

In [None]:
# Crear el esquema
job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("id_movie", bigquery.enums.SqlTypeNames.STRING),
        bigquery.SchemaField("imdb_rating", bigquery.enums.SqlTypeNames.FLOAT64),
        bigquery.SchemaField("tomatoes_rating", bigquery.enums.SqlTypeNames.FLOAT64)
    ],
    # Drod and re-create table, if exist
    write_disposition = "WRITE_TRUNCATE",
)

In [None]:
df_rating['imdb_rating'].unique()

In [None]:
df_rating['tomatoes_rating'].unique()

In [None]:
# Nombre de la tabla
BQ_TABLE_NAME = "dataprep.gd_ratings"

In [None]:
# Enviar el job para crear el esquema a BigQuery
job = client.load_table_from_dataframe(
    df_rating, BQ_TABLE_NAME, job_config = job_config
)

job.result()

In [None]:
# Verificar la creación de la tabla
table = client.get_table(BQ_TABLE_NAME)

print("Loaded {} rows and {} columns to {}".format(table.num_rows, len(table.schema), BQ_TABLE_NAME))

In [None]:
# consulta los datos de la tabla para verificar
query = """SELECT * FROM `javeriana-dataprep.dataprep.gd_ratings` limit 10 """

pd.read_gbq(query, credentials = credentials)

## Extracción de datos para resultados

### ¿Cuáles son las 5 mejores y las 5 peores películas para la crítica?

In [None]:
# Consulta para traer las 5 mejores películas
query = """SELECT M.title, (R.imdb_rating+R.tomatoes_rating)/2 AS rating 
FROM `javeriana-dataprep.dataprep.gd_movies` M
INNER JOIN `javeriana-dataprep.dataprep.gd_ratings` R ON M.id_movie = R.id_movie 
ORDER BY 2 DESC LIMIT 5"""

df_best = pd.read_gbq(query, credentials = credentials)

In [None]:
df_best

In [None]:
# Consulta para traer las 5 peores películas
query = """SELECT M.title, (R.imdb_rating+R.tomatoes_rating)/2 AS rating 
FROM `javeriana-dataprep.dataprep.gd_movies` M
INNER JOIN `javeriana-dataprep.dataprep.gd_ratings` R ON M.id_movie = R.id_movie 
ORDER BY 2 ASC LIMIT 5"""

df_worst = pd.read_gbq(query, credentials = credentials)

In [None]:
df_worst

### ¿Cuál es el promedio de duración de las películas por cada género?

In [None]:
# Consultar el tiempo promedio de cada película por género
query = """SELECT G.genre, AVG(M.runtime) 
FROM `javeriana-dataprep.dataprep.gd_genres` G 
INNER JOIN `javeriana-dataprep.dataprep.gd_movies` M ON G.id_movie = M.id_movie 
GROUP BY G.genre
ORDER BY 2 desc"""

df_avg_genre = pd.read_gbq(query, credentials = credentials)

In [None]:
df_avg_genre

### ¿Cuántas películas se hacen cada año en cada país? ¿Es equitativa la distribución?

In [None]:
# Consultar la cantidad de películas por país por año
query = """SELECT M.year, C.country, COUNT(M.title) AS  Total 
FROM `javeriana-dataprep.dataprep.gd_movies` M 
INNER JOIN `javeriana-dataprep.dataprep.gd_countries` C 
ON C.id_movie = M.id_movie
GROUP BY M.year, C.country 
ORDER BY 3 DESC"""

df_movies_country = pd.read_gbq(query, credentials = credentials)

In [None]:
df_movies_country

### ¿Cualés son las películas más nominadas y más ganadores de premios en la historia?

In [None]:
# Consultar las películas más nominadas y más ganadoras de premios
query = """SELECT M.title, SUM(M.wins) Ganadora, SUM(M.nominations) Nominada
FROM `javeriana-dataprep.dataprep.gd_movies` M 
GROUP BY M.title
ORDER BY 2 DESC,3 DESC
LIMIT 20"""

df_win_nomination = pd.read_gbq(query, credentials = credentials)

In [None]:
df_win_nomination

# Resultados

## ¿Cuáles son las 5 mejores y las 5 peores películas para la crítica?

In [190]:
df_best

In [191]:
df_worst

## ¿Cuál es el promedio de duración de las películas por cada género?

In [192]:
df_avg_genre

## ¿Cuántas películas se hacen cada año en cada país? ¿Es equitativa la distribución?

In [193]:
df_movies_country

## ¿Cualés son las películas más nominadas y más ganadores de premios en la historia?

In [194]:
df_win_nomination