**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC5053 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Israel Parra Rangel
*   MATRÍCULA: A01797735

---

En esta actividad usarás una base de datos relacional basada en el informe de participación y la lista del top 10 de Netflix. Incluye películas y programas de televisión, así como información sobre temporadas, métricas de visualización, fechas de estreno, duración y más, organizada en las siguientes tablas:

* `movie`: Información general de las películas.

* `tv_show`: Información general de los programas de televisión.

* `season`: Datos de las temporadas asociadas a cada programa de TV.

* `view_summary`: Métricas de visualización y rendimiento de películas o temporadas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.

**NOTA IMPORTANTE:** Asegúrate de responder *explícitamente* todos los cuestionamientos.


`PyMySQL` es una librería escrita en Python puro que funciona como conector (*driver*) para motores de bases de datos MySQL, permitiendo abrir conexiones, ejecutar consultas SQL y recuperar resultados directamente desde programas en Python.

In [None]:
conda install -n base ipykernel --update-deps --force-reinstall

: 

`SQLAlchemy` es una librería de Python que facilita la interacción con bases de datos y permite mantener un pool de conexiones eficiente, gestionar *commits* y *rollbacks* de forma automática y asegurar que múltiples conexiones simultáneas se manejen de manera segura, incluso cuando se ejecutan consultas SQL “puras”

In [4]:
# Importa las librerías necesarias
import pymysql
import sqlalchemy as sqla
import pandas as pd
from sqlalchemy import create_engine

Se crea una conexión (`conn`) para luego invocar declaraciones SQL.

In [5]:
# motor+driver://usuarioBD:clave@ipHostDBMS:puerto/esquema
# pool_recycle controla el tiempo máximo de vida de una conexión en el pool (3600 segundos = 1 hora)
DB_USER = 'mysql'           
DB_PASSWORD = 'mysql'   
DB_HOST = '127.0.0.1'               
DB_PORT = '3306'             
DB_NAME = 'netflixdb'       
DB_DRIVER = 'pymysql'
connection_string = f"mysql+{DB_DRIVER}://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
engine = create_engine(connection_string)

Para que tus consultas sean más legibles y fáciles de mantener, puedes usar este formato multilínea con comillas triples y `sqla.text()`. Por ejemplo:

```
query = sqla.text("""
  SELECT ---
  FROM ---
  WHERE ---
""")
pd.read_sql(query, conn)
```

1.	Extrae la información de las películas que duran más de 5 horas.

In [None]:
query = sqla.text("""
  SELECT title
  FROM movie
  WHERE runtime > 300
""")
df=pd.read_sql(query, engine)
print (df)

"""Las peliculas son: Free and Easy Series, Kingdom ~ The Man Who Became the Top,Navarasa,Nihontouitsu Series,Seiji Oda"""

                                               title
0                  Free and Easy Series: Film Series
1  Kingdom ~ The Man Who Became the Top ~: Film S...
2                           Navarasa: Limited Series
3                   Nihontouitsu Series: Film Series
4                             Seiji Oda: Film Series


'Free and Easy Series, Kingdom ~ The Man Who Became the Top,Navarasa,Nihontouitsu Series,Seiji Oda'

2.	¿Cuál es el porcentaje de películas disponibles únicamente en EU en relación con el total, excluyendo los valores `NULL`?

In [None]:
query = sqla.text("""
  SELECT available_globally,
      count(*) AS cantidad
  FROM movie
  GROUP BY available_globally
""")
df=pd.read_sql(query, engine)
print (df)

"""1826/9289=11115 ---- 16.4% está disponible unicamente en US"""

  available_globally  cantidad
0            b'\x01'      1826
1            b'\x00'      9289
2               None       681


3.	¿Cuáles son los idiomas o regiones originales en la tabla de películas?
* ¿Cuántas películas tienen el campo `locale` con valor `NULL`?

In [16]:
query1="""SELECT distinct(locale)
from movie"""

query2="""SELECT
    COUNT(*)
FROM movie
WHERE locale is NULL"""

df1=pd.read_sql(query1,engine)
df2=pd.read_sql(query2,engine)

print (df1)

print("-------------------------------")

print (df2)

"""el idioma es inglés / 11260 tienen el valor NULL"""


  locale
0   None
1     en
-------------------------------
   COUNT(*)
0     11260


4.	Asumiendo que los valores `NULL` en `locale` corresponden a otro idioma (diferente del inglés), el título original de la película NO debería coincidir con el título principal en dichos registros.
* Determina cuántas películas tienen títulos diferentes en estos dos campos (`title` y `original_title`).
*  ¿Coinciden los resultados (cantidad de `NULL` y títulos diferentes)? Si no es así, identifica qué características tienen los registros restantes.
* Finalmente, concluye si la suposición de que los valores `NULL` en `locale` indican que la película está en otro idioma es válida.

In [18]:
query1="""SELECT
    COUNT(*)
from movie
WHERE 
title <> original_title"""

df=pd.read_sql(query1,engine)
print (df)

   COUNT(*)
0      3947


5.	Determina el título de la película que ha permanecido más tiempo en el top 10.

In [34]:
query="""SELECT
    m.title, vs.cumulative_weeks_in_top10
FROM
    movie AS m
INNER JOIN
    view_summary AS vs ON m.id = vs.movie_id
WHERE
    vs.cumulative_weeks_in_top10 = 32
LIMIT 3;"""

df=pd.read_sql(query,engine)
print (df)


Empty DataFrame
Columns: [title, cumulative_weeks_in_top10]
Index: []


6.	Identifica los 10 programas de TV con mayor cantidad de temporadas.

In [None]:
query="""SELECT 
    tv_show.title
FROM season
INNER JOIN tv_show ON tv_show.id = season.tv_show_id
ORDER BY 
    season.season_number DESC
LIMIT 10"""

df=pd.read_sql(query,engine)
print (df)

"""Respuesta: How do you like Wednesday?
1                         How do you like Wednesday?
2        Gen Hoshino Concert Recollections 2015-2023
3                         How do you like Wednesday?
4                                          ONE PIECE
5  How do you like Wednesday?: Entry into the Arc...
6                                          ONE PIECE
7                         How do you like Wednesday?
8       How do you like Wednesday?: Mission complete
9                         How do you like Wednesday?"""

                                               title
0                         How do you like Wednesday?
1                         How do you like Wednesday?
2        Gen Hoshino Concert Recollections 2015-2023
3                         How do you like Wednesday?
4                                          ONE PIECE
5  How do you like Wednesday?: Entry into the Arc...
6                                          ONE PIECE
7                         How do you like Wednesday?
8       How do you like Wednesday?: Mission complete
9                         How do you like Wednesday?


'How do you like Wednesday?\n1                         How do you like Wednesday?\n2        Gen Hoshino Concert Recollections 2015-2023\n3                         How do you like Wednesday?\n4                                          ONE PIECE\n5  How do you like Wednesday?: Entry into the Arc...\n6                                          ONE PIECE\n7                         How do you like Wednesday?\n8       How do you like Wednesday?: Mission complete\n9                         How do you like Wednesday?'

7.	¿Cuáles son los intervalos de fechas de los resúmenes en la tabla `view_summary` de los períodos (`duration`) semestrales?

In [None]:
query="""SELECT
    content_id,
    MIN(start_date),
    MAX(end_date)
FROM view_summary
GROUP BY content_id;"""

df=pd.read_sql(query,engine)
print (df)





ValueError: unsupported format character 'm' (0x6d) at index 87

8.	Ordena las temporadas de *Grey's Anatomy* según la cantidad de vistas registradas en el primer período semestral de 2024.
* ¿Cómo interpretarías los resultados obtenidos?

In [45]:
query="""SELECT season.season_number
FROM view_summary
inner join season on season.id=view_summary.season_id
inner join tv_show on tv_show.id=season.tv_show_id
WHERE tv_show.title="Grey's Anatomy" AND duration=

_IncompleteInputError: incomplete input (2834488817.py, line 1)

9.	Todas las consultas anteriores podrían hacerse también con la lógica relacional implementada en Pandas, que permite replicar la mayoría de las operaciones de SQL. Si los dataframes se han llenado como sigue, resuelve la consulta 8 utilizando las funciones de Pandas.

In [None]:
tv_show = pd.read_sql(sqla.text('SELECT * FROM tv_show'), conn)
season = pd.read_sql(sqla.text('SELECT * FROM season'), conn)
view_summary = pd.read_sql(sqla.text('SELECT * FROM view_summary'), conn)

`MySQL` es un sistema de gestión de bases de datos relacional, pero desde Python también es posible extraer información de bases de datos no relacionales, como `Firestore`, `MongoDB` o `Cassandra`, utilizando conectores o integraciones específicas. Esto permite combinar datos de diferentes fuentes según las necesidades del análisis o la aplicación.

En el siguiente ejercicio usarás un ejemplo con `Firestore` desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [46]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

ModuleNotFoundError: No module named 'firebase_admin'

En `Firestore`, a diferencia de `MySQL` donde se utiliza un usuario y contraseña para conectarse, la autenticación se realiza mediante un archivo JSON que almacena las credenciales necesarias para acceder a la base de datos. Este archivo contiene las claves y la información de configuración que permiten a Python establecer la conexión de manera segura.

In [47]:
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google'

In [None]:
# Debes descargar el archivo de credenciales "consultancy.json" (disponible en las instrucciones de Canvas) y ubicarte en la carpeta donde lo almacenaste
import os
DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC5053 - Ciencia y analítica de datos/Actividad3_BD_Manipulacion"
os.chdir(DIR)

In [48]:
# consultancy.json almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios
# A través de la función Certificate(), se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación
cred = credentials.Certificate('consultancy.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

NameError: name 'credentials' is not defined

10.	Investiga cómo leer la colección `EMPLOYEE` y mostrar su contenido en un dataframe. Asegúrate de incluir el `id` en el resultado

In [None]:
firebase_admin.delete_app(firebase_admin.get_app())