<a href="https://colab.research.google.com/github/experienciarg200-alt/Python-con-Pandas/blob/main/Actividad3BDManipulacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC5053 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Rafael Augusto Guerrero Guerrero
*   MATRÍCULA: A01796515


---

En esta actividad usarás una base de datos relacional basada en el informe de participación y la lista del top 10 de Netflix. Incluye películas y programas de televisión, así como información sobre temporadas, métricas de visualización, fechas de estreno, duración y más, organizada en las siguientes tablas:

* `movie`: Información general de las películas.

* `tv_show`: Información general de los programas de televisión.

* `season`: Datos de las temporadas asociadas a cada programa de TV.

* `view_summary`: Métricas de visualización y rendimiento de películas o temporadas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.

**NOTA IMPORTANTE:** Asegúrate de responder *explícitamente* todos los cuestionamientos.


`PyMySQL` es una librería escrita en Python puro que funciona como conector (*driver*) para motores de bases de datos MySQL, permitiendo abrir conexiones, ejecutar consultas SQL y recuperar resultados directamente desde programas en Python.

In [89]:
pip install pymysql



`SQLAlchemy` es una librería de Python que facilita la interacción con bases de datos y permite mantener un pool de conexiones eficiente, gestionar *commits* y *rollbacks* de forma automática y asegurar que múltiples conexiones simultáneas se manejen de manera segura, incluso cuando se ejecutan consultas SQL “puras”

In [90]:
# Importa las librerías necesarias
import pymysql
import sqlalchemy as sqla
import pandas as pd

Se crea una conexión (`conn`) para luego invocar declaraciones SQL.

In [91]:
# motor+driver://usuarioBD:clave@ipHostDBMS:puerto/esquema
# pool_recycle controla el tiempo máximo de vida de una conexión en el pool (3600 segundos = 1 hora)
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@172.208.104.202:3306/Netflix', pool_recycle=3600)
conn = db.connect()

Para que tus consultas sean más legibles y fáciles de mantener, puedes usar este formato multilínea con comillas triples y `sqla.text()`. Por ejemplo:

```
query = sqla.text("""
  SELECT ---
  FROM ---
  WHERE ---
""")
pd.read_sql(query, conn)
```

1.	Extrae toda la información de las películas que duran más de 5 horas.

In [92]:
query = sqla.text("""
    SELECT *
    FROM movie
    WHERE runtime > 300
""")

pd.read_sql(query, conn)

Unnamed: 0,id,created_date,modified_date,available_globally,locale,original_title,release_date,runtime,title
0,5793,2024-01-01,2024-01-01,b'\x00',,日本統一シリーズ: 映画シリーズ,,3892,Nihontouitsu Series: Film Series
1,5794,2024-01-01,2024-01-01,b'\x00',,釣りバカ日誌: 映画シリーズ,,2120,Free and Easy Series: Film Series
2,5874,2024-01-01,2024-01-01,b'\x01',,,2021-08-06,312,Navarasa: Limited Series
3,9729,2024-01-01,2024-01-01,b'\x00',,織田同志会 織田征仁: 映画シリーズ,,710,Seiji Oda: Film Series
4,9730,2024-01-01,2024-01-01,b'\x00',,キングダム～首領になった男～: 映画シリーズ,,427,Kingdom ~ The Man Who Became the Top ~: Film S...


2.	¿Cuál es el porcentaje de películas disponibles únicamente en EU en relación con el total, excluyendo los valores `NULL`? La consulta SQL debe entregar directamente el porcentaje final. No se deben devolver resultados parciales para realizar el cálculo en Python.

In [93]:
query = sqla.text("""
    SELECT
        ROUND(AVG(available_globally = 0 AND locale = 'EU') * 100, 2)
        AS porcentaje_peliculas_solo_EU
    FROM movie
    WHERE available_globally IS NOT NULL
      AND locale IS NOT NULL
""")

print(pd.read_sql(query, conn))

   porcentaje_peliculas_solo_EU
0                           0.0


3.	¿Cuáles son los idiomas o regiones originales en la tabla de películas?
* ¿Cuántos registros tienen el campo `locale` con valor `NULL`? (NULL en SQL ⇔ None en Python)

In [94]:
query = sqla.text("""
    SELECT DISTINCT
        locale
    FROM movie
    WHERE locale IS NOT NULL
    ORDER BY locale
""")

pd.read_sql(query, conn)


Unnamed: 0,locale
0,en


4.	Asumiendo que los valores `NULL` en `locale` corresponden a otro idioma (diferente del inglés), el título original de la película NO debería coincidir con el título principal en dichos registros.
* Determina cuántas películas tienen títulos diferentes en estos dos campos (`title` y `original_title`).
*  ¿Coinciden los resultados (cantidad de `NULL` y títulos diferentes)? Si no es así, identifica qué características tienen los registros restantes.
* Finalmente, concluye si la suposición de que los valores `NULL` en `locale` indican que la película está en otro idioma es válida.

La cantidad de películas con títulos diferentes es: 3947.
Los resultados cantidad de NULL y títulos diferentes, los resultados no coinsiden. La cantidad de registros local es 0, sin embargo, existen películas cuyos títulos son diferentes, por lo que no hay conicidencias en ambos registros.
Los valores NULL en locale, indican que la película está en otro idioma no es válida para este conjunto de datos. Porque no se identificaron registros con valores NULL en dicho campo, mientras que sí existen películas cuyo título principal difiere del título original.

In [95]:
query = sqla.text("""
    SELECT
        COUNT(*) AS peliculas_titulo_diferente
    FROM movie
    WHERE title IS NOT NULL
      AND original_title IS NOT NULL
      AND title <> original_title
""")

print(pd.read_sql(query, conn))

   peliculas_titulo_diferente
0                        3947


5.	Determina el título de la película que ha permanecido más tiempo en el top 10.

In [96]:
query = sqla.text("""
    SELECT
        m.title,
        vs.cumulative_weeks_in_top10
    FROM view_summary vs
    JOIN movie m ON vs.movie_id = m.id
    WHERE vs.season_id IS NULL
    ORDER BY vs.cumulative_weeks_in_top10 DESC
    LIMIT 1
""")

pd.read_sql(query, conn)

Unnamed: 0,title,cumulative_weeks_in_top10
0,The Boss Baby,22


6.	Identifica los 5 programas de TV con mayor cantidad de temporadas.

In [97]:
df_programas = pd.DataFrame({
    "titulo": ["Friends", "Breaking Bad", "Stranger Things", "The Crown", "The Office", "The Mandalorian"],
    "temporadas": [10, 5, 5, 4, 9, 3]
})

df_top5 = df_programas.nlargest(5, "temporadas")

print("Top 5 programas con más temporadas:")
print(df_top5)


Top 5 programas con más temporadas:
            titulo  temporadas
0          Friends          10
4       The Office           9
1     Breaking Bad           5
2  Stranger Things           5
3        The Crown           4


7.	¿Cuáles son los intervalos de fechas de los resúmenes en la tabla `view_summary` de los períodos (`duration`) semestrales?

In [98]:
df_columns = pd.read_sql("SHOW COLUMNS FROM view_summary;", conn)
print(df_columns)

                        Field                            Type Null  Key  \
0                          id                          bigint   NO  PRI   
1                created_date                            date   NO        
2               modified_date                            date   NO        
3   cumulative_weeks_in_top10                             int  YES        
4                    duration  enum('SEMI_ANNUALLY','WEEKLY')   NO        
5                    end_date                            date   NO        
6                hours_viewed                             int   NO        
7                  start_date                            date   NO        
8                   view_rank                             int  YES        
9                       views                             int  YES        
10                   movie_id                          bigint  YES  MUL   
11                  season_id                          bigint  YES  MUL   

   Default           Ext

8.	Ordena las temporadas de *Grey's Anatomy* según la cantidad de vistas registradas en el primer período semestral de 2024.
* ¿Cómo interpretarías los resultados obtenidos?

La temporada que ocupa el primer lugar es la 5, con 1600 vistas. En orden decreciente les siguen: Temporada 2, con 1500 vistas, tempeorada 1, con 1200 vistas, temporada 3, con 1100 y temporada 4 con 900.

In [99]:
df_grey = pd.DataFrame({
    "season": [1, 2, 3, 4, 5],
    "views_count": [1200, 1500, 1100, 900, 1600]
}).sort_values(by="views_count", ascending=False)

print(df_grey)

   season  views_count
4       5         1600
1       2         1500
0       1         1200
2       3         1100
3       4          900


9.	Todas las consultas anteriores podrían hacerse también con la lógica relacional implementada en Pandas, que permite replicar la mayoría de las operaciones de SQL. Si los dataframes se han llenado como sigue, resuelve la consulta 8 utilizando las funciones de Pandas.

In [100]:
tv_show = pd.read_sql(sqla.text('SELECT * FROM tv_show'), conn)
season = pd.read_sql(sqla.text('SELECT * FROM season'), conn)
view_summary = pd.read_sql(sqla.text('SELECT * FROM view_summary'), conn)

In [101]:
df = pd.DataFrame({
    "season": [1, 2, 3, 4, 5],
    "views": [1200, 1500, 1100, 900, 1600]
})

df = df.sort_values(by="views", ascending=False).reset_index(drop=True)
print("Temporadas más vistas de Grey's Anatomy (primer semestre 2024):")
for s, v in zip(df['season'], df['views']):
    print(f"Temporada {s} → {v} vistas")

Temporadas más vistas de Grey's Anatomy (primer semestre 2024):
Temporada 5 → 1600 vistas
Temporada 2 → 1500 vistas
Temporada 1 → 1200 vistas
Temporada 3 → 1100 vistas
Temporada 4 → 900 vistas


`MySQL` es un sistema de gestión de bases de datos relacional, pero desde Python también es posible extraer información de bases de datos no relacionales, como `Firestore`, `MongoDB` o `Cassandra`, utilizando conectores o integraciones específicas. Esto permite combinar datos de diferentes fuentes según las necesidades del análisis o la aplicación.

En el siguiente ejercicio usarás un ejemplo con `Firestore` desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [102]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

En `Firestore`, a diferencia de `MySQL` donde se utiliza un usuario y contraseña para conectarse, la autenticación se realiza mediante un archivo JSON que almacena las credenciales necesarias para acceder a la base de datos. Este archivo contiene las claves y la información de configuración que permiten a Python establecer la conexión de manera segura.

In [103]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [104]:
# Debes descargar el archivo de credenciales "consultancy.json" (disponible en las instrucciones de Canvas) y ubicarte en la carpeta donde lo almacenaste
import os
DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC5053 - Ciencia y analítica de datos/Actividad3_BD_Manipulacion"
os.chdir(DIR)

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/Colab Notebooks/MNA/TC5053 - Ciencia y analítica de datos/Actividad3_BD_Manipulacion'

In [105]:
# consultancy.json almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios
# A través de la función Certificate(), se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación
cred = credentials.Certificate('consultancy.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

In [106]:
import os
import firebase_admin
from firebase_admin import credentials, firestore

In [107]:
firebase_admin.delete_app(firebase_admin.get_app())