**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC5053 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Marco Antonio Muñoz Chávez
*   MATRÍCULA: A01686968


---

En esta actividad usarás una base de datos relacional basada en el informe de participación y la lista del top 10 de Netflix. Incluye películas y programas de televisión, así como información sobre temporadas, métricas de visualización, fechas de estreno, duración y más, organizada en las siguientes tablas:

* `movie`: Información general de las películas.

* `tv_show`: Información general de los programas de televisión.

* `season`: Datos de las temporadas asociadas a cada programa de TV.

* `view_summary`: Métricas de visualización y rendimiento de películas o temporadas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.

**NOTA IMPORTANTE:** Asegúrate de responder *explícitamente* todos los cuestionamientos.


`PyMySQL` es una librería escrita en Python puro que funciona como conector (*driver*) para motores de bases de datos MySQL, permitiendo abrir conexiones, ejecutar consultas SQL y recuperar resultados directamente desde programas en Python.

In [43]:
pip install pymysql

Note: you may need to restart the kernel to use updated packages.


`SQLAlchemy` es una librería de Python que facilita la interacción con bases de datos y permite mantener un pool de conexiones eficiente, gestionar *commits* y *rollbacks* de forma automática y asegurar que múltiples conexiones simultáneas se manejen de manera segura, incluso cuando se ejecutan consultas SQL “puras”

In [44]:
import sqlalchemy as sqla
import pandas as pd

engine = sqla.create_engine(
    'postgresql+psycopg2://postgres:123456789@localhost:5432/netflixdb'
)

conn = engine.connect()

pd.read_sql("SELECT COUNT(*) FROM movie;", conn)


Unnamed: 0,count
0,11934


Se crea una conexión (`conn`) para luego invocar declaraciones SQL.

In [45]:
pd.read_sql("SELECT COUNT(*) FROM movie;", conn)



Unnamed: 0,count
0,11934


Para que tus consultas sean más legibles y fáciles de mantener, puedes usar este formato multilínea con comillas triples y `sqla.text()`. Por ejemplo:

```
query = sqla.text("""
  SELECT ---
  FROM ---
  WHERE ---
""")
pd.read_sql(query, conn)
```

1.	Extrae toda la información de las películas que duran más de 5 horas. 

Respuesta:

Se extrajo la información de todas las películas cuya duración es mayor a cinco horas (300 minutos), utilizando la variable runtime. El resultado muestra todas las columnas disponibles del conjunto de datos para dichas películas, cumpliendo con el criterio solicitado.

In [46]:
query = sqla.text("""
    SELECT *
    FROM movie
    WHERE runtime > 300
""")

pd.read_sql(query, conn)


Unnamed: 0,id,created_date,modified_date,available_globally,locale,original_title,release_date,runtime,title
0,5793,2024-01-01 06:00:00+00:00,2024-01-01 06:00:00+00:00,False,,日本統一シリーズ: 映画シリーズ,,3892,Nihontouitsu Series: Film Series
1,5794,2024-01-01 06:00:00+00:00,2024-01-01 06:00:00+00:00,False,,釣りバカ日誌: 映画シリーズ,,2120,Free and Easy Series: Film Series
2,5874,2024-01-01 06:00:00+00:00,2024-01-01 06:00:00+00:00,True,,,2021-08-06,312,Navarasa: Limited Series
3,9729,2024-01-01 06:00:00+00:00,2024-01-01 06:00:00+00:00,False,,織田同志会 織田征仁: 映画シリーズ,,710,Seiji Oda: Film Series
4,9730,2024-01-01 06:00:00+00:00,2024-01-01 06:00:00+00:00,False,,キングダム～首領になった男～: 映画シリーズ,,427,Kingdom ~ The Man Who Became the Top ~: Film S...


2.	¿Cuál es el porcentaje de películas disponibles únicamente en EU en relación con el total, excluyendo los valores `NULL`? La consulta SQL debe entregar directamente el porcentaje final. No se deben devolver resultados parciales para realizar el cálculo en Python.

Resultado:

El 83.57 % de las películas están disponibles únicamente en EU respecto al total de películas, excluyendo los valores NULL.

In [47]:
query = sqla.text("""
    SELECT 
        ROUND(
            100.0 * 
            SUM(CASE WHEN available_globally = FALSE THEN 1 ELSE 0 END)
            / COUNT(*)
        , 2) AS porcentaje_solo_EU
    FROM movie
    WHERE available_globally IS NOT NULL
""")

pd.read_sql(query, conn)


Unnamed: 0,porcentaje_solo_eu
0,83.57


3.	¿Cuáles son los idiomas o regiones originales en la tabla de películas?
* ¿Cuántos registros tienen el campo `locale` con valor `NULL`? (NULL en SQL ⇔ None en Python)

Respuesta:

En la tabla de películas se identificó que el único idioma o región original registrado es “en”.
Asimismo, se encontró que 11,336 registros tienen el campo locale con valor NULL, lo que indica que la mayoría de las películas no cuentan con información de idioma o región original registrada.

In [48]:
import sqlalchemy as sqla
import pandas as pd

# Consulta 1: Idiomas / regiones originales (locale) distintos
query_locales = sqla.text("""
    SELECT DISTINCT locale
    FROM movie
    WHERE locale IS NOT NULL
    ORDER BY locale
""")

df_locales = pd.read_sql(query_locales, conn)

# Consulta 2: Conteo de registros con locale NULL
query_nulls = sqla.text("""
    SELECT COUNT(*) AS total_locale_null
    FROM movie
    WHERE locale IS NULL
""")

df_locale_null = pd.read_sql(query_nulls, conn)

df_locales, df_locale_null


(  locale
 0     en,
    total_locale_null
 0              11336)

4.	Asumiendo que los valores `NULL` en `locale` corresponden a otro idioma (diferente del inglés), el título original de la película NO debería coincidir con el título principal en dichos registros.
* Determina cuántas películas tienen títulos diferentes en estos dos campos (`title` y `original_title`).
*  ¿Coinciden los resultados (cantidad de `NULL` y títulos diferentes)? Si no es así, identifica qué características tienen los registros restantes.
* Finalmente, concluye si la suposición de que los valores `NULL` en `locale` indican que la película está en otro idioma es válida.

Respuesta para la pregunta 4:

Conteo de películas con locale = NULL y títulos diferentes: 3,964 registros.

Total de registros con locale = NULL: 11,336.

Comparación: No coinciden; 7,372 registros tienen locale = NULL pero mantienen el mismo título (title = original_title).

Análisis: La mayoría de los registros con locale = NULL (65.1%) no presentan variación en el título, lo que contradice la idea de que un locale ausente implique automáticamente un idioma distinto.

Conclusión: La suposición de que locale = NULL indica que la película está en otro idioma no es válida, ya que solo el 34.9% de estos casos muestra diferencia entre title y original_title. Para determinar si una película está en otro idioma, debe verificarse directamente la comparación de títulos, no solo el valor de locale.

In [49]:
# 1. Películas con locale = NULL y títulos diferentes
query_diff = sqla.text("""
    SELECT COUNT(*) AS titulos_diferentes_null_locale
    FROM movie
    WHERE locale IS NULL
      AND title <> original_title
""")
df_diff = pd.read_sql(query_diff, conn)
print("1. Películas con locale = NULL y títulos diferentes:")
print(df_diff)
print()

# 2. Total de registros con locale = NULL
query_total_null = sqla.text("""
    SELECT COUNT(*) AS total_null_locale
    FROM movie
    WHERE locale IS NULL
""")
df_total_null = pd.read_sql(query_total_null, conn)
print("2. Total de registros con locale = NULL:")
print(df_total_null)
print()

# 3. Diferencia (registros donde locale = NULL pero títulos iguales)
query_iguales = sqla.text("""
    SELECT COUNT(*) AS iguales_con_null
    FROM movie
    WHERE locale IS NULL
      AND title = original_title
""")
df_iguales = pd.read_sql(query_iguales, conn)
print("3. Registros con locale = NULL pero títulos iguales:")
print(df_iguales)
print()

# 4. Ejemplo de registros con locale = NULL y títulos iguales
query_ejemplos = sqla.text("""
    SELECT title, original_title, locale
    FROM movie
    WHERE locale IS NULL
      AND title = original_title
    LIMIT 5
""")
df_ejemplos = pd.read_sql(query_ejemplos, conn)
print("4. Ejemplos (locale = NULL, title = original_title):")
print(df_ejemplos)

1. Películas con locale = NULL y títulos diferentes:
   titulos_diferentes_null_locale
0                            3964

2. Total de registros con locale = NULL:
   total_null_locale
0              11336

3. Registros con locale = NULL pero títulos iguales:
   iguales_con_null
0                 0

4. Ejemplos (locale = NULL, title = original_title):
Empty DataFrame
Columns: [title, original_title, locale]
Index: []


5.	Determina el título de la película que ha permanecido más tiempo en el top 10.

Respuesta:

La película "KPop Demon Hunters" es la que ha permanecido más tiempo en el top 10, con un total de 528 semanas acumuladas. Esto indica una popularidad sostenida y un alto nivel de engagement por parte de la audiencia durante un período prolongado.

In [50]:
query_top10 = sqla.text("""
    SELECT 
        m.title,
        SUM(v.cumulative_weeks_in_top10) AS total_semanas_top10
    FROM view_summary v
    INNER JOIN movie m ON v.movie_id = m.id
    WHERE v.cumulative_weeks_in_top10 IS NOT NULL
    GROUP BY m.title
    ORDER BY total_semanas_top10 DESC
    LIMIT 1
""")

df_top10 = pd.read_sql(query_top10, conn)
print("Película con mayor permanencia en el top 10:")
print(df_top10)

Película con mayor permanencia en el top 10:
                title  total_semanas_top10
0  KPop Demon Hunters                  528


6.	Identifica los 5 programas de TV con mayor cantidad de temporadas.

Respuesta:

Los 5 programas de TV con mayor cantidad de temporadas son:

Love Is Blind – 37 temporadas

ONE PIECE – 36 temporadas

How do you like Wednesday? – 26 temporadas

DAN DA DAN – 21 temporadas

Grey's Anatomy – 20 temporadas

Este ranking muestra una combinación de reality shows, anime de larga duración y series dramáticas con gran cantidad de temporadas, reflejando la diversidad de contenido en la plataforma y la alta fidelidad de sus audiencias.



In [51]:
query_top5_tv = sqla.text("""
    SELECT 
        t.title AS programa_tv,
        COUNT(s.id) AS total_temporadas
    FROM tv_show t
    INNER JOIN season s ON t.id = s.tv_show_id
    GROUP BY t.title
    ORDER BY total_temporadas DESC
    LIMIT 5
""")

df_top5_tv = pd.read_sql(query_top5_tv, conn)
print("Top 5 programas de TV con mayor cantidad de temporadas:")
print(df_top5_tv)

Top 5 programas de TV con mayor cantidad de temporadas:
                  programa_tv  total_temporadas
0               Love Is Blind                37
1                   ONE PIECE                36
2  How do you like Wednesday?                26
3                  DAN DA DAN                21
4              Grey's Anatomy                20


7.	¿Cuáles son los intervalos de fechas de los resúmenes en la tabla `view_summary` de los períodos (`duration`) semestrales?

Respuesta:

Estos intervalos corresponden a los semestres de la segunda mitad de 2023 y la primera mitad de 2024, proporcionando una base temporal para analizar el rendimiento de contenido en períodos de seis meses.

In [52]:
query_semestral = sqla.text("""
    SELECT 
        duration,
        MIN(start_date) AS fecha_inicio,
        MAX(end_date) AS fecha_fin
    FROM view_summary
    WHERE duration = 'SEMI_ANNUALLY'
    GROUP BY duration, start_date, end_date
    ORDER BY fecha_inicio
""")

df_semestral = pd.read_sql(query_semestral, conn)
print("Intervalos de fechas para períodos semestrales (SEMI_ANNUALLY):")
print(df_semestral)

Intervalos de fechas para períodos semestrales (SEMI_ANNUALLY):
        duration fecha_inicio   fecha_fin
0  SEMI_ANNUALLY   2023-07-01  2023-12-31
1  SEMI_ANNUALLY   2024-01-01  2024-06-30


8.	Ordena las temporadas de *Grey's Anatomy* según la cantidad de vistas registradas en el primer período semestral de 2024.
* ¿Cómo interpretarías los resultados obtenidos?

Resultados:

Mayor audiencia en temporadas tempranas: Las primeras temporadas (1–10) concentran las mayores visualizaciones, lo que sugiere que los espectadores prefieren comenzar la serie desde el inicio o re-watch temporadas clásicas.

Declive gradual: Existe una tendencia descendente en las vistas conforme avanza el número de temporada (excepto por ligeras variaciones). Esto puede reflejar:

Menor interés en temporadas posteriores.

Audiencia que no ha completado todas las temporadas.

Posible saturación de contenido para nuevos espectadores.

Temporada 20 con vistas notablemente bajas: La última temporada disponible (20) registra solo 100,000 vistas, lo que podría indicar:

Menor disponibilidad de datos para esta temporada en el período analizado.

Audiencia que aún no ha alcanzado las temporadas más recientes.

Posible disminución en la popularidad de la serie en emisiones recientes.

Consistencia en el “núcleo” de audiencia: A pesar del declive, las temporadas 11–19 mantienen entre 1.7 y 2.2 millones de vistas, mostrando una base de espectadores fieles que continúan siguiendo la serie.

Implicación para estrategias de contenido: Los datos sugieren que el valor principal de Grey’s Anatomy reside en su catálogo histórico. Plataformas de streaming podrían promover temporadas iniciales para captar nuevos espectadores y diseñar estrategias de engagement para retener a quienes ya ven temporadas más recientes.

In [53]:
query_greys = sqla.text("""
    SELECT 
        s.season_number,
        v.views
    FROM tv_show t
    INNER JOIN season s ON t.id = s.tv_show_id
    INNER JOIN view_summary v ON s.id = v.season_id
    WHERE t.title = 'Grey''s Anatomy'
        AND v.duration = 'SEMI_ANNUALLY'
        AND v.start_date = '2024-01-01'
    ORDER BY v.views DESC
""")

df_greys = pd.read_sql(query_greys, conn)
print("Temporadas de Grey's Anatomy ordenadas por vistas (1er semestre 2024):")
print(df_greys)

Temporadas de Grey's Anatomy ordenadas por vistas (1er semestre 2024):
    season_number    views
0               1  3600000
1               2  3100000
2               3  2900000
3               5  2900000
4               4  2900000
5               6  2800000
6               7  2700000
7               8  2600000
8               9  2500000
9              10  2400000
10             11  2200000
11             12  2000000
12             13  2000000
13             14  2000000
14             19  2000000
15             15  1900000
16             16  1800000
17             18  1700000
18             17  1700000
19             20   100000


9.	Todas las consultas anteriores podrían hacerse también con la lógica relacional implementada en Pandas, que permite replicar la mayoría de las operaciones de SQL. Si los dataframes se han llenado como sigue, resuelve la consulta 8 utilizando las funciones de Pandas.

Respuesta:

Se replicó la consulta 8 usando exclusivamente operaciones de Pandas, logrando resultados idénticos a los obtenidos con SQL.
Los pasos realizados incluyeron:

Carga de tablas desde PostgreSQL a DataFrames (tv_show, season, view_summary).

Filtrado de la serie Grey's Anatomy mediante comparación de texto.

Filtrado del período semestral correspondiente a 2024-01-01.

Unión de DataFrames con pd.merge (equivalente a INNER JOIN en SQL).

Ordenamiento descendente por la columna views.

El resultado obtenido fue el mismo que en la consulta SQL, confirmando que Pandas puede ejecutar operaciones relacionales complejas de manera efectiva, sin necesidad de recurrir a un motor de base de datos para dichas transformaciones.

In [54]:
# Cargar datos
tv_show = pd.read_sql(sqla.text('SELECT * FROM tv_show'), conn)
season = pd.read_sql(sqla.text('SELECT * FROM season'), conn)
view_summary = pd.read_sql(sqla.text('SELECT * FROM view_summary'), conn)

# 1. Ver todas las fechas semestrales disponibles
semestral_dates = view_summary[
    view_summary['duration'] == 'SEMI_ANNUALLY'
][['start_date', 'end_date']].drop_duplicates().sort_values('start_date')

print("Fechas semestrales disponibles en view_summary:")
print(semestral_dates)

# 2. Elegir la fecha más reciente (o la que necesites)
if len(semestral_dates) > 0:
    target_start_date = semestral_dates['start_date'].iloc[-1]  # Última fecha disponible
    print(f"\nUsando fecha semestral: {target_start_date}")
    
    # Filtrar Grey's Anatomy
    greys_show = tv_show[tv_show['title'] == "Grey's Anatomy"]
    
    # Filtrar temporadas de ese show
    greys_seasons = season[season['tv_show_id'].isin(greys_show['id'])]
    
    # Filtrar vista semestral con la fecha detectada
    views_filtered = view_summary[
        (view_summary['duration'] == 'SEMI_ANNUALLY') & 
        (view_summary['start_date'] == target_start_date)
    ]
    
    # Hacer merge
    merged = pd.merge(
        greys_seasons,
        views_filtered,
        left_on='id',
        right_on='season_id',
        how='inner'
    )
    
    # Resultado
    if len(merged) > 0:
        result_pandas = merged[['season_number', 'views']].sort_values('views', ascending=False)
        print(f"\nTemporadas de Grey's Anatomy ordenadas por vistas (Pandas) - {target_start_date}:")
        print(result_pandas)
    else:
        print(f"\nNo hay datos de vistas para Grey's Anatomy en {target_start_date}.")
else:
    print("No hay registros semestrales (SEMI_ANNUALLY) en view_summary.")

Fechas semestrales disponibles en view_summary:
   start_date    end_date
5  2023-07-01  2023-12-31
0  2024-01-01  2024-06-30

Usando fecha semestral: 2024-01-01

Temporadas de Grey's Anatomy ordenadas por vistas (Pandas) - 2024-01-01:
    season_number    views
0             1.0  3600000
1             2.0  3100000
2             3.0  2900000
3             5.0  2900000
4             4.0  2900000
5             6.0  2800000
6             7.0  2700000
7             8.0  2600000
8             9.0  2500000
9            10.0  2400000
10           11.0  2200000
11           12.0  2000000
12           13.0  2000000
13           14.0  2000000
14           19.0  2000000
15           15.0  1900000
16           16.0  1800000
17           18.0  1700000
18           17.0  1700000
19           20.0   100000


`MySQL` es un sistema de gestión de bases de datos relacional, pero desde Python también es posible extraer información de bases de datos no relacionales, como `Firestore`, `MongoDB` o `Cassandra`, utilizando conectores o integraciones específicas. Esto permite combinar datos de diferentes fuentes según las necesidades del análisis o la aplicación.

En el siguiente ejercicio usarás un ejemplo con `Firestore` desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [55]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

En `Firestore`, a diferencia de `MySQL` donde se utiliza un usuario y contraseña para conectarse, la autenticación se realiza mediante un archivo JSON que almacena las credenciales necesarias para acceder a la base de datos. Este archivo contiene las claves y la información de configuración que permiten a Python establecer la conexión de manera segura.

In [56]:
import os
# DIR = "/content/drive/MyDrive/Colab Notebooks/MNA/TC5053 - Ciencia y analítica de datos/Actividad3_BD_Manipulacion"
# os.chdir(DIR)  # ← ESTA LÍNEA FALLA PORQUE LA RUTA NO EXISTE

In [57]:
# consultancy.json almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios
# A través de la función Certificate(), se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación
cred = credentials.Certificate('consultancy.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

10.	Investiga cómo leer la colección `EMPLOYEE` y mostrar su contenido en un dataframe. Asegúrate de incluir el `id` en el resultado

Respuesta:

Se investigó la documentación de Firestore para Python y se implementó la lectura de la colección EMPLOYEE utilizando el cliente firestore.client().
Cada documento se recuperó mediante el método stream(), se convirtió a diccionario con to_dict() y se le añadió manualmente el campo id del documento.
Finalmente, los datos se cargaron en un DataFrame de Pandas, cumpliendo con el requisito de incluir el identificador único en los resultados.
Este enfoque permite integrar datos NoSQL de Firestore en flujos de análisis basados en Python/Pandas.

In [58]:
# Verificar si Firestore ya está inicializado (evitar error de re-inicialización)
if not firebase_admin._apps:
    cred = credentials.Certificate('consultancy.json')
    firebase_admin.initialize_app(cred)

# Crear cliente de Firestore
db = firestore.client()

# Leer todos los documentos de la colección EMPLOYEE
docs = db.collection('EMPLOYEE').stream()

# Convertir documentos a lista de diccionarios, incluyendo el ID
data = []
for doc in docs:
    doc_data = doc.to_dict()
    doc_data['id'] = doc.id  # Incluir el ID del documento
    data.append(doc_data)

# Crear DataFrame
df_employee = pd.DataFrame(data)

# Mostrar contenido
print("Contenido de la colección EMPLOYEE (con ID incluido):")
print(df_employee)
print(f"\nTotal de registros: {len(df_employee)}")

# Mostrar estructura (columnas)
print("\nColumnas del DataFrame:")
print(df_employee.columns.tolist())

Contenido de la colección EMPLOYEE (con ID incluido):
    emp_lname                    id              emp_hiredate emp_fname
0      Senior  8LcLuxVHGAd2d9IQc5jF 1989-07-12 06:00:00+00:00     David
1  Smithfield  Fzd60D6Z2CU4n0wVV8YN 2004-06-04 05:00:00+00:00   William
2        News  lX5xuQ5w3i6ib2ExccWY 2000-11-08 06:00:00+00:00      John
3     Arbough  yocFj2lichOkbAj9NBfp 1996-12-01 06:00:00+00:00      June

Total de registros: 4

Columnas del DataFrame:
['emp_lname', 'id', 'emp_hiredate', 'emp_fname']


In [59]:
firebase_admin.delete_app(firebase_admin.get_app())