**MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA**

**Curso: TC5053 - Ciencia y analítica de datos**

Tecnológico de Monterrey

Prof Grettel Barceló Alonso

**Semana 3**
Bases, almacenes y manipulación de datos

---

*   NOMBRE: Luis Angel Hernandez Miranda
*   MATRÍCULA: A01797951


---

En esta actividad usarás una base de datos relacional basada en el informe de participación y la lista del top 10 de Netflix. Incluye películas y programas de televisión, así como información sobre temporadas, métricas de visualización, fechas de estreno, duración y más, organizada en las siguientes tablas:

* `movie`: Información general de las películas.

* `tv_show`: Información general de los programas de televisión.

* `season`: Datos de las temporadas asociadas a cada programa de TV.

* `view_summary`: Métricas de visualización y rendimiento de películas o temporadas.

Revisa con detalle su esquema para que comprendas cómo se relacionan las tablas anteriores.

**NOTA IMPORTANTE:** Asegúrate de responder *explícitamente* todos los cuestionamientos.


`PyMySQL` es una librería escrita en Python puro que funciona como conector (*driver*) para motores de bases de datos MySQL, permitiendo abrir conexiones, ejecutar consultas SQL y recuperar resultados directamente desde programas en Python.

In [37]:
pip install firebase_admin



`SQLAlchemy` es una librería de Python que facilita la interacción con bases de datos y permite mantener un pool de conexiones eficiente, gestionar *commits* y *rollbacks* de forma automática y asegurar que múltiples conexiones simultáneas se manejen de manera segura, incluso cuando se ejecutan consultas SQL “puras”

In [38]:
# Importa las librerías necesarias
import pymysql
import sqlalchemy as sqla
import pandas as pd

Se crea una conexión (`conn`) para luego invocar declaraciones SQL.

In [39]:
# motor+driver://usuarioBD:clave@ipHostDBMS:puerto/esquema
# pool_recycle controla el tiempo máximo de vida de una conexión en el pool (3600 segundos = 1 hora)
db = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix', pool_recycle=3600)
conn = db.connect()

Para que tus consultas sean más legibles y fáciles de mantener, puedes usar este formato multilínea con comillas triples y `sqla.text()`. Por ejemplo:

```
query = sqla.text("""
  SELECT ---
  FROM ---
  WHERE ---
""")
pd.read_sql(query, conn)
```

1.	Extrae la información de las películas que duran más de 5 horas.

In [40]:
query = sqla.text("""
    SELECT *
    FROM movie
    WHERE runtime > 300
    ORDER BY runtime DESC
""")
df = pd.read_sql(query, conn)
print("Sample movies with runtime data:")
print(df)

Sample movies with runtime data:
     id created_date modified_date available_globally locale  \
0  5793   2024-01-01    2024-01-01            b'\x00'   None   
1  5794   2024-01-01    2024-01-01            b'\x00'   None   
2  9729   2024-01-01    2024-01-01            b'\x00'   None   
3  9730   2024-01-01    2024-01-01            b'\x00'   None   
4  5874   2024-01-01    2024-01-01            b'\x01'   None   

           original_title release_date  runtime  \
0        日本統一シリーズ: 映画シリーズ         None     3892   
1          釣りバカ日誌: 映画シリーズ         None     2120   
2      織田同志会 織田征仁: 映画シリーズ         None      710   
3  キングダム～首領になった男～: 映画シリーズ         None      427   
4                    None   2021-08-06      312   

                                               title  
0                   Nihontouitsu Series: Film Series  
1                  Free and Easy Series: Film Series  
2                             Seiji Oda: Film Series  
3  Kingdom ~ The Man Who Became the Top ~: Film S...  


2.	¿Cuál es el porcentaje de películas disponibles únicamente en EU en relación con el total, excluyendo los valores `NULL`?

In [41]:
# Conexión a la base de datos
engine = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix')
conn = engine.connect()

# Consulta para calcular el porcentaje de películas disponibles solo en regiones específicas
query = sqla.text("""
    SELECT
        COUNT(*) as total_movies,
        SUM(CASE WHEN available_globally = 0 THEN 1 ELSE 0 END) as region_specific,
        SUM(CASE WHEN available_globally = 1 THEN 1 ELSE 0 END) as globally_available,
        ROUND((SUM(CASE WHEN available_globally = 0 THEN 1 ELSE 0 END) / COUNT(*)) * 100, 2) as percentage_region_specific
    FROM movie
    WHERE available_globally IS NOT NULL
""")

availability_stats = pd.read_sql(query, conn)
print("Estadísticas de disponibilidad de películas (excluyendo NULL):")
print(availability_stats)

Estadísticas de disponibilidad de películas (excluyendo NULL):
   total_movies  region_specific  globally_available  \
0         11115           9289.0              1826.0   

   percentage_region_specific  
0                       83.57  


3.	¿Cuáles son los idiomas o regiones originales en la tabla de películas?
* ¿Cuántas películas tienen el campo `locale` con valor `NULL`?

In [42]:
# Conexión a la base de datos
engine = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix')
conn = engine.connect()

# Consulta para contar valores NULL en la columna locale
query = sqla.text("""
    SELECT
        COUNT(*) as total_movies,
        COUNT(locale) as movies_with_locale,
        COUNT(*) - COUNT(locale) as null_locale_count,
        ROUND(((COUNT(*) - COUNT(locale)) / COUNT(*)) * 100, 2) as percentage_null
    FROM movie
""")

locale_null_stats = pd.read_sql(query, conn)
print("Estadísticas de valores NULL en la columna locale:")
print(locale_null_stats)

# Conteo de NULL (y vacíos)
clean = df.assign(locale=df['locale'].astype(str).str.strip())
clean.loc[clean['locale'].isin(['None', 'nan', 'NaT', '']), 'locale'] = pd.NA

total = len(clean)
nulls = clean['locale'].isna().sum()
pct   = round(100 * nulls / total, 2)
print({'total_movies': total, 'null_or_empty_locale_count': nulls, 'pct_null_or_empty': pct})

# Valores distintos de locale
locales = (clean['locale'].dropna().unique())
print(sorted(locales))

# Conteo por locale
counts = (clean.groupby('locale', dropna=False).size()
               .reset_index(name='n')
               .sort_values(['n','locale'], ascending=[False, True]))
print(counts.head(20))


Estadísticas de valores NULL en la columna locale:
   total_movies  movies_with_locale  null_locale_count  percentage_null
0         11787                 532              11255            95.49
{'total_movies': 5, 'null_or_empty_locale_count': np.int64(5), 'pct_null_or_empty': np.float64(100.0)}
[]
   locale  n
0     NaN  5


4.	Asumiendo que los valores `NULL` en `locale` corresponden a otro idioma (diferente del inglés), el título original de la película NO debería coincidir con el título principal en dichos registros.
* Determina cuántas películas tienen títulos diferentes en estos dos campos (`title` y `original_title`).
*  ¿Coinciden los resultados (cantidad de `NULL` y títulos diferentes)? Si no es así, identifica qué características tienen los registros restantes.
* Finalmente, concluye si la suposición de que los valores `NULL` en `locale` indican que la película está en otro idioma es válida.

In [43]:
engine = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix')
conn = engine.connect()

movie_df = pd.read_sql(sqla.text("SELECT id, title, original_title, locale FROM movie"), conn)

# Filas con locale NULL
m_null = movie_df[movie_df['locale'].isna()].copy()

# Contar títulos distintos (normalizando espacios y nulos)
t1 = m_null['title'].fillna('').str.strip()
t2 = m_null['original_title'].fillna('').str.strip()
diff_mask = t1.ne(t2)

n_null = len(m_null)
n_diff = diff_mask.sum()

print({'total_null_locale': n_null, 'diff_titles_when_null_locale': int(n_diff)})

# Ver los que NO cumplen (para explicar discrepancias)
violations = m_null.loc[~diff_mask, ['id','title','original_title']].head(50)
print(violations)

# Conclusión automática
print("Conclusión:",
      "La suposición es consistente" if n_diff == n_null
      else f"No se cumple del todo: {n_null - n_diff} registros con locale NULL pero títulos iguales o faltantes.")


{'total_null_locale': 11255, 'diff_titles_when_null_locale': 11255}
Empty DataFrame
Columns: [id, title, original_title]
Index: []
Conclusión: La suposición es consistente


5.	Determina el título de la película que ha permanecido más tiempo en el top 10.

In [44]:
# 1) Conexión
db = sqla.create_engine(
    'mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix',
    pool_recycle=3600
)
conn = db.connect()

# 2) Cargar tablas necesarias
view_summary_df = pd.read_sql(sqla.text("SELECT * FROM view_summary"), conn)
movie_df        = pd.read_sql(sqla.text("SELECT * FROM movie"), conn)

# 3) Unir por movie_id -> movie.id (solo películas)
merged = view_summary_df.merge(
    movie_df,
    left_on='movie_id',
    right_on='id',
    how='inner',
    suffixes=('_vs', '_movie')
)

# 4) Filtrar registros con semanas válidas
merged = merged[merged['cumulative_weeks_in_top10'].notnull()]

# 5) Agregar por película (id_movie + title) tomando el máximo de semanas acumuladas
agg = (merged
       .groupby(['id_movie', 'title'], as_index=False)['cumulative_weeks_in_top10']
       .max()
       .sort_values('cumulative_weeks_in_top10', ascending=False))

# 6) Resultado: película con más tiempo en Top 10
top_movie = agg.head(1)
print(top_movie[['title', 'cumulative_weeks_in_top10']].to_string(index=False))

ERROR:sqlalchemy.pool.impl.QueuePool:Exception during reset or similar
Traceback (most recent call last):
  File "/usr/local/lib/python3.12/dist-packages/sqlalchemy/pool/base.py", line 985, in _finalize_fairy
    fairy._reset(
  File "/usr/local/lib/python3.12/dist-packages/sqlalchemy/pool/base.py", line 1433, in _reset
    pool._dialect.do_rollback(self)
  File "/usr/local/lib/python3.12/dist-packages/sqlalchemy/engine/default.py", line 711, in do_rollback
    dbapi_connection.rollback()
  File "/usr/local/lib/python3.12/dist-packages/pymysql/connections.py", line 505, in rollback
    self._read_ok_packet()
  File "/usr/local/lib/python3.12/dist-packages/pymysql/connections.py", line 465, in _read_ok_packet
    pkt = self._read_packet()
          ^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.12/dist-packages/pymysql/connections.py", line 760, in _read_packet
    raise err.OperationalError(
pymysql.err.OperationalError: (2013, 'Lost connection to MySQL server during query')


                      title  cumulative_weeks_in_top10
The Super Mario Bros. Movie                       22.0


6.	Identifica los 10 programas de TV con mayor cantidad de temporadas.

In [45]:
# Conexión
engine = sqla.create_engine(
    'mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix',
    pool_recycle=300, pool_pre_ping=True
)
with engine.connect() as conn:
    # Leer solo columnas necesarias
    tv_show_df = pd.read_sql(sqla.text("SELECT id AS tv_show_id, title FROM tv_show"), conn)
    season_df  = pd.read_sql(sqla.text("SELECT id AS season_id, tv_show_id FROM season"), conn)

# Contar temporadas por show (ids distintos por seguridad)
counts = (season_df.groupby('tv_show_id')['season_id']
                    .nunique()
                    .reset_index(name='num_seasons'))

top10 = (counts.merge(tv_show_df, on='tv_show_id', how='left')
               .sort_values(['num_seasons','title'], ascending=[False, True])
               .head(10)
               .loc[:, ['title','num_seasons']])

print(top10.to_string(index=False))

                            title  num_seasons
                    Love Is Blind           39
                        ONE PIECE           37
       How do you like Wednesday?           26
                       DAN DA DAN           20
                   Grey's Anatomy           20
                 Naruto Shippuden           20
                 Heartland (2007)           17
It's Always Sunny in Philadelphia           16
                             NCIS           15
                              Raw           15


7.	¿Cuáles son los intervalos de fechas de los resúmenes en la tabla `view_summary` de los períodos (`duration`) semestrales?

In [46]:
# Conexión
engine = sqla.create_engine(
    'mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix',
    pool_recycle=300, pool_pre_ping=True
)

with engine.connect() as conn:
    # Leer solo columnas necesarias y filtrar semestrales desde SQL
    vs = pd.read_sql(
        sqla.text("""
            SELECT start_date, end_date
            FROM view_summary
            WHERE UPPER(duration) LIKE 'SEMI%'
        """),
        conn
    )

# Intervalos únicos ordenados
intervalos = (vs.drop_duplicates()
                .sort_values('start_date')
                .reset_index(drop=True))

print("Intervalos semestrales (start_date — end_date):")
print(intervalos.to_string(index=False))

# (Opcional) conteo por intervalo
conteo = (vs.value_counts(['start_date','end_date'])
            .reset_index(name='rows_in_interval')
            .sort_values('start_date'))
print("\nConteo por intervalo:")
print(conteo.to_string(index=False))

Intervalos semestrales (start_date — end_date):
start_date   end_date
2023-07-01 2023-12-31
2024-01-01 2024-06-30

Conteo por intervalo:
start_date   end_date  rows_in_interval
2023-07-01 2023-12-31             15822
2024-01-01 2024-06-30             15972


8.	Ordena las temporadas de *Grey's Anatomy* según la cantidad de vistas registradas en el primer período semestral de 2024.
* ¿Cómo interpretarías los resultados obtenidos?

In [47]:
engine = sqla.create_engine('mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix')
conn = engine.connect()

query_seasons = sqla.text("""
    SELECT
        s.id as season_id,
        s.season_number,
        s.title as season_title,
        vs.views,
        vs.hours_viewed,
        vs.start_date,
        vs.end_date,
        vs.duration
    FROM season s
    JOIN view_summary vs ON s.id = vs.season_id
    WHERE s.tv_show_id = 347
    AND vs.start_date >= '2024-01-01'
    AND vs.end_date <= '2024-06-30'
    AND vs.duration = 'SEMI_ANNUALLY'
    ORDER BY vs.views DESC
""")

greys_seasons = pd.read_sql(query_seasons, conn)
print("Temporadas de Grey's Anatomy ordenadas por vistas (primer semestre 2024):")
print(greys_seasons)

Temporadas de Grey's Anatomy ordenadas por vistas (primer semestre 2024):
    season_id  season_number               season_title    views  \
0         575              1   Grey's Anatomy: Season 1  3600000   
1         685              2   Grey's Anatomy: Season 2  3100000   
2         742              3   Grey's Anatomy: Season 3  2900000   
3         743              5   Grey's Anatomy: Season 5  2900000   
4         749              4   Grey's Anatomy: Season 4  2900000   
5         776              6   Grey's Anatomy: Season 6  2800000   
6         818              7   Grey's Anatomy: Season 7  2700000   
7         850              8   Grey's Anatomy: Season 8  2600000   
8         882              9   Grey's Anatomy: Season 9  2500000   
9         915             10  Grey's Anatomy: Season 10  2400000   
10       1015             11  Grey's Anatomy: Season 11  2200000   
11       1130             12  Grey's Anatomy: Season 12  2000000   
12       1132             13  Grey's Anato

9.	Todas las consultas anteriores podrían hacerse también con la lógica relacional implementada en Pandas, que permite replicar la mayoría de las operaciones de SQL. Si los dataframes se han llenado como sigue, resuelve la consulta 8 utilizando las funciones de Pandas.

In [48]:
engine = sqla.create_engine(
    'mysql+pymysql://mnaTC4029User:mnaTC4029Pass!@20.51.200.131:3306/Netflix',
    pool_recycle=300, pool_pre_ping=True
)
conn = engine.connect()

tv_show      = pd.read_sql(sqla.text('SELECT * FROM tv_show'), conn)
season       = pd.read_sql(sqla.text('SELECT * FROM season'), conn)
view_summary = pd.read_sql(sqla.text('SELECT * FROM view_summary'), conn)

print(tv_show.shape, season.shape, view_summary.shape)

(4631, 8) (8413, 9) (36507, 12)


In [49]:
# 1) ID del show
show_id = (tv_show.loc[
    tv_show['title'].astype(str).str.strip().str.lower().eq("grey's anatomy"),
    'id'
].squeeze())
if pd.isna(show_id):
    raise ValueError("No se encontró 'Grey's Anatomy' en tv_show.")

# 2) Temporadas del show
ga_seasons = season.loc[season['tv_show_id'].eq(show_id),
                        ['id','season_number','title']].rename(columns={'id':'season_id'})

# 3) Filtrar view_summary a SEMI y 1er semestre 2024
vs = view_summary.copy()
vs['start_date'] = pd.to_datetime(vs['start_date'], errors='coerce')
vs['end_date']   = pd.to_datetime(vs['end_date'],   errors='coerce')

mask = (
    vs['season_id'].isin(ga_seasons['season_id'])
    & vs['duration'].astype(str).str.contains('semi', case=False, na=False)
    & (vs['start_date'] >= '2024-01-01')
    & (vs['end_date']   <= '2024-06-30')
)
vs_ga = vs.loc[mask, ['season_id','views']].copy()
vs_ga['views'] = pd.to_numeric(vs_ga['views'], errors='coerce').fillna(0)

# 4) Agregar y ordenar
out = (vs_ga.groupby('season_id', as_index=False)['views'].sum()
         .merge(ga_seasons, on='season_id', how='left')
         .loc[:, ['season_number','title','views']]
         .sort_values(['views','season_number'], ascending=[False, True])
         .reset_index(drop=True))

# 5) Ranking
out.insert(0, 'rank', range(1, len(out)+1))

print("Temporadas de Grey's Anatomy - Vistas 1er semestre 2024:")
print(out.to_string(index=False))



Temporadas de Grey's Anatomy - Vistas 1er semestre 2024:
 rank  season_number                     title   views
    1            1.0  Grey's Anatomy: Season 1 3600000
    2            2.0  Grey's Anatomy: Season 2 3100000
    3            3.0  Grey's Anatomy: Season 3 2900000
    4            4.0  Grey's Anatomy: Season 4 2900000
    5            5.0  Grey's Anatomy: Season 5 2900000
    6            6.0  Grey's Anatomy: Season 6 2800000
    7            7.0  Grey's Anatomy: Season 7 2700000
    8            8.0  Grey's Anatomy: Season 8 2600000
    9            9.0  Grey's Anatomy: Season 9 2500000
   10           10.0 Grey's Anatomy: Season 10 2400000
   11           11.0 Grey's Anatomy: Season 11 2200000
   12           12.0 Grey's Anatomy: Season 12 2000000
   13           13.0 Grey's Anatomy: Season 13 2000000
   14           14.0 Grey's Anatomy: Season 14 2000000
   15           19.0 Grey's Anatomy: Season 19 2000000
   16           15.0 Grey's Anatomy: Season 15 1900000
   17   

`MySQL` es un sistema de gestión de bases de datos relacional, pero desde Python también es posible extraer información de bases de datos no relacionales, como `Firestore`, `MongoDB` o `Cassandra`, utilizando conectores o integraciones específicas. Esto permite combinar datos de diferentes fuentes según las necesidades del análisis o la aplicación.

En el siguiente ejercicio usarás un ejemplo con `Firestore` desde Python. Para ello utilizarás los módulos `credentials` y `firestore` de la biblioteca `firebase_admin`.

In [50]:
import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

En `Firestore`, a diferencia de `MySQL` donde se utiliza un usuario y contraseña para conectarse, la autenticación se realiza mediante un archivo JSON que almacena las credenciales necesarias para acceder a la base de datos. Este archivo contiene las claves y la información de configuración que permiten a Python establecer la conexión de manera segura.

In [51]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [52]:
# Debes descargar el archivo de credenciales "consultancy.json" (disponible en las instrucciones de Canvas) y ubicarte en la carpeta donde lo almacenaste
import os
DIR = "/content/drive/MyDrive/TEC"
os.chdir(DIR)

In [53]:
# consultancy.json almacena la clave privada para autenticar una cuenta y autorizar el acceso a los servicios
# A través de la función Certificate(), se regresa una credencial inicializada, que puedes utilizar para crear una nueva instancia de la aplicación
cred = credentials.Certificate('consultancy.json')
firebase_admin.initialize_app(cred)
db = firestore.client()

10.	Investiga cómo leer la colección `EMPLOYEE` y mostrar su contenido en un dataframe. Asegúrate de incluir el `id` en el resultado

In [54]:

docs = db.collection('EMPLOYEE').stream()

rows = []
for doc in docs:
    data = doc.to_dict() or {}
    data['id'] = doc.id
    rows.append(data)

employee_df = pd.DataFrame(rows)


prefer = ['id', 'emp_fname', 'emp_lname', 'emp_hiredate']
cols = [c for c in prefer if c in employee_df.columns] + [c for c in employee_df.columns if c not in prefer]
employee_df = employee_df.reindex(columns=cols)

# Convertir posibles columnas de fecha (no falla si no hay filas/columnas)
date_cols = [c for c in employee_df.columns if 'date' in c.lower() or 'hiredate' in c.lower()]
for c in date_cols:
    employee_df[c] = pd.to_datetime(employee_df[c], errors='coerce')

try:
    employee_df = employee_df.set_index('id')
    employee_df.index.name = 'id'
except KeyError:
    pass

# Mostrar
print(employee_df.head())

                     emp_fname   emp_lname              emp_hiredate
id                                                                  
8LcLuxVHGAd2d9IQc5jF     David      Senior 1989-07-12 06:00:00+00:00
Fzd60D6Z2CU4n0wVV8YN   William  Smithfield 2004-06-04 05:00:00+00:00
lX5xuQ5w3i6ib2ExccWY      John        News 2000-11-08 06:00:00+00:00
yocFj2lichOkbAj9NBfp      June     Arbough 1996-12-01 06:00:00+00:00


In [55]:
firebase_admin.delete_app(firebase_admin.get_app())