<h1>3. Configuración del pipeline ETL</h1>

<h2>Paso 1: Extract - Recuperar datos desde la API de YouTube</h2>

In [1]:
import os
from googleapiclient.discovery import build
import pandas as pd

# Clave API obtenida de Google Cloud Console
API_KEY = ''

# Crear un cliente de la API de YouTube
youtube = build('youtube', 'v3', developerKey=API_KEY)

# Función para obtener estadísticas de un video
def get_video_stats(video_id):
    # Realizar la solicitud a la API de YouTube
    request = youtube.videos().list(
        part='statistics',  # Especificamos que queremos las estadísticas
        id=video_id  # ID del video de YouTube
    )
    response = request.execute()
    
    # Extraer datos relevantes
    video_stats = response['items'][0]['statistics']
    return video_stats

# Ejemplo de ID de video
video_id = 'dQw4w9WgXcQ'  # Reemplazar con el ID del video que deseas analizar
stats = get_video_stats(video_id)
print(stats)

{'viewCount': '1600710185', 'likeCount': '18044616', 'favoriteCount': '0', 'commentCount': '2372643'}


<h2>Paso 2: Transform - Limpiar y transformar los datos para adaptarlos a una base de datos time-series</h2>

In [2]:
from datetime import datetime

# Función para transformar los datos
def transform_data(video_id, stats):
    # Transformar los datos a formato adecuado
    transformed_data = {
        'video_id': video_id,
        'view_count': stats['viewCount'],
        'like_count': stats.get('likeCount', 0),  # Algunas estadísticas pueden no estar disponibles
        'dislike_count': stats.get('dislikeCount', 0),
        'comment_count': stats.get('commentCount', 0),
        'timestamp': datetime.utcnow()  # Usamos la fecha y hora actual como timestamp
    }
    
    # Crear un DataFrame de pandas
    df = pd.DataFrame([transformed_data])
    return df

# Transformar los datos del video
df_transformed = transform_data(video_id, stats)
print(df_transformed)

      video_id  view_count like_count  dislike_count comment_count  \
0  dQw4w9WgXcQ  1600710185   18044616              0       2372643   

                   timestamp  
0 2024-12-10 03:28:14.999272  


<h2>Paso 3: Load - Cargar los datos en PostgreSQL</h2>

In [None]:

"""
CREATE TABLE youtube_video_stats (
    video_id TEXT PRIMARY KEY,
    view_count INT,
    like_count INT,
    dislike_count INT,
    comment_count INT,
    timestamp TIMESTAMPTZ
);
"""

In [None]:
from sqlalchemy import create_engine

# Configura la conexión a PostgreSQL (asegúrate de usar tus credenciales correctas)
DB_URI = 'postgresql+psycopg2://usuario:contraseña@localhost:5432/mi_base_de_datos'
engine = create_engine(DB_URI)

# Cargar el DataFrame a la base de datos PostgreSQL
df_transformed.to_sql('youtube_video_stats', engine, if_exists='append', index=False)

print("Datos cargados exitosamente en PostgreSQL.")

<h1>4. Generar un notebook de análisis</h1>

<h2>Paso 1: Conectar a PostgreSQL y leer los datos:</h2>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Leer los datos desde la base de datos PostgreSQL
df = pd.read_sql('SELECT * FROM youtube_video_stats', engine)

# Ver las primeras filas de los datos
print(df.head())

<h2>Paso 2: Análisis y visualización de los datos:</h2>

In [None]:
# Análisis simple de las estadísticas de los videos
df['timestamp'] = pd.to_datetime(df['timestamp'])  # Asegurarse de que el timestamp esté en formato datetime

# Visualización de las visualizaciones a lo largo del tiempo
plt.figure(figsize=(10, 6))
plt.plot(df['timestamp'], df['view_count'], label='View Count')
plt.xlabel('Fecha')
plt.ylabel('Visualizaciones')
plt.title('Visualizaciones de Videos a lo largo del Tiempo')
plt.xticks(rotation=45)
plt.legend()
plt.show()

In [None]:
Para lograr un proceso de ETL (Extract, Transform, Load) utilizando Python y la API de YouTube Data para recuperar las reproducciones de videos y cargar esos datos en una base de datos PostgreSQL en formato de series temporales, vamos a seguir los siguientes pasos detallados.

Requisitos:
Python 3.x
Bibliotecas necesarias: google-api-python-client, pandas, psycopg2, sqlalchemy, requests.
Acceso a la API de YouTube Data (requiere una clave API).
PostgreSQL en funcionamiento.
1. Instalación de dependencias
Antes de empezar, necesitamos instalar las bibliotecas necesarias en Python:

bash
Copiar código
pip install google-api-python-client pandas psycopg2 sqlalchemy
2. Obtener una clave de API de YouTube
Para acceder a la YouTube Data API, debes crear un proyecto en Google Cloud Console, habilitar la API de YouTube Data y obtener una clave API.

3. Configuración del pipeline ETL
Paso 1: Extract - Recuperar datos desde la API de YouTube
Aquí vamos a utilizar la biblioteca oficial google-api-python-client para obtener los datos de la API de YouTube.

python
Copiar código
import os
from googleapiclient.discovery import build
import pandas as pd

# Clave API obtenida de Google Cloud Console
API_KEY = 'TU_CLAVE_API'

# Crear un cliente de la API de YouTube
youtube = build('youtube', 'v3', developerKey=API_KEY)

# Función para obtener estadísticas de un video
def get_video_stats(video_id):
    # Realizar la solicitud a la API de YouTube
    request = youtube.videos().list(
        part='statistics',  # Especificamos que queremos las estadísticas
        id=video_id  # ID del video de YouTube
    )
    response = request.execute()
    
    # Extraer datos relevantes
    video_stats = response['items'][0]['statistics']
    return video_stats

# Ejemplo de ID de video
video_id = 'dQw4w9WgXcQ'  # Reemplazar con el ID del video que deseas analizar
stats = get_video_stats(video_id)
print(stats)
Este código obtiene las estadísticas del video especificado, incluyendo las visualizaciones (viewCount), lo cual es esencial para análisis en un ETL.

Paso 2: Transform - Limpiar y transformar los datos para adaptarlos a una base de datos time-series
En este paso, vamos a transformar los datos para que puedan ser cargados en una base de datos PostgreSQL. Los datos de YouTube estarán en un formato JSON, pero necesitamos transformarlos a un formato que se pueda almacenar en una tabla de series temporales.

python
Copiar código
from datetime import datetime

# Función para transformar los datos
def transform_data(video_id, stats):
    # Transformar los datos a formato adecuado
    transformed_data = {
        'video_id': video_id,
        'view_count': stats['viewCount'],
        'like_count': stats.get('likeCount', 0),  # Algunas estadísticas pueden no estar disponibles
        'dislike_count': stats.get('dislikeCount', 0),
        'comment_count': stats.get('commentCount', 0),
        'timestamp': datetime.utcnow()  # Usamos la fecha y hora actual como timestamp
    }
    
    # Crear un DataFrame de pandas
    df = pd.DataFrame([transformed_data])
    return df

# Transformar los datos del video
df_transformed = transform_data(video_id, stats)
print(df_transformed)
En este paso, hemos transformado los datos de YouTube para que estén en un formato adecuado, que incluye un timestamp para que puedan ser cargados en una base de datos de series temporales.

Paso 3: Load - Cargar los datos en PostgreSQL
Ahora vamos a cargar estos datos transformados en una base de datos PostgreSQL. Para ello, necesitamos configurar una conexión con PostgreSQL usando psycopg2 y SQLAlchemy.

Primero, asegúrate de tener un servidor PostgreSQL corriendo y una base de datos creada. La estructura básica para almacenar los datos en una tabla de series temporales podría ser algo como esto:

sql
Copiar código
CREATE TABLE youtube_video_stats (
    video_id TEXT PRIMARY KEY,
    view_count INT,
    like_count INT,
    dislike_count INT,
    comment_count INT,
    timestamp TIMESTAMPTZ
);
Ahora, en Python, configuramos la conexión y cargamos los datos:

python
Copiar código
from sqlalchemy import create_engine

# Configura la conexión a PostgreSQL (asegúrate de usar tus credenciales correctas)
DB_URI = 'postgresql+psycopg2://usuario:contraseña@localhost:5432/mi_base_de_datos'
engine = create_engine(DB_URI)

# Cargar el DataFrame a la base de datos PostgreSQL
df_transformed.to_sql('youtube_video_stats', engine, if_exists='append', index=False)

print("Datos cargados exitosamente en PostgreSQL.")
Este código carga los datos transformados en la tabla youtube_video_stats en la base de datos de PostgreSQL. Utilizamos if_exists='append' para agregar nuevos registros sin sobrescribir los existentes.

4. Generar un notebook de análisis
Ahora, para generar un notebook de análisis que pueda visualizar y analizar los datos cargados, podemos utilizar Jupyter junto con pandas y matplotlib.

Paso 1: Conectar a PostgreSQL y leer los datos:

python
Copiar código
import pandas as pd
import matplotlib.pyplot as plt

# Leer los datos desde la base de datos PostgreSQL
df = pd.read_sql('SELECT * FROM youtube_video_stats', engine)

# Ver las primeras filas de los datos
print(df.head())
Paso 2: Análisis y visualización de los datos:

python
Copiar código
# Análisis simple de las estadísticas de los videos
df['timestamp'] = pd.to_datetime(df['timestamp'])  # Asegurarse de que el timestamp esté en formato datetime

# Visualización de las visualizaciones a lo largo del tiempo
plt.figure(figsize=(10, 6))
plt.plot(df['timestamp'], df['view_count'], label='View Count')
plt.xlabel('Fecha')
plt.ylabel('Visualizaciones')
plt.title('Visualizaciones de Videos a lo largo del Tiempo')
plt.xticks(rotation=45)
plt.legend()
plt.show()
Este paso crea una visualización simple que muestra cómo las visualizaciones de los videos han cambiado a lo largo del tiempo.

Resumen del pipeline ETL
Extract: Usamos la API de YouTube para obtener las estadísticas de los videos.
Transform: Limpiamos y transformamos los datos para adaptarlos a una estructura de base de datos time-series, añadiendo un timestamp.
Load: Cargamos los datos transformados en PostgreSQL en una tabla de series temporales.
Análisis y Visualización: Usamos Jupyter Notebook para analizar y visualizar los datos almacenados.
Este proceso es completamente automatizable, lo que permite una extracción continua y un análisis de los videos de YouTube a lo largo del tiempo.

Mejoras posibles
Programación de tareas: Puedes usar herramientas como Airflow o Cron para programar la ejecución automática del ETL.
Manejo de errores: Implementar control de errores y notificaciones en caso de fallos.
Optimización: Si manejas grandes volúmenes de datos, puedes optimizar las consultas a la API de YouTube y el manejo de la base de datos.
Este flujo ETL te permitirá integrar datos de YouTube de manera continua en un entorno de análisis de series temporales en PostgreSQL.