* requirements.txt
* pandas
* sqlalchemy
* pymysql
* mysqlclient
* airflow

Configuración de MySQL:

In [None]:
!pip install pandas pymysql sqlalchemy apache-airflow


In [None]:
CREATE DATABASE yelp_google_db;

Crear las tablas basadas en el diccionario de datos:



Usar el archivo Diccionario de datos.txt para definir las tablas en la base de datos MySQL.

In [None]:
USE yelp_google_db;

CREATE TABLE google_metadata (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255),
    address VARCHAR(255),
    gmap_id VARCHAR(255),
    description TEXT,
    latitude FLOAT,
    longitude FLOAT,
    category JSON,
    avg_rating FLOAT,
    num_of_reviews INT,
    price VARCHAR(10),
    hours JSON,
    misc JSON,
    state VARCHAR(50),
    relative_results JSON,
    url VARCHAR(255)
);

CREATE TABLE google_reviews (
    id INT AUTO_INCREMENT PRIMARY KEY,
    user_id VARCHAR(255),
    name VARCHAR(255),
    time BIGINT,
    rating INT,
    text TEXT,
    pics JSON,
    resp JSON,
    gmap_id VARCHAR(255)
);

CREATE TABLE yelp_business (
    business_id VARCHAR(255) PRIMARY KEY,
    name VARCHAR(255),
    address VARCHAR(255),
    city VARCHAR(100),
    state VARCHAR(10),
    postal_code VARCHAR(10),
    latitude FLOAT,
    longitude FLOAT,
    stars FLOAT,
    review_count INT,
    is_open INT,
    attributes JSON,
    categories JSON,
    hours JSON
);

CREATE TABLE yelp_reviews (
    review_id VARCHAR(255) PRIMARY KEY,
    user_id VARCHAR(255),
    business_id VARCHAR(255),
    stars INT,
    date DATE,
    text TEXT,
    useful INT,
    funny INT,
    cool INT
);

CREATE TABLE yelp_users (
    user_id VARCHAR(255) PRIMARY KEY,
    name VARCHAR(255),
    review_count INT,
    yelping_since DATE,
    friends JSON,
    useful INT,
    funny INT,
    cool INT,
    fans INT,
    elite JSON,
    average_stars FLOAT,
    compliment_hot INT,
    compliment_more INT,
    compliment_profile INT,
    compliment_cute INT,
    compliment_list INT,
    compliment_note INT,
    compliment_plain INT,
    compliment_cool INT,
    compliment_funny INT,
    compliment_writer INT,
    compliment_photos INT
);

CREATE TABLE yelp_checkins (
    business_id VARCHAR(255),
    date JSON
);

CREATE TABLE yelp_tips (
    text TEXT,
    date DATE,
    compliment_count INT,
    business_id VARCHAR(255),
    user_id VARCHAR(255)
);


Instalación de Dependencias de Python


In [None]:
sudo apt-get install python3-pip
pip3 install virtualenv
virtualenv venv
source venv/bin/activate


* 2. Desarrollo del Script ETL
* Script para Procesar y Cargar Datos
* Script para Procesar y Cargar Datos de Yelp y Google:
* Basado en google-yelp.txt, crear un script ETL en Python.


# 3. Automatización del Proceso ETL

* 5. Validación y Pruebas
* Verificación de Datos
* Realiza consultas SQL para verificar que los datos se hayan cargado correctamente:

In [None]:
USE yelp_google_db;

SELECT COUNT(*) FROM google_metadata;
SELECT COUNT(*) FROM google_reviews;
SELECT COUNT(*) FROM yelp_business;
SELECT COUNT(*) FROM yelp_reviews;
SELECT COUNT(*) FROM yelp_users;
SELECT COUNT(*) FROM yelp_checkins;
SELECT COUNT(*) FROM yelp_tips;


# 4. Validación y Monitorización del Proceso
* Validación de Datos
* Validar Datos Después de Cargar en MySQL:
* Crear scripts para validar la calidad de los datos en MySQL.
* Por ejemplo, verificar que no hay valores nulos en campos clave.
* Monitorización
* Usar la Interfaz Web de Airflow:
* Monitorear la ejecución de tareas ETL.
* Configurar alertas por correo electrónico para fallos en las tareas.
* 5. Documentación y Presentación
* Documentar el Ciclo de Vida del Dato:

* Crear un diagrama que muestre el flujo de datos desde la extracción hasta la carga y análisis.
* Explicar cada etapa del proceso y las tecnologías utilizadas.
* Diseñar el Modelo de Datos:

* Crear un DER (Diagrama Entidad-Relación) basado en el análisis de los datos y necesidades del proyecto.
* Justificar la elección del modelo (estrella, copo de nieve, etc.).
* Conclusión
* Este plan detallado abarca todos los pasos necesarios para implementar un pipeline ETL de manera local, utilizando MySQL y Apache Airflow para la automatización. Este enfoque asegura que el proceso sea reproducible, escalable y fácil de monitorear, cumpliendo con los criterios de aprobación requeridos.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Conectar a la base de datos
connection = engine.connect()

# Consultar datos
df_reviews = pd.read_sql('SELECT stars, COUNT(*) as count FROM yelp_reviews GROUP BY stars', connection)

# Crear visualización
plt.figure(figsize=(10, 6))
sns.barplot(x='stars', y='count', data=df_reviews)
plt.title('Distribución de Calificaciones en Yelp Reviews')
plt.xlabel('Calificación')
plt.ylabel('Cantidad')
plt.show()
