Instalación de MySQL:



In [1]:
!sudo apt-get update
!sudo apt-get install mysql-server


"sudo" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"sudo" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


Configuración de MySQL:

In [None]:
CREATE DATABASE yelp_google_data;
CREATE USER 'etl_user'@'localhost' IDENTIFIED BY 'password';
GRANT ALL PRIVILEGES ON yelp_google_data.* TO 'etl_user'@'localhost';
FLUSH PRIVILEGES;


Crear las tablas basadas en el diccionario de datos:



Usar el archivo Diccionario de datos.txt para definir las tablas en la base de datos MySQL.

In [None]:
CREATE DATABASE yelp_google;

USE yelp_google;

CREATE TABLE Dim_User (
    user_id VARCHAR(255) PRIMARY KEY,
    name VARCHAR(255),
    yelping_since DATE,
    review_count INT,
    useful INT,
    funny INT,
    cool INT,
    elite VARCHAR(255),
    average_stars FLOAT
);

CREATE TABLE Dim_Business (
    business_id VARCHAR(255) PRIMARY KEY,
    name VARCHAR(255),
    address VARCHAR(255),
    city VARCHAR(255),
    state VARCHAR(255),
    postal_code VARCHAR(20),
    latitude FLOAT,
    longitude FLOAT,
    stars FLOAT,
    review_count INT,
    is_open BOOLEAN,
    categories TEXT
);

CREATE TABLE Fact_Review (
    review_id VARCHAR(255) PRIMARY KEY,
    user_id VARCHAR(255),
    business_id VARCHAR(255),
    rating INT,
    date DATE,
    text TEXT,
    pics TEXT,
    resp TEXT,
    FOREIGN KEY (user_id) REFERENCES Dim_User(user_id),
    FOREIGN KEY (business_id) REFERENCES Dim_Business(business_id)
);

Instalación de Dependencias de Python


In [None]:
sudo apt-get install python3-pip
pip3 install virtualenv
virtualenv venv
source venv/bin/activate


Instalación de Paquetes Necesarios:



In [None]:
pip install pandas sqlalchemy pymysql apache-airflow


* 2. Desarrollo del Script ETL
* Script para Procesar y Cargar Datos
* Script para Procesar y Cargar Datos de Yelp y Google:
* Basado en google-yelp.txt, crear un script ETL en Python.


In [None]:
import pandas as pd
from sqlalchemy import create_engine
import json

# Conexión a la base de datos MySQL
engine = create_engine('mysql+pymysql://etl_user:password@localhost/yelp_google_data')

def load_json_to_df(file_path):
    with open(file_path, 'r') as file:
        data = json.load(file)
    return pd.DataFrame(data)

def clean_and_transform(df, table_name):
    # Ejemplo de limpieza y transformación
    if table_name == "Business":
        df['latitude'] = pd.to_numeric(df['latitude'], errors='coerce')
        df['longitude'] = pd.to_numeric(df['longitude'], errors='coerce')
        df.dropna(subset=['latitude', 'longitude'], inplace=True)
    # Más limpieza y transformación según la tabla
    return df

def load_to_mysql(df, table_name):
    df.to_sql(table_name, con=engine, if_exists='replace', index=False)

# Procesar archivos JSON de Yelp y Google
file_paths = ['path_to_yelp_json', 'path_to_google_json']
table_names = ['Business', 'Review', 'User']  # Según las tablas definidas

for file_path, table_name in zip(file_paths, table_names):
    df = load_json_to_df(file_path)
    df = clean_and_transform(df, table_name)
    load_to_mysql(df, table_name)


# 3. Automatización del Proceso ETL

Configuración de Apache Airflow
Instalación y Configuración:

In [None]:
export AIRFLOW_HOME=~/airflow
pip install apache-airflow
airflow db init
airflow users create --username admin --firstname Admin --lastname User --role Admin --email admin@example.com --password admin


Ejecutar Airflow:

In [None]:
airflow webserver --port 8080
airflow scheduler


Definir el DAG de Airflow:

Crear un archivo etl_pipeline_dag.py en el directorio ~/airflow/dags/.

In [None]:
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime, timedelta

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2023, 1, 1),
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
}

dag = DAG(
    'etl_pipeline',
    default_args=default_args,
    description='ETL pipeline for Yelp and Google data',
    schedule_interval=timedelta(days=1),
)

def run_etl():
    import etl_pipeline  # Asegúrate de que el script ETL esté en el mismo directorio

etl_task = PythonOperator(
    task_id='run_etl',
    python_callable=run_etl,
    dag=dag,
)


# 4. Validación y Monitorización del Proceso
* Validación de Datos
* Validar Datos Después de Cargar en MySQL:
* Crear scripts para validar la calidad de los datos en MySQL.
* Por ejemplo, verificar que no hay valores nulos en campos clave.
* Monitorización
* Usar la Interfaz Web de Airflow:
* Monitorear la ejecución de tareas ETL.
* Configurar alertas por correo electrónico para fallos en las tareas.
* 5. Documentación y Presentación
* Documentar el Ciclo de Vida del Dato:

* Crear un diagrama que muestre el flujo de datos desde la extracción hasta la carga y análisis.
* Explicar cada etapa del proceso y las tecnologías utilizadas.
* Diseñar el Modelo de Datos:

* Crear un DER (Diagrama Entidad-Relación) basado en el análisis de los datos y necesidades del proyecto.
* Justificar la elección del modelo (estrella, copo de nieve, etc.).
* Conclusión
* Este plan detallado abarca todos los pasos necesarios para implementar un pipeline ETL de manera local, utilizando MySQL y Apache Airflow para la automatización. Este enfoque asegura que el proceso sea reproducible, escalable y fácil de monitorear, cumpliendo con los criterios de aprobación requeridos.