# Practica - 07: Proceso ETL con diferentes orgienes o fuentes de datos (Data Source) 

Creado por: Omar Lemuel Espejel Lira

# Ejercicio 1
1. Conexion y carga de datos

In [47]:
from sqlalchemy import create_engine
import pandas as pd

# Crea el engine con SQLAlchemy
engine = create_engine("mysql+mysqlconnector://root:1234@localhost/gym_system")

consulta = "SELECT * FROM tbb_usuarios"
df_mysql = pd.read_sql(consulta, engine)
df_mysql.head()


Unnamed: 0,ID,Nombre_Usuario,Persona_ID,Correo_Electronico,Contrasena,Numero_Telefonico_Movil,Estatus,Fecha_Registro,Fecha_Actualizacion
0,1,lemu,,real@1,$2b$12$B4ggYkfyp5Md15ST52BWWeYR0lBIhMJuO7HCpqO...,,Activo,2025-04-09 09:43:22,2025-04-09 09:43:22
1,2,pepe,,pepe@1,$2b$12$UWb7Jozy7MCWZfoxlkxNe.K4nw.K1t0Fqtw6pUM...,,Activo,2025-04-09 09:44:14,2025-04-09 09:44:14
2,3,juan,,juan@real,$2b$12$4zDfJ5XF2euE6lDv1wA3H.j9ZcqJusng539lB51...,,Activo,2025-04-10 08:49:01,2025-04-10 08:49:01
3,4,Marco Ramirez,,marco@gmail.com,$2b$12$50v9SJ2vstdGKmWIxqzGa.esD/IsLaZHHoDxato...,,Activo,2025-04-11 08:58:35,2025-04-11 08:58:35


2. Limpieza de Datos

In [52]:
# Verificar nulos
df_mysql.isnull().sum()

#  filas con nulos
df_mysql_limpio = df_mysql.fillna(value='N/A')

df_mysql_limpio.head()

Unnamed: 0,ID,Nombre_Usuario,Persona_ID,Correo_Electronico,Contrasena,Numero_Telefonico_Movil,Estatus,Fecha_Registro,Fecha_Actualizacion
0,1,lemu,,real@1,$2b$12$B4ggYkfyp5Md15ST52BWWeYR0lBIhMJuO7HCpqO...,,Activo,2025-04-09 09:43:22,2025-04-09 09:43:22
1,2,pepe,,pepe@1,$2b$12$UWb7Jozy7MCWZfoxlkxNe.K4nw.K1t0Fqtw6pUM...,,Activo,2025-04-09 09:44:14,2025-04-09 09:44:14
2,3,juan,,juan@real,$2b$12$4zDfJ5XF2euE6lDv1wA3H.j9ZcqJusng539lB51...,,Activo,2025-04-10 08:49:01,2025-04-10 08:49:01
3,4,Marco Ramirez,,marco@gmail.com,$2b$12$50v9SJ2vstdGKmWIxqzGa.esD/IsLaZHHoDxato...,,Activo,2025-04-11 08:58:35,2025-04-11 08:58:35


3. Transformación de Datos

In [53]:

# Convertir fechas a datetime
df_mysql_limpio['Fecha_Registro'] = pd.to_datetime(df_mysql_limpio['Fecha_Registro'])
df_mysql_limpio['Fecha_Actualizacion'] = pd.to_datetime(df_mysql_limpio['Fecha_Actualizacion'])

# Crear columna "antigüedad" en días desde el registro
df_mysql_limpio['antiguedad_dias'] = (pd.Timestamp.now() - df_mysql_limpio['Fecha_Registro']).dt.days

# Categorizar por antigüedad
bins = [0, 30, 180, 365, float('inf')]
etiquetas = ['<1 mes', '1-6 meses', '6-12 meses', '>1 año']
df_mysql_limpio['rango_antiguedad'] = pd.cut(df_mysql_limpio['antiguedad_dias'], bins=bins, labels=etiquetas)

df_mysql_limpio.head()

Unnamed: 0,ID,Nombre_Usuario,Persona_ID,Correo_Electronico,Contrasena,Numero_Telefonico_Movil,Estatus,Fecha_Registro,Fecha_Actualizacion,antiguedad_dias,rango_antiguedad
0,1,lemu,,real@1,$2b$12$B4ggYkfyp5Md15ST52BWWeYR0lBIhMJuO7HCpqO...,,Activo,2025-04-09 09:43:22,2025-04-09 09:43:22,75,1-6 meses
1,2,pepe,,pepe@1,$2b$12$UWb7Jozy7MCWZfoxlkxNe.K4nw.K1t0Fqtw6pUM...,,Activo,2025-04-09 09:44:14,2025-04-09 09:44:14,75,1-6 meses
2,3,juan,,juan@real,$2b$12$4zDfJ5XF2euE6lDv1wA3H.j9ZcqJusng539lB51...,,Activo,2025-04-10 08:49:01,2025-04-10 08:49:01,74,1-6 meses
3,4,Marco Ramirez,,marco@gmail.com,$2b$12$50v9SJ2vstdGKmWIxqzGa.esD/IsLaZHHoDxato...,,Activo,2025-04-11 08:58:35,2025-04-11 08:58:35,73,1-6 meses


4. Exportar a Tabla Temporal en MySQL

In [57]:
from sqlalchemy import create_engine, text
import pandas as pd
import datetime

# Crear motor SQLAlchemy
engine = create_engine("mysql+mysqlconnector://root:1234@localhost/gym_system")

# Crear conexión y ejecutar comandos SQL directamente
with engine.connect() as connection:
    # Crear tabla temporal
    connection.execute(text("""
        CREATE TEMPORARY TABLE usuarios_temporal (
            ID INT,
            Nombre_Usuario VARCHAR(100),
            Persona_ID VARCHAR(50),
            Correo_Electronico VARCHAR(100),
            Contrasena TEXT,
            Numero_Telefonico_Movil VARCHAR(20),
            Estatus VARCHAR(20),
            Fecha_Registro DATETIME,
            Fecha_Actualizacion DATETIME,
            antiguedad_dias INT,
            rango_antiguedad VARCHAR(20)
        );
    """))

    # Insertar datos desde el DataFrame
    for _, fila in df_mysql_limpio.iterrows():
        connection.execute(text("""
            INSERT INTO usuarios_temporal (
                ID, Nombre_Usuario, Persona_ID, Correo_Electronico, Contrasena,
                Numero_Telefonico_Movil, Estatus, Fecha_Registro, Fecha_Actualizacion,
                antiguedad_dias, rango_antiguedad
            ) VALUES (
                :ID, :Nombre_Usuario, :Persona_ID, :Correo_Electronico, :Contrasena,
                :Numero_Telefonico_Movil, :Estatus, :Fecha_Registro, :Fecha_Actualizacion,
                :antiguedad_dias, :rango_antiguedad
            );
        """), {
            "ID": fila["ID"],
            "Nombre_Usuario": fila["Nombre_Usuario"],
            "Persona_ID": fila["Persona_ID"],
            "Correo_Electronico": fila["Correo_Electronico"],
            "Contrasena": fila["Contrasena"],
            "Numero_Telefonico_Movil": fila["Numero_Telefonico_Movil"],
            "Estatus": fila["Estatus"],
            "Fecha_Registro": fila["Fecha_Registro"].to_pydatetime() if pd.notnull(fila["Fecha_Registro"]) else None,
            "Fecha_Actualizacion": fila["Fecha_Actualizacion"].to_pydatetime() if pd.notnull(fila["Fecha_Actualizacion"]) else None,
            "antiguedad_dias": int(fila["antiguedad_dias"]) if pd.notnull(fila["antiguedad_dias"]) else None,
            "rango_antiguedad": str(fila["rango_antiguedad"])
        })


# Cargar y mostrar la tabla temporal
consulta_temporal = "SELECT * FROM usuarios_temporal"
df_mysql_temporal = pd.read_sql(consulta_temporal, engine)
df_mysql_temporal.head()


Unnamed: 0,ID,Nombre_Usuario,Persona_ID,Correo_Electronico,Contrasena,Numero_Telefonico_Movil,Estatus,Fecha_Registro,Fecha_Actualizacion,antiguedad_dias,rango_antiguedad
0,1,lemu,,real@1,$2b$12$B4ggYkfyp5Md15ST52BWWeYR0lBIhMJuO7HCpqO...,,Activo,2025-04-09 09:43:22,2025-04-09 09:43:22,75,1-6 meses
1,2,pepe,,pepe@1,$2b$12$UWb7Jozy7MCWZfoxlkxNe.K4nw.K1t0Fqtw6pUM...,,Activo,2025-04-09 09:44:14,2025-04-09 09:44:14,75,1-6 meses
2,3,juan,,juan@real,$2b$12$4zDfJ5XF2euE6lDv1wA3H.j9ZcqJusng539lB51...,,Activo,2025-04-10 08:49:01,2025-04-10 08:49:01,74,1-6 meses
3,4,Marco Ramirez,,marco@gmail.com,$2b$12$50v9SJ2vstdGKmWIxqzGa.esD/IsLaZHHoDxato...,,Activo,2025-04-11 08:58:35,2025-04-11 08:58:35,73,1-6 meses


# Ejercicio 2: Carga de Datos desde una API
1. Importar datos de una API - GET

In [2]:
import requests
import pandas as pd

# URL de la Remotive Jobs API
url = 'https://remotive.com/api/remote-jobs'

# Hacer la petición GET
respuesta = requests.get(url)
data_api = respuesta.json()

# Los datos de trabajos están en la clave "jobs"
jobs = data_api.get('jobs', [])

# Crear el DataFrame directamente
df_api = pd.DataFrame(jobs)

# Mostrar las primeras filas
print(df_api.head())



        id                                                url  \
0  2024708  https://remotive.com/remote-jobs/qa/quality-as...   
1  2023773  https://remotive.com/remote-jobs/hr/recruiter-...   
2  2022195  https://remotive.com/remote-jobs/software-dev/...   
3  2024217  https://remotive.com/remote-jobs/product/produ...   
4  2025027  https://remotive.com/remote-jobs/sales-busines...   

                                      title               company_name  \
0  Quality Assurance Assistant Team Manager  LE009 ModSquad CX Limited   
1                                 Recruiter                     Nebius   
2              Software Engineering Manager                      Lazer   
3  Product Owner, Item Development Platform              College Board   
4                           Team Lead - SDR              Enterprisebot   

                            company_logo              category  \
0  https://remotive.com/job/2024708/logo                    QA   
1  https://remotive.com/job/2023

 2. Limpiar datos

In [6]:
import requests
import pandas as pd

# 1. Llamar a la API
url = 'https://remotive.com/api/remote-jobs'
respuesta = requests.get(url)
data_api = respuesta.json()

# 2. Obtener los trabajos
jobs = data_api.get('jobs', [])
df_api = pd.DataFrame(jobs)

# 3. Seleccionar columnas relevantes
df_api = df_api[['company_name', 'title', 'candidate_required_location', 'salary', 'tags']]

# Renombrar columnas (opcional, para que coincidan con tu código original)
df_api.columns = ['company', 'position', 'location', 'salary', 'tags']

# 4. Eliminar filas sin información salarial
df_api_limpio = df_api.dropna(subset=['salary'])

# 5. Verificar resultado
df_api_limpio.head()



Unnamed: 0,company,position,location,salary,tags
0,LE009 ModSquad CX Limited,Quality Assurance Assistant Team Manager,Jamaica,,[time management]
1,Nebius,Recruiter,USA,competitive salary and comprehensive benefits ...,"[cloud, social media, AI/ML, analytics, brand ..."
2,Lazer,Software Engineering Manager,"USA, Canada",,[team management]
3,College Board,"Product Owner, Item Development Platform",USA,"$80,000-$135,000","[cloud, AI/ML, agile, research, product owner,..."
4,Enterprisebot,Team Lead - SDR,Germany,competitive base salary + performance-based bonus,[lead generation]


3. Transformar datos

In [13]:
# Categorías de salario
bins = [0, 100000, 150000, float('inf')]
etiquetas = ['0 - 100K', '100K - 150K', 'Más de 150K']

# Usar pd.cut para crear columna de rango
df_api_limpio['rango_salarial'] = pd.cut(df_api_limpio['salario_promedio'], bins=bins, labels=etiquetas)

# Verificar resultados
df_api_limpio[['salary', 'salario_promedio', 'rango_salarial']].head()


Unnamed: 0,salary,salario_promedio,rango_salarial
0,,,
1,competitive salary and comprehensive benefits ...,,
2,,,
3,"$80,000-$135,000",107500.0,100K - 150K
4,competitive base salary + performance-based bonus,,


In [None]:
4.exportar