Un proceso ETL (Extract, Transform, Load) es fundamental para mover datos de una fuente a otra mientras se asegura que estén limpios, transformados y listos para su uso. Aquí tienes un paso a paso general de cómo puedes llevar a cabo un ETL utilizando Python y Pandas:

Paso 1: Extracción (Extract)
Importar las bibliotecas necesarias:

python
Copy code
import pandas as pd
Leer los datos desde la fuente:
Puedes extraer datos desde múltiples fuentes, como archivos CSV, bases de datos, APIs, etc. Aquí hay ejemplos para diferentes fuentes:

Desde un archivo CSV:
python
Copy code
df = pd.read_csv('ruta/al/archivo.csv')
Desde una base de datos (usando SQLAlchemy):
python
Copy code
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://usuario:contraseña@host:puerto/nombre_db')
df = pd.read_sql('nombre_tabla', con=engine)
Desde una API:
python
Copy code
import requests

response = requests.get('https://api.ejemplo.com/data')
data = response.json()
df = pd.DataFrame(data)
Paso 2: Transformación (Transform)
Limpiar los datos:

Eliminar duplicados:
python
Copy code
df.drop_duplicates(inplace=True)
Manejar valores faltantes:
python
Copy code
df.fillna(method='ffill', inplace=True)  # Ejemplo de llenado hacia adelante
Modificar datos:

Convertir tipos de datos:
python
Copy code
df['columna'] = df['columna'].astype('tipo')
Crear nuevas columnas:
python
Copy code
df['nueva_columna'] = df['columna_existente'].apply(lambda x: x * 2)  # Ejemplo de transformación
Filtrar datos:

python
Copy code
df = df[df['columna'] > valor]
Agregar datos:

Agrupar y agregar:
python
Copy code
df_grouped = df.groupby('columna').agg({'columna_a_agregar': 'funcion'})
Paso 3: Carga (Load)
Guardar los datos transformados en el destino:
Guardar en un archivo CSV:
python
Copy code
df.to_csv('ruta/al/archivo_transformado.csv', index=False)
Cargar a una base de datos:
python
Copy code
df.to_sql('nombre_tabla', con=engine, if_exists='replace', index=False)
Guardar en un archivo Excel:
python
Copy code
df.to_excel('ruta/al/archivo_transformado.xlsx', index=False)
Ejemplo Completo
Aquí tienes un ejemplo completo de un ETL simple:

python
Copy code
import pandas as pd
from sqlalchemy import create_engine
import requests

# Extracción
# Leer desde un archivo CSV
df = pd.read_csv('ruta/al/archivo.csv')

# Transformación
# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Manejar valores faltantes
df.fillna(method='ffill', inplace=True)

# Convertir tipos de datos
df['fecha'] = pd.to_datetime(df['fecha'])

# Crear nueva columna
df['monto_total'] = df['cantidad'] * df['precio_unitario']

# Filtrar datos
df = df[df['monto_total'] > 1000]

# Agrupar y agregar
df_grouped = df.groupby('categoria').agg({'monto_total': 'sum'}).reset_index()

# Carga
# Guardar en un archivo CSV
df_grouped.to_csv('ruta/al/archivo_transformado.csv', index=False)

# Cargar a una base de datos
engine = create_engine('mysql+pymysql://usuario:contraseña@host:puerto/nombre_db')
df_grouped.to_sql('nombre_tabla', con=engine, if_exists='replace', index=False)


### Este es un flujo ETL básico usando Python y Pandas. Dependiendo de tus necesidades, el flujo puede volverse más complejo e incluir más pasos de transformación y validación de datos.