# Práctica 7 - Carga de Datos
Ejercicio completo desde Jupyter Notebook usando pandas, API, y MySQL (simulado).

In [20]:
# Importar librerías necesarias
import pandas as pd
from sqlalchemy import create_engine

# Conexión a la base de datos MySQL
engine = create_engine("mysql+mysqlconnector://root:Mv7767572@localhost/tienda_online")

In [26]:
# 1. EXTRACCIÓN: Cargar datos desde una base de datos relacional
query = """
SELECT 
    p.id_pedido, c.nombre AS cliente, c.pais,
    pr.nombre_producto, pr.categoria, pr.precio,
    p.cantidad, p.fecha_pedido,
    (pr.precio * p.cantidad) AS total
FROM pedidos p
JOIN clientes c ON p.id_cliente = c.id_cliente
JOIN productos pr ON p.id_producto = pr.id_producto
"""
df = pd.read_sql(query, con=engine)
print("Datos extraídos de MySQL:")
print(df.head())

Datos extraídos de MySQL:
   id_pedido      cliente       pais nombre_producto   categoria    precio  \
0          1   Luis Pérez     México   Laptop Lenovo  Tecnología  15999.99   
1          2   Ana Torres  Argentina          Iphone  Tecnología   8999.50   
2          4   Luis Pérez     México     Silla Gamer     Muebles   4590.75   
3          5  Carmen Díaz   Colombia          Iphone  Tecnología   8999.50   
4          6   Ana Torres  Argentina   Laptop Lenovo  Tecnología  15999.99   

   cantidad fecha_pedido     total  
0       1.0   2024-04-15  15999.99  
1       2.0   2024-05-01  17999.00  
2       1.0   2024-06-01   4590.75  
3       1.0   2024-06-15   8999.50  
4       NaN   2005-06-22       NaN  


In [24]:
# 2. LIMPIEZA DE DATOS
# Eliminar duplicados
df = df.drop_duplicates()

# Eliminar filas con valores nulos 
df = df.dropna()

print("Datos después de limpieza:")
print(df.head())


Datos después de limpieza:
   id_pedido      cliente       pais nombre_producto   categoria    precio  \
0          1   Luis Pérez     México   Laptop Lenovo  Tecnología  15999.99   
1          2   Ana Torres  Argentina                  Tecnología   8999.50   
2          4   Luis Pérez     México     Silla Gamer     Muebles   4590.75   
3          5  Carmen Díaz   Colombia                  Tecnología   8999.50   

   cantidad fecha_pedido     total  
0       1.0   2024-04-15  15999.99  
1       2.0   2024-05-01  17999.00  
2       1.0   2024-06-01   4590.75  
3       1.0   2024-06-15   8999.50  


In [11]:
# 3. TRANSFORMACIÓN DE DATOS
# Crear nueva columna categorizando el total del pedido
df['categoria_total'] = pd.cut(df['total'],
                               bins=[0, 5000, 15000, float('inf')],
                               labels=['Bajo', 'Medio', 'Alto'])

print(" Datos transformados con categoría:")
print(df[['cliente', 'total', 'categoria_total']].head())

 Datos transformados con categoría:
        cliente     total categoria_total
0    Luis Pérez  15999.99            Alto
1    Luis Pérez   4590.75            Bajo
2    Ana Torres  17999.00            Alto
3  Javier Gómez   1250.00            Bajo
4   Carmen Díaz   8999.50           Medio


In [12]:
# 4. CARGA / EXPORTACIÓN DE DATOS
# Guardar en nueva tabla MySQL
df.to_sql(name='resumen_pedidos', con=engine, if_exists='replace', index=False)

# También puedes exportarlo a un archivo CSV
df.to_csv('resumen_pedidos.csv', index=False)

print("Datos cargados a tabla 'resumen_pedidos' y exportados como 'resumen_pedidos.csv'")

Datos cargados a tabla 'resumen_pedidos' y exportados como 'resumen_pedidos.csv'


## Ejercicio 2 - Obtener Datos desde una API

In [20]:
# 1. Importar desde API
import requests # Librería para hacer peticiones HTTP
import pandas as pd  # Librería para trabajar con datos tabulares
# Hacer la solicitud GET a la API
url = 'https://jsonplaceholder.typicode.com/users'
response = requests.get(url)
# Convertir la respuesta en formato JSON a un diccionario/lista de Python
api_data = response.json()
# Crear un DataFrame con los datos obtenidos
df_api = pd.DataFrame(api_data)
df_api.head()

Unnamed: 0,id,name,username,email,address,phone,website,company
0,1,Leanne Graham,Bret,Sincere@april.biz,"{'street': 'Kulas Light', 'suite': 'Apt. 556',...",1-770-736-8031 x56442,hildegard.org,"{'name': 'Romaguera-Crona', 'catchPhrase': 'Mu..."
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"{'street': 'Victor Plains', 'suite': 'Suite 87...",010-692-6593 x09125,anastasia.net,"{'name': 'Deckow-Crist', 'catchPhrase': 'Proac..."
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"{'street': 'Douglas Extension', 'suite': 'Suit...",1-463-123-4447,ramiro.info,"{'name': 'Romaguera-Jacobson', 'catchPhrase': ..."
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"{'street': 'Hoeger Mall', 'suite': 'Apt. 692',...",493-170-9623 x156,kale.biz,"{'name': 'Robel-Corkery', 'catchPhrase': 'Mult..."
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"{'street': 'Skiles Walks', 'suite': 'Suite 351...",(254)954-1289,demarco.info,"{'name': 'Keebler LLC', 'catchPhrase': 'User-c..."


In [21]:
# 2. Limpieza de Datos API
df_api = df_api[['id', 'name', 'email']]
df_api.head()

Unnamed: 0,id,name,email
0,1,Leanne Graham,Sincere@april.biz
1,2,Ervin Howell,Shanna@melissa.tv
2,3,Clementine Bauch,Nathan@yesenia.net
3,4,Patricia Lebsack,Julianne.OConner@kory.org
4,5,Chelsey Dietrich,Lucio_Hettinger@annie.ca


In [25]:
# 3. Transformación
# Convertir todos los nombres de la columna 'name' a mayúsculas
df_api['name'] = df_api['name'].str.upper()
df_api.head()

Unnamed: 0,id,name,email
0,1,LEANNE GRAHAM,Sincere@april.biz
1,2,ERVIN HOWELL,Shanna@melissa.tv
2,3,CLEMENTINE BAUCH,Nathan@yesenia.net
3,4,PATRICIA LEBSACK,Julianne.OConner@kory.org
4,5,CHELSEY DIETRICH,Lucio_Hettinger@annie.ca


In [23]:
# Mostrar las primeras 5 filas del DataFrame transformado
print(df_api.head())
# Mostrar los nombres de las columnas disponibles en el DataFrame
print(df_api.columns)

   id              name                      email
0   1     LEANNE GRAHAM          Sincere@april.biz
1   2      ERVIN HOWELL          Shanna@melissa.tv
2   3  CLEMENTINE BAUCH         Nathan@yesenia.net
3   4  PATRICIA LEBSACK  Julianne.OConner@kory.org
4   5  CHELSEY DIETRICH   Lucio_Hettinger@annie.ca
Index(['id', 'name', 'email'], dtype='object')


In [24]:
# 4. Exportar a CSV
import os# Módulo para trabajar con rutas de archivos

# Opción 1: Guardar el archivo en la carpeta del usuario
output_path = os.path.join(os.path.expanduser("~"), "datos_api_limpios.csv")
df_api.to_csv(output_path, index=False)  # Exporta sin el índice del DataFrame

# Opción 2: Guardar en el directorio actual (por ejemplo, donde está tu notebook o script)
# Si el archivo ya está abierto (por ejemplo, en Excel), se maneja el error y guarda con otro nombre
try:
    df_api.to_csv('datos_api_limpios.csv', index=False)
except PermissionError:
    # Try with a different filename
    df_api.to_csv('datos_api_limpios_new.csv', index=False)
    print("File saved as 'datos_api_limpios_new.csv' because the original file was locked")