# Desafío

Has recibido una nueva solicitud de las partes interesadas de Zoop, en la que será necesario agregar más columnas de otra base de datos a la tabla consolidada en el video anterior.

A diferencia de las actividades que estamos realizando en los videos de este curso, aquí también utilizaremos esta nueva base para la construcción de los visuales dentro de los ejercicios de "Manos a la obra", enfocándonos en las demandas presentadas en las instrucciones de los ejercicios.

Los archivos que vamos a utilizar en esta parte del proyecto son:

- Datos de clientes del e-commerce de Zoop, separados por el código identificador de la compra.
- Datos de ventas del e-commerce de Zoop en 2023, separados por el código identificador de la compra.
- Datos de clientes pre-registrados en Zoop Pay, la billetera digital de Zoop que está en proceso de implementación.

Estos datos se leerán a través de enlaces (URL) que compartimos a continuación:

```python
url_clientes = "https://gist.githubusercontent.com/ahcamachod/d08898e1cc84c7271856e78d9558ca3d/raw/2f7e1fa53711efe6433a5c5ec79948f600591cb9/clientes_zoop.csv"
url_ventas = "https://gist.githubusercontent.com/ahcamachod/966d7162a3c3a2769b8770b35abf1bcc/raw/d79941b3fa46a450f3611589abd8663399c1277b/ventas_zoop.csv"
url_zoop_pay = "https://gist.githubusercontent.com/ahcamachod/ce728231a836a973c0df94a9f03ed871/raw/8db6da43d7cd94fcab937208067d0fceb521b78c/zoop_pay.csv"
```

Ahora que ya sabemos cuáles son los datos necesarios para la realización del proyecto, vamos a abrir el notebook mencionado anteriormente y realizar la siguiente actividad:

Construye y ejecuta un prompt en ChatGPT solicitando que lea las tres bases de datos y cree una única tabla concatenándolas. Recuerda ser bastante específico en cuanto al orden de las columnas y cuáles serán necesarias para realizar la concatenación de los datos, además de tratar la columna de fecha para el formato adecuado.

**Consejo 1**: Para facilitar el proceso, pide a ChatGPT que primero concatene los datos de clientes y ventas en una tabla llamada df y, finalmente, que concatene esta nueva tabla con la base de clientes pre-registrados en Zoop Pay, generando así la tabla consolidada con todos los datos. Este proceso puede realizarse paso a paso en dos prompts, por ejemplo.

Si necesitas ayuda, una opción de solución de la actividad estará disponible en la sección "Opinión del instructor".

In [1]:
import pandas as pd
import warnings

warnings.filterwarnings("ignore")

url_clientes = "https://gist.githubusercontent.com/ahcamachod/d08898e1cc84c7271856e78d9558ca3d/raw/2f7e1fa53711efe6433a5c5ec79948f600591cb9/clientes_zoop.csv"
url_ventas = "https://gist.githubusercontent.com/ahcamachod/966d7162a3c3a2769b8770b35abf1bcc/raw/d79941b3fa46a450f3611589abd8663399c1277b/ventas_zoop.csv"
url_zoop_pay = "https://gist.githubusercontent.com/ahcamachod/ce728231a836a973c0df94a9f03ed871/raw/8db6da43d7cd94fcab937208067d0fceb521b78c/zoop_pay.csv"

In [2]:
clientes = pd.read_csv(url_clientes)
ventas = pd.read_csv(url_ventas)
ventas["fecha"] = pd.to_datetime(ventas["fecha"], format="%Y-%m-%d")
ventas["horario"] = pd.to_datetime(ventas["horario"], format="%H:%M").dt.time

df = pd.merge(ventas, clientes, on="ID_compra", how="inner")
# Reorganizar las columnas en el orden deseado
columnas_ordenadas = [
    "ID_compra",
    "fecha",
    "horario",
    "categoria",
    "precio_unitario",
    "cantidad",
    "envio",
    "metodo_pago",
    "ID_cliente",
    "edad",
    "sexo_biologico",
    "ciudad",
    "estado",
    "region",
    "cashback",
    "nota",
]

# Aplicar el orden de las columnas
df = df[columnas_ordenadas]

**Prompt**

En este mismo proyecto estás por crear un nuevo notebook jupyter. Se te pide que leas 3 bases de datos en formato csv utilizando python pandas, a las dos anteriores (clientes y ventas) se sumará una tercera llamada zoom_pay, que está relacionada con la billetera digital de la empresa que está en proceso de implementación.
Las bases de datos las puedes encontrar aquí:
```python
url_clientes = "https://gist.githubusercontent.com/ahcamachod/d08898e1cc84c7271856e78d9558ca3d/raw/2f7e1fa53711efe6433a5c5ec79948f600591cb9/clientes_zoop.csv"
url_ventas = "https://gist.githubusercontent.com/ahcamachod/966d7162a3c3a2769b8770b35abf1bcc/raw/d79941b3fa46a450f3611589abd8663399c1277b/ventas_zoop.csv"
url_zoop_pay = "https://gist.githubusercontent.com/ahcamachod/ce728231a836a973c0df94a9f03ed871/raw/8db6da43d7cd94fcab937208067d0fceb521b78c/zoop_pay.csv"
```

Genera en Python un código para consolidar todos los datos en una sola tabla. Pasos a seguir:
1. lee las tres bases de datos
2. concatenar las bases de datos `clientes` y `ventas` en una única tabla llamada `df` utilizando como llave la columna `ID_compra`
3. concatenar la nueva tabla `df` con la tabla `zoop_pay` utilizando como llave la columna `ID_cliente`
4. El orden que deben tener las columnas es:
    - ID_compra
    - fecha
    - horario
    - categoria
    - precio_unitario
    - cantidad
    - envio
    - metodo_pago
    - ID_cliente
    - edad
    - sexo_biologico
    - ciudad
    - estado
    - region
    - cashback
    - zoop_pay
5. Incluye un tratamiento a la columna de fecha para que sea de tipo datetime

**Respuesta**

Perfecto. A continuación tienes un código en Python que puedes usar en un nuevo notebook de Jupyter para **leer y consolidar las tres bases de datos CSV** usando pandas, con el orden de columnas y el tratamiento solicitado:

```python
import pandas as pd

# 1. Leer las bases de datos
url_clientes = "https://gist.githubusercontent.com/ahcamachod/d08898e1cc84c7271856e78d9558ca3d/raw/2f7e1fa53711efe6433a5c5ec79948f600591cb9/clientes_zoop.csv"
url_ventas = "https://gist.githubusercontent.com/ahcamachod/966d7162a3c3a2769b8770b35abf1bcc/raw/d79941b3fa46a450f3611589abd8663399c1277b/ventas_zoop.csv"
url_zoop_pay = "https://gist.githubusercontent.com/ahcamachod/ce728231a836a973c0df94a9f03ed871/raw/8db6da43d7cd94fcab937208067d0fceb521b78c/zoop_pay.csv"

clientes = pd.read_csv(url_clientes)
ventas = pd.read_csv(url_ventas)
zoop_pay = pd.read_csv(url_zoop_pay)

# 2. Unir ventas y clientes por 'ID_compra'
df = pd.merge(ventas, clientes, on='ID_compra', how='inner')

# 3. Unir con la base zoop_pay por 'ID_cliente'
df = pd.merge(df, zoop_pay, on='ID_cliente', how='left')

# 4. Renombrar columnas para estandarizar nombres
df = df.rename(columns={
    'fecha de la compra': 'fecha',
    'hora de la compra': 'horario',
    'categoría del producto': 'categoria',
    'precio unitario del producto': 'precio_unitario',
    'cantidad vendida': 'cantidad',
    'método de pago': 'metodo_pago',
    'sexo biológico': 'sexo_biologico',
    'programa de cashback': 'cashback'
})

# 5. Asegurar tipo datetime para la columna 'fecha'
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

# 6. Reordenar las columnas en el orden solicitado
columnas_ordenadas = [
    'ID_compra',
    'fecha',
    'horario',
    'categoria',
    'precio_unitario',
    'cantidad',
    'envio',
    'metodo_pago',
    'ID_cliente',
    'edad',
    'sexo_biologico',
    'ciudad',
    'estado',
    'region',
    'cashback',
    'zoop_pay'
]

df = df[columnas_ordenadas]
```

✅ **Resultado:** El DataFrame `df` contiene todos los datos consolidados, con las columnas correctamente ordenadas y la fecha ya convertida al tipo `datetime`.

¿Quieres que también te ayude a verificar valores nulos, preparar visualizaciones o analizar la adopción de `zoop_pay`?


In [6]:
clientes = pd.read_csv(url_clientes)
ventas = pd.read_csv(url_ventas)
zoop_pay = pd.read_csv(url_zoop_pay)

# 2. Unir ventas y clientes por 'ID_compra'
df = pd.merge(ventas, clientes, on="ID_compra", how="inner")

# 3. Unir con la base zoop_pay por 'ID_cliente'
df = pd.merge(df, zoop_pay, on="ID_cliente", how="left")

# 4. Renombrar columnas para estandarizar nombres
df = df.rename(
    columns={
        "fecha de la compra": "fecha",
        "hora de la compra": "horario",
        "categoría del producto": "categoria",
        "precio unitario del producto": "precio_unitario",
        "cantidad vendida": "cantidad",
        "método de pago": "metodo_pago",
        "sexo biológico": "sexo_biologico",
        "programa de cashback": "cashback",
    }
)

# 5. Asegurar tipo datetime para la columna 'fecha'
df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")

# 6. Reordenar las columnas en el orden solicitado
columnas_ordenadas = [
    "ID_compra",
    "fecha",
    "horario",
    "categoria",
    "precio_unitario",
    "cantidad",
    "envio",
    "metodo_pago",
    "ID_cliente",
    "edad",
    "sexo_biologico",
    "ciudad",
    "estado",
    "region",
    "cashback",
    "zoop_pay",
]

df = df[columnas_ordenadas]
df.head()

Unnamed: 0,ID_compra,fecha,horario,categoria,precio_unitario,cantidad,envio,metodo_pago,ID_cliente,edad,sexo_biologico,ciudad,estado,region,cashback,zoop_pay
0,6,2023-01-03,20:40,Electrónicos,4457.9,4,713.26,Paypal,6149,30,Masculino,Hermosillo,Sonora,Noroeste,Sí,No
1,5,2023-01-03,21:48,Herramientas y construcción,115.9,1,0.0,Transferencia,9491,36,Masculino,Ciudad de México,Ciudad de México,Centro,Sí,Sí
2,9,2023-01-03,17:08,Belleza e higiene,68.9,2,13.78,Tarjeta de Crédito,5288,39,Femenino,Aguascalientes,Aguascalientes,Centro-Norte,No,No
3,4,2023-01-03,14:29,Herramientas y construcción,80.9,5,40.45,Transferencia,9679,35,Masculino,Veracruz,Veracruz,Golfo,Sí,Sí
4,8,2023-01-03,18:02,Belleza e higiene,165.0,4,0.0,Transferencia,1380,50,Masculino,Ciudad de México,Ciudad de México,Centro,No,No
