# Desafío técnico: clientes y pedidos: ¡el elemento vital de cualquier negocio!

Este cuaderno depende de dos archivos de datos: clients.scv y orders.csv. Estos archivos están alojados en la nube (o Github), por lo que, para simplificar, le proporcionamos el código para descargar y guardar los dos archivos en una carpeta llamada 'sample_data' que se encuentra dentro de esta sesión del cuaderno (no en su computadora local ni en Google Drive).

![carpeta sample_data en la sesión del cuaderno](https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/images/sample_data_folder.png)

Ejecute el primer fragmento de código antes de pasar al resto del ejercicio, ya que este código importará los datos de los archivos para que pueda ejecutar el resto del ejercicio.

Recuerda que, como dijimos en la lección anterior, debes guardar este cuaderno en tu Google Drive yendo al menú Archivo/Guardar una copia en Drive o haciendo clic en el botón "Copiar en Drive". De esta manera, no perderás ningún trabajo que hayas realizado y el archivo conservará los últimos cambios en tu Google Drive. También te recomendamos que cambies el nombre de tu .ipynb en tu Google Drive, para que puedas encontrarlo fácilmente en el futuro.

In [7]:
import requests

def import_data_files():
  r = requests.get('https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/data/customers.csv')
  with open('./sample_data/customers.csv', 'wb') as f:
    f.write(r.content)

  r = requests.get('https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/data/orders.csv')
  with open('./sample_data/orders.csv', 'wb') as f:
    f.write(r.content)

import_data_files()
print("Se han agregado archivos CSV de clientes y pedidos './sample_data'")

Se han agregado archivos CSV de clientes y pedidos './sample_data'


# Ejercicio 1: Procesamiento de datos de clientes (dificultad media)

Los datos de ejemplo de clientes en el archivo 'customers.csv' tienen solo 5 columnas: CustomerId, Nombre, Apellido, Ciudad y Estado

![Ejemplo de datos](https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/images/customers.png)

Recomendamos enfáticamente que completes la siguiente sección del [Curso de preparación: Introducción a Python](https://colab.research.google.com/github/anyoneai/notebooks/blob/main/python3_crash_course.ipynb):
- Sección 7: E/S de archivos (para comprender cómo leer archivos CSV)
- Sección 6: Bucle For (para navegar por el contenido del archivo CSV)
- Sección 5: Tuplas, listas y diccionarios (para manipular los datos del archivo CSV)

Con esto, esperamos que puedas completar este ejercicio con éxito. Aunque si quieres resolver esto con bibliotecas o de cualquier otra forma, eres bienvenido a hacerlo a tu manera.

*Sugerencia:* Te recomendamos que mires los datos antes de comenzar.
**Si quieres mirar manualmente los datos antes de comenzar, consulta el contenido de los datos [aquí](https://github.com/anyoneai/notebooks/blob/main/customers_and_orders/data/customers.csv).

*Sugerencia*: Hay muchas formas de hacer este ejercicio, puedes hacerlo tú mismo, aunque aquí tienes algo de ayuda. Puedes resolver este ejercicio leyendo y analizando archivos CSV, estructurando datos en diccionarios y usando bucles for para navegar por el contenido.

*Sugerencia*: Además, ten en cuenta que los datos pueden no estar limpios y es posible que tengas que averiguar cómo manejarlos desde el código, sin tener que modificar la fuente de datos.

A continuación se muestran las 5 preguntas que tendrás que responder para aprobar la evaluación:

**Pregunta 1:** ¿Cuántos clientes hay en el archivo?
(Para mayor ayuda, hemos agregado algunos comentarios y un código de inicio para ayudarlo a estructurar la solución)

In [9]:
# Importar bibliotecas necesarias
import csv
from os.path import exists

# Ruta del archivo de clientes
customers_file = "./sample_data/customers.csv"

# Comprobar si el archivo existe
if not exists(customers_file):
    raise SystemExit("🚨 ERROR: ¡Debes ejecutar la primera celda de código para descargar los archivos de datos!")

# Función para mostrar los nombres de las columnas
def show_column_names(file_path):
    with open(file_path, 'r') as fl:
        csvreader = csv.reader(fl, delimiter=',')
        # Obtener el encabezado (nombres de columnas)
        header = next(csvreader)
        print(f"\n📂 Columnas en {file_path}:")
        print("┌" + "─" * (len(', '.join(header)) + 2) + "┐")
        print(f"│ {', '.join(header)} │")
        print("└" + "─" * (len(', '.join(header)) + 2) + "┘")

# Mostrar las columnas del archivo customers.csv
show_column_names("./sample_data/customers.csv")

# Mostrar las columnas del archivo orders.csv
show_column_names("./sample_data/orders.csv")

# Inicializar un contador para los clientes
customer_count = 0

# Abrir el archivo CSV y leer las filas
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')
    # Saltar el encabezado
    header = next(csvreader)
    # Contar las filas restantes
    for row in csvreader:
        customer_count += 1

# Mostrar el número total de clientes
print("\n" + "★" * 50)
print(f"🌟 El número total de clientes es: {customer_count}")
print("★" * 50)

print("\n✅ ¡Todo listo!")



📂 Columnas en ./sample_data/customers.csv:
┌──────────────────────────────────────────────┐
│ CustomerID, FirstName, LastName, City, State │
└──────────────────────────────────────────────┘

📂 Columnas en ./sample_data/orders.csv:
┌───────────────────────────────────────────────────────────┐
│ CustomerID, OrderID, Date, OrderTotal, ProductName, Price │
└───────────────────────────────────────────────────────────┘

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
🌟 El número total de clientes es: 602
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

✅ ¡Todo listo!


**Pregunta 2:** ¿En cuántos estados diferentes viven los clientes?

In [6]:
# Ruta del archivo de clientes
customers_file = "./sample_data/customers.csv"

# Inicializar un conjunto para almacenar los estados únicos
unique_states = set()

# Abrir el archivo CSV y leer las filas
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar la columna de estados
    state_index = header.index("State")

    # Recopilar estados únicos con normalización
    for row in csvreader:
        # Normalizar el estado a mayúsculas
        state = row[state_index].strip().upper()
        unique_states.add(state)

# Calcular el número de estados únicos
num_states = len(unique_states)

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 50)
print("🌎  ANÁLISIS DE ESTADOS EN EL ARCHIVO CSV")
print("=" * 50)
print(f"📊 Total de estados únicos encontrados: {num_states}")
print("📍 Lista de estados únicos:")
print("┌" + "─" * 48 + "┐")
for state in sorted(unique_states):
    print(f"│ {state.ljust(46)} │")
print("└" + "─" * 48 + "┘")
print("\n✅ ¡Análisis completado con éxito!")


🌎  ANÁLISIS DE ESTADOS EN EL ARCHIVO CSV
📊 Total de estados únicos encontrados: 14
📍 Lista de estados únicos:
┌────────────────────────────────────────────────┐
│ AZ                                             │
│ CA                                             │
│ CO                                             │
│ FL                                             │
│ ID                                             │
│ IN                                             │
│ MA                                             │
│ NH                                             │
│ NM                                             │
│ NV                                             │
│ OR                                             │
│ TX                                             │
│ UT                                             │
│ WA                                             │
└────────────────────────────────────────────────┘

✅ ¡Análisis completado con éxito!


**Pregunta 3** ¿Cuál es el estado con la mayoría de los clientes?

In [7]:
# Importar bibliotecas necesarias
from collections import Counter

# Ruta del archivo de clientes
customers_file = "./sample_data/customers.csv"

# Inicializar un contador para los estados
state_counter = Counter()

# Abrir el archivo CSV y contar los estados
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "State"
    state_index = header.index("State")

    # Contar las ocurrencias de cada estado, normalizando a mayúsculas
    for row in csvreader:
        state = row[state_index].strip().upper()  # Normalizar el estado
        state_counter[state] += 1

# Encontrar el estado con más clientes
most_common_state = state_counter.most_common(1)[0]  # Devuelve (estado, número de clientes)

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 50)
print("🌎  ANÁLISIS DE CLIENTES POR ESTADO")
print("=" * 50)
print(f"🏆 Estado con más clientes: {most_common_state[0]}")
print(f"👥 Número de clientes: {most_common_state[1]}")

# Mostrar la distribución completa de clientes por estado
print("\n📊 Distribución completa de clientes por estado:")
print("┌" + "─" * 30 + "┬" + "─" * 15 + "┐")
print(f"│ {'Estado'.ljust(30)} │ {'Clientes'.rjust(13)} │")
print("├" + "─" * 30 + "┼" + "─" * 15 + "┤")
for state, count in state_counter.most_common():
    print(f"│ {state.ljust(30)} │ {str(count).rjust(13)} │")
print("└" + "─" * 30 + "┴" + "─" * 15 + "┘")
print("\n✅ ¡Análisis completado con éxito!")



🌎  ANÁLISIS DE CLIENTES POR ESTADO
🏆 Estado con más clientes: CA
👥 Número de clientes: 569

📊 Distribución completa de clientes por estado:
┌──────────────────────────────┬───────────────┐
│ Estado                         │      Clientes │
├──────────────────────────────┼───────────────┤
│ CA                             │           569 │
│ NV                             │             8 │
│ AZ                             │             6 │
│ FL                             │             3 │
│ CO                             │             3 │
│ NM                             │             3 │
│ TX                             │             2 │
│ UT                             │             2 │
│ WA                             │             1 │
│ NH                             │             1 │
│ ID                             │             1 │
│ OR                             │             1 │
│ MA                             │             1 │
│ IN                             │             

**Pregunta 4** ¿Cuál es el estado con menos clientes?

In [8]:
# Importar bibliotecas necesarias
from collections import Counter

# Ruta del archivo de clientes
customers_file = "./sample_data/customers.csv"

# Inicializar un contador para los estados
state_counter = Counter()

# Abrir el archivo CSV y contar los estados
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "State"
    state_index = header.index("State")

    # Contar las ocurrencias de cada estado, normalizando a mayúsculas
    for row in csvreader:
        state = row[state_index].strip().upper()  # Normalizar el estado
        state_counter[state] += 1

# Encontrar el estado con menos clientes
least_common_state = min(state_counter.items(), key=lambda x: x[1])  # Devuelve (estado, número de clientes)

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 50)
print("🌟  ANÁLISIS DE CLIENTES POR ESTADO")
print("=" * 50)
print(f"🏅 Estado con menor número de clientes: {least_common_state[0]}")
print(f"👥 Número de clientes: {least_common_state[1]}")
print("\n📊 Distribución completa de clientes por estado:")
print("┌" + "─" * 30 + "┬" + "─" * 15 + "┐")
print(f"│ {'Estado'.ljust(30)} │ {'Clientes'.rjust(13)} │")
print("├" + "─" * 30 + "┼" + "─" * 15 + "┤")
for state, count in state_counter.most_common():
    print(f"│ {state.ljust(30)} │ {str(count).rjust(13)} │")
print("└" + "─" * 30 + "┴" + "─" * 15 + "┘")
print("\n✅ ¡Análisis completado con éxito!")


🌟  ANÁLISIS DE CLIENTES POR ESTADO
🏅 Estado con menor número de clientes: WA
👥 Número de clientes: 1

📊 Distribución completa de clientes por estado:
┌──────────────────────────────┬───────────────┐
│ Estado                         │      Clientes │
├──────────────────────────────┼───────────────┤
│ CA                             │           569 │
│ NV                             │             8 │
│ AZ                             │             6 │
│ FL                             │             3 │
│ CO                             │             3 │
│ NM                             │             3 │
│ TX                             │             2 │
│ UT                             │             2 │
│ WA                             │             1 │
│ NH                             │             1 │
│ ID                             │             1 │
│ OR                             │             1 │
│ MA                             │             1 │
│ IN                             │   

Pregunta 5: ¿Cuál es el apellido más común?

In [9]:
# Importar bibliotecas necesarias
from collections import Counter

# Ruta del archivo de clientes
customers_file = "./sample_data/customers.csv"

# Inicializar un contador para los apellidos
last_name_counter = Counter()

# Abrir el archivo CSV y contar los apellidos
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "LastName"
    last_name_index = header.index("LastName")

    # Contar las ocurrencias de cada apellido
    for row in csvreader:
        last_name_counter[row[last_name_index]] += 1

# Encontrar el apellido más común
most_common_last_name = last_name_counter.most_common(1)[0]  # Devuelve (apellido, número de apariciones)

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 50)
print("🌟  ANÁLISIS DE APELLIDOS EN EL REGISTRO")
print("=" * 50)
print(f"🏅 Apellido más común: {most_common_last_name[0]}")
print(f"👥 Número de apariciones: {most_common_last_name[1]}")
print("\n📊 Distribución completa de apellidos:")
print("┌" + "─" * 30 + "┬" + "─" * 15 + "┐")
print(f"│ {'Apellido'.ljust(30)} │ {'Apariciones'.rjust(13)} │")
print("├" + "─" * 30 + "┼" + "─" * 15 + "┤")
for last_name, count in last_name_counter.most_common(10):  # Mostrar los 10 apellidos más comunes
    print(f"│ {last_name.ljust(30)} │ {str(count).rjust(13)} │")
print("└" + "─" * 30 + "┴" + "─" * 15 + "┘")
print("\n✅ ¡Análisis completado con éxito!")


🌟  ANÁLISIS DE APELLIDOS EN EL REGISTRO
🏅 Apellido más común: Smith
👥 Número de apariciones: 8

📊 Distribución completa de apellidos:
┌──────────────────────────────┬───────────────┐
│ Apellido                       │   Apariciones │
├──────────────────────────────┼───────────────┤
│ Smith                          │             8 │
│ Gomez                          │             5 │
│ Zambrana                       │             5 │
│ Doggett                        │             5 │
│ Huynh                          │             4 │
│ Rocha                          │             4 │
│ Reyes                          │             4 │
│ McMahon                        │             4 │
│ Garcia                         │             4 │
│ Gonzalez                       │             4 │
└──────────────────────────────┴───────────────┘

✅ ¡Análisis completado con éxito!


# Ejercicio 2: Procesamiento de datos de pedidos (dificultad alta)

El segundo archivo de muestra contiene los pedidos realizados por los clientes del primer archivo. Tenga cuidado, este archivo tiene muchas filas y es muy probable que no deba imprimir el contenido de todo el archivo.

El archivo contiene las siguientes columnas: CustomerID, OrderID, Date, OrderTotal, ProductName, Price

![Ejemplo de datos](https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/images/orders.png)

*Sugerencia:* Le recomendamos que eche un vistazo a los datos antes de comenzar.
**Si desea echar un vistazo manualmente a los datos antes de comenzar, consulte el contenido de los datos [aquí](https://raw.githubusercontent.com/anyoneai/notebooks/main/customers_and_orders/data/orders.csv).

*Sugerencia*: Hay muchas formas de hacer este ejercicio, puede hacerlo usted mismo, aunque aquí tiene algo de ayuda. Puedes resolver este ejercicio leyendo y analizando archivos CSV, estructurando datos en diccionarios y usando bucles for para navegar por el contenido.

*Pista*: Además, los datos no están limpios y tendrás que averiguar cómo manejarlos desde el código, sin tener que modificar la fuente de datos.

**Pregunta n.° 1:** ¿Cuántos pedidos únicos hay en el archivo orders.csv?

**Pregunta n.° 2:** ¿Cuál es la cantidad promedio de artículos por pedido (redondeada a dos decimales)?

**Pregunta n.° 3:** ¿Cuál es la mayor cantidad de artículos por pedido?

**Pregunta n.° 4:** ¿Cuál es la cantidad de pedidos realizados en octubre de 2021?

**Pregunta n.° 5:** ¿Qué cliente gastó la mayor cantidad de dinero en 2021?

**Pregunta n.° 6:** Históricamente, ¿cuál es el mejor mes para las ventas?

Una vez que obtengas tus respuestas, recuerda volver al curso y presentarlas en el cuestionario de opción múltiple

In [10]:
# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Leer y mostrar los datos
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Leer el encabezado
    header = next(csvreader)

    # Encabezado gráfico
    print("\n" + "=" * 60)
    print("📦  REVISIÓN DEL ARCHIVO DE ÓRDENES")
    print("=" * 60)
    print(f"🔑 Columnas encontradas: {', '.join(header)}")
    print("=" * 60)

    # Mostrar las primeras 5 filas
    print("🔍 Primeras 5 filas del archivo:\n")
    print("┌" + "─" * 10 + "┬" + "─" * (len(header) * 15) + "┐")
    print(f"│ {'Fila #'.center(10)} │ {' | '.join(header).center(len(header) * 15)} │")
    print("├" + "─" * 10 + "┼" + "─" * (len(header) * 15) + "┤")

    for i, row in enumerate(csvreader):
        if i < 5:
            print(f"│ {str(i+1).center(10)} │ {' | '.join(row).center(len(header) * 15)} │")
        else:
            break

    print("└" + "─" * 10 + "┴" + "─" * (len(header) * 15) + "┘")
    print("\n✅ ¡Revisión completada con éxito!")



📦  REVISIÓN DEL ARCHIVO DE ÓRDENES
🔑 Columnas encontradas: CustomerID, OrderID, Date, OrderTotal, ProductName, Price
🔍 Primeras 5 filas del archivo:

┌──────────┬──────────────────────────────────────────────────────────────────────────────────────────┐
│   Fila #   │               CustomerID | OrderID | Date | OrderTotal | ProductName | Price               │
├──────────┼──────────────────────────────────────────────────────────────────────────────────────────┤
│     1      │             8091 | 7742581 | 2021-07-26 14:40:10.783 | 95.0000 | Z03 | 90.0000             │
│     2      │         902139 | 7742778 | 2021-08-08 05:01:21.120 | 60.0000 | 0844 A/C | 60.0000          │
│     3      │           2300266 | 7742593 | 2021-07-27 11:00:16.020 | 185.0000 | M07 | 90.0000           │
│     4      │           2300266 | 7742593 | 2021-07-27 11:00:16.020 | 185.0000 | M09 | 90.0000           │
│     5      │          5173013 | 7742609 | 2021-07-28 14:26:13.930 | 165.0000 | 0324 | 160.0000     

**Pregunta n.° 1:** ¿Cuántos pedidos únicos hay en el archivo orders.csv?

In [None]:
# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Inicializar un conjunto para almacenar los IDs de pedidos únicos
unique_order_ids = set()

# Leer el archivo CSV y extraer los IDs de pedidos
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "OrderID"
    order_id_index = header.index("OrderID")

    # Agregar cada OrderID al conjunto
    for row in csvreader:
        unique_order_ids.add(row[order_id_index])

# Contar el número de pedidos únicos
num_unique_orders = len(unique_order_ids)

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 60)
print("📋  ANÁLISIS DE PEDIDOS ÚNICOS  📋")
print("=" * 60)
print(f"🔑 Total de pedidos únicos encontrados: {num_unique_orders}")
print("=" * 60)
print(f"🎉 ¡Análisis completado! 🎉")
print("=" * 60)


📋  ANÁLISIS DE PEDIDOS ÚNICOS  📋
🔑 Total de pedidos únicos encontrados: 16672
🎉 ¡Análisis completado! 🎉


**Pregunta n.° 2:** ¿Cuál es la cantidad promedio de artículos por pedido (redondeada a dos decimales)?

In [11]:
# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Inicializar variables para el total de artículos y el número de pedidos
total_items = 0
total_orders = 0

# Leer el archivo CSV y contar los artículos por pedido
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar los índices de las columnas "OrderID" y "ProductName"
    order_id_index = header.index("OrderID")
    product_name_index = header.index("ProductName")

    # Contar los artículos por pedido
    for row in csvreader:
        total_orders += 1
        total_items += 1  # Cada fila representa un artículo en un pedido

# Calcular la cantidad promedio de artículos por pedido
average_items_per_order = total_items / total_orders

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 60)
print("📦  ANÁLISIS DE ÓRDENES Y ARTÍCULOS")
print("=" * 60)
print(f"📋 Total de órdenes procesadas: {total_orders}")
print(f"🛒 Total de artículos en todas las órdenes: {total_items}")
print(f"🔢 Promedio de artículos por orden: {average_items_per_order:.2f}")
print("=" * 60)
print("✅ ¡Cálculo completado exitosamente! ✅")
print("=" * 60)



📦  ANÁLISIS DE ÓRDENES Y ARTÍCULOS
📋 Total de órdenes procesadas: 29294
🛒 Total de artículos en todas las órdenes: 29294
🔢 Promedio de artículos por orden: 1.00
✅ ¡Cálculo completado exitosamente! ✅


**Pregunta #3:** ¿Cuál es la cantidad máxima de artículos por pedido?

In [None]:
# Importar bibliotecas necesarias
from collections import defaultdict

# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Inicializar un diccionario para contar la cantidad de artículos por cada OrderID
order_item_count = defaultdict(int)

# Abrir el archivo CSV y contar los artículos por pedido
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "OrderID"
    order_id_index = header.index("OrderID")

    # Contar los artículos por pedido
    for row in csvreader:
        order_item_count[row[order_id_index]] += 1

# Encontrar la mayor cantidad de artículos por pedido
max_items_per_order = max(order_item_count.values())

# Mostrar el resultado con diseño gráfico
print("\n" + "=" * 60)
print("🛒  ANÁLISIS DE ÓRDENES  🛒")
print("=" * 60)
print(f"📦 Total de pedidos analizados: {len(order_item_count)}")
print(f"📈 Mayor cantidad de artículos en un solo pedido: {max_items_per_order}")
print("=" * 60)
print("✅ ¡Análisis completado exitosamente! ✅")
print("=" * 60)


🛒  ANÁLISIS DE ÓRDENES  🛒
📦 Total de pedidos analizados: 16672
📈 Mayor cantidad de artículos en un solo pedido: 35
✅ ¡Análisis completado exitosamente! ✅


**Pregunta #4:** ¿Cuál es el número de pedidos realizados en octubre de 2021?

In [13]:
# Importar bibliotecas necesarias
from datetime import datetime

# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Inicializar un contador para los pedidos en octubre de 2021
october_orders_count = 0

# Abrir el archivo CSV y procesar los pedidos
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')

    # Saltar el encabezado
    header = next(csvreader)

    # Identificar el índice de la columna "Date"
    date_index = header.index("Date")

    # Filtrar y contar los pedidos realizados en octubre de 2021
    for row in csvreader:
        order_date = row[date_index]

        # Convertir la fecha a un objeto datetime
        try:
            order_date_obj = datetime.strptime(order_date, "%Y-%m-%d %H:%M:%S.%f")

            # Verificar si la fecha es de octubre de 2021
            if order_date_obj.strftime("%Y-%m") == "2021-10":
                october_orders_count += 1
        except ValueError:
            # Manejar posibles errores de formato de fecha
            continue

# Mostrar la cantidad de pedidos realizados en octubre de 2021 con diseño gráfico
print("\n" + "=" * 60)
print("📅  ANÁLISIS DE PEDIDOS EN OCTUBRE 2021")
print("=" * 60)
# print(f"🔍 Total de pedidos procesados: {len(header) - 1}")
print(f"🍂 Pedidos realizados en octubre de 2021: {october_orders_count}")
print("=" * 60)
print("✅ ¡Análisis completado exitosamente!")
print("=" * 60)


📅  ANÁLISIS DE PEDIDOS EN OCTUBRE 2021
🍂 Pedidos realizados en octubre de 2021: 437
✅ ¡Análisis completado exitosamente!


**Pregunta n.° 5:** ¿Qué cliente gastó la mayor cantidad de dinero en 2021?

In [15]:
# Importar bibliotecas necesarias
from datetime import datetime
from collections import defaultdict

# Ruta de los archivos
orders_file = "./sample_data/orders.csv"
customers_file = "./sample_data/customers.csv"

# Inicializar un diccionario para acumular el gasto de cada cliente en 2021
customer_spend = defaultdict(float)

# Crear un diccionario para almacenar la relación CustomerID -> Nombre
customer_names = {}

# Inicializar una lista para almacenar los clientes con fechas vacías
clients_with_empty_dates = defaultdict(int)

# Leer los datos de customers.csv para obtener los nombres de los clientes
with open(customers_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')
    header = next(csvreader)

    # Identificar el índice de las columnas "CustomerID" y "FirstName", "LastName"
    customer_id_index = header.index("CustomerID")
    first_name_index = header.index("FirstName")
    last_name_index = header.index("LastName")

    # Guardar los nombres de los clientes
    for row in csvreader:
        customer_id = row[customer_id_index]
        first_name = row[first_name_index]
        last_name = row[last_name_index]
        customer_names[customer_id] = f"{first_name} {last_name}"

# Abrir el archivo de órdenes y procesar los pedidos
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')
    header = next(csvreader)

    # Identificar los índices de las columnas "CustomerID", "Date" y "OrderTotal"
    customer_id_index = header.index("CustomerID")
    date_index = header.index("Date")
    order_total_index = header.index("OrderTotal")

    # Filtrar y acumular el gasto de cada cliente en 2021
    for row in csvreader:
        order_date = row[date_index]
        order_total = float(row[order_total_index])
        customer_id = row[customer_id_index]

        # Verificar si la fecha está vacía
        if not order_date:
            # Contabilizar los clientes con fechas vacías
            clients_with_empty_dates[customer_id] += 1
            continue  # Omitir si la fecha está vacía

        # Convertir la fecha a un objeto datetime
        try:
            # Ajusta este formato si es necesario.
            order_date_obj = datetime.strptime(order_date, "%Y-%m-%d %H:%M:%S.%f")

            # Filtrar pedidos solo de 2021
            if order_date_obj.year == 2021:
                customer_spend[customer_id] += order_total
        except ValueError as e:
            print(f"Error al convertir la fecha: {order_date} - Error: {e}")
            continue

# Mostrar cuántos clientes tienen fechas vacías
if clients_with_empty_dates:
    print(f"\n❌ Clientes con fechas vacías: {len(clients_with_empty_dates)}")
    for client_id, count in clients_with_empty_dates.items():
        client_name = customer_names.get(client_id, "Desconocido")
        print(f"Cliente: {client_name} (ID: {client_id}) - Fechas vacías: {count} pedidos omitidos")

# Encontrar el cliente que gastó más en 2021
if customer_spend:
    max_spend_customer_id = max(customer_spend, key=customer_spend.get)
    max_spend_amount = customer_spend[max_spend_customer_id]

    # Obtener el nombre del cliente con mayor gasto
    max_spend_customer_name = customer_names.get(max_spend_customer_id, "Desconocido")

    # Mostrar el resultado con formato gráfico
    print("\n" + "=" * 60)
    print("💰  ANÁLISIS DE GASTOS 2021")
    print("=" * 60)
    print(f"🌟 El cliente con mayor gasto en 2021 fue: {max_spend_customer_name}")
    print(f"🆔 ID de cliente: {max_spend_customer_id}")
    print(f"💸 Total gastado: ${max_spend_amount:.2f} USD")
    print("=" * 60)

    # Crear un ranking de los 5 principales clientes por gasto
    print("\n📝 Ranking de los 5 clientes con mayor gasto en 2021:")
    sorted_customers = sorted(customer_spend.items(), key=lambda x: x[1], reverse=True)
    for i, (customer_id, spend) in enumerate(sorted_customers[:5]):
        customer_name = customer_names.get(customer_id, "Desconocido")
        print(f"{i+1}. {customer_name} (ID: {customer_id}) - Gasto total: ${spend:.2f} USD")

    print("=" * 60)
    print("✅ ¡Análisis completado con éxito!")
    print("=" * 60)
else:
    print("❌ No se encontraron pedidos en 2021.")



❌ Clientes con fechas vacías: 57
Cliente: Teresa Ascolese (ID: 5014) - Fechas vacías: 90 pedidos omitidos
Cliente: Maureen Amato Mayes (ID: 5068) - Fechas vacías: 46 pedidos omitidos
Cliente: Doe Harris (ID: 5053) - Fechas vacías: 42 pedidos omitidos
Cliente: Merrily Morris (ID: 5955) - Fechas vacías: 57 pedidos omitidos
Cliente: Todd Johnson (ID: 5572) - Fechas vacías: 87 pedidos omitidos
Cliente: Stephen Cohn (ID: 5889) - Fechas vacías: 29 pedidos omitidos
Cliente: Andre Tabak (ID: 7812) - Fechas vacías: 20 pedidos omitidos
Cliente: Mary Scates Johnson (ID: 5774) - Fechas vacías: 29 pedidos omitidos
Cliente: Craig Thompson (ID: 5971) - Fechas vacías: 87 pedidos omitidos
Cliente: Edna Fabbro (ID: 5756) - Fechas vacías: 29 pedidos omitidos
Cliente: Janet Hyatt (ID: 5721) - Fechas vacías: 26 pedidos omitidos
Cliente: Nicki Huard (ID: 5076) - Fechas vacías: 43 pedidos omitidos
Cliente: Richard Machtolff (ID: 5365) - Fechas vacías: 14 pedidos omitidos
Cliente: Miguel Campos (ID: 8462) - 

**Pregunta #6:** Históricamente, ¿cuál es el mejor mes para las ventas?

In [16]:
# Importar bibliotecas necesarias
from collections import defaultdict
from datetime import datetime

# Ruta del archivo de órdenes
orders_file = "./sample_data/orders.csv"

# Inicializar diccionarios para contar los pedidos por mes y almacenar las ventas totales por mes
monthly_orders = defaultdict(int)
monthly_sales = defaultdict(float)

# Abrir el archivo CSV y procesar los pedidos
with open(orders_file, 'r') as fl:
    csvreader = csv.reader(fl, delimiter=',')
    header = next(csvreader)

    # Identificar los índices de las columnas "Date" y "OrderTotal"
    date_index = header.index("Date")
    order_total_index = header.index("OrderTotal")

    # Filtrar y contar los pedidos por mes, además de acumular las ventas
    for row in csvreader:
        order_date = row[date_index]
        try:
            # Convertir la fecha a un objeto datetime para extraer el mes
            order_date_obj = datetime.strptime(order_date, "%Y-%m-%d %H:%M:%S.%f")
            month_year = order_date_obj.strftime("%m")  # Solo el mes, sin el año
            monthly_orders[month_year] += 1

            # Agregar las ventas para ese mes (usamos "OrderTotal")
            sales_amount = float(row[order_total_index]) if row[order_total_index] else 0
            monthly_sales[month_year] += sales_amount
        except ValueError:
            # Manejar posibles errores de formato de fecha
            continue

# Calcular el promedio de ventas por mes (sin importar el año)
monthly_average_sales = {}

for month in monthly_sales:
    total_sales_for_month = monthly_sales[month]
    total_orders_for_month = monthly_orders[month]

    if total_orders_for_month > 0:
        monthly_average_sales[month] = total_sales_for_month / total_orders_for_month
    else:
        monthly_average_sales[month] = 0

# Sumar los promedios de ventas por mes para encontrar el mejor mes
best_month = max(monthly_average_sales, key=monthly_average_sales.get)
best_month_value = monthly_average_sales[best_month]

# Mostrar el resultado con formato gráfico
print("\n" + "=" * 60)
print("📊  ANÁLISIS DE VENTAS HISTÓRICAS")
print("=" * 60)
print(f"🚀 El mejor mes para las ventas históricas fue el mes {best_month}")
print(f"💵 Promedio de ventas en este mes: ${best_month_value:.2f} USD")
print("=" * 60)
print("✅ ¡Análisis completado con éxito!")
print("=" * 60)



📊  ANÁLISIS DE VENTAS HISTÓRICAS
🚀 El mejor mes para las ventas históricas fue el mes 02
💵 Promedio de ventas en este mes: $357.33 USD
✅ ¡Análisis completado con éxito!


# ¡Terminado!

Espero que esto no haya sido demasiado difícil y que dividir y segmentar los conjuntos de datos haya sido divertido. Ahora, regrese al curso y brinde las respuestas a las preguntas de este ejercicio.