# Prueba - Python para el análisis de datos

### Primero vamos a establecer la conexón con la base de datos postgres

In [4]:
# Importamos la librería psycopg2 para conectarnos a un servidor PostgreSQL.
import psycopg2

In [5]:
# Nos conectamos a PostgreSQL.
conn = psycopg2.connect(database="postgres", 
                        user="postgres",
                        password="1234", 
                        host="localhost",
                        port="5432")
conn.autocommit = True  
cursor = conn.cursor()

# Creamos la base de datos, y la borramos si es que ya existe.
cursor.execute("DROP DATABASE IF EXISTS classicmodels_insert;")  
cursor.execute("CREATE DATABASE classicmodels_insert;") 

cursor.close()
conn.close()

print("Base de datos 'classicmodels_insert' creada exitosamente.")

Base de datos 'classicmodels_insert' creada exitosamente.


### Importamos el archivo a la base de datos.

In [6]:
# Ruta del archivo SQL.
sql_file_path = "classicmodels_insert.sql"

# Conectamos a la base de datos creada.
conn = psycopg2.connect(database="classicmodels_insert", 
                        user="postgres", 
                        password="1234", 
                        host="localhost", 
                        port="5432")
cursor = conn.cursor()

# Leemos el archivo SQL y ejecutamos.
with open(sql_file_path, "r", encoding="utf-8") as sql_file:
    sql_script = sql_file.read()  # Lee todo el contenido del archivo SQL
    cursor.execute(sql_script)  # Ejecuta el script

conn.commit()  # Confirma los cambios
cursor.close()
conn.close()

print("Base de datos 'classicmodels_insert' importada exitosamente.")

Base de datos 'classicmodels_insert' importada exitosamente.


### Obtenemos los nombres de las tablas de la base de datos.

In [7]:
# Conectar a la base de datos classicmodels
conn = psycopg2.connect(database="classicmodels_insert", 
                        user="postgres", 
                        password="1234", 
                        host="localhost", 
                        port="5432")
cursor = conn.cursor()

# Ejecutar una consulta simple
cursor.execute("SELECT table_name FROM information_schema.tables WHERE table_schema='public';")
tables = cursor.fetchall()

cursor.close()
conn.close()

print("Tablas en la base de datos 'classicmodels_insert':")
for table in tables:
    print(table[0])  # Imprimir nombres de las tablas

Tablas en la base de datos 'classicmodels_insert':
customers
employees
offices
orderdetails
orders
payments
productlines
products


1. Genera una función llamada leer_tabla(tabla, engine) y utilízala para leer tablas
completas desde la base de datos en dataframes independientes. Utilizando esta
función, importa las siguientes tablas:
- order
- orderdetails
- customers
- products
- employees

In [8]:
# Primero importamos la librería pandas.
import pandas as pd

# Creamos la función.
def leer_una_tabla(tabla):
    """
    Función para leer una tabla completa desde PostgreSQL
    y devolverla como DataFrame.

    Parámetros:
    tabla (str): Nombre de la tabla a leer.

    Retorna:
    pd.DataFrame: DataFrame con los datos de la tabla.
    """
    # Conectar a la base de datos
    conn = psycopg2.connect(
        database="classicmodels_insert",
        user="postgres",
        password="1234",
        host="localhost",
        port="5432"
    )

    # Crear la consulta SQL
    query = f"SELECT * FROM {tabla};"
    # Leer los datos en un DataFrame
    df = pd.read_sql(query, conn)
    # Cerrar la conexión
    conn.close()
    return df

# Leemos  cada tabla y la guardamos en su DataFrame.
customers = leer_una_tabla("customers")
orders = leer_una_tabla("orders")
orderdetails = leer_una_tabla("orderdetails")
products = leer_una_tabla("products")
productlines = leer_una_tabla("productlines")
employees = leer_una_tabla("employees")

  df = pd.read_sql(query, conn)


2. Realiza el cruce entre los DataFrames, asegurándote de utilizar correctamente el
parámetro validate para asegurar la integridad referencial.

Antes de realizar el cruce vamos a hacer un analisis de los dataframes y ver las relaciones entre las tablas. Con ayuda del ERD en posgres vamos a ver las tablas y sus columnas.

![image.png](attachment:0da6901b-04b5-4d25-815c-e8eac68d0ea0.png)

Según el esquema de la base de datos classicmodels_insert.sql, podemos deducir las sigueintes relaciones entre las tablas:

| Tabla 1        | Columna                  | Tabla 2        | Columna          | Tipo de relación | Descripción                                             |
| -------------- | ------------------------ | -------------- | ---------------- | ---------------- | ------------------------------------------------------- |
| `customers`    | `customerNumber`         | `orders`       | `customerNumber` | **1 → N**        | Un cliente puede tener muchos pedidos.                  |
| `orders`       | `orderNumber`            | `orderdetails` | `orderNumber`    | **1 → N**        | Un pedido puede tener muchos detalles.                  |
| `orderdetails` | `productCode`            | `products`     | `productCode`    | **N → 1**        | Cada detalle corresponde a un producto.                 |
| `products`     | `productLine`            | `productlines` | `productLine`    | **N → 1**        | Cada producto pertenece a una línea de productos.       |
| `customers`    | `salesRepEmployeeNumber` | `employees`    | `employeeNumber` | **N → 1**        | Cada cliente tiene un representante de ventas asignado. |


In [10]:
# Teniendo en cuenta las relaciones explicadas en la tabla anterior, realizamos el cruce.
cruce_unico = (
    customers
    .merge(orders, on="customerNumber", how="inner", validate="one_to_many")
    .merge(orderdetails, on="orderNumber", how="inner", validate="one_to_many")
    .merge(products, on="productCode", how="inner", validate="many_to_one")
    .merge(productlines, on="productLine", how="inner", validate="many_to_one")
    .merge(employees, left_on="salesRepEmployeeNumber", right_on="employeeNumber", how="left", validate="many_to_one")
)

# Visualizamos la union realizada.
cruce_unico

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,...,htmlDescription,image,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,,,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
1,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,,,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
2,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,,,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
3,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,,,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
4,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,,,1370,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2991,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,,,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep
2992,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,,,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep
2993,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,,,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep
2994,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,,,1612,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep


3. Agrega las siguientes columnas, considerando su nombre y la fórmula asociada
- venta: quantityOrdered*priceEach
- costo: quantityOrdered*buyPrice
- ganancia: considerando las columnas anteriores

In [11]:
# Creamos las columnas. 
# Sabemos que las ganancias se calculan venta - costo.
cruce_unico["venta"] = cruce_unico["quantityOrdered"] * cruce_unico["priceEach"]
cruce_unico["costo"] = cruce_unico["quantityOrdered"] * cruce_unico["buyPrice"]
cruce_unico["ganancia"] = cruce_unico["venta"] - cruce_unico["costo"]

# Visulaizamos el datafreme con las columnas nuevas.
cruce_unico

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,...,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle,venta,costo,ganancia
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep,3138.46,1714.96,1423.50
1,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep,5282.64,2610.96,2671.68
2,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep,3986.84,2113.44,1873.40
3,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep,2163.50,1459.00,704.50
4,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,...,Hernandez,Gerard,x2028,ghernande@classicmodelcars.com,4,1102.0,Sales Rep,4128.54,2690.61,1437.93
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2991,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep,3581.79,1921.83,1659.96
2992,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep,1544.40,726.90,817.50
2993,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep,5974.17,3469.02,2505.15
2994,496,Kelly's Gift Shop,Snowden,Tony,+64 9 5555500,Arenales 1938 3'A',,Auckland,,,...,Marsh,Peter,x102,pmarsh@classicmodelcars.com,6,1088.0,Sales Rep,4373.78,2164.56,2209.22


4. ¿Cuál fue el total de ventas por línea de productos? Incluye una fila de totales.

In [12]:
# Creamos la tabla pivot y agregamos la fila de totales.
reporte_lineas = pd.pivot_table(
    cruce_unico,
    index="productLine",
    values="venta",
    aggfunc="sum",
    fill_value=0,
    margins=True,         
    margins_name="Total"  # Personalizamos el nombre de la fila.
).reset_index()

# Visualizamos la tabla creada.
reporte_lineas

Unnamed: 0,productLine,venta
0,Classic Cars,3853922.49
1,Motorcycles,1121426.12
2,Planes,954637.54
3,Ships,663998.34
4,Trains,188532.92
5,Trucks and Buses,1024113.57
6,Vintage Cars,1797559.63
7,Total,9604190.61


5. ¿Cuántos clientes distintos hicieron compras?

In [13]:
#Para este punto vamos a usar el método nunique(),
# que se utiliza para contar el número de valores únicos en un objeto pandas, ya sea una columna o un DataFrame completo.

clientes_distintos = cruce_unico["customerNumber"].nunique()

# Imprimimos la respuesta con un print.
print("Cantidad de clientes distintos con compras:", clientes_distintos)

Cantidad de clientes distintos con compras: 98


6. ¿Existen clientes que aún no han hecho ninguna compra? ¿Cuántos son?

In [14]:
# Usando los dataframes customers y orders, creados anteriormente, 
# vamos a realizar un cruce para encontrar los clientes sin compras.

clientes_sin_compras = customers.merge(
    orders,
    on="customerNumber",
    how="left",
    indicator=True
)

# Filtramos los que solo están en customers (sin pedidos).
clientes_sin_compras = clientes_sin_compras.query('_merge == "left_only"')

# Contamos cuántos son,
cantidad_sin_compras = clientes_sin_compras.shape[0]


# Mostramos los resultados.
print("Cantidad de clientes sin compras:", cantidad_sin_compras)

Cantidad de clientes sin compras: 24


7. Se solicita la creación de dos reportes, que respondan las preguntas dadas.

In [15]:
#Importamos las librerías y funciones extarnas necesarías(archivo funciones.py).
from sqlalchemy import create_engine
from funciones import filtrar_por_fecha, generar_reporte, escribir_en_db

# Creamos engine.
engine = create_engine("postgresql+psycopg2://postgres:1234@localhost:5432/classicmodels_insert")

# Filtramos por año 2005.
df_2005 = filtrar_por_fecha(cruce_unico, "orderDate", "2005-01-01", "2005-12-31")

#Para presentar los reportes vamos a utilizar un agrupamiento mediante el método groupby(),
#que nos permite resumir los datos solicitados para el reporte. 

# Reporte 1: Top 10 clientes con mayores ventas brutas (2005).
top_clientes_2005 = (
    df_2005.groupby("customerName")[["venta", "costo", "ganancia"]] #Las columnas que nos interesan.
    .sum()
    .sort_values(by="venta", ascending=False) #Ordena de mayor a menor.
    .head(10) #Muestra los primeros 10.
    .reset_index() #Para que los indices no tengan saltos.
)

escribir_en_db(top_clientes_2005, "top_10_clientes_2005", engine) #Guardamos el df en posgreSQL.

# Reporte 2: Top 10 productos más vendidos (2005).
top_productos_2005 = (
    df_2005.groupby("productName")[["venta", "costo", "ganancia"]] #Las columnas que nos interesan.
    .sum()
    .sort_values(by="venta", ascending=False) #Ordena de mayor a menor.
    .head(10) #Muestra los primeros 10.
    .reset_index() #Para que los incices no tengan saltos.
)

escribir_en_db(top_productos_2005, "top_10_productos_2005", engine) #Guardamos el df en posgreSQL.


Tabla 'top_10_clientes_2005' guardada con éxito en PostgreSQL.
Tabla 'top_10_productos_2005' guardada con éxito en PostgreSQL.
