# Prueba - Python para el análisis de datos

## Desarrollo

Para comenzar con la prueba, necesitamos crear la base de datos *'classicmodels'* con el siguiente comando:

**psql -h localhost -p 5432 -U postgres -c "CREATE DATABASE classicmodels;"**

Posterioemente importamos datos a la base de datos con el siguoente comando:

**psql -h localhost -p 5432 -U postgres -d classicmodels -f "/Users/andrea/Desktop/DATA SCIENCE/Modulo 2-Python/manipulacion y transformacion de datos 3/classicmodels.sql"**


### 1.

Primero importamos las librerías necesarias para el desarrollo del código. Usamos las librerías Pandas y sqlAlchemy, en esta última solo importamos la función *create_engine* necesaria para crear un motor de conexión a la base de datos.

Además, creamos un string de conexión **db_url** para que sea más ordenado el código.

Realizamos la conexión a la base de datos mediante **engine = create_engine(db_url)**, donde **create_engine** es una función de SQLAlchemy que crea un objeto *Engine* que representa la conexión a la base de datos y se utiliza para ejecutar consultas SQL y gestionar transacciones. La función toma como argumento la cadena de conexión *db_url*, la cual contiene toda la información necesaria para conectarse a la base de datos.


En segundo lugar generamos una función llamada **leer_tabla(tabla, engine)** y la utilizaremos para leer tablas completas desde la base de datos *classicmodels*.

- **def leer_tabla(tabla, engine)**: define una función llamada *leer_tabla* que toma dos argumentos:
    - **tabla**: es el nombre de la tabla que queremos leer.
    - **engine**: es el motor de conexión a la base de datos. 
    
- **query = f"SELECT * FROM {tabla}"**: En el cuerpo de la función *query* es la variable que almacena una cadena de texto que es una consulta SQL. Utilizamos una f-string para insertar el nombre de la tabla en la consulta. La consulta es **"SELECT * FROM {tabla}"**, donde *{tabla}* es el nombre de la tabla entregada como argumento. La consulta selecciona todas las columnas de la tabla especificada.

- **return pd.read_sql(query, engine)**: ejecuta la consulta SQL utilizando la función **pd.read_sql** de la biblioteca pandas. Esta función toma dos argumentos:
    - **query**: la consulta SQL a ejecutar.
    - **engine**: el motor de conexión a la base de datos.

**pd.read_sql(query, engine) devuelve un DataFrame de pandas que contiene los datos obtenidos de la tabla especificada**

Finalmente se reaiza la lectura de las tablas, para ello llamamos a la función **leer_tabla** con los parámetros *tabla* y *engine*, donde el primer argumento es el nombre de la tabla presente en la base de datos.
La función ejecuta *SELECT * FROM 'nombre de la tabla'* y devuelve un DataFrame con todos los datos de la tabla correspondiente, que se almacena en la variable del mismo nombre que la tabla correspondiente.

Se verifica la correcta creación del DataFrame mostrando cada uno de ellos.


In [2]:
# Importar las librerías necesarias para el desarrollo del código

import pandas as pd
from sqlalchemy import create_engine

# Crear string de conexión

db_url='postgresql://postgres:password@localhost:5432/classicmodels'

# Conexión a la base de datos

engine = create_engine(db_url)

# Crear función para leer las tablas

def leer_tabla(tabla, engine):
    query = f"SELECT * FROM {tabla}"
    return pd.read_sql(query, engine)

# Leer tablas
orders = leer_tabla('orders', engine)
orderdetails = leer_tabla('orderdetails', engine)
customers = leer_tabla('customers', engine)
products = leer_tabla('products', engine)
employees = leer_tabla('employees', engine)

# Revisar la creación correcta del DataFrame

# DataFrame 'orders'
orders.head()

Unnamed: 0,orderNumber,orderDate,requiredDate,shippedDate,status,comments,customerNumber
0,10100,2003-01-06,2003-01-13,2003-01-10,Shipped,,363
1,10101,2003-01-09,2003-01-18,2003-01-11,Shipped,Check on availability.,128
2,10102,2003-01-10,2003-01-18,2003-01-14,Shipped,,181
3,10103,2003-01-29,2003-02-07,2003-02-02,Shipped,,121
4,10104,2003-01-31,2003-02-09,2003-02-01,Shipped,,141


In [21]:
#DataFrame 'orderdetails'
orderdetails.head()

Unnamed: 0,orderNumber,productCode,quantityOrdered,priceEach,orderLineNumber
0,10100,S18_1749,30,136.0,3
1,10100,S18_2248,50,55.09,2
2,10100,S18_4409,22,75.46,4
3,10100,S24_3969,49,35.29,1
4,10101,S18_2325,25,108.06,4


In [22]:
#DataFrame 'customers'
customers.head()

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
1,112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
2,114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0
3,119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0
4,121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0


In [46]:
#DataFrame 'products'
products.head()

Unnamed: 0,productCode,productName,productLine,productScale,productVendor,productDescription,quantityInStock,buyPrice,MSRP
0,S10_1678,1969 Harley Davidson Ultimate Chopper,Motorcycles,1:10,Min Lin Diecast,"This replica features working kickstand, front...",7933,48.81,95.7
1,S10_1949,1952 Alpine Renault 1300,Classic Cars,1:10,Classic Metal Creations,Turnable front wheels; steering function; deta...,7305,98.58,214.3
2,S10_2016,1996 Moto Guzzi 1100i,Motorcycles,1:10,Highway 66 Mini Classics,"Official Moto Guzzi logos and insignias, saddl...",6625,68.99,118.94
3,S10_4698,2003 Harley-Davidson Eagle Drag Bike,Motorcycles,1:10,Red Start Diecast,"Model features, official Harley Davidson logos...",5582,91.02,193.66
4,S10_4757,1972 Alfa Romeo GTA,Classic Cars,1:10,Motor City Art Classics,Features include: Turnable front wheels; steer...,3252,85.68,136.0


In [24]:
#DataFrame 'employees'
employees.head()

Unnamed: 0,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,1002,Murphy,Diane,x5800,dmurphy@classicmodelcars.com,1,,President
1,1056,Patterson,Mary,x4611,mpatterso@classicmodelcars.com,1,1002.0,VP Sales
2,1076,Firrelli,Jeff,x9273,jfirrelli@classicmodelcars.com,1,1002.0,VP Marketing
3,1088,Patterson,William,x4871,wpatterson@classicmodelcars.com,6,1056.0,Sales Manager (APAC)
4,1102,Bondur,Gerard,x5408,gbondur@classicmodelcars.com,4,1056.0,Sale Manager (EMEA)


### 2.

En este código no es necesaria la creación de un diccionario, ya que se generaron directamente los DataFrames con la función **pd.read_sql(query, engine)**, por lo que podemos trabajar directamente con los DataFrames creados.

Realizamos el cruce de las tablas de la siguiente manera:

- **Función pd.merge**: Esta función se usa para combinar dos DataFrames en base a una o más columnas comunes.
Parámetros:

- **on**: Contiene la columna común en ambos DataFrames que se usará para realizar la fusión.

- **validate='many_to_one'**: Valida que la relación entre las tablas es de muchos a uno, es decir que muchos registros en una tabla determinada pueden corresponder a un único registro en la otra tabla a fusionar.

En el caso de la tabla **employees** no tenemos una columna común con **df_final** creado con la fusión de las otras tablas, por lo que usamos **left_on='salesRepEmployeeNumber'** en la columna de *df_final* que se usará para la fusión, y **right_on='employeeNumber'** que es la columna en *employees* que se usará para la fusión. **df_final** se actualiza para incluir también las columnas de employees, combinadas en base a las columnas *salesRepEmployeeNumber* y *employeeNumber*.


In [23]:
# Realizar la fusión de las tablas

df_final = pd.merge(orderdetails, orders, on='orderNumber', validate='many_to_one')
df_final = pd.merge(df_final, products, on='productCode', validate='many_to_one')
df_final = pd.merge(df_final, customers, on='customerNumber', validate='many_to_one')
df_final = pd.merge(df_final, employees, left_on='salesRepEmployeeNumber', right_on='employeeNumber'
                    , validate='many_to_one')

# Imprimir el DataFrame final
df_final



Unnamed: 0,orderNumber,productCode,quantityOrdered,priceEach,orderLineNumber,orderDate,requiredDate,shippedDate,status,comments,...,salesRepEmployeeNumber,creditLimit,employeeNumber,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle
0,10100,S18_1749,30,136.00,3,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,1216.0,114200.0,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep
1,10100,S18_2248,50,55.09,2,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,1216.0,114200.0,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep
2,10100,S18_4409,22,75.46,4,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,1216.0,114200.0,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep
3,10100,S24_3969,49,35.29,1,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,1216.0,114200.0,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep
4,10322,S18_2325,50,120.77,6,2004-11-04,2004-11-12,2004-11-10,Shipped,Customer has worked with some of our vendors i...,...,1216.0,114200.0,1216,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2991,10276,S24_3371,20,58.17,2,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,1188.0,68700.0,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep
2992,10276,S24_4620,48,67.10,7,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,1188.0,68700.0,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep
2993,10276,S32_2206,27,35.40,10,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,1188.0,68700.0,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep
2994,10276,S32_4485,38,94.91,13,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,1188.0,68700.0,1188,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep


### 3.

Agregamos las columnas solicitadas con su nombre y fórmula asociada.


In [22]:
# Crear las columnas solicitadas con su fórmula asociada

df_final['venta'] = df_final['quantityOrdered'] * df_final['priceEach']
df_final['costo'] = df_final['quantityOrdered'] * df_final['buyPrice']
df_final['ganancia'] = df_final['venta'] - df_final['costo']

# Visualizamos el DataFrame con las nuevas columnas
df_final

Unnamed: 0,orderNumber,productCode,quantityOrdered,priceEach,orderLineNumber,orderDate,requiredDate,shippedDate,status,comments,...,lastName,firstName,extension,email,officeCode,reportsTo,jobTitle,venta,costo,ganancia
0,10100,S18_1749,30,136.00,3,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep,4080.00,2601.00,1479.00
1,10100,S18_2248,50,55.09,2,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep,2754.50,1665.00,1089.50
2,10100,S18_4409,22,75.46,4,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep,1660.12,951.72,708.40
3,10100,S24_3969,49,35.29,1,2003-01-06,2003-01-13,2003-01-10,Shipped,,...,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep,1729.21,1065.75,663.46
4,10322,S18_2325,50,120.77,6,2004-11-04,2004-11-12,2004-11-10,Shipped,Customer has worked with some of our vendors i...,...,Patterson,Steve,x4334,spatterson@classicmodelcars.com,2,1143.0,Sales Rep,6038.50,2924.00,3114.50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2991,10276,S24_3371,20,58.17,2,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep,1163.40,771.60,391.80
2992,10276,S24_4620,48,67.10,7,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep,3220.80,1551.84,1668.96
2993,10276,S32_2206,27,35.40,10,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep,955.80,651.78,304.02
2994,10276,S32_4485,38,94.91,13,2004-08-02,2004-08-11,2004-08-08,Shipped,,...,Firrelli,Julie,x2173,jfirrelli@classicmodelcars.com,2,1143.0,Sales Rep,3606.58,2132.94,1473.64


### 4.

Utilizamos el método **pivot_table** para calcular el total de ventas por línea de productos e incluir una fila de totales.

Para este código:

- **index='productLine'**: Define la columna *productLine* que se usará como índice en la tabla.

- **values='venta'**: Especifica la columna **venta** cuyos valores se van a agregar.

 - **aggfunc='sum'**: Define la función de agregación que se aplicará a los datos agrupados, que será 'sum' para sumar las ventas. 

- **margins=True**: Lo usaremos para incluir un resumen de los totales al final de la tabla.


In [5]:
# Crear tabla pivote para agregar la función de agragación 'sum' y agregar la fila de totales

ventas_por_linea=df_final.pivot_table(index='productLine'
                    , values='venta'
                    , aggfunc='sum'
                    , margins=True)

ventas_por_linea

Unnamed: 0_level_0,venta
productLine,Unnamed: 1_level_1
Classic Cars,3853922.49
Motorcycles,1121426.12
Planes,954637.54
Ships,663998.34
Trains,188532.92
Trucks and Buses,1024113.57
Vintage Cars,1797559.63
All,9604190.61


### 5.

Calculamos el número de clientes distintos que hicieron compras.

Para ello creamos una variable que guarde el resultado del conteo (*clientes_con_compras*).

Usamos **orders['customerNumber']** para acceder a la columna *customerNumber* del DataFrame *df_final*. Esta columna contiene los números de cliente, que identifican a los clientes que han hecho compras.

Finalmente con el método **nunique()** contamos el número de valores distintos hay en la columna *customerNumber*, es decir, cuántos clientes diferentes han hecho compras.

**NOTA:** La elección de **nunique()** en vez de **unique** radica en que el primer método devuelve de manera directa un entero con la cantidad de valores únicos, mientras que el segundo método devuelve un array con los valores únicos y habría que usar además **.size** para que entregue el valor correspondiente al tamaño del array.



In [6]:
# Número de clientes distintos que hicieron compras

clientes_con_compras = df_final['customerNumber'].nunique()

clientes_con_compras

98

### 6.

Para calcular los clientes que no han realizado ninguna compra realizamos una operación de resta entre el total de clientes y los qye han realizado compras. Para ello:

- **customers['customerNumber'].nunique()**: Entrega el número total de clientes únicos en la tabla customers.

- **clientes_con_compras**: Es el cálculo realizado en el punto anterior, donde se entrega el número de clientes únicos que han hecho compras en df_final.

- **clientes_sin_compras**: Nombre de la variable que almacena la diferencia entre *clientes_totales* y *clientes_con_compras*, nos da el número de clientes que no han realizado ninguna compra.

In [7]:
# Clientes que no han hecho ninguna compra

# Calculamos el total de clientes y le restamos los clientes que hicieron compras del punto anterior

clientes_sin_compras = customers['customerNumber'].nunique() - clientes_con_compras

clientes_sin_compras

24

### 7.

Para el desarrollo de este punto usaremos las funciones que se encuentran en el archivo **funciones.py**. Explicaré paso por paso lo realizado.

1. **Aseguramos que la columa de fechas tenga formato *datetime***: Para ello usamos el método **.datetime()** para convertir la columna *orderDate* del DataFrame *orders*. Confirmamos el cambio mediante *orders.info()*.



In [8]:
# Asegurar que la columna de fechas esté en formato datetime

orders['orderDate'] = pd.to_datetime(orders['orderDate'])

orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 326 entries, 0 to 325
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   orderNumber     326 non-null    int64         
 1   orderDate       326 non-null    datetime64[ns]
 2   requiredDate    326 non-null    object        
 3   shippedDate     312 non-null    object        
 4   status          326 non-null    object        
 5   comments        80 non-null     object        
 6   customerNumber  326 non-null    int64         
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 18.0+ KB


### Explicación de cómo se crearon las funciones

1. **Función filtrar_por_fechas**:

- **Toma cuatro parámetros**:

    - **df**: Es el DataFrame que contiene los datos.
    
    - **columna_fecha**: Es el nombre de la columna que contiene las fechas.

    - **fecha_inicio**: Es la fecha que inicia el rango.

    - **fecha_fin**: Es la fecha que pone fin al rango.
    
- **Creación de máscara booleana** --> **mask = (df[columna_fecha] >= fecha_inicio) & (df[columna_fecha] <= fecha_fin)**: Se crea una máscara booleana que será *True* para las filas donde las fechas en **columna_fecha** están dentro del rango especificado.

- **df_filtrado = df[mask]**: Se aplica la máscara al DataFrame original para obtener solo las filas donde la condición es True.

- **return df_filtrado**: Se devuelve el DataFrame filtrado.

2. **Función generar_reporte**:

- **Toma cinco parámetros**:

    - **df**: Es el DataFrame que contiene los datos.

    - **filas**: Es la columna que se usará como índice de la tabla pivote.

    - **columnas**: Es la columna que se usará como columnas de la tabla pivote.

    - **valores**: Es la columna cuyos valores se mostrarán en la tabla pivote.

    - **medida**: Es la función de agregación que se aplicará a los valores.

- **return df.pivot_table(index=filas, columns=columnas, values=valores, aggfunc=medida, fill_value=0)**: Utilizamos el método **pivot_table** para crear la tabla pivote, especificando los índices, columnas, valores y la función de agregación. En este caso usamos **fill_value=0** para rellenar valores faltantes con 0. Agregamos además 
**reset_index()** para restablecer el índice del DataFrame.

3. **Función escribir_tabla**:

- **Toma cuatro parámetros**:

    - **df**: Es el DataFrame que contiene los datos.

    - **nombre_tabla**: Es el nombre de la tabla en la base de datos donde se escribirán los datos.

    - **engine**: Es el objeto de conexión a la base de datos.

    - **if_exists**: Nos indica qué hacer si la tabla ya existe en la base de datos. Usamos **'replace'** para reemplazar la ya existente.

- **Escritura del DataFrame en la base de datos** --> **df.to_sql(nombre_tabla, engine, if_exists=if_exists, index=False)**: 

    - **to_sql**: Utilizamos este método para escribir el DataFrame en la base de datos especificada. 
    
    - **index=False**: Nos indica que no se debe escribir el índice del DataFrame como una columna en la tabla de la base de datos.

In [34]:
# Creamos las funciones 

def filtrar_por_fechas(df, columna_fecha, fecha_inicio, fecha_fin):
   # Crear máscara para filtrar fechas dentro del rango
    mask = (df[columna_fecha] >= fecha_inicio) & (df[columna_fecha] <= fecha_fin)
    # Aplicar la máscara al DataFrame
    df_filtrado = df[mask]
    return df_filtrado

# Crear función que crea una tabla pivote

def generar_reporte(df, filas, columnas, valores, medida):
    return df.pivot_table(index=filas, columns=columnas, values=valores, aggfunc=medida, fill_value=0)

# Crear función que permite escribir en la base de datos

def escribir_tabla(df, nombre_tabla, engine, if_exists='replace'):
    # Guardar DataFrame en la base de datos
    df.to_sql(nombre_tabla, engine, if_exists=if_exists, index=False)

2. Usamos la función **filtrar_por_fecha**

- **Filtramos las ordenes del año 2005**: Llamamos a la función *filtrar_por_fechas* con los parámetros:
    - **orders**: Usamos el DataFrame que contiene todas las órdenes.
    - **'orderDate'**: Seleccionamos la columna en el DataFrame que contiene las fechas de las órdenes.
    - **'2005-01-01' y '2005-12-31'**: Definimos el rango de fecha de inicio y fecha de fin del rango que queremos filtrar.
    - **Máscara de Fechas**: Usamos la máscara creada dentro de la función, la cual verifica si las fechas en la columna orderDate están dentro del rango especificado.
    
**Resultado**: El resultado se almacena en orders_2005, que ahora contiene solo las órdenes del año 2005.

- **Fusionamos orders_2005 con df_final**: Hacermos unos de la función *pd.merge* para combinar orders_2005 con df_final.
    - **Columnas Seleccionadas**: De df_final, seleccionamos las columnas: 
        - orderNumber
        - productCode
        - quantityOrdered
        - venta
        - costo
        - ganancia.
    - **Columna Clave**: La fusión se realiza utilizando la columna *orderNumber* que está presente en ambos DataFrames.
    - **how='left'**: Se utiliza "left" para asegurarse de que todas las filas de orders_2005 se mantengan, y solo se agreguen las columnas adicionales de df_final cuando haya una coincidencia en orderNumber.

**Resultado**: orders_2005 ahora contiene columnas adicionales productCode, quantityOrdered, venta, costo, y ganancia de df_final.

In [20]:
# Filtrar las órdenes del año 2005
orders_2005 = filtrar_por_fechas(orders, 'orderDate', '2005-01-01', '2005-12-31')

# Fusionar orders_2005 con df_final para obtener las columnas necesarias
orders_2005 = pd.merge(orders_2005, 
                       df_final[['orderNumber', 'productCode', 'quantityOrdered', 'venta', 'costo', 'ganancia']]
                       , on='orderNumber'
                       , how='left')


3. Usamos las funciones **generar_reporte y escribir_tabla**

- **Crear y Guardar el Reporte de Top 10 Clientes 2005**:

    - **generar_reporte**: Utilizamos la función para agrupar *orders_2005* por *customerNumber* y sumar las columnas venta, costo, y ganancia.

    - Seleccionamos los 10 clientes con mayores ventas utilizando **nlargest(10, 'venta')**.
    
    - **escribir_tabla**: Es la función que utilizamos para guardar el DataFrame resultante en la base de datos nombrando la tabla como **'top_10_clientes_2005'**.

- **Crear y Guardar el Reporte de Top 10 Productos 2005**:

    - **generar_reporte**: En esta ocasión utilizamos esta función para agrupar *orders_2005* por *productCode* y sumar las columnas quantityOrdered, venta, costo, y ganancia.
    
    - Selecciona los 10 productos con mayor cantidad ordenada utilizando **nlargest(10, 'quantityOrdered')**.

    - **escribir_tabla**: Es la función que utilizamos para guardar el DataFrame resultante en la base de datos nombrando la tabla como **'top_10_productos_2005'**.



In [19]:

# Crear y escribir el reporte de Top 10 clientes 2005

clientes_ventas_2005 = generar_reporte(orders_2005
                                       , 'customerNumber'
                                       , None
                                       , ['venta', 'costo', 'ganancia'], 'sum').nlargest(10, 'venta')

escribir_tabla(clientes_ventas_2005, 'top_10_clientes_2005', engine)

# Crear y escribir el reporte de Top 10 productos 2005

productos_ventas_2005 = generar_reporte(orders_2005
                                        , 'productCode'
                                        , None
                                        , ['quantityOrdered', 'venta', 'costo', 'ganancia'], 'sum').nlargest(10, 'quantityOrdered')

escribir_tabla(productos_ventas_2005, 'top_10_productos_2005', engine)

In [24]:
clientes_ventas_2005

Unnamed: 0_level_0,costo,ganancia,venta
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
141,169989.97,120028.55,290018.52
124,115084.72,77397.01,192481.73
119,55527.04,35620.07,91147.11
450,50843.02,33141.87,83984.89
323,46389.52,28630.61,75020.13
276,35414.9,21517.4,56932.3
382,33536.26,18883.81,52420.07
362,33221.25,17585.6,50806.85
321,28561.31,18220.35,46781.66
311,27493.61,19276.91,46770.52


In [25]:
productos_ventas_2005

Unnamed: 0_level_0,costo,ganancia,quantityOrdered,venta
productCode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S18_3232,27031.3,25946.98,347,52978.28
S12_4675,15974.56,13592.71,272,29567.27
S24_1578,16493.06,12254.63,271,28747.69
S32_1374,17198.44,5271.47,257,22469.91
S24_3856,25066.5,6365.64,255,31432.14
S24_2000,9031.44,7018.03,242,16049.47
S24_4278,8622.74,7318.0,238,15940.74
S12_2823,15308.37,15125.72,231,30434.09
S10_2016,15867.7,10271.64,230,26139.34
S18_3856,14595.08,6323.88,226,20918.96


### Finalmente revisamos nuestra base de datos y verificamos la correcta creación de estos dos reportes