# **1. Configuración del Ambiente**


---

In [1]:
import pandas as pd
from sqlalchemy import create_engine, MetaData, Table, Column, Integer, Float, String, DateTime, inspect, text
global df_itens_pedidos, df_pedidos, df_productos, df_vendedores, database

# **2. Obtención de Datos (CSV in Data)**


---

In [2]:
df_itens_pedidos = pd.read_csv('../BBDD/df_itens_pedidos.csv')
df_pedidos = pd.read_csv('../BBDD/df_pedidos.csv')
df_productos = pd.read_csv('../BBDD/df_productos.csv')
df_vendedores = pd.read_csv('../BBDD/df_vendedores.csv')

In [3]:
print("itens pedidos ")
print(df_itens_pedidos.info())
print("pedidos")
print(df_pedidos.info())
print("productos")
print(df_productos.info())
print("vendedores")
print(df_vendedores.info())

itens pedidos 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24527 entries, 0 to 24526
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_recibo       24527 non-null  int64  
 1   producto_id     24527 non-null  int64  
 2   pedido_id       24527 non-null  int64  
 3   cantidad        24527 non-null  int64  
 4   valor_unitario  24527 non-null  int64  
 5   valor_total     24527 non-null  int64  
 6   ciudad          24527 non-null  object 
 7   costo_envio     24527 non-null  float64
dtypes: float64(1), int64(6), object(1)
memory usage: 1.5+ MB
None
pedidos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24526 entries, 0 to 24525
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   pedido_id     24526 non-null  int64 
 1   producto_id   24526 non-null  int64 
 2   vendedor_id   24526 non-null  int64 
 3   fecha_compra  24526 non-null 

# **3. Levantando Banco de Datos**


---

In [3]:
# Definimos la función para crear la conexión y guardar los dataframes en una base de datos SQLite
def crear_conexion():
    # Creamos un engine de tipo SQLite
    engine = create_engine('sqlite:///database.db', echo=False)
    
    # Creamos un objeto MetaData
    metadata = MetaData()

    # Creamos manualmente las tablas en la base de datos
    itens_pedidos_table = Table('items_pedidos', metadata,
                                 Column('id_recibo', Integer),
                                 Column('producto_id', Integer),
                                 Column('pedido_id', Integer),
                                 Column('cantidad', Integer),
                                 Column('valor_unitario', Integer),
                                 Column('valor_total', Integer),
                                 Column('ciudad', String),
                                 Column('costo_envio', Float)
                                )
    pedidos_table = Table('pedidos', metadata,
                           Column('pedido_id', Integer),
                           Column('producto_id', Integer),
                           Column('vendedor_id', Integer),
                           Column('fecha_compra', DateTime),
                           Column('total', Integer),
                           Column('año', Integer),
                           Column('mes', Integer)
                          )
    productos_table = Table('productos', metadata,
                             Column('producto_id', Integer),
                             Column('producto', String),
                             Column('precio', Integer),
                             Column('marca', String),
                             Column('sku', Float),
                             Column('condicion', String)
                            )
    vendedores_table = Table('vendedores', metadata,
                              Column('vendedor_id', Integer),
                              Column('nombre_vendedor', String)
                             )

    # Creamos las tablas en la base de datos
    metadata.create_all(engine)
    
    # Insertamos los datos de los dataframes en las tablas correspondientes
    df_itens_pedidos.to_sql('itens_pedidos', engine, if_exists='replace', index=False)
    df_pedidos.to_sql('pedidos', engine, if_exists='replace', index=False)
    df_productos.to_sql('productos', engine, if_exists='replace', index=False)
    df_vendedores.to_sql('vendedores', engine, if_exists='replace', index=False)

##### Pruebas de la base de datos

In [9]:
# Creamos un engine de tipo SQLite
engine = create_engine('sqlite:///database.db')

# Obtenemos una conexión a la base de datos
connection = engine.connect()

# Creamos un objeto Text con la consulta SQL
consulta_sql = text("SELECT * FROM itens_pedidos")

# Ejecutamos la consulta y obtenemos los resultados
resultados = connection.execute(consulta_sql)

# Imprimimos los resultados
for row in resultados:
    print(row)

# Cerramos la conexión
connection.close()

(1, 41518, 341, 3, 260, 780, 'BR-BA', 156.0)
(2, 4307, 1174, 5, 6175, 30875, 'BR-RJ', 6175.0)
(3, 22407, 1399, 3, 200, 600, 'BR-PB', 120.0)
(4, 3820, 1652, 6, 139, 834, 'BR-DF', 166.8)
(5, 29012, 2470, 3, 525, 1575, 'BR-BA', 315.0)
(6, 72621, 2980, 3, 179, 537, 'BR-MG', 107.4)
(7, 86243, 3443, 4, 350, 1400, 'BR-PR', 280.0)
(8, 29012, 3557, 5, 525, 2625, 'BR-MS', 525.0)
(9, 61071, 3585, 3, 450, 1350, 'BR-SP', 270.0)
(10, 100961, 3687, 2, 480, 960, 'BR-GO', 192.0)
(11, 45695, 3722, 5, 240, 1200, 'BR-AM', 240.0)
(12, 59337, 3870, 5, 390, 1950, 'BR-CE', 390.0)
(13, 79079, 4004, 4, 320, 1280, 'BR-RS', 256.0)
(14, 27336, 4471, 2, 250, 500, 'BR-AC', 100.0)
(15, 60010, 5347, 1, 90, 90, 'BR-RO', 18.0)
(16, 56571, 6129, 5, 420, 2100, 'BR-DF', 420.0)
(17, 3820, 6355, 4, 139, 556, 'BR-BA', 111.2)
(18, 40508, 7562, 2, 245, 490, 'BR-MT', 98.0)
(19, 57708, 8077, 4, 990, 3960, 'BR-CE', 792.0)
(20, 17329, 9626, 6, 590, 3540, 'BR-CE', 708.0)
(21, 43888, 10557, 1, 190, 190, 'BR-DF', 38.0)
(22, 12609, 108

# **3. FULL JOIN (SQL)**


---

#### **Es otra forma de abordar la unión de los DataFrame**

In [12]:
import pandas as pd
from sqlalchemy import create_engine, text

# Crear un motor SQLite
engine = create_engine('sqlite:///database.db')

# Crear una conexión al motor
connection = engine.connect()

# Consulta SQL para combinar los DataFrames con LEFT JOIN y RIGHT JOIN
query = """
SELECT 
    ip.id_recibo,
    ip.producto_id,
    ip.pedido_id,
    ip.cantidad,
    ip.valor_unitario,
    ip.valor_total,
    ip.ciudad,
    ip.costo_envio,
    p.fecha_compra,
    p.total,
    p.año,
    p.mes,
    pr.producto,
    pr.precio,
    pr.marca,
    pr.sku,
    pr.condicion,
    v.nombre_vendedor
FROM 
    itens_pedidos ip
LEFT JOIN 
    pedidos p ON ip.pedido_id = p.pedido_id AND ip.producto_id = p.producto_id
LEFT JOIN 
    productos pr ON ip.producto_id = pr.producto_id
LEFT JOIN 
    vendedores v ON p.vendedor_id = v.vendedor_id

UNION

SELECT 
    ip.id_recibo,
    ip.producto_id,
    ip.pedido_id,
    ip.cantidad,
    ip.valor_unitario,
    ip.valor_total,
    ip.ciudad,
    ip.costo_envio,
    p.fecha_compra,
    p.total,
    p.año,
    p.mes,
    pr.producto,
    pr.precio,
    pr.marca,
    pr.sku,
    pr.condicion,
    v.nombre_vendedor
FROM 
    itens_pedidos ip
RIGHT JOIN 
    pedidos p ON ip.pedido_id = p.pedido_id AND ip.producto_id = p.producto_id
RIGHT JOIN 
    productos pr ON ip.producto_id = pr.producto_id
RIGHT JOIN 
    vendedores v ON p.vendedor_id = v.vendedor_id
"""

# Ejecutar la consulta y obtener el DataFrame resultante
df_combinado = pd.read_sql(query, connection)

# Ver el DataFrame resultante
print(df_combinado.info())
print(df_combinado.sample(5))

# Cerrar la conexión
connection.close()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24527 entries, 0 to 24526
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_recibo        24527 non-null  int64  
 1   producto_id      24527 non-null  int64  
 2   pedido_id        24527 non-null  int64  
 3   cantidad         24527 non-null  int64  
 4   valor_unitario   24527 non-null  int64  
 5   valor_total      24527 non-null  int64  
 6   ciudad           24527 non-null  object 
 7   costo_envio      24527 non-null  float64
 8   fecha_compra     24526 non-null  object 
 9   total            24526 non-null  float64
 10  año              24526 non-null  float64
 11  mes              24526 non-null  float64
 12  producto         24527 non-null  object 
 13  precio           24527 non-null  int64  
 14  marca            24527 non-null  object 
 15  sku              24527 non-null  float64
 16  condicion        24527 non-null  object 
 17  nombre_vende

In [13]:
df_combinado.sample(5)

Unnamed: 0,id_recibo,producto_id,pedido_id,cantidad,valor_unitario,valor_total,ciudad,costo_envio,fecha_compra,total,año,mes,producto,precio,marca,sku,condicion,nombre_vendedor
3826,3827,29012,56388,3,525,1575,BR-MS,315.0,2019-08-18,1575.0,2019.0,8.0,Casaco Branco Costuras,525,Tigresse,257889.0,Usado,Millena Pereira
7227,7228,35682,23521,6,250,1500,BR-GO,300.0,2019-12-02,1500.0,2019.0,12.0,Sandalia Birkin Brilhos,250,Schutz,917151.0,Usado,Ana Duarte
8584,8585,91498,106750,6,130,780,BR-RN,156.0,2020-01-12,780.0,2020.0,1.0,Blusa Babados Cats,130,H&m,253257.0,Usado,Daniel Siqueira
15119,15293,6769,89300,3,220,660,BR-RO,132.0,2020-06-25,660.0,2020.0,6.0,Blazer Nude Botao,220,Zara,161490.0,Usado,Ana Duarte
14718,14804,83795,133724,5,310,1550,BR-PE,310.0,2020-06-11,1550.0,2020.0,6.0,Vestido Estampa Color,310,Cantão,309928.0,Usado,Millena Pereira


In [14]:
df_combinado.to_csv('../BBDD/Full_Data(SQL).csv', index=False)