## creación de mi base de datos

Para esta parte del proyecto vamos a valernos de la librería sqlalchemy

In [1]:
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

El proceso de creación de la base de datos consiste tiene muchos puntos en común con lo explicado en el siguiente apartado.


In [None]:
username = 'root'
password = '**casancrenClasico28**'
host = 'localhost'
port = 3306
DB_NAME = 'pi01dts04'

engine = create_engine(f"mysql+pymysql://{username}:{password}@{host}:{port}")

with engine.connect() as conn:
    conn.execute(f"CREATE DATABASE IF NOT EXISTS {DB_NAME}")

## Acceso a base de datos

Para conectar a la database con SQLALCHEMY, necesitamos crear un SQLAlCHEMY engine. Este engine crea una interface común a la base de datos que nos permite ejecutar sentencias de tipo SQL. Por default, sqlalchemy hace el encode en utf-8. Proveeo el path a la base de datos como parámetro, también utilizo la librería pymysql que me permite buscar la base de datos de forma automática.

In [2]:
SQLALCHEMY_DATABASE_URL = "mysql+pymysql://root:**casancrenClasico28**@localhost:3306/pi01dts04"

In [3]:
engine = create_engine(SQLALCHEMY_DATABASE_URL)

Defino una clase Session con la configuración bind que me provee el módulo sessionmaker de sqlalchemy para poder interactuar con la base de datos.
Ya tengo la ruta de acceso, ahora falta iniciar una sesión en la base de datos, lo voy a hacer llamando
al objeto sessionmaker que declarado abajo.


In [4]:
Session = sessionmaker(bind=engine)

In [5]:
session = Session()

Valiéndonos de SQLAlchemy ORM, vamos a definir una clase que hereda de la clase especial declarative_base. Esta clase combina un contenedor de metadata y un mapper que mapea nuestra clase a la tabla de la base de datos

In [6]:
Base = declarative_base()

In [7]:
print(engine)

Engine(mysql+pymysql://root:***@localhost:3306/pi01dts04)


## Creación de  los modelos (tablas)

In [8]:
from sqlalchemy import Column, ForeignKey, Integer, String, Float

In [9]:
class Producto(Base):
    __tablename__ = "producto"

    idProducto = Column(String(20), primary_key=True, index=True)
    marca = Column(String(60), index= True)
    nombre = Column(String(150), index=True)
    presentacion  =  Column(String(60), index=True)


In [10]:
class Sucursal(Base):
    __tablename__ = "sucursal"

    
    IdSucursal = Column(String(20),  primary_key = True, index = True)
    comercioId = Column(Integer, index= True)
    banderaId  = Column(String(150), index = True)
    banderaDescripcion = Column(String(150))
    comercioRazonSocial = Column(String(150))
    provincia = Column(String(35))
    localidad = Column(String(70))
    direccion = Column(String(70))
    lat = Column(String(70), index = True)
    lng = Column(Float, index = True)
    sucursalNombre = Column(String(70))
    sucursalTipo = Column(String(70))
    

In [None]:
#class Precio(Base):
#    __tablename__ = "precio"
    
#    precio = Column(Float, primary_key = True)
#    producto_id = Column(String(20), primary_key = True, index = True)
#    sucursal_id = Column(String(15), primary_key= True, index = True)
        
#Para crear la tabla con el ORM de SQLALCHEMY necesito sí o sí declarar una primary_key, eso me crea conflictos más
# adelante, especialmente con cargas dinámicas,
# entoces voy a cargar los datos directamente con pandas y después los voy a transformar

In [None]:
# Debajo dos tablas de dimensiones creadas en el proceso de normalización

In [11]:
class Comercio(Base):
    __tablename__ = "comercio"

    comercioId = Column(Integer, primary_key = True, index= True)
    comercioRazonSocial = Column(String(150))

In [12]:
class Provincia(Base):
    __tablename__ = "provincia"

    idProvincia = Column(Integer, primary_key = True, index= True)
    provinciaNombre = Column(String(150))

In [13]:
Base.metadata.create_all(engine)  # Con esta línea se crean las tablas objetos en la base de datos

In [14]:
session.commit()

## carga de tablas

In [39]:
import chardet      # Esta librería permite detecciones automáticas de encodig
import pandas as pd

### tabla producto

In [20]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\producto.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\producto.csv',
                         encoding= resultado['encoding'])
        
        df = df.drop(columns=['categoria1', 'categoria2','categoria3'])
        df.to_sql('producto', con = engine, index=False, if_exists='append')

### tabla sucursal

In [25]:
# capitalizar la data

Si bien la función "capitalizar_sucursal" pone en letra capital los valores de las distintas columnas de la tabla sucursal. Además, ayuda en la lectura del código de la creación de la tabla sucursal. 

In [15]:
def capitalizar_sucursal(dfSucursal):
    dfSucursal['banderaDescripcion'] = list(map(lambda x: x.title(), dfSucursal['banderaDescripcion']))
    dfSucursal['comercioRazonSocial'] = list(map(lambda x: x.title(), dfSucursal['comercioRazonSocial']))
    dfSucursal['provincia'] = list(map(lambda x: x.title(), dfSucursal['provincia']))
    dfSucursal['localidad'] = list(map(lambda x: x.title(), dfSucursal['localidad']))
    dfSucursal['direccion'] = list(map(lambda x: x.title(), dfSucursal['direccion']))
    dfSucursal['sucursalNombre'] = list(map(lambda x: x.title(), dfSucursal['sucursalNombre']))
    dfSucursal['sucursalTipo'] = list(map(lambda x: x.title(), dfSucursal['sucursalTipo']))
    return dfSucursal

In [23]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\sucursal.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\sucursal.csv', encoding= resultado['encoding'])
        df = capitalizar_sucursal(df)
        df.to_sql('sucursal', con = engine, index=False, if_exists='replace')

In [24]:
session.commit()

### Tabla de precios

In [26]:
# La carga de la tabla de precios se hace en distintas etapas. En primer lugar se cargan los archivos de semanas pasadas.
# En segundo lugar se hace una carga dinámica de nuevos archivos

#### Creación de tabla y carga de datos pasados

In [27]:
# antes de cargar los archivos, dropeo los nulos. Se que no es el escenario ideal. De tener más tiempo, en el caso de los
# precios buscaría obtener el promedio de cada producto dentro del archivo en el que se encuentra, e imputar ese valor 
# medio al producto correspondiente, de manera de tener un valor aproximado.
 

In [52]:
# En la lista noLeer van a ir todos los archivos que fueron leídos o que no son insumo de la tabla precio.
# Esta lista ayudará a hacer lecturas automáticas de nuevos archivos de precios ingresados al directorio Datasets
# dado que si no se encuentran en esta lista podrán ser procesados. 

In [28]:
noLeer = ["producto.csv", "sucursal.csv"] 
                                          

In [29]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200413.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200413.csv',
                         encoding= resultado['encoding'])
        df = df.dropna()
        df['producto_id'] = df['producto_id'].str[-13:]
        df = df[['producto_id', 'sucursal_id', 'precio']]
        df.to_sql('precio', con = engine, index=False, if_exists='append')
        noLeer.append('precios_semana_20200413.csv')

In [32]:
noLeer

['producto.csv', 'sucursal.csv', 'precios_semana_20200413.csv']

In [33]:
# una vez creada la tabla le agrego una primary autoincremental, de manera que los nuevos registros ingresados puedan
# contar con una columna que los identifique

In [34]:
with engine.connect() as con:
    con.execute('ALTER TABLE `precio` ADD precio_id INTEGER AUTO_INCREMENT PRIMARY KEY FIRST')
    

In [35]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200503.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200503.csv',
                         encoding= resultado['encoding'])
        df= df.dropna()
        df['producto_id'] = df['producto_id'].str[-13:]
        df = df[['producto_id', 'sucursal_id', 'precio']]
        df.to_sql('precio', con = engine, index=False, if_exists='append')
        noLeer.append('precios_semana_20200503.csv')

In [36]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200518.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200518.csv',
                         encoding= resultado['encoding'])
        df= df.dropna()
        df['producto_id'] = df['producto_id'].str[-13:]
        df = df[['producto_id', 'sucursal_id', 'precio']]
        df.to_sql('precio', con = engine, index=False, if_exists='append')
        noLeer.append('precios_semana_20200518.csv')

In [37]:
noLeer

['producto.csv',
 'sucursal.csv',
 'precios_semana_20200413.csv',
 'precios_semana_20200503.csv',
 'precios_semana_20200518.csv']

In [None]:
#Los nuevos archivos de precios deben ser volcados de manera automática

In [None]:
import pandas as pd
import urllib

In [40]:
import os    # los módulos os y glob me permiten un mejor manejo de los directorios 
import glob

In [41]:
import chardet


In [43]:
# Enlistar los archivos del directorio Datasets para poder hacer un manejo automático

In [42]:
os.chdir('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets')
extension = 'csv'
archivos = [i for i in glob.glob('*.{}'.format('csv'))]


In [None]:
# El éxito del bloque de abajo dependerá de que los archivos de precios ingresados comiencen con "precios_semana",
# algo que se podría estandarizar cordinando con las personas encargadas de relevar los datos.

In [48]:
for archivo in archivos:
    if archivo.startswith('precios_semana') and archivo not in noLeer:
        with open(archivo, 'rb') as f:
            resultado = chardet.detect(f.read())
            df = pd.read_csv(archivo, encoding= resultado['encoding'])
            #Acá va a ir todo lo que le vaya a hacer al archivo
            df = df.dropna()
            df['producto_id'] = df['producto_id'].astype(str)
            df['producto_id'] = df['producto_id'].str[-13:] # Me quedo con los últimos 13 chars (código de producto)
            df = df[['producto_id', 'sucursal_id', 'precio']]
            df.to_sql('precio', con = engine, index=False, if_exists='append')
            noLeer.append(archivo)

In [49]:
noLeer

['producto.csv',
 'sucursal.csv',
 'precios_semana_20200413.csv',
 'precios_semana_20200503.csv',
 'precios_semana_20200518.csv',
 'precios_semanas_20200419_20200426.csv']

In [None]:
# Una vez cargados todos los datos procedemos a eliminar los duplicacos

In [None]:
with engine.connect() as con:
    con.execute('delete p1 FROM precio p1 INNER  JOIN precio p2 WHERE p1.precio_id < p2.precio_id AND p1.producto_id = p2.producto_id AND p1.sucursal_id = p2.sucursal_id AND p1.precio = p2.precio')

In [None]:
#with engine.connect() as con:
#    con.execute('DELETE p1 FROM precio AS p1 INNER JOIN precio AS p2 WHERE p1.precio_id < p2.precio_id AND p1.dup = p2.dup')

In [None]:
session.commit()

In [None]:
datos = pd.read_csv('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200503.csv', 
                      index_col=False, delimiter = ',')

In [None]:
datos.head()

In [None]:
nombreColumna = "precio"
ultimaColumna = datos.pop(nombreColumna)

In [None]:
datos.insert(2, nombreColumna, ultimaColumna)

In [None]:
datos

In [None]:
duplicados = datos[datos.duplicated(['producto_id', 'sucursal_id','precio'])]

In [None]:
duplicados

In [None]:
datos.dtypes

In [None]:
# quiero quedarme con los últimos 13 números de producto_id 

In [None]:
print(datos.loc[[17000]])

In [None]:
datos[[ 'producto_id', 'sucursal_id']] = datos[['producto_id','sucursal_id']].astype(str)

In [None]:
datos.dtypes

In [None]:
datos['producto_id'] = datos['producto_id'].str[-13:]

In [None]:
 print(datos.loc[[17000]])

In [None]:
# Update data de tablas

In [None]:
import mysql.connector
from mysql.connector import Error

In [None]:


mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

mycursor = mydb.cursor()

sql = "UPDATE customers SET address = 'Canyon 123' WHERE address = 'Valley 345'"

mycursor.execute(sql)



mydb.commit()

print(mycursor.rowcount, "record(s) affected")

In [None]:
try:
    connection = mysql.connector.connect(host='localhost',
                                         database='pi01dts04',
                                         user='root',
                                         password='**casancrenClasico28**')
    if connection.is_connected():
       print("Hola")

except Error as e:
    print("Error while connecting to MySQL", e)
finally:
    if connection.is_connected():
        cursor.close()
        connection.close()
        print("MySQL connection is closed")    

In [None]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` modify idSucursal varchar(20) primary key')

In [None]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` ADD `IdProvincia` INT NOT NULL DEFAULT 0 AFTER `provincia`')

In [None]:
with engine.connect() as con:
    con.execute('UPDATE sucursal  SET idProvincia = 1 where provincia = "Ar-A"')
    con.execute('UPDATE sucursal  SET idProvincia = 2 where provincia = "Ar-B"')
    con.execute('UPDATE sucursal  SET idProvincia = 3 where provincia = "Ar-C"')
    con.execute('UPDATE sucursal  SET idProvincia = 4 where provincia = "Ar-D"')
    con.execute('UPDATE sucursal  SET idProvincia = 5 where provincia = "Ar-E"')
    con.execute('UPDATE sucursal  SET idProvincia = 6 where provincia = "Ar-F"')
    con.execute('UPDATE sucursal  SET idProvincia = 7 where provincia = "Ar-G"')
    con.execute('UPDATE sucursal  SET idProvincia = 8 where provincia = "Ar-H"')
    con.execute('UPDATE sucursal  SET idProvincia = 9 where provincia = "Ar-J"')
    con.execute('UPDATE sucursal  SET idProvincia = 10 where provincia = "Ar-K"')
    con.execute('UPDATE sucursal  SET idProvincia = 11 where provincia = "Ar-L"')
    con.execute('UPDATE sucursal  SET idProvincia = 12 where provincia = "Ar-M"')
    con.execute('UPDATE sucursal  SET idProvincia = 13 where provincia = "Ar-N"')
    con.execute('UPDATE sucursal  SET idProvincia = 14 where provincia = "Ar-P"')
    con.execute('UPDATE sucursal  SET idProvincia = 15 where provincia = "Ar-Q"')
    con.execute('UPDATE sucursal  SET idProvincia = 16 where provincia = "Ar-R"')
    con.execute('UPDATE sucursal  SET idProvincia = 17 where provincia = "Ar-S"')
    con.execute('UPDATE sucursal  SET idProvincia = 18 where provincia = "Ar-T"')
    con.execute('UPDATE sucursal  SET idProvincia = 19 where provincia = "Ar-U"')
    con.execute('UPDATE sucursal  SET idProvincia = 20 where provincia = "Ar-V"')
    con.execute('UPDATE sucursal  SET idProvincia = 21 where provincia = "Ar-W"')
    con.execute('UPDATE sucursal  SET idProvincia = 22 where provincia = "Ar-X"')
    con.execute('UPDATE sucursal  SET idProvincia = 23 where provincia = "Ar-Y"')
    con.execute('UPDATE sucursal  SET idProvincia = 24 where provincia = "Ar-Z"')
    

In [None]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` DROP `provincia`')

In [None]:
with engine.connect() as con:
    con.execute('ALTER TABLE `provincia` modify idProvincia INTEGER NOT NULL PRIMARY KEY')

In [None]:
# Ahora tendría que hacer las tablas de dimensiones y a lo último dropear las columnas

In [None]:
# Crear tablas de dimensiones

In [None]:
comercioIdUnicos= dfSucursal.drop_duplicates(subset='comercioId', keep="first")

In [None]:
comercioIdUnicos

In [None]:
comercioDim = comercioIdUnicos[['comercioId','comercioRazonSocial']].copy()

In [None]:
comercioDim


In [None]:
comercioDim = comercioDim.sort_values(by=['comercioId'])

In [None]:
comercioDim

In [None]:
comercioDim.to_sql('comercio', con = engine, index=False, if_exists='replace')

In [None]:
session.commit()

In [None]:
# Para el dataframe provincias voy a utilizar un diccionario, ya que no son demasiados datos

In [None]:
provincias = {
     'idProvincia' : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                      11, 12, 13,14 , 15, 16, 17, 18, 19, 20,
                      21, 22, 23, 24],
    'provinciaNombre' : ['Salta', 'Buenos Aires', 'Capital Federal', 'San Luis','Entre Ríos',
                        'La Rioja','Santiago Del Estero','Chaco','San Juan','Catamarca',
                         'La Pampa','Mendoza','Misiones','Formosa','Neuquén','Río Negro',
                         'Santa Fe','Tucumán','Chubut','Tierra del Fuego','Corrientes',
                         'Córdoba','Jujuy','Santa Cruz']
    
}

In [None]:
provinciaDim = pd.DataFrame(provincias)

In [None]:
provinciaDim

In [None]:
provinciaDim.to_sql('provincia', con = engine, index=False, if_exists='replace')

In [None]:
session.close()