## creación de mi base de datos

Para esta parte del proyecto vamos a valernos de la librería sqlalchemy

In [1]:
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

El proceso de creación de la base de datos consiste tiene muchos puntos en común con lo explicado en el siguiente apartado.


In [None]:
username = 'root'
password = '**casancrenClasico28**'
host = 'localhost'
port = 3306
DB_NAME = 'pi01dts04'

engine = create_engine(f"mysql+pymysql://{username}:{password}@{host}:{port}")

with engine.connect() as conn:
    conn.execute(f"CREATE DATABASE IF NOT EXISTS {DB_NAME}")

## Acceso a base de datos

Para conectar a la database con SQLALCHEMY, necesitamos crear un SQLAlCHEMY engine. Este engine crea una interface común a la base de datos que nos permite ejecutar sentencias de tipo SQL. Por default, sqlalchemy hace el encode en utf-8. Proveeo el path a la base de datos como parámetro, también utilizo la librería pymysql que me permite buscar la base de datos de forma automática.

In [2]:
SQLALCHEMY_DATABASE_URL = "mysql+pymysql://root:**casancrenClasico28**@localhost:3306/pi01dts04"

In [3]:
engine = create_engine(SQLALCHEMY_DATABASE_URL)

Defino una clase Session con la configuración bind que me provee el módulo sessionmaker de sqlalchemy para poder interactuar con la base de datos.
Ya tengo la ruta de acceso, ahora falta iniciar una sesión en la base de datos, lo voy a hacer llamando
al objeto sessionmaker que declarado abajo.


In [4]:
Session = sessionmaker(bind=engine)

In [5]:
session = Session()

Valiéndonos de SQLAlchemy ORM, vamos a definir una clase que hereda de la clase especial declarative_base. Esta clase combina un contenedor de metadata y un mapper que mapea nuestra clase a la tabla de la base de datos

In [6]:
Base = declarative_base()

In [7]:
print(engine)

Engine(mysql+pymysql://root:***@localhost:3306/pi01dts04)


## Creación de  los modelos (tablas)

In [8]:
from sqlalchemy import Column, ForeignKey, Integer, String, Float

In [9]:
class Producto(Base):
    __tablename__ = "producto"

    idProducto = Column(String(20), primary_key=True, index=True)
    marca = Column(String(60), index= True)
    nombre = Column(String(150), index=True)
    presentacion  =  Column(String(60), index=True)


In [10]:
class Sucursal(Base):
    __tablename__ = "sucursal"

    
    IdSucursal = Column(String(20),  primary_key = True, index = True)
    comercioId = Column(Integer, index= True)
    banderaId  = Column(String(150), index = True)
    banderaDescripcion = Column(String(150))
    comercioRazonSocial = Column(String(150))
    provincia = Column(String(35))
    localidad = Column(String(70))
    direccion = Column(String(70))
    lat = Column(String(70), index = True)
    lng = Column(Float, index = True)
    sucursalNombre = Column(String(70))
    sucursalTipo = Column(String(70))
    

In [None]:
class Precio(Base):
    __tablename__ = "precio"
    
    precio = Column(Float)
    producto_id = Column(String(20), primary_key = True, index = True)
    sucursal_id = Column(String(15), index = True)
        
        

In [38]:
Base.metadata.create_all(engine)  # Con esta línea se crean las tablas objetos en la base de datos

In [39]:
session.commit()

In [None]:
datos = pd.read_csv('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\DatasetsNew\\producto.csv', 
                      index_col=False, delimiter = ',')

In [None]:
duplicate = datos[datos.duplicated(['idProducto'])]

In [None]:
print(duplicate)

In [13]:
import pandas as pd
import urllib

In [14]:
import os 
import glob

In [15]:
import chardet
import sqlalchemy

In [16]:
os.chdir('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\DatasetsNew')
extension = 'csv'
archivos = [i for i in glob.glob('*.{}'.format('csv'))]

In [17]:
for i in range (len(archivos)):
    with open(archivos[i], 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(archivos[i], encoding= resultado['encoding'])
        df = df.drop(columns=['categoria1', 'categoria2','categoria3'])
        df.to_sql('producto', con = engine, index=False, if_exists='append') # El último parámetro puede crear duplicados sino lo uso bien
        #query = sqlalchemy.update(fin.DataSource == None).values(Datasource = archivos[i])
        #session.execute(query)

In [18]:
session.commit()


In [None]:
#Carga sucursal

In [40]:
with open('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\sucursal.csv', 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\sucursal.csv', encoding= resultado['encoding'])
        df = capitalizar_sucursal(df)
        df.to_sql('sucursal', con = engine, index=False, if_exists='replace')

In [None]:
#session.query(Producto).update({'categoria3': None})

In [41]:
session.commit()

In [None]:
# capitalizar la data

In [20]:
def capitalizar_sucursal(dfSucursal):
    dfSucursal['banderaDescripcion'] = list(map(lambda x: x.title(), dfSucursal['banderaDescripcion']))
    dfSucursal['comercioRazonSocial'] = list(map(lambda x: x.title(), dfSucursal['comercioRazonSocial']))
    dfSucursal['provincia'] = list(map(lambda x: x.title(), dfSucursal['provincia']))
    dfSucursal['localidad'] = list(map(lambda x: x.title(), dfSucursal['localidad']))
    dfSucursal['direccion'] = list(map(lambda x: x.title(), dfSucursal['direccion']))
    dfSucursal['sucursalNombre'] = list(map(lambda x: x.title(), dfSucursal['sucursalNombre']))
    dfSucursal['sucursalTipo'] = list(map(lambda x: x.title(), dfSucursal['sucursalTipo']))
    return dfSucursal

In [22]:
dfSucursal = pd.read_csv(r'C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\sucursal.csv',
                        encoding= resultado['encoding'])

In [None]:
dfSucursal.head()

In [None]:
'banderaDescripcion','comercioRazonSocial','provincia','localidad','direccion','sucursalNombre', 'sucursalTipo'

In [None]:
dfSucursal.head()

In [None]:
## Carga de precios

In [None]:
os.chdir('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets')
extension = 'csv'
archivos = [i for i in glob.glob('*.{}'.format('csv'))]

In [None]:
archivos

In [None]:
for archivo in archivos:
    if archivo.startswith('precios_semana'):
        with open(archivo, 'rb') as f:
        resultado = chardet.detect(f.read())
        df = pd.read_csv(archivo, encoding= resultado['encoding'])
        #Acá va a ir todo lo que le vaya a hacer al archivo
        df.to_sql('precio', con = engine, index=False, if_exists='append')

In [None]:
session.commit()

In [None]:
datos = pd.read_csv('C:\\Users\\diego\\Desktop\\PI01DTS04\\PI01_DATA_ENGINEERING\\Datasets\\precios_semana_20200503.csv', 
                      index_col=False, delimiter = ',')

In [None]:
datos.head()

In [None]:
nombreColumna = "precio"
ultimaColumna = datos.pop(nombreColumna)

In [None]:
datos.insert(2, nombreColumna, ultimaColumna)

In [None]:
datos

In [None]:
duplicados = datos[datos.duplicated(['producto_id', 'sucursal_id','precio'])]

In [None]:
duplicados

In [None]:
datos.dtypes

In [None]:
# quiero quedarme con los últimos 13 números de producto_id 

In [None]:
print(datos.loc[[17000]])

In [None]:
datos[[ 'producto_id', 'sucursal_id']] = datos[['producto_id','sucursal_id']].astype(str)

In [None]:
datos.dtypes

In [None]:
datos['producto_id'] = datos['producto_id'].str[-13:]

In [None]:
 print(datos.loc[[17000]])

In [None]:
# Update data de tablas

In [None]:
import mysql.connector
from mysql.connector import Error

In [None]:


mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

mycursor = mydb.cursor()

sql = "UPDATE customers SET address = 'Canyon 123' WHERE address = 'Valley 345'"

mycursor.execute(sql)



mydb.commit()

print(mycursor.rowcount, "record(s) affected")

In [None]:
try:
    connection = mysql.connector.connect(host='localhost',
                                         database='pi01dts04',
                                         user='root',
                                         password='**casancrenClasico28**')
    if connection.is_connected():
       print("Hola")

except Error as e:
    print("Error while connecting to MySQL", e)
finally:
    if connection.is_connected():
        cursor.close()
        connection.close()
        print("MySQL connection is closed")    

In [42]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` modify idSucursal varchar(20) primary key')

In [43]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` ADD `IdProvincia` INT NOT NULL DEFAULT 0 AFTER `provincia`')

In [47]:
with engine.connect() as con:
    con.execute('UPDATE sucursal  SET idProvincia = 1 where provincia = "Ar-A"')
    con.execute('UPDATE sucursal  SET idProvincia = 2 where provincia = "Ar-B"')
    con.execute('UPDATE sucursal  SET idProvincia = 3 where provincia = "Ar-C"')
    con.execute('UPDATE sucursal  SET idProvincia = 4 where provincia = "Ar-D"')
    con.execute('UPDATE sucursal  SET idProvincia = 5 where provincia = "Ar-E"')
    con.execute('UPDATE sucursal  SET idProvincia = 6 where provincia = "Ar-F"')
    con.execute('UPDATE sucursal  SET idProvincia = 7 where provincia = "Ar-G"')
    con.execute('UPDATE sucursal  SET idProvincia = 8 where provincia = "Ar-H"')
    con.execute('UPDATE sucursal  SET idProvincia = 9 where provincia = "Ar-J"')
    con.execute('UPDATE sucursal  SET idProvincia = 10 where provincia = "Ar-K"')
    con.execute('UPDATE sucursal  SET idProvincia = 11 where provincia = "Ar-L"')
    con.execute('UPDATE sucursal  SET idProvincia = 12 where provincia = "Ar-M"')
    con.execute('UPDATE sucursal  SET idProvincia = 13 where provincia = "Ar-N"')
    con.execute('UPDATE sucursal  SET idProvincia = 14 where provincia = "Ar-P"')
    con.execute('UPDATE sucursal  SET idProvincia = 15 where provincia = "Ar-Q"')
    con.execute('UPDATE sucursal  SET idProvincia = 16 where provincia = "Ar-R"')
    con.execute('UPDATE sucursal  SET idProvincia = 17 where provincia = "Ar-S"')
    con.execute('UPDATE sucursal  SET idProvincia = 18 where provincia = "Ar-T"')
    con.execute('UPDATE sucursal  SET idProvincia = 19 where provincia = "Ar-U"')
    con.execute('UPDATE sucursal  SET idProvincia = 20 where provincia = "Ar-V"')
    con.execute('UPDATE sucursal  SET idProvincia = 21 where provincia = "Ar-W"')
    con.execute('UPDATE sucursal  SET idProvincia = 22 where provincia = "Ar-X"')
    con.execute('UPDATE sucursal  SET idProvincia = 23 where provincia = "Ar-Y"')
    con.execute('UPDATE sucursal  SET idProvincia = 24 where provincia = "Ar-Z"')
    

In [48]:
with engine.connect() as con:
    con.execute('ALTER TABLE `sucursal` DROP `provincia`')

In [76]:
with engine.connect() as con:
    con.execute('ALTER TABLE `provincia` modify idProvincia INTEGER NOT NULL PRIMARY KEY')

In [None]:
# Ahora tendría que hacer las tablas de dimensiones y a lo último dropear las columnas

In [None]:
# Crear tablas de dimensiones

In [49]:
comercioIdUnicos= dfSucursal.drop_duplicates(subset='comercioId', keep="first")

In [50]:
comercioIdUnicos

Unnamed: 0,idSucursal,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.29525,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
558,11-2-1007,11,2,Changomas,Wal Mart Argentina S.R.L.,AR-F,LA RIOJA,Ortiz De Ocampo 1127,-29.428056,-66.862434,La Rioja,Hipermercado
649,12-1-101,12,1,COTO CICSA,Coto Centro Integral de Comercialización S.A.,AR-B,Avellaneda,Italia 62,-34.665007,-58.362318,AVELLANEDA,Supermercado
769,13-1-1,13,1,Cooperativa Obrera Limitada de Consumo y Vivienda,Cooperativa Obrera Limitada de Consumo y Vivienda,AR-B,Bahía Blanca,Av. San Martín 3634,-38.78299,-62.265877,White,Supermercado
903,14-1-1,14,1,Supermercados Becerra,Miguel Becerra S.A.,AR-X,Alta Gracia,Av.Belgrano 466,-31.658308,-64.42845,Casa Central,Hipermercado
914,15-1-1,15,1,Supermercados DIA,DIA Argentina S.A,AR-C,Capital Federal,Cl Beiro 3146,-34.597137,-58.497643,1 - Villa Devoto,Autoservicio
1558,16-1-1002,16,1,Hipermercado Libertad,Libertad S.A,AR-G,La Banda,Autopista Juan Domingo Perón None,-27.767976,-64.251963,Hipermercado Santiago del Estero,Hipermercado
1584,17-1-242,17,1,Atomo,Millan S.A.,AR-D,Merlo,Coronel N. Mercau 1176,-32.33852,-65.01436,Merlo,Supermercado
1588,18-1-1,18,1,Super Aiello,Aiello Supermercados S.A.,AR-D,San Luis,San Martín 575,-33.304813,-66.336836,San Martín,Hipermercado


In [51]:
comercioDim = comercioIdUnicos[['comercioId','comercioRazonSocial']].copy()

In [52]:
comercioDim


Unnamed: 0,comercioId,comercioRazonSocial
0,1,Dinosaurio S.A.
1,10,INC S.A.
558,11,Wal Mart Argentina S.R.L.
649,12,Coto Centro Integral de Comercialización S.A.
769,13,Cooperativa Obrera Limitada de Consumo y Vivienda
903,14,Miguel Becerra S.A.
914,15,DIA Argentina S.A
1558,16,Libertad S.A
1584,17,Millan S.A.
1588,18,Aiello Supermercados S.A.


In [53]:
comercioDim = comercioDim.sort_values(by=['comercioId'])

In [54]:
comercioDim

Unnamed: 0,comercioId,comercioRazonSocial
0,1,Dinosaurio S.A.
1606,2,S.A. Importadora y Exportadora de la Patagonia
1906,3,Deheza S.A.I.C.F. e I.
1958,4,Estación Lima S.A.
1969,5,California S.A.
1976,6,Alberdi S.A.
2005,7,Cyre S.A.
2043,8,Mariano S.A.
2052,9,Jumbo Retail Argentina S.A.
1,10,INC S.A.


In [56]:
class Comercio(Base):
    __tablename__ = "comercio"

    comercioId = Column(Integer, primary_key = True, index= True)
    comercioRazonSocial = Column(String(150))

In [61]:
class Provincia(Base):
    __tablename__ = "provincia"

    idProvincia = Column(Integer, primary_key = True, index= True)
    provinciaNombre = Column(String(150))

In [73]:
Base.metadata.create_all(engine)

In [70]:
comercioDim.to_sql('comercio', con = engine, index=False, if_exists='replace')

34

In [71]:
session.commit()

In [63]:
# Para el dataframe provincias voy a utilizar un diccionario, ya que no son demasiados datos

In [66]:
provincias = {
     'idProvincia' : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                      11, 12, 13,14 , 15, 16, 17, 18, 19, 20,
                      21, 22, 23, 24],
    'provinciaNombre' : ['Salta', 'Buenos Aires', 'Capital Federal', 'San Luis','Entre Ríos',
                        'La Rioja','Santiago Del Estero','Chaco','San Juan','Catamarca',
                         'La Pampa','Mendoza','Misiones','Formosa','Neuquén','Río Negro',
                         'Santa Fe','Tucumán','Chubut','Tierra del Fuego','Corrientes',
                         'Córdoba','Jujuy','Santa Cruz']
    
}

In [67]:
provinciaDim = pd.DataFrame(provincias)

In [68]:
provinciaDim

Unnamed: 0,idProvincia,provinciaNombre
0,1,Salta
1,2,Buenos Aires
2,3,Capital Federal
3,4,San Luis
4,5,Entre Ríos
5,6,La Rioja
6,7,Santiago Del Estero
7,8,Chaco
8,9,San Juan
9,10,Catamarca


In [74]:
provinciaDim.to_sql('provincia', con = engine, index=False, if_exists='replace')

24

In [75]:
# Ponerle primary key a la tabla provincia