In [1]:
import pandas as pd
pd.options.display.max_columns = None

import sqlalchemy as alch
from sqlalchemy.exc import SQLAlchemyError


from getpass import getpass # sistema seguro para gestión de contraseñas

# Cargamos los datos de nuestro CSV

In [2]:
df = pd.read_csv("../Data/03.1 Datos_limpitos_.csv", index_col = 0)
df.head(2)

Unnamed: 0,price,currency,ad_situation,rooms,bath,building_space,measuring_unit,price/m2,brokered_by,direction,city,state,postal_code,índice_poder_adqui,índice_seguridad,índice_sanidad,índice_clima,índice_costo_vida,relación_precio_ingresos_propiedades,índice_costo_desplazamiento,índice_contaminación,índice_calidad_vida,latidud_,longitud_
0,289900,USD,New,3,2,181.0,m2,1602.0,Greene Realty Group LLC,"5142 Puget Rd NE, Olympia",Olympia,Washington,98516,108.43,70.61,71.99,83.44,70.23,3.37,19.11,16.01,204.67,47.134266,-122.734934
1,146999,USD,Old,3,2,124.0,m2,1185.0,Adair Homes,"South Puget Sound 2303 93rd Ave SW, Olympia",Olympia,Washington,98512,108.43,70.61,71.99,83.44,70.23,3.37,19.11,16.01,204.67,47.011384,-122.926033


In [3]:
df.dtypes

price                                     int64
currency                                 object
ad_situation                             object
rooms                                     int64
bath                                      int64
building_space                          float64
measuring_unit                           object
price/m2                                float64
brokered_by                              object
direction                                object
city                                     object
state                                    object
postal_code                               int64
índice_poder_adqui                      float64
índice_seguridad                        float64
índice_sanidad                          float64
índice_clima                            float64
índice_costo_vida                       float64
relación_precio_ingresos_propiedades    float64
índice_costo_desplazamiento             float64
índice_contaminación                    

# Creación de la Clase¶

In [13]:
class Cargar:
    
    def __init__(self, nombre_bbdd, contraseña):

        # nuestra clase va a recibir dos parámetros que son fijos a lo largo de toda la BBDD, el nombre de la BBDD y la contraseña con el servidor. 
        self.nombre_bbdd = nombre_bbdd
        self.contraseña = contraseña

    def conexion_servidor(self): 
        conexion = f"mysql+pymysql://root:{self.contraseña}@localhost"
        return alch.create_engine(conexion)


    def crear_bbdd(self):
        engine = self.conexion_servidor()
        try:
            engine.execute(f"CREATE DATABASE IF NOT EXISTS {self.nombre_bbdd};")
            
        except:
            print("La BBDD ya existe")

    def conexion_base_datos(self):

        conexion2 = f"mysql+pymysql://root:{self.contraseña}@localhost/{self.nombre_bbdd}"
        return alch.create_engine(conexion2)

    def crear_insertar_tabla(self, query):
        engine = self.conexion_base_datos()

    
        try:
            engine.execute(query)
          
        except SQLAlchemyError as e:
            error = str(e.__dict__['orig'])
            return error

    def sacar_id(self, link, col_id,  columna, tabla):
        
        engine = self.conexion_base_datos()
        
        try:
            query_sacar_id = f"SELECT {col_id} FROM {tabla} WHERE {columna} = '{link}'"

            id_ = engine.execute(query_sacar_id).first()
 
            if not id_:
                return "Ese id no esta en la BBDD"
            else:
                return engine.execute(query_sacar_id).first()[0]
        
        except SQLAlchemyError as e:
            error = str(e.__dict__['orig'])
            return error


# Iniciamos la clase

In [5]:
contraseña = getpass("Contraseña de MySQL: ")

Contraseña de MySQL: ········


In [14]:
casa_usa = Cargar("casa_usa", contraseña)
casa_usa.crear_bbdd()

# Definición de las variables

In [None]:
df.dtypes

In [None]:
tabla_states = '''
CREATE TABLE IF NOT EXISTS `casa_usa`.`states` (
    `idstate` INT NOT NULL AUTO_INCREMENT,
    `state` VARCHAR(50) NOT NULL,
  PRIMARY KEY (`idstate`));
'''

tabla_cities = '''
CREATE TABLE IF NOT EXISTS `casa_usa`.`cities` (
    `idcity` INT NOT NULL AUTO_INCREMENT,
    `city` VARCHAR(500) NOT NULL,
    PRIMARY KEY (`idcity`));
'''

tabla_locations = '''
CREATE TABLE IF NOT EXISTS `casa_usa`.`locations` (
    `iddirection` INT NOT NULL AUTO_INCREMENT,
    `direction` VARCHAR(900) NOT NULL,
    `latidud_` DECIMAL(6,2) NOT NULL,
    `longitud_` DECIMAL(6,2) NOT NULL,
    `postal_code` INT NOT NULL,
    `idcity` INT NOT NULL,
    `idstate` INT NOT NULL,
  PRIMARY KEY ( `iddirection`, `idcity`, `idstate`),
  INDEX `fk_locations_cities1_idx` (`idcity` ASC) ,
  INDEX `fk_locations_states1_idx` (`idstate` ASC) ,
  CONSTRAINT `fk_locations_cities1`
    FOREIGN KEY (`idcity`)
    REFERENCES `casa_usa`.`cities` (`idcity`),
  CONSTRAINT `fk_locations_states1`
    FOREIGN KEY (`idstate`)
    REFERENCES `casa_usa`.`states` (`idstate`))
ENGINE = InnoDB;

'''


tabla_caracteristicas = '''
CREATE TABLE IF NOT EXISTS `casa_usa`.`caracteristicas` (
    `idcaract` INT NOT NULL AUTO_INCREMENT,
    `price` INT NOT NULL,
    `rooms` INT NOT NULL,
    `bath` INT NOT NULL,
    `building_space` DECIMAL(6,2) NOT NULL,
    `price/m2` DECIMAL(6,2) NOT NULL,
    `iddirection` INT NOT NULL,
  PRIMARY KEY ( `idcaract`, `iddirection`),
  INDEX `fk_caracteristicas_locations1_idx` (`iddirection` ASC) ,
  CONSTRAINT `fk_caracteristicas_locations1`
    FOREIGN KEY (`iddirection`)
    REFERENCES `casa_usa`.`locations` (`iddirection`))
ENGINE = InnoDB; 
'''

tabla_indexes = '''
CREATE TABLE IF NOT EXISTS `casa_usa`.`indexes` (
    `idindex` INT NOT NULL AUTO_INCREMENT,
    `índice_poder_adqui` DECIMAL(6,2) NOT NULL,
    `índice_seguridad` DECIMAL(6,2) NOT NULL,
    `índice_sanidad` DECIMAL(6,2) NOT NULL,
    `índice_clima` DECIMAL(6,2) NOT NULL,
    `índice_costo_vida` DECIMAL(6,2) NOT NULL,
    `relación_precio_ingresos_propiedades` DECIMAL(6,2) NOT NULL,
    `índice_costo_desplazamiento` DECIMAL(6,2) NOT NULL,
    `índice_contaminación` DECIMAL(6,2) NOT NULL,
    `índice_calidad_vida` DECIMAL(6,2) NOT NULL,
    `idcity` INT NOT NULL,
  PRIMARY KEY ( `idindex`, `idcity`),
  INDEX `fk_indexes_cities1_idx` (`idcity`) ,
  CONSTRAINT `fk_indexes_cities1`
    FOREIGN KEY (`idcity`)
    REFERENCES `casa_usa`.`cities` (`idcity`))
ENGINE = InnoDB;

'''



# Creamos las tablas

In [None]:
casa_usa.crear_insertar_tabla(tabla_cities)
casa_usa.crear_insertar_tabla(tabla_states)
casa_usa.crear_insertar_tabla(tabla_locations)
casa_usa.crear_insertar_tabla(tabla_caracteristicas)
casa_usa.crear_insertar_tabla(tabla_indexes)

# Insertamos los datos

In [None]:
# tabla states

for indice, fila in df.iterrows():
    
    # creamos la query que nos inserta datos en la tabla states
    query_state= f"""INSERT INTO states (state) 
                VALUES ("{fila["state"]}");"""
    
    id_state = casa_usa.sacar_id( f'{fila["state"]}', "idstate" , "state", "states")
    
    if id_state == 'Ese id no esta en la BBDD' : 
        casa_usa.crear_insertar_tabla(query_state)


    else:
        pass


In [None]:
# tabla cities

for indice, fila in df.iterrows():
    
    # creamos la query que nos inserta datos en la tabla states
    query_city= f"""INSERT INTO cities (city) 
                VALUES ("{fila["city"]}");"""
    
    id_city = casa_usa.sacar_id( f'{fila["city"]}', "idcity" , "city", "cities")
    
    if id_city == 'Ese id no esta en la BBDD' : 
        casa_usa.crear_insertar_tabla(query_city)


    else:
        pass


In [None]:
# tabla indexes

for indice, fila in df.iterrows():
    
    id_city = casa_usa.sacar_id(f'{fila["city"]}', "idcity" , "city", "cities")    
    
    # creamos la query que nos inserta datos en la tabla states
    query_index= f"""INSERT INTO indexes (índice_poder_adqui, índice_seguridad, índice_sanidad, índice_clima, índice_costo_vida, relación_precio_ingresos_propiedades, índice_costo_desplazamiento, índice_contaminación, índice_calidad_vida, idcity) 
                VALUES ("{fila["índice_poder_adqui"]}", "{fila["índice_seguridad"]}", "{fila["índice_sanidad"]}", "{fila["índice_clima"]}", "{fila["índice_costo_vida"]}", "{fila["relación_precio_ingresos_propiedades"]}", "{fila["índice_costo_desplazamiento"]}", "{fila["índice_contaminación"]}", "{fila["índice_calidad_vida"]}", {id_city});"""
    
    casa_usa.crear_insertar_tabla(query_index)

In [None]:
# tabla locations

for indice, fila in df.iterrows():
    
    id_state = casa_usa.sacar_id(f'{fila["state"]}', "idstate" , "state", "states")    
    id_city = casa_usa.sacar_id(f'{fila["city"]}', "idcity" , "city", "cities")    
    
    query_locations = f"""INSERT INTO locations (direction, latidud_, longitud_, postal_code, idcity, idstate)
                VALUES ("{fila['direction']}", "{fila['latidud_']}", "{fila['longitud_']}", "{fila['postal_code']}", {id_city}, {id_state});"""
    
    casa_usa.crear_insertar_tabla(query_locations)

In [21]:
# tabla caracteristicas

for indice, fila in df.iterrows():
    
    id_direction = casa_usa.sacar_id(f'{fila["direction"]}', "iddirection" , "direction", "locations")
    
    # creamos la query que nos inserta datos en la tabla states
    query_caracteristicas= f"""INSERT INTO caracteristicas (price, rooms, bath, building_space, `price/m2`, iddirection) 
                VALUES ("{fila['price']}", "{fila['rooms']}", "{fila['bath']}", "{fila['building_space']}", "{fila['price/m2']}", {id_direction});"""
    
    casa_usa.crear_insertar_tabla(query_caracteristicas)
    