# PostreSQL + SQL Alchemy + Pandas

In [1]:
# Importamos las librerías principales
import psycopg2
#En caso de no tener instalado psycopg2 --> pip install psycopg2
from psycopg2.extensions import ISOLATION_LEVEL_AUTOCOMMIT
import pandas as pd
import sqlalchemy as db

## Instalación de PostgreSQL

En la documentación oficial vamos a encontrar las instrucciones para instalar PostgreSQL en los diferentes sistemas operativos, como así también vamos a encontrar diferentes versiones. En ese sentido, para las prácticas que vamos a realizar, se sugiere instalar a partir de la versión 12 en adelante.

* Documentación oficial: https://www.postgresql.org/

## Pasos generales para trabajar con PostgreSQL

**1. Crear una conexión a la base de datos:** utilizando el *método connect ()* generamos un objeto de conexión a base de datos SQL Server.

**2. Crear un cursor:**  El método *cursor ()* se utiliza para realizar la conexión y ejecutar consultas SQL que nos permiten crear tablas, insertar datos, etc. Para crear un cursor solo necesitamos usar la conexión que ya hemos creado.

**3. Ejecutar una sentencia SQL:** Una vez creado el cursor, podremos ejecutar las sentencias SQL utilizando el método *execute()*.

**4: Realizar un commit:** El método *commit ()* se utiliza para guardar cualquier transacción de forma permanente en el sistema de base de datos. Todas las modificaciones de datos o del sistema realizadas por el comando COMMIT desde el comienzo de las transacciones son de naturaleza permanente y no se pueden deshacer ni revertir, ya que una operación COMMIT exitosa libera todos los recursos de transacción involucrados.

**5: Desconectarnos de la base de datos:** El método *close ()* cierra la conexión a la base de datos.

## Configuraciones principales

In [2]:
# Crear una conexión a la base de datos
conn = psycopg2.connect(
    host="localhost",
    user="postgres",
    password="admin")

conn.set_isolation_level(ISOLATION_LEVEL_AUTOCOMMIT)

# Crear un cursor
cursor = conn.cursor()


## Crear una base de datos

In [3]:
# Crear una base de datos
query = "CREATE DATABASE commerce"
cursor.execute(query)
conn.commit()

In [4]:
# Verificamos la creación de la base de datos. A diferencia de MySQL, no disponemos 
# del comando SHOW DATABASES por lo cual tenemos que utilizar la siguiente sentencia sql para hacer lo
# mismo
sql_str = "SELECT datname FROM pg_catalog.pg_database WHERE datname =  %s ;"
cursor.execute(sql_str, ['commerce'])
res = cursor.fetchall()
print(res)


[('commerce',)]


## Borrar una base de datos

In [6]:
# Crear una base de datos
# query = "DROP DATABASE commerce"
# cursor.execute(query)
# conn.commit()

## Abrimos una nueva conexión a la base de datos 'commerce'

In [5]:
# Cerrar la conexión anterior a PostgreSQL
conn.close()

# Crear una conexión a la base de datos
conn = psycopg2.connect(
    host="localhost",
    user="postgres",
    password="admin",
    database='commerce')

conn.set_isolation_level(ISOLATION_LEVEL_AUTOCOMMIT)

# Crear un cursor
cursor = conn.cursor()


## Crear una tabla
* Tipos de datos en PostgreSQL --> https://www.postgresql.org/docs/current/datatype.html

In [6]:
# Crear una tabla --> Notar que las columnas que tienen letras mayúsculas se anotan entre comillas
query = """CREATE TABLE IF NOT EXISTS orders (
            "orderId" INTEGER,
            "totalPrice" DOUBLE PRECISION,
            address CHARACTER VARYING(50)
            )"""

cursor.execute(query)
conn.commit()

In [7]:
# Verificamos la creación de la tabla. A diferencia de MySQL, no disponemos del comando SHOW TABLES
# por lo cual debemos colocar el sigueinte comando sql para realizar la misma tarea
cursor.execute("SELECT relname FROM pg_class WHERE relkind='r' and relname !~ '^(pg_|sql_)';")
print (cursor.fetchall())

[('orders',)]


## Insertar datos

In [8]:
# Método 1: Utilizando el método execute()

query = """INSERT INTO orders ("orderId", "totalPrice", address) VALUES
            (546, 3489.98, 'Buenos Aires 989'),
            (547, 6897, 'Espronceda 3218'),
            (560, 7542.35, 'Pasteur 1788'),
            (562, 11432, 'Galicia 1252')"""
cursor.execute(query)
conn.commit()

In [9]:
# Método 2: Utilizando el método executemany()
order_data = [
    (546, 3489.98, 'Buenos Aires 989'),
    (547, 6897, 'Espronceda 3218'),
    (560, 7542.35, 'Pasteur 1788'),
    (562, 11432, 'Galicia 1252')
]

query = """INSERT INTO orders ("orderId", "totalPrice", address) VALUES(%s, %s, %s)"""
cursor.executemany(query,order_data)
conn.commit()

## Seleccionar datos

In [10]:
# Seleccionar un dato utilizando fetchone
query = "SELECT * FROM orders"
cursor.execute(query)
one_result = cursor.fetchone()
print(one_result)

(546, 3489.98, 'Buenos Aires 989')


In [11]:
# Seleccionar un dato utilizando fetchmany, el cual me trae los primeros elementos que le indiqie
query = "SELECT * FROM orders"
cursor.execute(query)
results = cursor.fetchmany(2)
for res in results:
    print(res)

(546, 3489.98, 'Buenos Aires 989')
(547, 6897.0, 'Espronceda 3218')


In [12]:
# Seleccionar un dato utilizando fetchall
query = "SELECT * FROM orders"
cursor.execute(query)
results = cursor.fetchall()
for res in results:
    print(res)

(546, 3489.98, 'Buenos Aires 989')
(547, 6897.0, 'Espronceda 3218')
(560, 7542.35, 'Pasteur 1788')
(562, 11432.0, 'Galicia 1252')
(546, 3489.98, 'Buenos Aires 989')
(547, 6897.0, 'Espronceda 3218')
(560, 7542.35, 'Pasteur 1788')
(562, 11432.0, 'Galicia 1252')


## Actualizar datos

In [13]:
# Update data
query = """UPDATE orders
            SET "totalPrice" = 6150.80
            WHERE address = 'Buenos Aires 989'
            
"""
cursor.execute(query)
conn.commit() # Usamos commit para confirmar la transaccion

# Seleccionar todos los datos utilizando fetchall
query = "SELECT * FROM orders"
cursor.execute(query)
results = cursor.fetchall()
for r in results:
    print(r)

(547, 6897.0, 'Espronceda 3218')
(560, 7542.35, 'Pasteur 1788')
(562, 11432.0, 'Galicia 1252')
(547, 6897.0, 'Espronceda 3218')
(560, 7542.35, 'Pasteur 1788')
(562, 11432.0, 'Galicia 1252')
(546, 6150.8, 'Buenos Aires 989')
(546, 6150.8, 'Buenos Aires 989')


## Borrar datos

In [14]:
# Borrar datos
query = "DELETE FROM orders WHERE address = 'Pasteur 1788'"
cursor.execute(query)

# Seleccionar todos los datos utilizando fetchall
query = "SELECT * FROM orders"
cursor.execute(query)
results = cursor.fetchall()
for r in results:
    print(r)

(547, 6897.0, 'Espronceda 3218')
(562, 11432.0, 'Galicia 1252')
(547, 6897.0, 'Espronceda 3218')
(562, 11432.0, 'Galicia 1252')
(546, 6150.8, 'Buenos Aires 989')
(546, 6150.8, 'Buenos Aires 989')


## Otros comandos. Descomentar de acuerdo a tu necesidad y ejecutar

In [17]:
# Close connection
# conn.close()

#Drop table
# query = """DROP TABLE IF EXISTS orders"""
# cursor.execute(query)
# conn.commit()

## SQL Alchemy + Pandas

### Conectarse utilzando un engine de SQLAlchemy
En este caso vamos a crear un **engine** de SQLAlchemy referenciando la base de datos previamente creada, para luego conectarnos a el.
Luego volvemos a utilizar el método read_sql de la librería Pandas para consultar la base de datos y obtener un dataframe.

In [15]:
# Cerramos la conexión que generamos con mysql.connector
conn.close()

# Creación del engine
engine = db.create_engine("postgresql+psycopg2://postgres:admin@localhost/commerce")
sqla_connection = engine.connect()

In [16]:
# Obtener un dataframe a partir de una consulta SQL
query = "SELECT * FROM orders"
data = pd.read_sql(query, con=sqla_connection)
data.head()

Unnamed: 0,orderId,totalPrice,address
0,547,6897.0,Espronceda 3218
1,562,11432.0,Galicia 1252
2,547,6897.0,Espronceda 3218
3,562,11432.0,Galicia 1252
4,546,6150.8,Buenos Aires 989


## Seleccionar datos

In [17]:
# Método: read_sql_table
pd.read_sql_table('orders',con=sqla_connection)

Unnamed: 0,orderId,totalPrice,address
0,547,6897.0,Espronceda 3218
1,562,11432.0,Galicia 1252
2,547,6897.0,Espronceda 3218
3,562,11432.0,Galicia 1252
4,546,6150.8,Buenos Aires 989
5,546,6150.8,Buenos Aires 989


In [18]:
# Método: read_sql
pd.read_sql_table('orders',con=sqla_connection)

query = "SELECT * FROM orders"
data = pd.read_sql(query, con=sqla_connection)
data

Unnamed: 0,orderId,totalPrice,address
0,547,6897.0,Espronceda 3218
1,562,11432.0,Galicia 1252
2,547,6897.0,Espronceda 3218
3,562,11432.0,Galicia 1252
4,546,6150.8,Buenos Aires 989
5,546,6150.8,Buenos Aires 989


## Insertar datos

In [20]:
# Para insertar estos datos, previamente descargar el archivo txt que se encuetra en el siguiente link
# https://drive.google.com/file/d/1pJfxW_gUedQlVsO55tVzbQ-FXjk4-jBF/view?usp=sharing'


# Leer el archivo con Pandas. Reemplazar la ruta de la variable path con la de tu archivo.
path = "full_orders.txt"
df = pd.read_csv(path, sep ='\t')
print(f"Columnas antes -> {df.columns}")
df.columns = ['orderId', 'totalPrice', 'address']
df

Columnas antes -> Index(['1264', '12199', 'Montevideo 3608'], dtype='object')


Unnamed: 0,orderId,totalPrice,address
0,853,8584,Payro 4273
1,816,9991,Pasteur 4145
2,891,6348,Dominguez 4237
3,1188,3276,Fátima 3916
4,1375,10117,Blas Parera 3686
...,...,...,...
94,1317,12887,La Tribuna 3133
95,1002,13922,Blas Parera 3115
96,441,11933,Pasteur 4884
97,974,14847,Los Pozos 3478


In [21]:
# Insertar datos en la BD utilzando el método to_sql
df.to_sql(name='orders', con=sqla_connection, if_exists='append', index = False)

99

In [22]:
# Comprobación
query = "SELECT * FROM orders"
data = pd.read_sql(query, con=sqla_connection)
data

Unnamed: 0,orderId,totalPrice,address
0,547,6897.0,Espronceda 3218
1,562,11432.0,Galicia 1252
2,547,6897.0,Espronceda 3218
3,562,11432.0,Galicia 1252
4,546,6150.8,Buenos Aires 989
...,...,...,...
100,1317,12887.0,La Tribuna 3133
101,1002,13922.0,Blas Parera 3115
102,441,11933.0,Pasteur 4884
103,974,14847.0,Los Pozos 3478
