# CONEXIÓN A POSTGRESQL CON PYTHON
<img width = 30%; src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/29/Postgresql_elephant.svg/640px-Postgresql_elephant.svg.png">

## En este notebook aprenderás a:
<div style="background-color: rgb(0, 143, 88);margin: 20px; padding: 20px; border-left: 9px solid #ffb200;">
<ul style="color: rgb(255, 255, 255);font-weight:bold;font-size:15px;">
    <li style="padding:10px;">Crear una conexión con una BBDD de PostgreSQL</li>
    <li style="padding:10px;">Crear y utilizar los cursores para ejecutar sentencias SQL.</li>
    <li style="padding:10px;">Leer ficheros y exportarlos como tablas a POSTGRESQL.</li>
</ul>
</div>

## INSTALACIÓN DE PSYCOPG2
<img width = 40%; src="https://open-telemetry.github.io/opentelemetry-sqlcommenter/images/psycopg2-logo.png">
Lo primero que haremos será instalar la librería de psycopg2.

Para ello, puedes pegar esta instrucción en una celda de tipo código de tu notebook:
>```python
!pip install psycopg2

*Enlace al repo de pypi: https://pypi.org/project/psycopg2/*

In [2]:
!pip install psycopg2

Collecting psycopg2
  Using cached psycopg2-2.9.3-cp39-cp39-win_amd64.whl (1.2 MB)
Installing collected packages: psycopg2
Successfully installed psycopg2-2.9.3


## IMPORTACIÓN

Una vez instalado el paquete, lo importamos para poder usarlo.

In [1]:
import psycopg2 as pg2 #importación del módulo psycopg2

## CREANDO CONEXIÓN

In [2]:
conexion = pg2.connect(
    database='Pagila',
    user='postgres',
    password='root',
    host='127.0.0.1',
    port='5433',
    )

## CREACIÓN DEL CURSOR

In [3]:
cursor = conexion.cursor()

## Realizando consultas

In [4]:
# traemos las 100 primeras películas de la tabla film
cursor.execute('SELECT * FROM film LIMIT 200')

Una vez hemos ejecutado la sentencia de tipo SELECT, podemos empezar a iterar sobre los resultados de esa consulta.

Al utilizar el método `.fetchone()` traemos un registro a cada vez y el resultado es una tupla con el contenido de dicha observación.

In [5]:
primera_fila = cursor.fetchone() #Traemos la primera fila
segunda_fila = cursor.fetchone() #Traemos la segunda fila
# Traemos la tercera fila y el cursor se quedará en la tercera posición 
# esperando a traer la siguiente fila.
tercera_fila = cursor.fetchone() 


In [6]:
#veamos el contenido de las variables
print(primera_fila,end='\n\n')
print(segunda_fila,end='\n\n')
print(tercera_fila,end='\n\n')

(133, 'Chamber Italian', 'A Fateful Reflection of a Moose And a Husband who must Overcome a Monkey in Nigeria', 2006, 1, 7, Decimal('4.99'), 117, Decimal('14.99'), 'NC-17', datetime.datetime(2013, 5, 26, 14, 50, 58, 951000), ['Trailers'], "'chamber':1 'fate':4 'husband':11 'italian':2 'monkey':16 'moos':8 'must':13 'nigeria':18 'overcom':14 'reflect':5")

(384, 'Grosse Wonderful', 'A Epic Drama of a Cat And a Explorer who must Redeem a Moose in Australia', 2006, 1, 5, Decimal('4.99'), 49, Decimal('19.99'), 'R', datetime.datetime(2013, 5, 26, 14, 50, 58, 951000), ['Behind the Scenes'], "'australia':18 'cat':8 'drama':5 'epic':4 'explor':11 'gross':1 'moos':16 'must':13 'redeem':14 'wonder':2")

(8, 'Airport Pollock', 'A Epic Tale of a Moose And a Girl who must Confront a Monkey in Ancient India', 2006, 1, 6, Decimal('4.99'), 54, Decimal('15.99'), 'R', datetime.datetime(2013, 5, 26, 14, 50, 58, 951000), ['Trailers'], "'airport':1 'ancient':18 'confront':14 'epic':4 'girl':11 'india':19 '

**¡Vuelve a pgAdmin, conéctate a la BBDD de Pagila y comprueba que esto es así 😊!¡Corre!** ***(Imagen de Resultado 1)***
<img width = 40%; src="https://c.tenor.com/yca7sOuXOAwAAAAd/run.gif">

cursor, como instancia de la clase cursor que es, tiene también otros atributos. Por ejemplo:

In [7]:
print(f'El número de filas totales que ha traído el cursor es: {cursor.rowcount}')
print(f'La posición del cursor en este momento es: {cursor.rownumber}')

El número de filas totales que ha traído el cursor es: 200
La posición del cursor en este momento es: 3


Por cierto, te dejo aquí la documentación de la clase **cursor**:
> https://www.psycopg.org/docs/cursor.html

Podemos ver el nombre de las columnas al iterar sobre `cursor.description` y apuntar a la posición *0*

In [8]:
cols = [col[0] for col in cursor.description] #Recogemos el nombre de las columnas en una lista de comprensión

## Pasando nuestra consulta a pd.DataFrame

Hagamos uso de Pandas 🐼 para importar nuestros registros en forma de ***pd.DataFrame***. 

La fácil integración con pandas nos simplifica muchísimo las cosas si nos sentimos más cómodxs trabajando así. Nuestra labor se reduce a hacer hacer consultas para analizar los datos después con una estructura de ***pd.DataFrame***.

Usando la función `.fetchall()` del cursor recogemos todos los registros pero ¡Ojo¡ 👁
Todos los registros desde la posición que tenga el cursor. 

Si no hubiésemos recogido las tres primeras filas
nos traería todos los registros, no obstante...¿Qué crees que sucederá ahora?

In [9]:
datos = cursor.fetchall()
import pandas as pd

df = pd.DataFrame(datos, columns = [cols])
df.head()

Unnamed: 0,film_id,title,description,release_year,language_id,rental_duration,rental_rate,length,replacement_cost,rating,last_update,special_features,fulltext
0,98,Bright Encounters,A Fateful Yarn of a Lumberjack And a Feminist ...,2006,1,4,4.99,73,12.99,PG-13,2013-05-26 14:50:58.951,[Trailers],'boat':20 'bright':1 'conquer':14 'encount':2 ...
1,1,Academy Dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,6,0.99,86,20.99,PG,2013-05-26 14:50:58.951,"[Deleted Scenes, Behind the Scenes]",'academi':1 'battl':15 'canadian':20 'dinosaur...
2,2,Ace Goldfinger,A Astounding Epistle of a Database Administrat...,2006,1,3,4.99,48,12.99,G,2013-05-26 14:50:58.951,"[Trailers, Deleted Scenes]",'ace':1 'administr':9 'ancient':19 'astound':4...
3,3,Adaptation Holes,A Astounding Reflection of a Lumberjack And a ...,2006,1,7,2.99,50,18.99,NC-17,2013-05-26 14:50:58.951,"[Trailers, Deleted Scenes]",'adapt':1 'astound':4 'baloon':19 'car':11 'fa...
4,4,Affair Prejudice,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,5,2.99,117,26.99,G,2013-05-26 14:50:58.951,"[Commentaries, Behind the Scenes]",'affair':1 'chase':14 'documentari':5 'fanci':...


Comprobemos qué forma tiene el DataFrame:

In [30]:
df.shape

(197, 13)

Lo dicho, 197 filas porque nos habíamos traído las 3 primeras en tres variables distintas ***(Imagen de Resultado 1)***

In [10]:
print(f'El número de filas totales que ha traído el cursor es: {cursor.rowcount}')
print(f'La posición del cursor en este momento es: {cursor.rownumber}')

El número de filas totales que ha traído el cursor es: 200
La posición del cursor en este momento es: 200


Y como puedes ver el cursor ha llegado a la última posición 😊

Ahora, al intentar iterar y recoger un registro más...

In [11]:
cursor.fetchone() 

No nos devuelve nada más. 😥

## Cerramos el cursor para no generar fugas.

In [12]:
cursor.close()

Ahora al intentar utilizar el cursor nos dirá que ya no tiene información en memoria porque ha sido cerrado

In [13]:
cursor.fetchone()

InterfaceError: cursor already closed

## Creando un nuevo cursor
Como aún no hemos cerrado la conexión con la BBDD podemos crear un nuevo cursor y ver alguna cosita más. 😋😋

In [14]:
cursor2 = conexion.cursor()

Los cursores pueden ser utilizados como context managers y al abandonar el contexto, se cierra el cursor automáticamente.

Aprovechemos para insertar un par de registros en la tabla *actor*

In [15]:
from datetime import datetime #importamos el módulo datetime para registrar la fecha de última modificación

In [16]:
with cursor2 as curs:
    curs.execute(f"INSERT INTO actor (first_name,last_name,last_update) "\
               f"values ('Luis','Tosar','{str(datetime.now())}')")
    conexion.commit()
    curs.execute(f"INSERT INTO actor (first_name,last_name,last_update) "\
               f"values ('Jessica','Chastain','{str(datetime.now())}')")
    conexion.commit()
    curs.execute(f"INSERT INTO actor (first_name,last_name,last_update) "\
               f"values (null,null,'{str(datetime.now())}')")

NotNullViolation: el valor nulo en la columna «first_name» de la relación «actor» viola la restricción de no nulo
DETAIL:  La fila que falla contiene (207, null, null, 2022-09-29 20:56:10.793609).


En la anterior celda estoy intentando simular una serie de transacciones donde estamos insertando registros a la tabla *actor*. Después de cada ejecución de la sentencia `INSERT INTO`fíjate que hago `.commit()` a la conexión para efectuar la transacción. ***(Imagen de Resultado 2)***

Ese método `.commit()` no es necesario cuando estamos consultando con `SELECT` pero sí es requerido para insertar, modificar o borrar información.

Cuando llega al tercer `INSERT INTO`la transacción no se puede efectuar porque viola las restricciones de la tabla. En concreto, el error nos dice que la columna first_name no puede ser nula. Si te fijas en la tabla *actor* --> Propiedades dentro de pgAdmin verás que todas las columnas tienen esa condición. ***(Imagen de Resultado 3)***

Si no queremos tener que escribir commit a cada transacción, también podemos hacer que la conexión tenga la propiedad de *autocommit*:

In [17]:
conexion.close() #cierro la conexión

In [18]:
conexion = pg2.connect( #abro una nueva conexión
    database='Pagila',
    user='postgres',
    password='root',
    host='127.0.0.1',
    port='5433',
    )

conexion.autocommit = True #Establecemos el autocommit a True
cursor3 = conexion.cursor() #Creamos un nuevo cursor

In [19]:
with cursor3 as curs:
    curs.execute(f"INSERT INTO actor (first_name,last_name,last_update) "\
               f"values ('Jim','Carrey','{str(datetime.now())}')")

Comprueba que se ha insertado el registro correctamente ***(Imagen de Resultado 4)***

Si comprobamos el estado del cursor3, nos dirá que está cerrado.

In [20]:
cursor3.closed

True

Y si compruebas en pgAdmin la tabla *actor*, el registro debería haberse insertado 😉

<div style="background-color: #FFCB92; 
                margin:10px;padding:20px;
                color:black;
                font-weight:bold;
                font-size:30px;
                border-left: 9px solid #759a81;">Bonus!</div>

Vamos a crear una tabla en nuestra BBDD Pagila a partir de un excel que contiene el nombre de varios festivales internacionales de cine.

Para ello, utilizaremos pandas y la librería sqlalchemy que será la encargada de proveernos de un motor de conexión con PostgreSQL

Te dejo la documentación de SQLAlchemy:
>https://www.sqlalchemy.org/

In [21]:
from sqlalchemy import create_engine # importamos el método create_engine para crear el motor de conexión.

In [22]:
#string de conexión: driver://user:password@server:puerto/database
engine=create_engine('postgresql+psycopg2://postgres:root@localhost:5433/Pagila')

In [23]:
ruta = r'festivales_cine.xlsx'
df = pd.read_excel(ruta) #Leemos nuestro fichero excel que contiene los festivales de cine

In [24]:
df

Unnamed: 0,id,festival
0,1,"Festival Internacional de Cine de Venecia, Ven..."
1,2,Festival de Cine de Cannes (Francia)
2,3,"Festival de Cine de TriBeCa, Nueva York (EE. UU.)"
3,4,"Festival de Cine de Taormina, Sicilia (Italia)"
4,5,"Festival de Cine de Sundance, Park City, Utah ..."
5,6,"Festival de Cine SXSW, Austin, Texas (EE. UU.)"
6,7,Festival Internacional de Cine de Berlín
7,8,"TIFF, Toronto (Canadá)"
8,9,"MIFF, Melbourne (Australia)"
9,10,"HKIFF, Hong Kong (China)"


Creamos nuestra tabla en la BBDD de Pagila poniendo el nombre 'festival' a la tabla,
pasándole al método `.to_sql` el motor *engine* para la conexión y sin añadir el índice (porque la tabla ya lo contiene)

In [25]:
df.to_sql('festival',engine,index=None)

¡Refresca el campo de *Tables* y comprueba que tienes una tabla de *festival*! 😎 ***(Imagen de Resultado 5)***

<div style="background-color:  #FFCB92;margin: 20px; padding: 20px">
<b>¡Hasta la próxima pequeñx gran Egger!</b> 🐣 Ya estás un pasito más cerca de lograr tus metas!
</div>