<img src="logo.png">

# Postgresql y Pandas

**SQL** es una familia de lenguajes de programación enfocados en el manejo (administración y arquitecturas) de bases de datos, generalmente relacionales. Hoy en día, uno de estos lenguajes de progamación que ha tomado gran importancia debido a que es de licencia libre es **Postgresql** (aunque existen otros como **MySQL** y **SQLite**).

**Pgadmin 4** es un entorno de desarrollo integrado de Postgresql, tal como Spyder lo es de Python 3.7. 

La utilidad de Pgadmin 4 radica en que hoy en día es uno de los IDE más importantes y populares en la industria y la academia para hacer arquitectura de bases de datos. Para mayor información, puedes ver en nuestro repositorio la documentación de nuestro [diplomado de AABD_SQL](https://github.com/scidatmath2020/AABD_SQL). 

Pues bien... muchas veces te será necesario tener tu información armada en Pgadmin 4, de modo que una práctica muy habitual es realizar análisis de datos con Python pero sobre tablas que tienes en Pgadmin. En este capítulo se te enseñará cómo conectar ambos lenguajes de programación. El requisito es tener instalado Pgadmin 4 (no te preocupes si no lo tienes; [aquí](https://youtu.be/RdoGdwlu3lY) puedes ver cómo se instala; omite las instalaciones de Pgadmin III, ya que actualmente es obsoleto)

Las paqueterías que requeriremos son las siguientes (recuerda instalar aquellas que no tengas):

El video de este capítulo lo encuentras [aquí](https://youtu.be/yV9V-1R4LCk). Te conviene verlo a la par que ejecutas esta notebook de Jupyter para que sepas cómo se crearon el servidor y la base de datos con la que trabajaremos. Nota que el script de Python que se muestra en el video está construido en Spyder. Sin embargo, perfectamente puedes ejecutar esta notebook.

In [None]:
!pip install sqlalchemy


In [None]:
!pip install psycopg2

In [None]:
from sqlalchemy import create_engine
import psycopg2
import pandas as pd
import io

## Lectura de tabla desde una base de datos 

In [None]:
# Lectura completa de una tabla
conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")

sql = "SELECT * FROM alcaldias"
ALCALDIAS = pd.read_sql(sql,con = conn)
conn.close()

ALCALDIAS

In [None]:
# Lectura filtrada de una tabla

conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")

Xochimilco = pd.read_sql(sql+" WHERE description LIKE 'Xochimilco'",con = conn)
conn.close()

Xochimilco

In [None]:
conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")
num_alcaldia = input("Ingresa el código numérico de la alcaldia:\t")
airbnb_filtrada = pd.read_sql("SELECT * FROM airbnb_cdmx"+f" WHERE neighbourhood = {num_alcaldia}",con = conn)

conn.close()

airbnb_filtrada

## INTERACCIÓN CON PGADMIN 4 DESDE PYTHON

In [None]:
# Borrado de registros

conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")
cur = conn.cursor()
cur.execute("DELETE FROM alcaldias WHERE description LIKE 'Xochimilco'")
cur.close()
conn.commit()
conn.close()

In [None]:
# Insertado de registros

conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")
cur = conn.cursor()
cur.execute("INSERT INTO alcaldias VALUES (16,'Xochimilco')")
cur.close()
conn.commit()
conn.close()

## PROCESAMIENTO DE DATOS UTILIZANDO AMBOS LENGUAJES

In [None]:
conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")

def lectura(tabla):
    return pd.read_sql(f"SELECT * FROM {tabla}",con = conn)

alcaldias = lectura("alcaldias")

nombres_tablas = ["airbnb_cdmx","alcaldias","tipo_habitacion","tipo_propiedad"]

bd = [lectura(x) for x in nombres_tablas]

conn.close()

airbnb = bd[0].join(bd[1].set_index(["neighbourhood"]), on = ["neighbourhood"],how = "inner")
airbnb.rename(columns={"description":"alcaldia_descripcion"},inplace = True) 
airbnb.columns

airbnb = airbnb.join(bd[2].set_index(["tipo_habitacion"]), on = ["room_type"], how = "inner")
airbnb.rename(columns={"descripcion":"tipo_habitacion_descripcion"},inplace = True) 
airbnb.columns

airbnb = airbnb.join(bd[3].set_index(["tipo_de_propiedad"]), on = ["property_type"], how = "inner")
airbnb.rename(columns={"descripcion":"tipo_propiedad_descripcion"},inplace = True) 
airbnb.columns

airbnb["descripcion_extendida"] = "The airbnb id "+airbnb["id"].astype(str)+" is in " \
                                    + airbnb["alcaldia_descripcion"] \
                                    + ". It is a " + airbnb["tipo_propiedad_descripcion"] \
                                    + " of type room " + airbnb["tipo_habitacion_descripcion"]

tabla_descrp = airbnb[["id","descripcion_extendida"]]
tabla_descrp

## CREACIÓN Y LLENADO DE TABLAS

### Crear una tabla vacía desde Python con la misma cantidad de columnas de un data frame dado y luego llenarla con ese data frame

In [None]:
# Crearemos una tabla vacía desde Python en Pgadmin. Esa tabla se llenará con la información del data frame
# tabla_descrp que se construyó en la sección anterior. Como dicho dataframe tiene las columnas id y descripcion_extendida,
# crearemos en Pgadmin la tabla mi_tabla con dos columnas.

conn = psycopg2.connect("dbname=Sesion_17 user=SciData_CDD_Py password=abcde host=localhost")

cur = conn.cursor()
cur.execute("CREATE TABLE mi_tabla(id varchar,descripcion text)")
cur.close()
conn.commit()
conn.close()

In [None]:
# Llenaremos mi_tabla con el dataframe tabla_descrp desde Python

nom_tabla = "mi_tabla"

engine = create_engine("postgresql+psycopg2://SciData_CDD_Py:abcde@localhost:5432/Sesion_17")

conn = engine.raw_connection()
cur = conn.cursor()
output = io.StringIO()

tabla_descrp.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
contents = output.getvalue()

cur.copy_from(output, nom_tabla, null="") # null values become ''
conn.commit()

cur.close()
conn.close()

### Crear una tabla en Pgadmin directamente desde un dataframe de Python

In [None]:
nom_tabla = "nueva_tabla"

engine = create_engine("postgresql+psycopg2://SciData_CDD_Py:abcde@localhost:5432/Sesion_17")

tabla_descrp.head(0).to_sql(nom_tabla, engine, if_exists='replace',index=False) 

conn = engine.raw_connection()
cur = conn.cursor()
output = io.StringIO()

tabla_descrp.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
contents = output.getvalue()

cur.copy_from(output, nom_tabla, null="") # null values become ''
conn.commit()

cur.close()
conn.close()
