### **Clase 11 - Conexión de bases mediante Python**

### **`Del motor a Python`**

#### **1 - psycopg2**

In [54]:
import psycopg2
import pandas as pd

In [55]:
host='localhost' 
user='postgres'
password='catalina'
database='spotify'
port='5432'

In [56]:
conn = psycopg2.connect(host=host, dbname=database, user=user, password=password, port=port)

In [57]:
cursor = conn.cursor()

In [6]:
cursor.execute('SELECT * FROM cancion')

In [7]:
cursor.fetchone()

('New Rules', 1, 10)

In [8]:
cursor.fetchall()

[('Lost in Your Light', 1, 2),
 ('Into You', 4, 4),
 ('Side To Side', 4, 5),
 ('Problem', 3, 2),
 ('Break Free', 3, 5),
 ('God Is a Woman', 5, 5),
 ('I Like It', 6, 7),
 ('Bad Blood', 11, 8),
 ('Blank Space', 11, 2),
 ('The Story of Us', 9, 4),
 ('Love Story', 8, 3),
 ('Havanna', 13, 4),
 ('One Dance', 17, 122),
 ('Too Much', 16, 123),
 ('Own It', 16, 5),
 ('Broken Whiskey Glass', 19, 1),
 ('Too Young', 19, 11),
 ('Train food', 23, 3),
 ('One Minute', 23, 7)]

El `cursor` se mantiene abierto -> `closed: 0` y debemos cerrarlo en caso de no utilizarlo más

In [9]:
cursor

<cursor object at 0x000002CAF7834F20; closed: 0>

In [10]:
cursor.close()

Ya lo hemos cerrado -> `closed: -1`

In [11]:
cursor

<cursor object at 0x000002CAF7834F20; closed: -1>

También podemos utilizar `with` para que después de utilizar el `cursor` se cierre automáticamente

In [12]:
with conn.cursor() as cursor:
    cursor.execute('SELECT * FROM cancion')
    data = cursor.fetchall()

data

[('New Rules', 1, 10),
 ('Lost in Your Light', 1, 2),
 ('Into You', 4, 4),
 ('Side To Side', 4, 5),
 ('Problem', 3, 2),
 ('Break Free', 3, 5),
 ('God Is a Woman', 5, 5),
 ('I Like It', 6, 7),
 ('Bad Blood', 11, 8),
 ('Blank Space', 11, 2),
 ('The Story of Us', 9, 4),
 ('Love Story', 8, 3),
 ('Havanna', 13, 4),
 ('One Dance', 17, 122),
 ('Too Much', 16, 123),
 ('Own It', 16, 5),
 ('Broken Whiskey Glass', 19, 1),
 ('Too Young', 19, 11),
 ('Train food', 23, 3),
 ('One Minute', 23, 7)]

Eliminamos un registro y con `commit()` enviamos la modificación a la Base de datos

In [59]:
with conn.cursor() as cursor:
    cursor.execute('DELETE FROM cancion WHERE numero_del_track=1;')

conn.commit()

Eliminamos el registro -> `('Broken Whiskey Glass', 19, 1)`

In [64]:
with conn.cursor() as cursor:
    cursor.execute('SELECT * FROM cancion')
    data = cursor.fetchall()

data

[('New Rules', 1, 10),
 ('Lost in Your Light', 1, 2),
 ('Into You', 4, 4),
 ('Side To Side', 4, 5),
 ('Problem', 3, 2),
 ('Break Free', 3, 5),
 ('God Is a Woman', 5, 5),
 ('I Like It', 6, 7),
 ('Bad Blood', 11, 8),
 ('Blank Space', 11, 2),
 ('The Story of Us', 9, 4),
 ('Love Story', 8, 3),
 ('Havanna', 13, 4),
 ('One Dance', 17, 122),
 ('Too Much', 16, 123),
 ('Own It', 16, 5),
 ('Too Young', 19, 11),
 ('Train food', 23, 3),
 ('One Minute', 23, 7)]

#### **2 - sqlalchemy**

In [46]:
import pandas as pd
from sqlalchemy import text
from sqlalchemy import create_engine

In [47]:
host='localhost' 
user='postgres'
password='catalina'
database='spotify'
port='5432'

In [48]:
# dialect+driver://username:password@host:port/database
engine = create_engine(f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}') 

In [51]:
engine

Engine(postgresql+psycopg2://postgres:***@localhost:5432/spotify)

In [52]:
with engine.begin() as conn:
    query = text("""SELECT * FROM cancion""")
    df = pd.read_sql_query(query, conn)

df

Unnamed: 0,titulo_cancion,id_album,numero_del_track
0,New Rules,1,10
1,Lost in Your Light,1,2
2,Into You,4,4
3,Side To Side,4,5
4,Problem,3,2
5,Break Free,3,5
6,God Is a Woman,5,5
7,I Like It,6,7
8,Bad Blood,11,8
9,Blank Space,11,2


### **`De Python al motor`**

### **`Ejemplo: Ingestando datos del Titanic`**

In [1]:
import psycopg2
import pandas as pd

In [2]:
host='localhost' 
user='postgres'
password='catalina'
database='titanic'
port='5432'

In [3]:
conn = psycopg2.connect(host=host, dbname=database, user=user, password=password, port=port)

In [4]:
cursor = conn.cursor()

Con el cursor generado, procederemos a crear la tabla `data_titanic` con la siguiente linea. Cabe destacar que enesta linea incluimos todos los atributos medibles de la base de datos del titanic. Los registros con los que trabajamos tienen las siguientes caracteristicas.

- `Index`: La clave primaria de la tabla, como un numero serial.
- `PassengerId`: Un digito identificador único del pasajero. Es un tipo de dato entero.
- `Survival`: Identificador de supervivencia del pasajero al naufragio. Es un tipo de dato booleano.
- `Pclass`: Clase del pasajero (Primera, Segunda o Tercera). Es un tipo de dato cadena.
- `Name`: El nombre del pasajero. Es un tipo de dato cadena.
- `Sex`: El sexo del pasajero. Es un tipo de dato cadena.
- `Age`: La edad del pasajero. Es un tipo de dato flotante dado las caracteristicas del registro.
- `SibSp`: Cantidad de hermanos y/o esposas del pasajero. Es un tipo de dato entero.
- `Parch`: Cantidad de padres y/o hijos del pasajero. Es un tipo de dato entero.
- `Ticket`: Numero del ticket. Es un tipo de dato cadena.
- `Fare`: Costo total del ticket. Es un tipo de dato flotante.
- `Cabin`: Numero de cabina asignada al pasajero. Es un tipo de dato cadena.
- `Embarked`: Puerto donde embarcó el pasajero. Es un tipo de dato cadena.

In [5]:
with conn.cursor() as cursor:
    cursor.execute("""
                   CREATE TABLE data_titanic(
                    PassengerId INTEGER,
                    Survived BOOLEAN,
                    Pclass INTEGER,
                    Name VARCHAR(255),
                    Sex VARCHAR(6),
                    Age DOUBLE PRECISION,
                    SibSp INTEGER,
                    Parch INTEGER,
                    Ticket VARCHAR(50),
                    Fare DOUBLE PRECISION,
                    Cabin VARCHAR(50),
                    Embarked VARCHAR(50),
                    PRIMARY KEY(PassengerId)
                   );
    """)

conn.commit()

In [6]:
import csv

with open('./titanic_dataset.csv', 'r') as archivo:
    contenidoArchivo = csv.reader(archivo, delimiter=',')
    next(contenidoArchivo)

    for fila in contenidoArchivo:
        print(fila)

['1', '0', '3', 'Braund, Mr. Owen Harris', 'male', '22.0', '1', '0', 'A/5 21171', '7.25', '', 'S']
['2', '1', '1', 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'female', '38.0', '1', '0', 'PC 17599', '71.2833', 'C85', 'C']
['3', '1', '3', 'Heikkinen, Miss. Laina', 'female', '26.0', '0', '0', 'STON/O2. 3101282', '7.925', '', 'S']
['4', '1', '1', 'Futrelle, Mrs. Jacques Heath (Lily May Peel)', 'female', '35.0', '1', '0', '113803', '53.1', 'C123', 'S']
['5', '0', '3', 'Allen, Mr. William Henry', 'male', '35.0', '0', '0', '373450', '8.05', '', 'S']
['6', '0', '3', 'Moran, Mr. James', 'male', '', '0', '0', '330877', '8.4583', '', 'Q']
['7', '0', '1', 'McCarthy, Mr. Timothy J', 'male', '54.0', '0', '0', '17463', '51.8625', 'E46', 'S']
['8', '0', '3', 'Palsson, Master. Gosta Leonard', 'male', '2.0', '3', '1', '349909', '21.075', '', 'S']
['9', '1', '3', 'Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)', 'female', '27.0', '0', '2', '347742', '11.1333', '', 'S']
['10', '1', '2', 'Na

Ni idea porque no me carga. Utilice la carga por medio de consola.

In [14]:
import csv

# Generamos la lectura del archivo
with open('./titanic_dataset.csv', 'r') as archivo:
    # Realizamos la ingesta
    contenidoArchivo = csv.reader(archivo, delimiter=',')
    # Ignoramos la primera fila que corresponde al header
    next(contenidoArchivo)

    # Para cada una de las filas remanentes 
    for fila in contenidoArchivo:
        # Ejecutaremos una orden en el cursor que inserte los datos
        # "INSERT INTO data_titanic(PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked) VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", fila
        cursor.execute("INSERT INTO data_titanic VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", fila)

InvalidTextRepresentation: la sintaxis de entrada no es válida para tipo double precision: «»
LINE 1: ...VALUES('6', '0', '3', 'Moran, Mr. James', 'male', '', '0', '...
                                                             ^


Podemos usar este comando para cargar el archivo dede consola:

In [None]:
COPY data_titanic FROM 'C:/github/desafio_latam_data_science/4-SQL_para_Data_Science/Modulo_3_Conexion_a_bases_de_datos_mediante_Python/clases/titanic_dataset.csv' delimiter ',' CSV HEADER;

Ingresaremos dos registros:

In [5]:
cursor.execute("INSERT INTO data_titanic VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", (892,'0',3,'Jack Dawson','male',20,2,0,'unknown',0,'unknown','C'))
conn.commit()

In [8]:
cursor.execute("INSERT INTO data_titanic VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", (893,'1',1,'Rose DeWitt Bukater','female',17,1,1,'unknown',0,'unknown','S'))
conn.commit()

Revisamos si se ingresaron los registros:

In [9]:
cursor.execute('SELECT * FROM data_titanic ORDER BY passengerid DESC LIMIT 2')
cursor.fetchall()


[(893,
  True,
  1,
  'Rose DeWitt Bukater',
  'female',
  17.0,
  1,
  1,
  'unknown',
  0.0,
  'unknown',
  'S'),
 (892,
  False,
  3,
  'Jack Dawson',
  'male',
  20.0,
  2,
  0,
  'unknown',
  0.0,
  'unknown',
  'C')]

Vamos a convertir nuestra tabla con datos en un Dataframe:

In [11]:
cursor.execute('SELECT * FROM data_titanic')
columnas = cursor.fetchall()
titanic_df = pd.DataFrame(list(columnas))

titanic_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,1,False,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,True,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,True,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,True,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,False,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Ingresamos nombres para las columnas:

In [12]:
titanic_df.columns = ['PassengerId','Survived','Pclass','Name','Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked']

titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,False,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,True,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,True,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,True,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,False,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Reemplazamos los valores `unknown`:

In [15]:
import numpy as np

for columna in titanic_df.columns:
    titanic_df[columna] = titanic_df[columna].replace('None', np.nan)

titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,False,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,True,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,True,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,True,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,False,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- Eliminamos las columnas `PassengerId`, `Name`, `Ticket`, `Cabin`
- Eliminamos los registros que tengan datos perdidos

In [16]:
titanic_df = titanic_df.drop(columns=['PassengerId','Name','Ticket','Cabin']).dropna()

titanic_df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,False,3,male,22.0,1,0,7.25,S
1,True,1,female,38.0,1,0,71.2833,C
2,True,3,female,26.0,0,0,7.925,S
3,True,1,female,35.0,1,0,53.1,S
4,False,3,male,35.0,0,0,8.05,S


Vamos a preprocesar los valores de Survived, Sex y Embarked dado que no son numericos

In [17]:
titanic_df['Sex'] = titanic_df['Sex'].replace(['male','female'], [0, 1])
titanic_df['Embarked'] = np.where(titanic_df['Embarked'] == 'S', 1, 0)
titanic_df['Age'] = titanic_df['Age'].apply(int)
titanic_df['Survived'] = np.where(titanic_df['Survived'] == True, 1, 0)
titanic_df['Pclass_1'] = np.where(titanic_df['Pclass'] == 1, 1, 0)
titanic_df['Pclass_3'] = np.where(titanic_df['Pclass'] == 3, 1, 0)
titanic_df = titanic_df.drop(columns='Pclass')

titanic_df.head()

Unnamed: 0,Survived,Sex,Age,SibSp,Parch,Fare,Embarked,Pclass_1,Pclass_3
0,0,0,22,1,0,7.25,1,0,1
1,1,1,38,1,0,71.2833,0,1,0
2,1,1,26,0,0,7.925,1,0,1
3,1,1,35,1,0,53.1,1,1,0
4,0,0,35,0,0,8.05,1,0,1


Exportamos los datos a un archivo CSV

In [19]:
titanic_proc_csv = titanic_df.to_csv('titanic_df.csv', index=False)

Migrando nuestro pd.DataFrame al motor PostgreSQL. Vamos a repetir el proceso de importación para poder llevar este a sql para poder ser procesado en postgresql. Lo primero que debemos hacer es cerrar el cursor anterior y crear uno nuevo que represente el procedimiento de salida:

In [20]:
cursor.close()

cursor_out = conn.cursor()

Crearemos la tabla para nuestro nuevo archivo:

In [21]:
with conn.cursor() as cursor:
    cursor.execute("""
                   CREATE TABLE data_titanic_proc(
                    Survived BOOLEAN,
                    Sex VARCHAR(6),
                    Age DOUBLE PRECISION,
                    SibSp INTEGER,
                    Parch INTEGER,
                    Fare DOUBLE PRECISION,
                    Embarked VARCHAR(50),
                    Pclass_1 BOOLEAN,
                    Pclass_3 BOOLEAN
                   );
    """)

conn.commit()

Leer el archivo e insertar datos en la tabla

In [22]:
import csv

# Generamos la lectura del archivo
with open('./titanic_df.csv', 'r') as archivo:
    # Realizamos la ingesta
    contenidoArchivo = csv.reader(archivo, delimiter=',')
    # Ignoramos la primera fila que corresponde al header
    next(contenidoArchivo)

    # Para cada una de las filas remanentes 
    for fila in contenidoArchivo:
        # Ejecutaremos una orden en el cursor que inserte los datos
        # "INSERT INTO data_titanic(PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked) VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)", fila
        cursor_out.execute("INSERT INTO data_titanic_proc VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s)", fila)

In [23]:
conn.commit()

Revisamos si fue cargada en PostgreSQL:

In [24]:
cursor_out.execute('SELECT * FROM data_titanic_proc')
cursor_out.fetchall()

[(False, '0', 22.0, 1, 0, 7.25, '1', False, True),
 (True, '1', 38.0, 1, 0, 71.2833, '0', True, False),
 (True, '1', 26.0, 0, 0, 7.925, '1', False, True),
 (True, '1', 35.0, 1, 0, 53.1, '1', True, False),
 (False, '0', 35.0, 0, 0, 8.05, '1', False, True),
 (False, '0', 54.0, 0, 0, 51.8625, '1', True, False),
 (False, '0', 2.0, 3, 1, 21.075, '1', False, True),
 (True, '1', 27.0, 0, 2, 11.1333, '1', False, True),
 (True, '1', 14.0, 1, 0, 30.0708, '0', False, False),
 (True, '1', 4.0, 1, 1, 16.7, '1', False, True),
 (True, '1', 58.0, 0, 0, 26.55, '1', True, False),
 (False, '0', 20.0, 0, 0, 8.05, '1', False, True),
 (False, '0', 39.0, 1, 5, 31.275, '1', False, True),
 (False, '1', 14.0, 0, 0, 7.8542, '1', False, True),
 (True, '1', 55.0, 0, 0, 16.0, '1', False, False),
 (False, '0', 2.0, 4, 1, 29.125, '0', False, True),
 (False, '1', 31.0, 1, 0, 18.0, '1', False, True),
 (False, '0', 35.0, 0, 0, 26.0, '1', False, False),
 (True, '0', 34.0, 0, 0, 13.0, '1', False, False),
 (True, '1', 15.0