# Proyecto: Conexión a una base de datos tipo SQL administrada por `postgreSQL`

## Mostraremos que usando `pandas` podemos hacer consultas con un formato más simple e intuitivo del que ofrece el lenguaje `SQL`

In [2]:

import pandas as pd

# cargamos la libreria para conectar bases de datos tipo 'SQL'
import psycopg2

# en caso de no tener la libreria "psycopg2", la podemos instalar con:
#  sudo apt-get install -y python3-psycopg2 

## Creamos la conexion a la base de datos:

In [3]:
# Creamos la conexión con la base de datos usando el administrador 'postgreSQL':
conexion = psycopg2.connect(
    host = '127.0.0.1',#'localhost',
    port = '5432',
    user = 'postgres',
    password = 'pw-psql', #<- password del usuario postgres    
    database = 'transporte'  # <- nombre de la base de datos
    )

## Información de la base de datos:

### La base de datos `transporte` tiene 4 tablas `estacion`, `pasajero`,`trayecto`, `tren` y `viaje`

## Hacemos consultas en lenguaje SQL y las convertimos a DataFrames de pandas:

In [4]:
# Extraemos los primeros 10 registros de la tabla 'viaje'
query1_sql = '''
SELECT *
FROM viaje
LIMIT 10;
'''


df_viaje = pd.read_sql(query1_sql, conexion)
df_viaje.head(5)

Unnamed: 0,id,id_pasajero,id_trayecto,inicio,fin
0,1,76,16,2021-02-02 00:22:07-06:00,2020-12-11 19:58:28-06:00
1,2,34,42,2021-05-23 16:16:18-05:00,2020-08-07 01:37:16-05:00
2,3,62,92,2020-10-04 08:39:59-05:00,2021-08-01 12:55:42-05:00
3,4,47,39,2021-05-08 20:17:25-05:00,2021-07-22 01:20:35-05:00
4,5,53,8,2020-12-05 06:50:59-06:00,2021-03-05 12:42:09-06:00


In [5]:
# Extraemos los primeros 10 registros de la tabla 'pasajero'
query2_sql = '''
SELECT *
FROM pasajero
LIMIT 10;
'''

df_pasajero = pd.read_sql(query2_sql, conexion)
df_pasajero.head(5)

Unnamed: 0,id,nombre,direccion_residencia,fecha_nacimiento
0,1,Lorrin Sickling,Tony,2020-03-06
1,3,Brigid Hayford,Forster,2018-11-15
2,5,Daffi Riepel,Nobel,2019-01-26
3,7,Putnem Gouck,Elka,2017-12-08
4,8,Waite Bairstow,Melrose,2017-12-14


In [6]:
# Extraemos una tabla de pasajeros con y sin viajes mediante un JOIN de SQL

query3_sql = '''
SELECT *
FROM pasajero
LEFT JOIN viaje
ON (viaje.id_pasajero = pasajero.id);
'''

In [7]:
df_pasajero_viaje = pd.read_sql(query3_sql, conexion)
df_pasajero_viaje

Unnamed: 0,id,nombre,direccion_residencia,fecha_nacimiento,id.1,id_pasajero,id_trayecto,inicio,fin
0,76,Wat Elintune,Portage,2019-07-17,1.0,76.0,16.0,2021-02-02 00:22:07-06:00,2020-12-11 19:58:28-06:00
1,34,Alayne Cleeton,Hooker,2020-02-12,2.0,34.0,42.0,2021-05-23 16:16:18-05:00,2020-08-07 01:37:16-05:00
2,62,Ilario Ever,Maryland,2019-05-24,3.0,62.0,92.0,2020-10-04 08:39:59-05:00,2021-08-01 12:55:42-05:00
3,47,Carole Creevy,Mitchell,2020-03-24,4.0,47.0,39.0,2021-05-08 20:17:25-05:00,2021-07-22 01:20:35-05:00
4,53,Aindrea Ferroni,Nova,2020-06-15,5.0,53.0,8.0,2020-12-05 06:50:59-06:00,2021-03-05 12:42:09-06:00
...,...,...,...,...,...,...,...,...,...
133,86,Francois Celler,Clyde Gallagher,2018-07-06,,,,,
134,70,Sarette Albrook,Canary,2019-09-14,,,,,
135,45,Laughton Scotney,Mayfield,2019-01-23,,,,,
136,87,Sabine MacGorman,Ilene,2019-08-17,,,,,


In [8]:
df_pasajero_viaje.shape

(138, 9)

In [9]:
df_pasajero_viaje.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138 entries, 0 to 137
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    138 non-null    int64  
 1   nombre                131 non-null    object 
 2   direccion_residencia  138 non-null    object 
 3   fecha_nacimiento      138 non-null    object 
 4   id                    100 non-null    float64
 5   id_pasajero           100 non-null    float64
 6   id_trayecto           100 non-null    float64
 7   inicio                100 non-null    object 
 8   fin                   100 non-null    object 
dtypes: float64(3), int64(1), object(5)
memory usage: 9.8+ KB


In [11]:
# Extraemos los registros de los pasajeros que no realizaron viajes:
df_pasajero_viaje[ df_pasajero_viaje['id_pasajero'].isnull() ]

Unnamed: 0,id,nombre,direccion_residencia,fecha_nacimiento,id.1,id_pasajero,id_trayecto,inicio,fin
100,26,Marlie Warfield,Eagan,2020-04-03,,,,,
101,27,Dominique O'Keeffe,Straubel,2019-07-11,,,,,
102,93,Alfons Garfield,Pierstorff,2020-02-11,,,,,
103,11,Dale O'Sheils,Golf Course,2018-08-08,,,,,
104,39,Uri Meo,Arizona,2020-06-02,,,,,
105,66,Krystalle Doby,Pankratz,2018-06-06,,,,,
106,33,Garek MacGorley,Bashford,2018-04-14,,,,,
107,98,Glad Marham,Fulton,2018-01-03,,,,,
108,71,Orin Garvin,Schmedeman,2018-05-08,,,,,
109,72,Adeline Mayhew,Goodland,2019-01-01,,,,,
