# Clase 1 - PostgreSQL

<a id="section_toc"></a> 
## Tabla de Contenidos


[0. ¿Por qué PostgreSQL?](#porqué)

[1. GTFS](#gtfs)

[2. Carga de Datos a Postgres](#carga)

[3. Conexión  a la Base](#conexion)

$\hspace{.5cm}$[1). SQLAlchemy](#sqlalchemy)

$\hspace{.5cm}$[2). PGAdmin](#pgadmin)

$\hspace{.5cm}$[3). DBeaver](#dbeaver)


<a id="porqué"></a> 

## 0. ¿Por qué PostgreSQL?

### ¿Que es PostgreSQL?

Es un sistema de gestión de bases de datos relacional y orientado a objetos de código abierto. Es conocido por su robustez, flexibilidad y conformidad con los estándares SQL. PostgreSQL se utiliza ampliamente para almacenar, consultar y gestionar datos estructurados, soportando un amplio conjunto de tipos de datos y proporcionando características avanzadas para el manejo de transacciones y concurrencia.


### ¿Por qué vamos a ver PostgreSQL si existe Python?

* **Optimización de consultas**: PostgreSQL permite realizar consultas SQL de manera eficiente. Aunque se puede usar Python para manejar datos, las bases de datos están optimizadas para procesar grandes volúmenes de información de forma mucho más rápida y eficiente que si cargás todo a memoria en Python.

* **Procesamiento en el servidor**: Con SQL, el procesamiento se hace directamente en la base de datos, lo que evita el traslado de datos grandes a Python. Podés hacer operaciones como agregaciones, filtros y uniones directamente en PostgreSQL, minimizando la cantidad de datos que Python tiene que manejar.

* **Integración**: PostgreSQL es altamente compatible con herramientas que los data scientists usan, como Pandas (a través de librerías como psycopg2 o SQLAlchemy). Al combinar SQL con Python, podés aprovechar lo mejor de ambos mundos.

* **Escalabilidad**: PostgreSQL está diseñado para manejar bases de datos de gran tamaño y alta concurrencia, algo fundamental cuando los proyectos crecen. Python es excelente para el análisis, pero no está diseñado para ser un motor de almacenamiento y consulta de datos a gran escala.


* **ACID**: Garantiza transacciones seguras mediante el cumplimiento de las siguientes propiedades:

  * **Atomicidad (Atomicity)**: Significa que una transacción debe ser "todo o nada". O bien todas las operaciones de una transacción se completan con éxito, o ninguna se aplica.
    *Ejemplo:* un cliente compra unas zapatillas y una remera en una sola transacción. El sistema debe registrar dos cosas: descontar el dinero de la tarjeta y restar el stock de ambos productos. Si una de esas operaciones falla (por ejemplo, el cobro fue exitoso pero el descuento de stock falló), la base de datos revierte todo y la compra no se registra. Solo si ambas operaciones se completan, la transacción queda confirmada.

  * **Consistencia (Consistency)**: Garantiza que una transacción lleve a la base de datos de un estado válido a otro, respetando todas las reglas y restricciones definidas.
    *Ejemplo:* la base no permite que el stock sea negativo. Si un cliente intenta comprar 5 pares de zapatillas y solo hay 3 disponibles, la transacción se cancela porque violaría esa regla. Lo mismo pasa con restricciones como correos electrónicos únicos para usuarios o que el precio de un producto no pueda ser negativo: la base nunca quedará en un estado inválido.

  * **Aislamiento (Isolation)**: Asegura que las transacciones concurrentes no interfieran entre sí. Cada transacción se ejecuta como si fuera la única, aunque en realidad ocurran varias en paralelo.
    *Ejemplo:* dos clientes intentan comprar al mismo tiempo el último celular en stock. Gracias al aislamiento, la base de datos maneja la concurrencia y garantiza que solo uno de ellos complete la compra. El primero que confirma el pago se queda con el producto; al segundo le aparece que ya no hay stock disponible.

  * **Durabilidad (Durability)**: Garantiza que una vez confirmada una transacción, los cambios se mantendrán aunque ocurra una falla del sistema o un apagón. Esto se logra con mecanismos como registros de escritura anticipada (WAL) o almacenamiento persistente.
    *Ejemplo:* un cliente finaliza la compra y recibe la confirmación de que el pago fue aprobado. Incluso si justo después se corta la luz del servidor, al restablecer el sistema la compra seguirá registrada en la base de datos porque los cambios ya fueron guardados de forma permanente.


* **Multiversion Concurrency Control (MVCC)**: permite que múltiples transacciones accedan simultáneamente a la base de datos sin bloquearse entre sí, ya que cada transacción trabaja con una versión específica de los datos. Esto asegura lecturas consistentes mientras otras transacciones están actualizando los datos, mejorando el rendimiento en entornos de alta concurrencia al eliminar la necesidad de bloqueos explícitos entre lectores y escritores.

### ¿Y por qué ver PostgreSQL si existen otras bases analíticas mejores para el análisis de datos como DuckDB?

* **Escalabilidad y uso en producción**: DuckDB es excelente para análisis local y en proyectos pequeños, pero PostgreSQL es más robusto para entornos de producción con grandes volúmenes de datos y acceso concurrente.

* **Funciones empresariales**: PostgreSQL tiene un amplio ecosistema que incluye extensiones, soporte para transacciones distribuidas, alta concurrencia y replicación, todas características necesarias para bases de datos de misión crítica.

* **Compatibilidad con sistemas existentes**: Muchas aplicaciones empresariales están construidas sobre PostgreSQL, lo que lo convierte en una opción más práctica si se necesita integrar con otros sistemas ya en uso.

* **Soporte para múltiples usuarios**: PostgreSQL está diseñado para manejar múltiples usuarios con seguridad avanzada y permisos detallados, lo que lo hace más adecuado para entornos multiusuario.


**Objetivo de la clase:** Que creen una base de datos PostgreSQL con los datos de sus proyectos. Si no tienen un archivo, descargar cualquiera desde la página: https://archive.ics.uci.edu/

<a id="gtfs"></a> 

## 1. GTFS

1. Instalar UV
```bash
(base) PS C:\Users\juang\proyectos\BaseDeDatos2025> pip install uv
Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: uv in c:\users\juang\appdata\roaming\python\python311\site-packages (0.6.9)
```

2. Crear un environment
```bash

(base) PS C:\Users\juang\proyectos\BaseDeDatos2025> uv venv .venv 
Using CPython 3.11.5 interpreter at: C:\ProgramData\anaconda3\python.exe
Creating virtual environment at: .venv
Activate with: .venv\Scripts\activate
```

3. Activar el environment
```bash
(base) PS C:\Users\juang\proyectos\BaseDeDatos2025> .venv\Scripts\activate
(base) (.venv) PS C:\Users\juang\proyectos\BaseDeDatos2025> 
```

4. Instalar los requirements
```bash
(base) (.venv) PS C:\Users\juang\proyectos\BaseDeDatos2025> uv pip install -r requirements.txt
Resolved 108 packages in 2.44s
Prepared 27 packages in 15.04s
Installed 108 packages in 10.77s
```

3. Crear un kernel para poder usar Jupyter

`python -m ipykernel install --user --name=01_bases_de_datos --display-name="Bases de Datos"`

4. Usar en VSCode el Kernel recién creado

In [1]:
import os 
os.getcwd()

'c:\\Users\\juang\\proyectos\\BaseDeDatos2025\\Clases\\01_Bases_De_Datos'

In [2]:
os.chdir(os.path.abspath(os.path.join(os.getcwd(), "../..")))


In [3]:
os.getcwd()

'c:\\Users\\juang\\proyectos\\BaseDeDatos2025'

In [4]:
import pandas as pd
import requests
import json
from dotenv import load_dotenv

load_dotenv() 

client_id=os.getenv('CLIENT_ID')

client_secret=os.getenv('CLIENT_SECRET')

In [5]:
pcolectivos_feed_gtfs = "https://apitransporte.buenosaires.gob.ar/colectivos/feed-gtfs"
pcolectivos_vehicleposition = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositions"
pcolectivos_vehiclepositionsimple = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositionsSimple"
pcolectivos_tripUpdates = "https://apitransporte.buenosaires.gob.ar/colectivos/tripUpdates"
pcolectivos_serviceAlerts = "https://apitransporte.buenosaires.gob.ar/colectivos/serviceAlerts"

In [6]:
params = {'client_id': client_id,
          'client_secret': client_secret,
          }

In [8]:
response = requests.get(pcolectivos_feed_gtfs, params=params)

In [9]:
feed_gtfs_binary = response.content

In [10]:
type(feed_gtfs_binary)

bytes

In [11]:
# Guardar el contenido (bytes) en un archivo .zip
gtfs_file_path = 'data/feed_gtfs_buenosaires2.zip'  # Nombre del archivo donde se va a guardar
with open(gtfs_file_path, 'wb') as f:
    f.write(response.content)

### 0. Descripción GTFS Static

#### 1. Agency

In [12]:
agency = pd.read_csv('data/feed-gtfs/agency.txt')
agency.head(3)

Unnamed: 0,agency_id,agency_name,agency_url,agency_timezone,agency_lang,agency_phone
0,82,MICROOMNIBUS SAAVEDRA S.A.T.A.C.I.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
1,14,TRANSP. AUTOMOTORES 12 DE OCTUBRE S.A.C.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
2,20,EMPRESA TANDILENSE S.A.C.I.F.I.Y DE S.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,


In [13]:
agency.shape

(193, 6)

#### 2. Calendar Dates

In [14]:
calendar_dates = pd.read_csv('data/feed-gtfs/calendar_dates.txt')
calendar_dates.head(3)

Unnamed: 0,service_id,date,exception_type
0,1,20201221,1
1,1-35,20201221,1
2,1-36,20201221,1


In [15]:
calendar_dates.shape

(430747, 3)

#### 3. Routes

In [16]:
routes = pd.read_csv('data/feed-gtfs/routes.txt')
routes.head(3)

Unnamed: 0,route_id,agency_id,route_short_name,route_long_name,route_desc,route_type
0,4167,110,505R3,JMALBR505,Ramal 3 - San Francisco Solano - Est. Burzaco ...,3
1,4168,110,505R4,JMALBR505,Ramal 4 - San Francisco Solano - Est. Adrogue,3
2,4169,110,505R5,JMALBR505,Ramal 5 - San Francisco Solano - Est. Burzacox...,3


In [17]:
routes.shape

(1076, 6)

#### 4. Shapes

In [18]:
shapes = pd.read_csv('data/feed-gtfs/shapes.txt')
shapes.head(3)

Unnamed: 0,shape_id,shape_pt_lat,shape_pt_lon,shape_pt_sequence,shape_dist_traveled
0,1037,-34.724883,-58.598898,235,11790.5
1,1037,-34.725935,-58.599413,236,11916.3
2,1037,-34.726297,-58.59955,237,11958.3


In [19]:
shapes.shape

(784032, 5)

#### 5. Stop Times

In [20]:
stop_times = pd.read_csv('data/feed-gtfs/stop_times.txt', nrows=10000)
stop_times.head(3)

Unnamed: 0,trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled
0,1-1,00:00:00,00:00:00,67602759,1,1,0
1,1-1,00:00:32,00:00:32,67602394,2,0,152
2,1-1,00:02:12,00:02:12,67602332,3,0,608


In [21]:
stop_times.shape

(10000, 7)

#### 6. Stops

In [22]:
stops = pd.read_csv('data/feed-gtfs/stops.txt')
stops.head(3)

Unnamed: 0,stop_id,stop_code,stop_name,stop_lat,stop_lon
0,6574104006,6574104006,CALLE 119 Y CALLE 18,-35.005688,-59.269982
1,6441111945,6441111945,AVENIDA 66_173,-34.988475,-58.003375
2,6441122443,6441122443,CALLE 137_CALLE 600,-34.98,-57.93152


In [23]:
stops.shape

(43201, 5)

#### 7. Trips

In [24]:
trips = pd.read_csv('data/feed-gtfs/trips.txt')
trips.head(3)

Unnamed: 0,route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
0,3016,3,1-1,Ramal 13 - IDA,740G,0,740G,1351,0
1,3016,3,2-1,Ramal 13 - VUELTA,740G,1,740G,1352,0
2,3017,3,3-1,Ramal 14 - IDA,740H,0,740H,1353,0


In [25]:
trips.shape

(453075, 9)

<a id="carga"></a> 

## 2. Carga de Datos a Postgres

### 0). Teoría

### Creación de bases de datos

Para crear una base de datos en PostgreSQL, se utiliza el comando `CREATE DATABASE`. El nombre de la base de datos no puede comenzar con un número ni tener más de 31 caracteres. Aquí tienes algunos ejemplos de comandos válidos para crear bases de datos:

`CREATE DATABASE mi_base_de_datos;`


### Creación de esquemas

Un esquema es un contenedor con nombre para las tablas. Se pueden utilizar para proporcionar a los usuarios de la base de datos entornos separados u organizar los objetos de la base de datos en grupos relacionados. El esquema predeterminado en PostgreSQL es el esquema public. Para crear un esquema, se utiliza el comando CREATE SCHEMA

`CREATE SCHEMA esquema_division1;`

### Los esquemas en PostgreSQL tienen dos funciones principales:

- #### Proporcionar entornos separados: 
si tienes varios desarrolladores diferentes que trabajan en la misma base de datos, puedes crear un esquema separado para cada desarrollador. De este modo, cada desarrollador puede trabajar en su propio entorno sin tener que preocuparse por los cambios que realicen otros desarrolladores.

![image.png](attachment:image.png)

- #### Organizar objetos de bases de datos en grupos relacionados: 

puedes crear esquemas separados para diferentes áreas funcionales de tu base de datos, como recursos humanos, marketing y ventas. Esto puede ayudarte a mantener tu base de datos organizada y facilitar la búsqueda de los objetos que necesitas.

![image-2.png](attachment:image-2.png)

### Creación de tablas

Las tablas de bases de datos tienen un número variable de filas y un número fijo de columnas (aunque la estructura puede modificarse). Las columnas tienen un tipo de datos específico y cada fila representa un registro. Para crear una tabla, se utiliza el comando `CREATE TABLE`.

```CREATE TABLE escuela (
  id serial PRIMARY KEY,
  nombre TEXT NOT NULL,
  nombre_mascota TEXT
);
```

### Tipos de datos
*   **Texto**: Se utilizan para almacenar cadenas de caracteres.
    
    *   **`TEXT`**: Almacena cadenas de longitud variable y longitud ilimitada.
    
    *   **`VARCHAR(N)`**: Almacena cadenas de longitud variable con un límite máximo de N caracteres.
    
    *   **`CHAR(N)`**: Almacena cadenas de longitud fija con N caracteres. Si la cadena es más corta, se rellena con espacios a la derecha.

*   **Numéricos**: Se utilizan para almacenar datos numéricos.

    *   Para valores discretos:

        *   **`SMALLINT`**: Almacena números enteros pequeños (-32768 a +32767).

        *   **`INTEGER`**: Almacena números enteros (-2147483648 a +2147483647).

        *   **`BIGINT`**: Almacena números enteros grandes (-9223372036854775808 a 9223372036854775807).

        *   **`SERIAL`**: Genera automáticamente un número entero incremental (de 1 a 2147483647).

        *   **`BIGSERIAL`**: Genera automáticamente un número entero grande incremental (de 1 a 9223372036854775807).

    *   Para valores continuos:

        *   **`DECIMAL`**(precisión, escala) o **`NUMERIC(precisión, escala)`**: Almacena números decimales con una precisión y escala especificadas.

        *   **`REAL`**: Almacena números de punto flotante de precisión variable (6 decimales).

        *   **`DOUBLE PRECISION`**: Almacena números de punto flotante de doble precisión (15 decimales).

*   **Temporales**: Se utilizan para almacenar fechas y horas.

    *   **`TIMESTAMP`**: Almacena una fecha y hora (2010-09-21 15:47:16)

    *   **`DATE`**: Almacena una fecha (1972-07-08)

    *   **`TIME`**: Almacena una hora. (05:30:00)

*   **Booleanos**: Se utilizan para almacenar valores de verdad.

    *   **`BOOLEAN`** o **`BOOL`**: Puede almacenar los valores true, false o NULL.


### Importancia de conocer los distintos tipos de datos:

*   **Eficiencia de almacenamiento**: Elegir el tipo de dato adecuado permite optimizar el espacio de almacenamiento en la base de datos. Por ejemplo, usar `SMALLINT` en lugar de `INTEGER` para almacenar números pequeños ahorra espacio.

*   **Integridad de los datos**: Los tipos de datos imponen restricciones sobre los valores que se pueden almacenar en una columna. Esto ayuda a garantizar la integridad de los datos al prevenir la entrada de valores inválidos.

*   **Rendimiento de las consultas**: El uso de tipos de datos apropiados puede mejorar el rendimiento de las consultas. PostgreSQL puede optimizar las consultas de manera más eficiente cuando conoce el tipo de datos de las columnas involucradas.

*   **Funcionalidad**: Algunos tipos de datos tienen funcionalidades específicas. Por ejemplo, los tipos de datos espaciales permiten realizar consultas geográficas.

*   **Claridad y organización**: El uso de tipos de datos descriptivos ayuda a comprender mejor la estructura de la base de datos y el significado de los datos almacenados.



Nota: Lo importante no es saber los detalles de cada tipo de dato, si no entender que hay "trade offs" en cuanto a memoria, precision y velocidad. 


### 1). Opción 1: SQLAlchemy

#### 0). Creación de la base Postgres

1. Descargar la imagen de docker
```bash
docker pull postgres
```
2. Iniciar un contenedor con la imagen de postgres
```bash
docker run --name mi_postgres -e POSTGRES_PASSWORD=1234 -p 5433:5432 -d postgres
```

**Explicación del comando:**

* `docker run`: Inicia un nuevo contenedor.

* `--name mi_postgres`: Asigna el nombre mi_postgres al contenedor.

* `-e POSTGRES_PASSWORD=1234`: Define la contraseña del usuario postgres como 1234. Esto es obligatorio, ya que PostgreSQL requiere una contraseña.

* `-p 5433:5432`: Mapea el puerto 5432 del contenedor (donde PostgreSQL escucha por defecto) al puerto 5433 en tu máquina local. De esta manera, podrás conectarte a PostgreSQL a través del puerto 5433.

* `-d`: Ejecuta el contenedor en segundo plano (modo "detached").
postgres: Especifica que queremos usar la imagen oficial de PostgreSQL. 

#### 1). Definición de Schema con Pandas

In [26]:
archivos = ['agency', 'calendar_dates', 'routes', 'shapes', 'stops', 'stop_times', 'trips']

for x in archivos:
    print(pd.io.sql.get_schema(eval(x), x), ';')

CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "calendar_dates" (
"service_id" TEXT,
  "date" INTEGER,
  "exception_type" INTEGER
) ;
CREATE TABLE "routes" (
"route_id" INTEGER,
  "agency_id" INTEGER,
  "route_short_name" TEXT,
  "route_long_name" TEXT,
  "route_desc" TEXT,
  "route_type" INTEGER
) ;
CREATE TABLE "shapes" (
"shape_id" INTEGER,
  "shape_pt_lat" REAL,
  "shape_pt_lon" REAL,
  "shape_pt_sequence" INTEGER,
  "shape_dist_traveled" REAL
) ;
CREATE TABLE "stops" (
"stop_id" TEXT,
  "stop_code" TEXT,
  "stop_name" TEXT,
  "stop_lat" REAL,
  "stop_lon" REAL
) ;
CREATE TABLE "stop_times" (
"trip_id" TEXT,
  "arrival_time" TEXT,
  "departure_time" TEXT,
  "stop_id" INTEGER,
  "stop_sequence" INTEGER,
  "timepoint" INTEGER,
  "shape_dist_traveled" INTEGER
) ;
CREATE TABLE "trips" (
"route_id" INTEGER,
  "service_id" TEXT,
  "trip_id" TEXT,
  "trip_headsig

#### Explicación de la función

* `archivos`: Es una lista o colección que contiene nombres o identificadores de objetos. Cada elemento de esta lista es iterado por el bucle for.

* `x`: Representa cada elemento individual en la lista archivos en cada iteración.

* `eval(x)`: La función eval() en Python evalúa la expresión pasada como argumento. En este caso, x se espera que sea el nombre de un DataFrame (o una variable que hace referencia a un DataFrame). Por ejemplo, si x es el nombre de un DataFrame guardado en una variable, eval(x) lo convierte en el DataFrame real.

* `pd.io.sql.get_schema()`: Es una función de Pandas que genera el esquema SQL para un DataFrame. Esto crea una sentencia CREATE TABLE para la estructura del DataFrame, con las columnas y tipos de datos, como si quisieras crear una tabla en una base de datos SQL basada en ese DataFrame.

  * El primer argumento, eval(x), pasa el DataFrame a la función.
  * El segundo argumento, x, es el nombre que se le va a dar a la tabla en la sentencia SQL.

### 2). Subida de datos

**Conectarse a la base postgres en docker**

In [28]:
from sqlalchemy import create_engine

engine = create_engine('postgresql://postgres:1234@localhost:5433/postgres')

engine.connect()

<sqlalchemy.engine.base.Connection at 0x211b4b4b790>

Explicación de la función:

* `create_engine()`: Es una función de SQLAlchemy que se utiliza para crear una conexión con una base de datos. Esta función crea un objeto "engine", que representa la conexión y se utiliza para interactuar con la base de datos.

* Cadena de conexión `('postgresql://postgres:1234@localhost:5433/postgres')`: Esta cadena contiene toda la información necesaria para conectarse a la base de datos PostgreSQL. Está estructurada de la siguiente manera:

    * `postgresql://`: Especifica que el tipo de base de datos a la que se está conectando es PostgreSQL.
    
    * `postgres`: Es el nombre de usuario que se está utilizando para conectarse a la base de datos.
    
    * `1234`: Es la contraseña del usuario postgres.
    
    * `localhost`: Indica que el servidor de la base de datos está corriendo en la máquina local.
    
    * `5433`: Es el puerto en el que el servidor PostgreSQL está escuchando (en este caso, el puerto 5433).
    
    * `postgres`: Es el nombre de la base de datos a la que se está conectando.

* `engine.connect()`: Este método crea una conexión activa a la base de datos usando el objeto engine previamente creado.

**Crear el Schema y Subir los datos**

In [1]:
trips

NameError: name 'trips' is not defined

In [29]:
trips.to_sql(name='trips', con=engine, if_exists='replace', index=False)

75

Explicación de la función:

* `name='trips'`: Especifica el nombre de la tabla en la base de datos donde se almacenarán los datos. En este caso, la tabla se llamará trips.

* `con=engine`: Define la conexión a la base de datos donde se guardará la tabla, en este caso usando el engine previamente creado con SQLAlchemy.

* `if_exists='replace'`: Indica lo que debe suceder si la tabla trips ya existe en la base de datos:

    * `'replace'`: Si la tabla ya existe, se eliminará y se reemplazará con los nuevos datos.
    
    * Otras opciones posibles son 'fail' (generaría un error si la tabla ya existe) y 'append' (agregaría los datos al final de la tabla existente).

* `index=False`: Indica que no queremos incluir el índice del DataFrame como una columna en la tabla SQL.

**¿Cómo crea un esquema la función `to_sql()`?**

* Pandas examina el DataFrame y toma los nombres de las columnas y los tipos de datos de cada columna.

* Basado en esto, genera la instrucción SQL correspondiente para crear la tabla en la base de datos. Por ejemplo, una columna de enteros en el DataFrame se convertirá en una columna `INTEGER` en SQL, y una columna de texto se convertirá en `TEXT` o `VARCHAR`.

### 2') Subida de datos por Chunks

Si se quiere evitar cargar a la memoria (como hace pandas) todos los datos para subierlos, se puede hacer mediante un iterador

In [30]:
shapes_iter = pd.read_csv('data/feed-gtfs/shapes.txt', iterator=True, chunksize=100000)

* `iterator=True`: Al especificar este parámetro, estás indicando que querés leer el archivo por partes en lugar de cargarlo completamente en memoria de una sola vez. Esto es útil para trabajar con archivos muy grandes, ya que permite procesarlos en porciones (chunks) y evitar el consumo excesivo de memoria.

* `chunksize=100000`: Define el tamaño de cada "chunk" (porción). En este caso, el archivo se leerá en bloques de 100,000 filas a la vez. Cada chunk es un fragmento del archivo que Pandas cargará y te permitirá procesar por partes.

* `shapes_iter`: El resultado es un iterador. En lugar de cargar directamente un DataFrame, este objeto te permitirá iterar a través de los diferentes chunks del archivo.

In [31]:
shapes_iter

<pandas.io.parsers.readers.TextFileReader at 0x211d3b16110>

Con "Next" obtenemos una instancia de la iteración

In [32]:
next(shapes_iter).tail(3)

Unnamed: 0,shape_id,shape_pt_lat,shape_pt_lon,shape_pt_sequence,shape_dist_traveled
99997,531,-34.540907,-58.715722,345,26216.6
99998,531,-34.54196,-58.714327,346,26389.7
99999,531,-34.54299,-58.712868,347,26565.4


* La función `next()` se utiliza para obtener el siguiente chunk (porción) de datos del iterador. En este caso, devuelve un DataFrame que contiene las primeras 100,000 filas del archivo CSV, ya que el chunksize=100000 se definió previamente.

Con este código, obtenemos solamente las columnas del dataframe para crear el schema

In [33]:
next(shapes_iter).head(0).to_sql(name='shapes', con=engine, if_exists='replace', index=False)

0

Subimos los Datos Iterando

In [34]:
i=0
while True:
    try:
        next(shapes_iter).to_sql(name='shapes', con=engine, if_exists='append', index=False)
        i += 1
        print(i)
    except StopIteration:
        break

1
2
3
4
5
6


### El problema de este método (Stop Times)

In [None]:
stop_times_iter = pd.read_csv('data/feed-gtfs/stop_times.txt', iterator=True, chunksize=1000000)
next(stop_times_iter).head(0).to_sql(name='stop_times', con=engine, if_exists='replace', index=False)
i = 0

while True:
    try:
        next(stop_times_iter).to_sql(name='stop_times', con=engine, if_exists='append', index=False)
        i += 1
        print(i)
    except StopIteration:
        break

1
2
3
4
5
6
7


  next(stop_times_iter).to_sql(name='stop_times', con=engine, if_exists='append', index=False)


DataError: (psycopg2.errors.InvalidTextRepresentation) invalid input syntax for type bigint: "tai6"
LINE 1: ..., 0, 27315), ('134054-1', '02:07:32', '02:07:32', 'tai6', 69...
                                                             ^

[SQL: INSERT INTO stop_times (trip_id, arrival_time, departure_time, stop_id, stop_sequence, timepoint, shape_dist_traveled) VALUES (%(trip_id__0)s, %(arrival_time__0)s, %(departure_time__0)s, %(stop_id__0)s, %(stop_sequence__0)s, %(timepoint__0)s, %(shape ... 159004 characters truncated ... __999)s, %(stop_id__999)s, %(stop_sequence__999)s, %(timepoint__999)s, %(shape_dist_traveled__999)s)]
[parameters: {'trip_id__0': '134048-1', 'shape_dist_traveled__0': 16241, 'timepoint__0': 0, 'departure_time__0': '25:08:10', 'arrival_time__0': '25:08:10', 'stop_sequence__0': 50, 'stop_id__0': '206991', 'trip_id__1': '134048-1', 'shape_dist_traveled__1': 16323, 'timepoint__1': 0, 'departure_time__1': '25:08:30', 'arrival_time__1': '25:08:30', 'stop_sequence__1': 51, 'stop_id__1': '204769', 'trip_id__2': '134048-1', 'shape_dist_traveled__2': 16675, 'timepoint__2': 1, 'departure_time__2': '25:10:00', 'arrival_time__2': '25:10:00', 'stop_sequence__2': 52, 'stop_id__2': '204770', 'trip_id__3': '134048-1', 'shape_dist_traveled__3': 16832, 'timepoint__3': 0, 'departure_time__3': '25:10:38', 'arrival_time__3': '25:10:38', 'stop_sequence__3': 53, 'stop_id__3': '2032204', 'trip_id__4': '134048-1', 'shape_dist_traveled__4': 17002, 'timepoint__4': 0, 'departure_time__4': '25:11:22', 'arrival_time__4': '25:11:22', 'stop_sequence__4': 54, 'stop_id__4': '204771', 'trip_id__5': '134048-1', 'shape_dist_traveled__5': 17153, 'timepoint__5': 0, 'departure_time__5': '25:12:00', 'arrival_time__5': '25:12:00', 'stop_sequence__5': 55, 'stop_id__5': '204772', 'trip_id__6': '134048-1', 'shape_dist_traveled__6': 17471, 'timepoint__6': 0, 'departure_time__6': '25:13:20', 'arrival_time__6': '25:13:20', 'stop_sequence__6': 56, 'stop_id__6': '204773', 'trip_id__7': '134048-1' ... 6900 parameters truncated ... 'stop_id__992': '6490111029', 'trip_id__993': '134062-1', 'shape_dist_traveled__993': 567, 'timepoint__993': 0, 'departure_time__993': '04:02:22', 'arrival_time__993': '04:02:22', 'stop_sequence__993': 5, 'stop_id__993': '6490124678', 'trip_id__994': '134062-1', 'shape_dist_traveled__994': 811, 'timepoint__994': 0, 'departure_time__994': '04:03:22', 'arrival_time__994': '04:03:22', 'stop_sequence__994': 6, 'stop_id__994': '6490111011', 'trip_id__995': '134062-1', 'shape_dist_traveled__995': 1274, 'timepoint__995': 0, 'departure_time__995': '04:05:18', 'arrival_time__995': '04:05:18', 'stop_sequence__995': 7, 'stop_id__995': '6490111025', 'trip_id__996': '134062-1', 'shape_dist_traveled__996': 1742, 'timepoint__996': 0, 'departure_time__996': '04:07:16', 'arrival_time__996': '04:07:16', 'stop_sequence__996': 8, 'stop_id__996': '6490111023', 'trip_id__997': '134062-1', 'shape_dist_traveled__997': 2161, 'timepoint__997': 0, 'departure_time__997': '04:09:00', 'arrival_time__997': '04:09:00', 'stop_sequence__997': 9, 'stop_id__997': '6490124676', 'trip_id__998': '134062-1', 'shape_dist_traveled__998': 2448, 'timepoint__998': 0, 'departure_time__998': '04:10:12', 'arrival_time__998': '04:10:12', 'stop_sequence__998': 10, 'stop_id__998': '6490113621', 'trip_id__999': '134062-1', 'shape_dist_traveled__999': 5829, 'timepoint__999': 1, 'departure_time__999': '04:24:20', 'arrival_time__999': '04:24:20', 'stop_sequence__999': 11, 'stop_id__999': '6490124679'}]
(Background on this error at: https://sqlalche.me/e/20/9h9h)

### Explicación del Error
Cuando usamos SQLAlchemy junto con Pandas para cargar un DataFrame en una base de datos, podemos dejar que SQLAlchemy infiera automáticamente el esquema de la tabla. Sin embargo, este enfoque tiene limitaciones, y un ejemplo claro de estas limitaciones lo encontramos al cargar el archivo stop_times.txt.

Ejemplo del problema:
El archivo stop_times.txt tiene una columna llamada stop_id, que en sus primeras filas contiene solo valores numéricos. Por ejemplo:

```python
stop_id
67602759
67602394
67602332
...
```
Sin embargo, más abajo en el archivo, hay valores no numéricos en la misma columna, como `"qb1i"` o `"30084PN2056"`. El problema ocurre cuando SQLAlchemy infiere el tipo de datos para la columna stop_id basándose en las primeras filas del archivo, lo que provoca que esta columna sea definida como INTEGER en la base de datos.

Esquema generado automáticamente:

```SQL
CREATE TABLE "stop_times" (
  "trip_id" TEXT,
  "arrival_time" TEXT,
  "departure_time" TEXT,
  "stop_id" INTEGER,
  "stop_sequence" INTEGER,
  "timepoint" INTEGER,
  "shape_dist_traveled" INTEGER
);
```
Esto funciona para las primeras filas, pero cuando SQLAlchemy encuentra valores no numéricos en la columna stop_id, como "qb1i" o "30084PN2056", genera un error porque esos valores no pueden ser convertidos a enteros.

Para "Stop Times" tuve que hacer modificaciones porque en columnas numéricas habían strings

### 2) Opción 2: Subir los datos mediantes Docker Compose

# Docker Compose - Explicación Detallada

## 🐳 ¿Qué es Docker Compose?

Docker Compose es una herramienta que permite definir y ejecutar aplicaciones con múltiples contenedores Docker usando un archivo de configuración. Es como un "director de orquesta" que coordina varios servicios para que trabajen juntos.

---

## 📋 Análisis Detallado del `docker-compose.yml`

### **1. Versión del archivo**
```yaml
version: '3.8'
```
- **¿Qué hace?** Define la versión de sintaxis de Docker Compose
- **¿Por qué es importante?** Cada versión tiene características diferentes
- **Nota:** Esta línea es opcional en versiones recientes de Docker Compose

### **2. Sección de Servicios**
```yaml
services:
```
- **¿Qué hace?** Define todos los contenedores que queremos ejecutar
- **¿Por qué es importante?** Cada servicio es un contenedor independiente que puede comunicarse con otros

---

## 🗄️ Servicio PostgreSQL

### **Configuración básica**
```yaml
postgres:
  image: postgres:latest
  container_name: postgres_db
  restart: unless-stopped
```

**Explicación línea por línea:**
- `postgres:` - Nombre del servicio (puedes llamarlo como quieras)
- `image: postgres:latest` - Imagen de Docker a usar (PostgreSQL versión más reciente)
- `container_name: postgres_db` - Nombre específico del contenedor
- `restart: unless-stopped` - Reinicia automáticamente si se cae, a menos que lo detengas manualmente

### **Variables de entorno**
```yaml
environment:
  POSTGRES_DB: ${POSTGRES_DB:-mydatabase}
  POSTGRES_USER: ${POSTGRES_USER:-postgres}
  POSTGRES_PASSWORD: ${POSTGRES_PASSWORD:-password}
  POSTGRES_INITDB_ARGS: "--encoding=UTF-8"
```

**Explicación:**
- `POSTGRES_DB` - Nombre de la base de datos a crear
- `POSTGRES_USER` - Usuario administrador
- `POSTGRES_PASSWORD` - Contraseña del usuario
- `${VARIABLE:-valor_por_defecto}` - Sintaxis para usar variables de entorno con valor por defecto
- `POSTGRES_INITDB_ARGS` - Argumentos adicionales para la inicialización

### **Puertos**
```yaml
ports:
  - "${POSTGRES_PORT:-5432}:5432"
```

**Explicación:**
- `puerto_host:puerto_contenedor` - Mapea puertos entre tu computadora y el contenedor
- `5432` - Puerto estándar de PostgreSQL
- `${POSTGRES_PORT:-5432}` - Usa el puerto definido en .env o 5432 por defecto

### **Volúmenes**
```yaml
volumes:
  - postgres_data:/var/lib/postgresql/data
  - ./init-scripts:/docker-entrypoint-initdb.d
  - ./data:/data
```

**Explicación:**
- `postgres_data:/var/lib/postgresql/data` - **Volumen nombrado**: Guarda los datos de PostgreSQL de forma persistente
- `./init-scripts:/docker-entrypoint-initdb.d` - **Bind mount**: Monta tu carpeta local en el contenedor para ejecutar scripts de inicialización
- `./data:/data` - **Bind mount**: Monta tu carpeta de datos GTFS en el contenedor

### **Red**
```yaml
networks:
  - postgres_network
```

**Explicación:**
- Define en qué red virtual debe estar el contenedor
- Permite que los servicios se comuniquen entre sí

### **Health Check**
```yaml
healthcheck:
  test: ["CMD-SHELL", "pg_isready -U ${POSTGRES_USER:-postgres} -d ${POSTGRES_DB:-mydatabase}"]
  interval: 30s
  timeout: 10s
  retries: 3
```

**Explicación:**
- `test` - Comando que verifica si PostgreSQL está funcionando
- `interval` - Cada cuánto tiempo hacer la verificación
- `timeout` - Cuánto tiempo esperar por respuesta
- `retries` - Cuántas veces intentar antes de marcar como "no saludable"

---

## 🖥️ Servicio pgAdmin

### **Configuración básica**
```yaml
pgadmin:
  image: dpage/pgadmin4:latest
  container_name: pgadmin
  restart: unless-stopped
```

**Explicación:**
- `pgadmin` - Nombre del servicio
- `image: dpage/pgadmin4:latest` - Imagen oficial de pgAdmin 4
- pgAdmin es una interfaz web para administrar bases de datos PostgreSQL

### **Variables de entorno**
```yaml
environment:
  PGADMIN_DEFAULT_EMAIL: ${PGADMIN_EMAIL:-admin@admin.com}
  PGADMIN_DEFAULT_PASSWORD: ${PGADMIN_PASSWORD:-admin}
  PGADMIN_CONFIG_SERVER_MODE: 'False'
  PGADMIN_CONFIG_MASTER_PASSWORD_REQUIRED: 'False'
```

**Explicación:**
- `PGADMIN_DEFAULT_EMAIL` - Email para iniciar sesión
- `PGADMIN_DEFAULT_PASSWORD` - Contraseña para iniciar sesión
- `PGADMIN_CONFIG_SERVER_MODE: 'False'` - Modo de escritorio (más simple)
- `PGADMIN_CONFIG_MASTER_PASSWORD_REQUIRED: 'False'` - No requiere contraseña maestra

### **Dependencias**
```yaml
depends_on:
  postgres:
    condition: service_healthy
```

**Explicación:**
- `depends_on` - Define que pgAdmin debe esperar a que PostgreSQL esté listo
- `condition: service_healthy` - Espera hasta que PostgreSQL pase el health check

---

## 💾 Sección de Volúmenes

```yaml
volumes:
  postgres_data:
    driver: local
  pgadmin_data:
    driver: local
```

**Explicación:**
- Define volúmenes nombrados que persisten los datos
- `driver: local` - Almacena los datos en el disco local
- Estos volúmenes sobreviven a reinicios del contenedor

---

## 🌐 Sección de Redes

```yaml
networks:
  postgres_network:
    driver: bridge
```

**Explicación:**
- `postgres_network` - Nombre de la red virtual
- `driver: bridge` - Tipo de red que permite comunicación entre contenedores
- Los contenedores en la misma red pueden comunicarse usando el nombre del servicio

---

## 📁 Análisis de los Scripts SQL

### **1. `1-gtfs_schema.sql` - Creación del Esquema**

**¿Qué hace este archivo?**
Este script crea la estructura de la base de datos para almacenar datos GTFS (General Transit Feed Specification).

**Componentes principales:**

#### **Esquema GTFS**
```sql
CREATE SCHEMA IF NOT EXISTS gtfs;
```
- **¿Qué hace?** Crea un "contenedor" llamado `gtfs` para organizar todas las tablas
- **¿Por qué es importante?** Mantiene las tablas organizadas y evita conflictos de nombres

#### **Tablas creadas:**

1. **`agency`** - Información de las empresas de transporte
2. **`stops`** - Paradas de transporte público
3. **`routes`** - Rutas de transporte
4. **`shapes`** - Geometrías de las rutas (coordenadas GPS)
5. **`trips`** - Viajes específicos
6. **`stop_times`** - Horarios de cada parada
7. **`calendar_dates`** - Calendario de servicios

#### **Índices**
```sql
CREATE INDEX IF NOT EXISTS idx_trips_route ON gtfs.trips(route_id);
CREATE INDEX IF NOT EXISTS idx_stop_times_trip ON gtfs.stop_times(trip_id);
```
- **¿Qué hace?** Crea índices para acelerar las consultas
- **¿Por qué es importante?** Sin índices, las consultas serían muy lentas

---

### **2. `2-load_gtfs_data.sql` - Carga de Datos**

**¿Qué hace este archivo?**
Este script carga los datos desde los archivos GTFS (.txt) a las tablas de la base de datos.

**Configuración inicial:**
```sql
\set ON_ERROR_STOP off
```
- **¿Qué hace?** Permite que el script continúe aunque haya errores
- **¿Por qué es importante?** Si un archivo falla, los demás siguen cargándose

**Comandos COPY:**
```sql
COPY gtfs.agency(...) FROM '/data/feed-gtfs/agency.txt' DELIMITER ',' CSV HEADER ENCODING 'UTF8';
```

**Explicación del comando COPY:**
- `COPY` - Comando de PostgreSQL para cargar datos masivos
- `gtfs.agency(...)` - Tabla destino y columnas
- `FROM '/data/feed-gtfs/agency.txt'` - Archivo fuente
- `DELIMITER ','` - Separador de campos (coma)
- `CSV HEADER` - Formato CSV con encabezados
- `ENCODING 'UTF8'` - Codificación de caracteres

---

## 🔍 ¿Por qué funciona la carga con COPY pero no con SQLAlchemy?

### **El problema con SQLAlchemy:**

El error que mostraste:
```
InvalidTextRepresentation: invalid input syntax for type bigint: "tai6"
```

**¿Qué pasó?**
1. **SQLAlchemy infiere tipos** basándose en las primeras filas del archivo
2. **En las primeras filas**, `stop_id` contenía solo números (ej: "206991")
3. **SQLAlchemy decidió** que era una columna de tipo `BIGINT` (número entero)
4. **Más adelante en el archivo**, encontró valores como "tai6" (texto)
5. **PostgreSQL rechazó** "tai6" porque no es un número válido

### **¿Por qué funciona COPY?**

**COPY es más inteligente:**
1. **Lee todo el archivo** antes de decidir tipos
2. **Detecta automáticamente** que hay valores mixtos (números y texto)
3. **Usa el tipo más flexible** (TEXT) que puede contener todo
4. **No hace inferencias** basadas solo en las primeras filas

### **Comparación:**

| Método | Ventaja | Desventaja |
|--------|---------|------------|
| **SQLAlchemy** | Fácil de usar en Python | Inferencia de tipos problemática |
| **COPY** | Más rápido y confiable | Solo funciona en PostgreSQL |

### **Solución alternativa con SQLAlchemy:**

Si quisieras usar SQLAlchemy, tendrías que:
```python
# Especificar tipos manualmente
dtype = {
    'stop_id': str,  # Forzar tipo texto
    'trip_id': str,
    # ... otros campos
}

pd.read_csv('stop_times.txt', dtype=dtype)
```

---

## 🎯 Resumen

### **Docker Compose:**
- Es como un "director de orquesta" para contenedores
- Define servicios, volúmenes, redes y dependencias
- Permite ejecutar aplicaciones complejas con un solo comando

### **Scripts SQL:**
- **Schema**: Define la estructura (tablas, índices)
- **Load**: Carga los datos desde archivos
- **COPY**: Método más confiable para cargar datos masivos

### **Conclusión:**

- **SQLAlchemy** es bueno para Python, pero tiene limitaciones con inferencia de tipos
- **COPY** es más robusto para cargar datos masivos en PostgreSQL
- **Siempre verifica** los tipos de datos antes de cargar archivos grandes


<a id="conexion"></a> 

## 3. Conexión  a la Base

<a id="sqlalchemy"></a> 
### 1). SQLAlchemy

In [37]:
from sqlalchemy import create_engine

sqlalchemy_engine = create_engine('postgresql://postgres:1234@localhost:5434/gtfs')

sqlalchemy_engine.connect()


<sqlalchemy.engine.base.Connection at 0x2121b160450>

#### B. Loguearse en PGAdmin

**En cualquier navegador, ir a la url `localhost:8081`**

![image.png](attachment:image.png)


**Poner la contraseña y usuarios definidos en el Docker Compose**

* usuario: **user@example.com**
* contraseña: **admin**

**Conectarse a la base**

![image.png](attachment:image.png)

**Utilizar el nombre del servicio de la base de datos**
```yaml
services:
  db:
    image: postgres:16
    environment:
      POSTGRES_USER: postgres
      POSTGRES_PASSWORD: 1234
      POSTGRES_DB: gtfs
      POSTGRES_MAX_WAL_SIZE: 1GB  # Configuración para aumentar el tamaño máximo del WAL

```
![image.png](attachment:image.png)

**Usar las credenciales definidas en el Docker Compose**

![image.png](attachment:image.png)

<a id="dbeaver"></a> 

### 3). DBeaver

**Descargar DBeaver e instalarlo**

**Crear Conexión**

![image.png](attachment:image.png)

**Elegir el driver de Postgres e instalarlo**

![image.png](attachment:image.png)

**Loguearse con las credenciales**

![image.png](attachment:image.png)