pip install poetry


In [2]:
import pandas as pd
import requests
import json

In [3]:
from dotenv import load_dotenv

import os

load_dotenv() 

client_id=os.getenv('CLIENT_ID')

client_secret=os.getenv('CLIENT_SECRET')

In [5]:
pcolectivos_feed_gtfs = "https://apitransporte.buenosaires.gob.ar/colectivos/feed-gtfs"
pcolectivos_vehicleposition = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositions"
pcolectivos_vehiclepositionsimple = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositionsSimple"
pcolectivos_tripUpdates = "https://apitransporte.buenosaires.gob.ar/colectivos/tripUpdates"
pcolectivos_serviceAlerts = "https://apitransporte.buenosaires.gob.ar/colectivos/serviceAlerts"

In [6]:
params = {'client_id': client_id,
          'client_secret': client_secret,
          }

In [5]:
response = requests.get(pcolectivos_feed_gtfs, params=params)

In [8]:
feed_gtfs_binary = response.content

In [12]:
type(feed_gtfs_binary)

bytes

In [None]:
# Abrir el archivo en modo de escritura de bytes
with open('../Data/feed_gtfs.bin', 'wb') as archivo:
    # Escribir los datos en el archivo
    archivo.write(response.content)

In [9]:
with open('../../Data/feed_gtfs.bin', 'rb') as archivo:
    # Escribir los datos en el archivo
    feed_gtfs_binary = archivo.read()


In [10]:
import zipfile, io
feed_gtfs = zipfile.ZipFile(io.BytesIO(feed_gtfs_binary))

In [7]:
type(feed_gtfs)

zipfile.ZipFile

In [8]:
feed_gtfs.namelist()

['agency.txt',
 'calendar_dates.txt',
 'routes.txt',
 'shapes.txt',
 'stops.txt',
 'stop_times.txt',
 'trips.txt']

In [10]:
#feed_gtfs.extractall('.././Data/feed_gtfs')

# 0. Descripción GTFS Static

## 1. Agency

In [11]:
agency = pd.read_csv(feed_gtfs.open('agency.txt'))
agency.head(3)

Unnamed: 0,agency_id,agency_name,agency_url,agency_timezone,agency_lang,agency_phone
0,82,MICROOMNIBUS SAAVEDRA S.A.T.A.C.I.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
1,14,TRANSP. AUTOMOTORES 12 DE OCTUBRE S.A.C.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
2,20,EMPRESA TANDILENSE S.A.C.I.F.I.Y DE S.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,


In [37]:
agency.shape

(142, 6)

## 2. Calendar Dates

In [12]:
calendar_dates = pd.read_csv(feed_gtfs.open('calendar_dates.txt'))
calendar_dates.head(3)

Unnamed: 0,service_id,date,exception_type
0,8,20231227,1
1,5,20231228,1
2,8,20231228,1


In [38]:
calendar_dates.shape

(10212, 3)

## 3. Routes

In [13]:
routes = pd.read_csv(feed_gtfs.open('routes.txt'))
routes.head(3)

Unnamed: 0,route_id,agency_id,route_short_name,route_long_name,route_desc,route_type
0,1502,110,505R3,JMALBR505,Ramal 3 - San Francisco Solano - Est. Burzaco ...,3
1,1503,110,505R3,JMALBR505,Ramal 3 - San Francisco Solano - Est. Burzaco ...,3
2,1504,110,505R4,JMALBR505,Ramal 4 - San Francisco Solano - Est. Adrogue:...,3


In [39]:
routes.shape

(2181, 6)

## 4. Shapes

In [14]:
shapes = pd.read_csv(feed_gtfs.open('shapes.txt'))
shapes.head(3)

Unnamed: 0,shape_id,shape_pt_lat,shape_pt_lon,shape_pt_sequence,shape_dist_traveled
0,100,-34.608635,-58.368637,314,20385.8
1,100,-34.608755,-58.368725,315,20401.3
2,100,-34.608842,-58.36881,316,20413.7


In [40]:
shapes.shape

(814146, 5)

## 5. Stop Times

In [15]:
stop_times = pd.read_csv(feed_gtfs.open('stop_times.txt'))
stop_times.head(3)

  stop_times = pd.read_csv(feed_gtfs.open('stop_times.txt'))


Unnamed: 0,trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled
0,1-1,00:00:00,00:00:00,67602759,1,1,0
1,1-1,00:00:32,00:00:32,67602394,2,0,152
2,1-1,00:02:12,00:02:12,67602332,3,0,608


In [18]:
stop_times.shape

(27054228, 7)

## 6. Stops

In [16]:
stops = pd.read_csv(feed_gtfs.open('stops.txt'))
stops.head(3)

Unnamed: 0,stop_id,stop_code,stop_name,stop_lat,stop_lon
0,620211018,620211018,Cabecera Pilar II,-41.18947,-71.340458
1,620211101,620211101,Cabecera Pilar II,-41.189468,-71.340458
2,620211017,620211017,Acceso Dos Valles,-41.18497,-71.34416


In [41]:
stops.shape

(45285, 5)

## 7. Trips

In [17]:
trips = pd.read_csv(feed_gtfs.open('trips.txt'))
trips.head(3)

  trips = pd.read_csv(feed_gtfs.open('trips.txt'))


Unnamed: 0,route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
0,1258,4,1-1,Ramal 13 - IDA,740G,0,740G,1258,0
1,1259,4,2-1,Ramal 13 - VUELTA,740G,1,740G,1259,0
2,1260,4,3-1,Ramal 14 - IDA,740H,0,740H,1260,0


In [42]:
trips.shape

(427146, 9)

# 2. Carga de Datos a Postgres

## 1). Opción 1: SQLAlchemy

### 1). Definición de Schema

In [24]:
archivos = [x.replace('.txt', '') for x in feed_gtfs.namelist()]

In [25]:
archivos

['agency',
 'calendar_dates',
 'routes',
 'shapes',
 'stops',
 'stop_times',
 'trips']

In [29]:
for table in archivos:
    print(pd.io.sql.get_schema(eval(x), x), ';')

CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"agency_id" INTEGER,
  "agency_name" TEXT,
  "agency_url" TEXT,
  "agency_timezone" TEXT,
  "agency_lang" TEXT,
  "agency_phone" REAL
) ;
CREATE TABLE "agency" (
"age

### 2). Subida de datos

In [1]:
from sqlalchemy import create_engine

Conectarse a la base postgres en docker

In [4]:
engine = create_engine('postgresql://postgres:1234@localhost:5432/gtfs')

In [22]:
engine.connect()

<sqlalchemy.engine.base.Connection at 0x214984bf390>

Crear el Schema y Subir los datos

In [21]:
trips.to_sql(name='trips_test', con=engine, if_exists='replace', index=False)

146

### 2') Subida de datos por Chunks

Si se quiere evitar cargar a la memoria (como hace pandas) todos los datos para subierlos, se puede hacer mediante un iterador

In [50]:
trips_iter = pd.read_csv(feed_gtfs.open('trips.txt'), iterator=True, chunksize=100000)

In [51]:
trips_iter

<pandas.io.parsers.readers.TextFileReader at 0x2145e5cccd0>

Con "Next" obtenemos una instancia de la iteración

In [53]:
next(trips_iter).tail(3)

  next(trips_iter).tail(3)


Unnamed: 0,route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
199997,1143,2,199998-1,a Moreno x Panamericana,2915SI0028,0,2915SI0028,1143,0
199998,1143,2,199999-1,a Moreno x Panamericana,2915SI0029,0,2915SI0029,1143,0
199999,1143,2,200000-1,a Moreno x Panamericana,2915SI0030,0,2915SI0030,1143,0


Primero creamos el Schema

In [54]:
next(trips_iter).head(0).to_sql(name='trips_test2', con=engine, if_exists='replace', index=False)

  next(trips_iter).head(0).to_sql(name='trips_test2', con=engine, if_exists='replace', index=False)


0

Subimos los Datos Iterando

In [55]:
i = 0
while True:
    try:
        next(trips_iter).to_sql(name='trips_test2', con=engine, if_exists='append', index=False)
        i += 1
        print(i)
    except StopIteration:
        break

  next(trips_iter).to_sql(name='trips_test2', con=engine, if_exists='append', index=False)


1
2


## 2) Opción 2: Subir los datos mediantes Docker Compose.

### 1). Creación de Schema con ChatGPT

Crear un diccionario con el siguiente formato
{'nombre_del_archivo1.txt': {'columna1':['fila0', 'fila1',...],
                             'columna2':['fila0', 'fila1, ... ],
                             ...}
 'nombre_del_archivo2.txt': {...}
 ...
}

In [None]:

import pandas as pd
dict_df = dict()
for x in feed_gtfs.namelist():
    df = pd.read_csv(feed_gtfs.open(x), nrows=10)
    dict_df.update({x: df.to_dict(orient='list')})

Prompt: Te voy a pasar un diccionario en donde los keys son el nombre de los archivos gtfs, los values son otros diccionarios donde los keys son los nombre de las columnas y las keys son listas con 10 muestras de las rows de cada columna. De esta forma te voy a mostrar que tipos de datos GTFS necesito subir a la base de datos postgres. Quiero el schema de estos datos lo saques de lo que sepas de GTFS y de no saberlo, que lo infieras de la muestra que te pasé y crees scripts de SQL para postgres que sirvan para cargarlos en una base de datos. 

In [None]:
dict_df

{'agency.txt': {'agency_id': [82, 14, 20, 63, 72, 3, 4, 5, 6, 7],
  'agency_name': ['MICROOMNIBUS SAAVEDRA S.A.T.A.C.I.',
   'TRANSP. AUTOMOTORES 12 DE OCTUBRE S.A.C.',
   'EMPRESA TANDILENSE S.A.C.I.F.I.Y DE S.',
   'EL NUEVO HALCON S.A.',
   'MICRO OMNIBUS QUILMES S.A.C.I. Y F.',
   'D.O.T.A. S.A. DE TRANSPORTE AUTOMOTOR',
   'NUDO S.A.',
   'TRANSPORTES RIO GRANDE S.A.C.I.F.',
   'TRANSPORTES AUTOMOTORES CALLAO S.A.',
   'TRANSPORTES AUTOMOTORES RIACHUELO S.A.'],
  'agency_url': ['https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt',
   'https://www.argentina.gob.ar/cnrt'],
  'agency_timezone': ['America/Argentina/Buenos_Aires',
   'America/Argentina/Buenos_Aires',
   'America/Argentina

### 2). Crear load_gtfs_data.sql

### 3). Crear "volumes" en docker compose

# 3). Conexión  a la Base

## 1). SQLAlchemy

In [65]:
from sqlalchemy import create_engine

sqlalchemy_engine = create_engine('postgresql://postgres:1234@localhost:5432/gtfs')

sqlalchemy_engine.connect()


<sqlalchemy.engine.base.Connection at 0x21465b86dd0>

In [66]:
query = '''
SELECT COUNT(*)
FROM stop_times
'''
pd.read_sql(query, con=sqlalchemy_engine)

Unnamed: 0,count
0,27054228


In [61]:
query = '''
SELECT *
FROM pg_catalog.pg_tables
'''
pd.read_sql(query, con=sqlalchemy_engine)

Unnamed: 0,schemaname,tablename,tableowner,tablespace,hasindexes,hasrules,hastriggers,rowsecurity
0,public,calendar_dates,postgres,,True,False,False,False
1,public,agency,postgres,,True,False,True,False
2,public,routes,postgres,,True,False,True,False
3,public,shapes,postgres,,True,False,False,False
4,public,stops,postgres,,True,False,True,False
...,...,...,...,...,...,...,...,...
73,pg_catalog,pg_largeobject,postgres,,True,False,False,False
74,information_schema,sql_features,postgres,,False,False,False,False
75,information_schema,sql_implementation_info,postgres,,False,False,False,False
76,information_schema,sql_parts,postgres,,False,False,False,False


## 2). PGAdmin

1. Crear una instancia de Docker con PG Admin:
  pgadmin:
    image: dpage/pgadmin4
    environment:
      PGADMIN_DEFAULT_EMAIL: user@example.com
      PGADMIN_DEFAULT_PASSWORD: admin
    ports:
      - "8081:80"
    depends_on:
      - db
    volumes:
      - pgadmin_data:/var/lib/pgadmin
    networks:
      - mynetwork

volumes:
  pgadmin_data:

2. Agregar un network para que PG Admin pueda encontrar a la base Postgres:

networks:
  mynetwork:
    driver: bridge

3. Conectarse a Postgres desde PG Admin con los siguientes parámetros:
  - Host Name/Address: db
  - Port: 5432

## 3). DBeaver

1. Descargar DBeaver e instalarlo
2. Conectarse a la base de datos con los parámetros:
 - Host: localhost
 - Port: 5432
 - Database: gtfs