In [21]:
import pandas as pd
from sqlalchemy import create_engine
import io
import time
import sys
import requests

prefix = "https://github.com/DataTalksClub/nyc-tlc-data/releases/download/yellow/"
file = prefix + "yellow_tripdata_2021-01.csv.gz"

engine = create_engine("postgresql+psycopg://root:root@localhost:5432/ny_taxi")

dtype = {
    "VendorID": "Int64",
    "passenger_count": "Int64",
    "trip_distance": "float64",
    "RatecodeID": "Int64",
    "store_and_fwd_flag": "string",
    "PULocationID": "Int64",
    "DOLocationID": "Int64",
    "payment_type": "Int64",
    "fare_amount": "float64",
    "extra": "float64",
    "mta_tax": "float64",
    "tip_amount": "float64",
    "tolls_amount": "float64",
    "improvement_surcharge": "float64",
    "total_amount": "float64",
    "congestion_surcharge": "float64"
}

parse_dates = ["tpep_pickup_datetime", "tpep_dropoff_datetime"]

# --- Create table schema ---
df_sample = pd.read_csv(file, nrows=1000, dtype=dtype, parse_dates=parse_dates)
df_sample.head(0).to_sql("yellow_taxi_data", engine, if_exists="replace", index=False)

chunksize = 300_000
df_iter = pd.read_csv(file, dtype=dtype, parse_dates=parse_dates, chunksize=chunksize)

# --- Estimate total chunks using Content-Length ---
try:
    response = requests.head(file, allow_redirects=True)
    total_size = int(response.headers.get("content-length", 1))
except:
    total_size = 1  # fallback

# Function to print progress bar proportional to estimated total chunks
def print_progress(current, total_chunks, bar_length=40):
    percent = current / total_chunks
    filled = int(bar_length * percent)
    bar = "â–ˆ" * filled + "-" * (bar_length - filled)
    sys.stdout.write(f"\r|{bar}| {percent:.1%} ({current}/{total_chunks} chunks)")
    sys.stdout.flush()

start_time = time.time()
inserted_chunks = 0
max_bar_length = 40

# Estimate total chunks from file size
# Simple approximation: total_size / chunk size in bytes (rough)
estimated_total_chunks = max(int(total_size / (chunksize * 200)), 1)  # 200 bytes per row approx

with engine.raw_connection() as conn:
    with conn.cursor() as cursor:
        for chunk in df_iter:
            buffer = io.StringIO()
            chunk.to_csv(buffer, index=False, header=False)
            buffer.seek(0)

            with cursor.copy("COPY yellow_taxi_data FROM STDIN WITH CSV") as copy:
                copy.write(buffer.read())

            conn.commit()

            inserted_chunks += 1
            print_progress(inserted_chunks, estimated_total_chunks)

end_time = time.time()
print("\n\nDONE ðŸš€")
print(f"Total time: {end_time - start_time:.2f} seconds")

|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 500.0% (5/1 chunks)

DONE ðŸš€
Total time: 24.59 seconds
