In [40]:
import pandas as pd

In [25]:
zones_dtype = {
    "LocationID": "Int64", 
	"Borough": "string", 
	"Zone": "string", 
	"service_zone": "string"
}

In [26]:
df = pd.read_csv("taxi_zone_lookup.csv", dtype=zones_dtype)

In [27]:
df.head()

Unnamed: 0,LocationID,Borough,Zone,service_zone
0,1,EWR,Newark Airport,EWR
1,2,Queens,Jamaica Bay,Boro Zone
2,3,Bronx,Allerton/Pelham Gardens,Boro Zone
3,4,Manhattan,Alphabet City,Yellow Zone
4,5,Staten Island,Arden Heights,Boro Zone


In [28]:
from sqlalchemy import create_engine
engine = create_engine('postgresql://root:root@localhost:5432/ny_taxi')

In [29]:
# Create table in DB
# head(0)를 넣음으로써 column name생성. 하지만 데이터는 없으므로 insert할 데이터가 없음.

df.head(0).to_sql(name='taxi_zones',con=engine, if_exists = 'replace')

0

In [30]:
print(pd.io.sql.get_schema(df, name='taxi_zones', con=engine))


CREATE TABLE taxi_zones (
	"LocationID" BIGINT, 
	"Borough" TEXT, 
	"Zone" TEXT, 
	service_zone TEXT
)




In [31]:
#insert data into table
df.to_sql(name='taxi_zones', con=engine, if_exists = 'append')

265

### Parquet Format : ingest

In [33]:
import pyarrow.parquet as pq

Parquet is a binary file format where each column has a defined data type.
 - for small data, pd.read_parquet() → df.head(0).to_sql(replace) → df.to_sql(append)
 - for large data, use parquet
   [1] pq.read_table() (가장 많이 씀)
````yaml
       import pyarrow.parquet as pq
       table = pq.read_table("data.parquet")
````
       - Parquet 파일 전체를 한 번에 메모리로 로드
       - 반환 타입: pyarrow.Table
       - pandas로 바로 변환 가능 : df = table.to_pandas()
       - ✅ 중소형 파일에 적합 ❌ 대용량 파일은 메모리 부담
   [2] pq.ParquetFile() (대용량 추천)
       pf = pq.ParquetFile("data.parquet")
       for batch in pf.iter_batches(batch_size=100_000):
           df = batch.to_pandas()

       - 특징
            Row-group / batch 단위 읽기
            메모리 효율 최고
            대용량 ETL 표준 방식
       - ✅ 수백 MB ~ 수 GB 파일에 적합
   [3] pandas read_parquet() (가장 편함)
       import pandas as pd
       df = pd.read_parquet("data.parquet", engine="pyarrow")

       - 특징
            내부적으로 pyarrow 사용
            가장 간단
            DataFrame 바로 반환
       - ❌ 역시 전체 로드 → 대용량에 부적합

In [35]:
parquet_file = pq.ParquetFile("green_tripdata_2025-11.parquet")

In [37]:
for batch in parquet_file.iter_batches(batch_size=100_000):
    batch_df = batch.to_pandas()
    batch_df.to_sql(
        "green_tripdata_2025_11",
        engine,
        if_exists="append",
        index=False,
        method="multi"
    )