In [11]:
from datetime import datetime
import pandas as pd

In [18]:


# Időintervallum kezdő és végdátumának meghatározása
start_date = datetime(2023, 1, 1)   # 2023. január 1.
end_date = datetime(2028, 1, 1)     # 2028. január 1.

# A megadott dátumtartomány létrehozása (naponkénti bontásban)
date_range = pd.date_range(start_date, end_date)

# A dátumtartomány átalakítása DataFrame formátumba
# Az oszlop neve "Date" lesz
date_df = pd.DataFrame(date_range, columns=["Date"])




In [13]:
date_df

Unnamed: 0,Date
0,2023-01-01
1,2023-01-02
2,2023-01-03
3,2023-01-04
4,2023-01-05
...,...
1822,2027-12-28
1823,2027-12-29
1824,2027-12-30
1825,2027-12-31


In [19]:
# Új oszlop létrehozása az év számára
# A "Date" oszlopból kinyerjük az év értéket
date_df["year"] = date_df["Date"].dt.year

# Új oszlop létrehozása a hónap számára
# A "Date" oszlopból kinyerjük a hónapot (1–12)
date_df["month"] = date_df["Date"].dt.month

# Új oszlop létrehozása a nap számára
# A "Date" oszlopból kinyerjük a nap számát (1–31)
date_df["day"] = date_df["Date"].dt.day

# Új oszlop létrehozása a hét napjának számával
# A pandas alapértelmezés szerint hétfőt 0-val jelöli, vasárnapot 6-tal
# Ezért +1-et adunk, így: hétfő=1 ... vasárnap=7
date_df["day_of_week"] = date_df["Date"].dt.dayofweek + 1

# Új oszlop létrehozása annak jelölésére, hogy hétvége-e a nap
# Ha a "day_of_week" érték 6 (szombat) vagy 7 (vasárnap), akkor True lesz, különben False
date_df["is_weekend"] = date_df["day_of_week"].isin([6, 7])



In [20]:
date_df

Unnamed: 0,Date,year,month,day,day_of_week,is_weekend
0,2023-01-01,2023,1,1,7,True
1,2023-01-02,2023,1,2,1,False
2,2023-01-03,2023,1,3,2,False
3,2023-01-04,2023,1,4,3,False
4,2023-01-05,2023,1,5,4,False
...,...,...,...,...,...,...
1822,2027-12-28,2027,12,28,2,False
1823,2027-12-29,2027,12,29,3,False
1824,2027-12-30,2027,12,30,4,False
1825,2027-12-31,2027,12,31,5,False


In [22]:
# A dátumdimenzió táblázat (date_df) exportálása CSV fájlba
# "date_dimension.csv" néven fog létrejönni ugyanabban a mappában, ahol a notebook fut
# Az indexet (sorszámozást) nem mentjük ki, mert nincs rá szükség a fájlban
#Amazon Glue / Athena / Redshift betöltéskor extra oszlopként jelenne meg, ami összekeverné a sémát,
# az adattárházban a kulcs mindig a Date vagy egy külön date_key mező, nem a Pandas index.
date_df.to_csv("date_dimension.csv", index=False)