In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler

pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 1000)
df= pd.read_csv("datasets/weather.csv")
df.head()

In [None]:
def check_df(dataframe, head=5):
    print("############################## Shape ##############################")
    print(dataframe.shape)
    print("############################## Types ##############################")
    print(dataframe.dtypes)
    print("############################## Head ##############################")
    print(dataframe.head(head))
    print("############################## Tail ##############################")
    print(dataframe.tail(head))
    print("############################## NA ##############################")
    print(dataframe.isnull().sum())
    print("############################## Quantiles ##############################")
    print(dataframe.describe([0, 0.05, 0.50, 0.95, 0.99, 1]).T)
check_df(df)

In [3]:
# Bu kısımda verisetindeki datetime, tempmax, tempmin, temp haricindeki değişkenleri kesiyorum.
col_names = ["datetime", "tempmax", "tempmin", "temp"]
df = df[col_names]
df.head()

Unnamed: 0,datetime,tempmax,tempmin,temp
0,2021-01-01,14.2,10.9,12.6
1,2021-01-02,15.6,6.2,10.8
2,2021-01-03,14.4,6.9,11.0
3,2021-01-04,15.8,10.3,13.0
4,2021-01-05,15.3,10.8,13.5


In [4]:
# tarih verileri object tipinde. datetime türüne çevirdim.
df['datetime'] = pd.to_datetime(df['datetime'])
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   datetime  2000 non-null   datetime64[ns]
 1   tempmax   2000 non-null   float64       
 2   tempmin   2000 non-null   float64       
 3   temp      2000 non-null   float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 62.6 KB


In [5]:

# Gün-Ay değişkeni oluşturma
df['day_month'] = df['datetime'].dt.strftime('%d-%m')

# Gün-Ay bazında ortalama sıcaklık hesaplama
grouped_averages = df.groupby("day_month")[['tempmax', 'tempmin', 'temp']].mean()

# Yeni tarihleri oluşturma: Son tarihten itibaren 365 gün eklenir
last_date = pd.to_datetime(df['datetime']).max()
new_dates = pd.date_range(start=last_date + pd.Timedelta(days=1), periods=365, freq='D')

In [6]:

# Yeni veri seti için boş bir sözlük
new_data = {
    'datetime': [],
    'tempmax': [],
    'tempmin': [],
    'temp': []
}

# Yeni tarihleri oluşturma ve değerlerini doldurma
for date in new_dates:
    day_month = date.strftime('%d-%m')  # Yeni tarihler için Gün-Ay formatı
    if day_month in grouped_averages.index:  # Mevcut verilere uygun olarak ortalama değer ekleme
        avg_tempmax = grouped_averages.loc[day_month, 'tempmax']
        avg_tempmin = grouped_averages.loc[day_month, 'tempmin']
        avg_temp = grouped_averages.loc[day_month, 'temp']

        # Küçük bir rastgele sapma ekleyerek gerçekçiliği artırma
        new_data['datetime'].append(date)
        new_data['tempmax'].append(avg_tempmax + np.random.normal(0, 2))
        new_data['tempmin'].append(avg_tempmin + np.random.normal(0, 2))
        new_data['temp'].append(avg_temp + np.random.normal(0, 2))
    else:
        # Eğer veri bulunmazsa, NaN değeri eklenir
        new_data['datetime'].append(date)
        new_data['tempmax'].append(np.nan)
        new_data['tempmin'].append(np.nan)
        new_data['temp'].append(np.nan)

# Yeni verileri DataFrame olarak oluştur
new_df = pd.DataFrame(new_data)

# Yeni verilere day_month sütunu ekleme
new_df['day_month'] = new_df['datetime'].dt.strftime('%d-%m')

# Orijinal veri seti ile birleştirme
df_expanded = pd.concat([df, new_df], ignore_index=True)

# Birleştirilen veriyi kaydetme
df_expanded.to_csv("datasets/weather_expanded2.csv", index=False)

# Sonuçların son 5 satırını görüntüleme
print(df_expanded.tail())

       datetime    tempmax    tempmin       temp day_month
2360 2024-09-22  24.026909  16.111064  21.639740     22-09
2361 2024-09-23  21.966982  17.668099  16.698235     23-09
2362 2024-09-24  18.011384  14.751950  21.772244     24-09
2363 2024-09-25  26.451607  18.142385  21.038542     25-09
2364 2024-09-26  26.763398  16.394251  19.337354     26-09


In [7]:
# Tarihe göre sıralama
df_expanded = df_expanded.sort_values(by="datetime").reset_index(drop=True)
df_expanded.head()
df_expanded.tail()


Unnamed: 0,datetime,tempmax,tempmin,temp,day_month
2360,2024-09-22,24.026909,16.111064,21.63974,22-09
2361,2024-09-23,21.966982,17.668099,16.698235,23-09
2362,2024-09-24,18.011384,14.75195,21.772244,24-09
2363,2024-09-25,26.451607,18.142385,21.038542,25-09
2364,2024-09-26,26.763398,16.394251,19.337354,26-09


In [8]:
# Sıcaklık sınıflandırma için eşik değerleri belirledim
aralik = [-np.inf, 10, 25, np.inf]  # -∞ ile 10, 10-25, 25 üzeri
etiket = ["soğuk", "orta", "sıcak"]

# Yeni değişken oluşturma
df_expanded["temp_category"] = pd.cut(df_expanded["temp"], bins=aralik, labels=etiket)
df_expanded


Unnamed: 0,datetime,tempmax,tempmin,temp,day_month,temp_category
0,2018-04-07,14.5,10.3,12.1,07-04,orta
1,2018-04-08,13.3,9.9,11.5,08-04,orta
2,2018-04-09,15.2,9.0,12.0,09-04,orta
3,2018-04-10,16.0,8.1,12.3,10-04,orta
4,2018-04-11,18.3,10.3,14.1,11-04,orta
5,2018-04-12,19.8,12.9,16.2,12-04,orta
6,2018-04-13,20.5,9.6,14.1,13-04,orta
7,2018-04-14,14.9,8.9,11.2,14-04,orta
8,2018-04-15,18.7,10.6,13.7,15-04,orta
9,2018-04-16,19.3,9.4,13.4,16-04,orta


In [9]:
# Lag-7 özelliği oluşturma
lag_days = 7

# Yeni DataFrame oluştur
lagged_data = df_expanded.copy()

# Lag sütunlarını oluşturma
for lag in range(1, lag_days + 1):
    lagged_data[f'lag_{lag}'] = lagged_data['temp'].shift(lag)

# Eksik değerleri kaldırma (Lag nedeniyle oluşan NaN değerler)
lagged_data = lagged_data.dropna().reset_index(drop=True)

# Sonuçları görüntüleme
print(lagged_data.head(10))

    datetime  tempmax  tempmin  temp day_month temp_category  lag_1  lag_2  lag_3  lag_4  lag_5  lag_6  lag_7
0 2018-04-14     14.9      8.9  11.2     14-04          orta   14.1   16.2   14.1   12.3   12.0   11.5   12.1
1 2018-04-15     18.7     10.6  13.7     15-04          orta   11.2   14.1   16.2   14.1   12.3   12.0   11.5
2 2018-04-16     19.3      9.4  13.4     16-04          orta   13.7   11.2   14.1   16.2   14.1   12.3   12.0
3 2018-04-17     17.0     10.5  12.9     17-04          orta   13.4   13.7   11.2   14.1   16.2   14.1   12.3
4 2018-04-18     15.1     10.8  12.7     18-04          orta   12.9   13.4   13.7   11.2   14.1   16.2   14.1
5 2018-04-19     20.8      8.9  14.7     19-04          orta   12.7   12.9   13.4   13.7   11.2   14.1   16.2
6 2018-04-20     15.9     11.5  13.6     20-04          orta   14.7   12.7   12.9   13.4   13.7   11.2   14.1
7 2018-04-21     19.2      8.0  13.4     21-04          orta   13.6   14.7   12.7   12.9   13.4   13.7   11.2
8 2018-04-

In [10]:
# Normalizasyon için scaler oluştur
scaler = MinMaxScaler()

# Sıcaklık ve lag sütunlarını seç
columns_to_normalize = ['temp'] + [f'lag_{lag}' for lag in range(1, lag_days + 1)]

# Seçilen sütunları ölçeklendir
lagged_data[columns_to_normalize] = scaler.fit_transform(lagged_data[columns_to_normalize])

# Normalleştirilmiş verileri görüntüleme
lagged_data.head()


Unnamed: 0,datetime,tempmax,tempmin,temp,day_month,temp_category,lag_1,lag_2,lag_3,lag_4,lag_5,lag_6,lag_7
0,2018-04-14,14.9,8.9,0.390799,14-04,orta,0.477978,0.541107,0.477978,0.423867,0.414848,0.399818,0.417855
1,2018-04-15,18.7,10.6,0.465953,15-04,orta,0.390799,0.477978,0.541107,0.477978,0.423867,0.414848,0.399818
2,2018-04-16,19.3,9.4,0.456934,16-04,orta,0.465953,0.390799,0.477978,0.541107,0.477978,0.423867,0.414848
3,2018-04-17,17.0,10.5,0.441904,17-04,orta,0.456934,0.465953,0.390799,0.477978,0.541107,0.477978,0.423867
4,2018-04-18,15.1,10.8,0.435891,18-04,orta,0.441904,0.456934,0.465953,0.390799,0.477978,0.541107,0.477978


In [11]:
# Giriş ve hedef değişkenlerini belirleme
X = lagged_data.drop(['datetime', 'temp'], axis=1).values  # Lag değişkenleri
y = lagged_data['temp'].values  # Tahmin edilmek istenen sıcaklık

# Doğru şekil için kontrol
assert X.shape[0] == y.shape[0], "Giriş ve hedef veri boyutları uyuşmuyor!"

# Veriyi 3 boyutlu hale getirme (num_samples, time_steps, num_features)
num_samples = X.shape[0]
time_steps = lag_days
num_features = 1

# Lag gün sayısına uygun veriler alınıyor (ilk birkaç satır eksik olduğu için)
X = X.reshape((num_samples, time_steps, num_features))

# Eğitim ve test seti ayırma
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, shuffle=False)

print(f"X_train şekli: {X_train.shape}")
print(f"X_test şekli: {X_test.shape}")


ValueError: cannot reshape array of size 25938 into shape (2358,7,1)