In [2]:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [3]:
data = pd.read_parquet('../data/yellow_tripdata_2023-01.parquet')

In [4]:
data.columns

Index(['VendorID', 'tpep_pickup_datetime', 'tpep_dropoff_datetime',
       'passenger_count', 'trip_distance', 'RatecodeID', 'store_and_fwd_flag',
       'PULocationID', 'DOLocationID', 'payment_type', 'fare_amount', 'extra',
       'mta_tax', 'tip_amount', 'tolls_amount', 'improvement_surcharge',
       'total_amount', 'congestion_surcharge', 'airport_fee'],
      dtype='object')

In [5]:
num_columns = len(data.columns)
num_columns

19

In [6]:

# Pickup ve dropoff zamanlarını datetime formatına çevir
data['tpep_pickup_datetime'] = pd.to_datetime(data['tpep_pickup_datetime'])
data['tpep_dropoff_datetime'] = pd.to_datetime(data['tpep_dropoff_datetime'])

# Süreyi hesapla (dakika cinsinden)
data['duration'] = (data['tpep_dropoff_datetime'] - data['tpep_pickup_datetime']).dt.total_seconds() / 60

# Standart sapmayı hesapla
std_duration = data['duration'].std()
std_duration

42.59435124195458

In [6]:
# Orijinal kayıt sayısı
original_count = len(data)

# 1 ile 60 dakika arasındaki süreleri filtrele
filtered_data = data[(data['duration'] >= 1) & (data['duration'] <= 60)]

# Kalan kayıt sayısı
filtered_count = len(filtered_data)

# Kalan kayıtların oranı
fraction_remaining = filtered_count / original_count
fraction_remaining

0.9812202822125979

In [7]:
# Pickup ve dropoff location ID'lerini string'e çevir ve eksik değerleri doldur
data['PULocationID'] = data['PULocationID'].fillna(-1).astype(int).astype(str)
data['DOLocationID'] = data['DOLocationID'].fillna(-1).astype(int).astype(str)

# Veriyi sözlükler listesine dönüştür
data_dict = data[['PULocationID', 'DOLocationID']].to_dict(orient='records')

# Bellek kullanımı optimize etmek için DictVectorizer'da sparse=True kullan
dv = DictVectorizer(sparse=True)
feature_matrix = dv.fit_transform(data_dict)

# Elde edilen matrisin boyutunu belirle
num_columns = feature_matrix.shape[1]
print(f"The dimensionality of the feature matrix is: {num_columns} columns")

The dimensionality of the feature matrix is: 518 columns


In [8]:

# Hedef değişkeni oluştur
target = data['duration'].values

# Lineer regresyon modelini eğit
model = LinearRegression()
model.fit(feature_matrix, target)

# Eğitim verisi üzerinde tahminlerde bulun
predictions = model.predict(feature_matrix)

# RMSE'yi hesapla
rmse = np.sqrt(mean_squared_error(target, predictions))
print(f"RMSE on the training data: {rmse}")

RMSE on the training data: 41.9964977084757
