In [1]:
import findspark

In [2]:
import chardet
with open('2009.csv', 'rb') as f:
    result = chardet.detect(f.read())
print(result['encoding'])  # Например, 'Windows-1251'

ascii


In [3]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def try_spark_loading(file_path):
    """Пытается загрузить данные через Spark, если он доступен"""
    try:
        from pyspark.sql import SparkSession
        from pyspark.sql.functions import col
        
        # Инициализация Spark
        spark = SparkSession.builder \
            .appName("Airplane Delay Prediction") \
            .config("spark.driver.memory", "4g") \
            .getOrCreate()
        
        # Загрузка данных
        df = spark.read.csv(
            file_path,
            header=True,
            inferSchema=True,
            mode="PERMISSIVE"
        )
        
        # Выбор нужных колонок и преобразование в Pandas
        selected_cols = [
            'DEP_DELAY', 'DISTANCE', 'CRS_ELAPSED_TIME', 'CARRIER_DELAY',
            'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY'
        ]
        pandas_df = df.select(selected_cols).dropna().toPandas()
        
        spark.stop()
        return pandas_df
        
    except Exception as e:
        print(f"Не удалось загрузить через Spark, пробуем Pandas. Ошибка: {e}")
        return None

def pandas_loading(file_path):
    """Загружает данные напрямую через Pandas"""
    try:
        # Указываем только нужные колонки для экономии памяти
        usecols = [
            'DEP_DELAY', 'DISTANCE', 'CRS_ELAPSED_TIME', 'CARRIER_DELAY',
            'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY'
        ]
        
        # Чтение файла с обработкой ошибок
        df = pd.read_csv(
            file_path,
            usecols=usecols,
            low_memory=False,
            encoding='ISO-8859-1',
            on_bad_lines='skip'
        )
        
        # Удаление строк с пропущенными значениями
        df = df.dropna()
        return df
        
    except Exception as e:
        print(f"Ошибка при загрузке через Pandas: {e}")
        raise

def load_data(file_path):
    """Основная функция загрузки данных"""
    # Сначала пробуем Spark
    pandas_df = try_spark_loading(file_path)
    
    # Если не получилось, используем Pandas
    if pandas_df is None:
        print("Используем Pandas для загрузки данных")
        pandas_df = pandas_loading(file_path)
    
    print("Данные успешно загружены")
    print(f"Размер данных: {pandas_df.shape}")
    return pandas_df

def prepare_for_ml(pandas_df):
    """Подготавливает данные для машинного обучения"""
    try:
        X = pandas_df.drop(columns=['DEP_DELAY'])
        y = pandas_df['DEP_DELAY']
        
        # Разделение данных
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, 
            test_size=0.2, 
            random_state=42
        )
        
        # Масштабирование
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)
        
        print("\nДанные готовы для машинного обучения:")
        print(f"- Обучающая выборка: {X_train_scaled.shape}")
        print(f"- Тестовая выборка: {X_test_scaled.shape}")
        
        return X_train_scaled, X_test_scaled, y_train, y_test, scaler
        
    except Exception as e:
        print(f"Ошибка при подготовке для ML: {e}")
        raise

def main():
    """Основной поток выполнения"""
    try:
        # Путь к файлу данных
        file_path = "2009.csv"  # Убедитесь, что файл в той же директории
        
        # 1. Загрузка данных
        pandas_df = load_data(file_path)
        
        # 2. Подготовка для ML
        X_train, X_test, y_train, y_test, scaler = prepare_for_ml(pandas_df)
        
        # Здесь можно продолжить с построением моделей...
        return X_train, X_test, y_train, y_test, scaler
        
    except Exception as e:
        print(f"Критическая ошибка: {e}")
        return None, None, None, None, None

if __name__ == "__main__":
    X_train, X_test, y_train, y_test, scaler = main()

  from pandas.core import (


Данные успешно загружены
Размер данных: (1170501, 8)

Данные готовы для машинного обучения:
- Обучающая выборка: (936400, 7)
- Тестовая выборка: (234101, 7)


In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from xgboost import XGBRegressor
from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor
import joblib
from tqdm import tqdm

# Конфигурация
CONFIG = {
    "data": {
        "file_path": "2009.csv",
        "features": [
            'DEP_DELAY', 'DISTANCE', 'CRS_ELAPSED_TIME', 'CARRIER_DELAY',
            'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY'
        ],
        "target": "DEP_DELAY",
        "output_dir": "output"
    },
    "models": {
        "Ridge": {"alpha": 1.0},
        "Lasso": {"alpha": 0.1},
        "ElasticNet": {"alpha": 0.1, "l1_ratio": 0.7},
        "RandomForest": {"n_estimators": 100, "max_depth": 10, "random_state": 42, "n_jobs": -1},
        "GradientBoosting": {"n_estimators": 100, "learning_rate": 0.1, "random_state": 42},
        "XGBoost": {"n_estimators": 100, "learning_rate": 0.1, "random_state": 42},
        "CatBoost": {"iterations": 100, "learning_rate": 0.1, "verbose": 0, "random_state": 42},
        "LightGBM": {"n_estimators": 100, "learning_rate": 0.1, "random_state": 42},
        "kNN": {"n_neighbors": 5, "n_jobs": -1}
    },
    "test_size": 0.2,
    "random_state": 42
}

def load_data():
    """Загружает данные через Pandas"""
    try:
        print("Загрузка данных...")
        df = pd.read_csv(
            CONFIG["data"]["file_path"],
            usecols=CONFIG["data"]["features"],
            low_memory=False,
            encoding='ISO-8859-1',
            on_bad_lines='skip'
        )
        
        # Удаление строк с пропущенными значениями
        df = df.dropna()
        print(f"Данные успешно загружены. Размер: {df.shape}")
        return df
        
    except Exception as e:
        print(f"Ошибка при загрузке данных: {e}")
        raise

def prepare_data(df):
    """Подготавливает данные для машинного обучения"""
    print("\nПодготовка данных...")
    X = df.drop(columns=[CONFIG["data"]["target"]])
    y = df[CONFIG["data"]["target"]]
    
    # Разделение данных
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, 
        test_size=CONFIG["test_size"], 
        random_state=CONFIG["random_state"]
    )
    
    # Масштабирование
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    print("Данные готовы для ML:")
    print(f"- Обучающая выборка: {X_train_scaled.shape}")
    print(f"- Тестовая выборка: {X_test_scaled.shape}")
    
    return X_train_scaled, X_test_scaled, y_train, y_test, scaler

def train_models(X_train, X_test, y_train, y_test):
    """Обучает и оценивает модели"""
    print("\nОбучение моделей...")
    
    models = {
        'Ridge': Ridge(**CONFIG["models"]["Ridge"]),
        'Lasso': Lasso(**CONFIG["models"]["Lasso"]),
        'ElasticNet': ElasticNet(**CONFIG["models"]["ElasticNet"]),
        'RandomForest': RandomForestRegressor(**CONFIG["models"]["RandomForest"]),
        'GradientBoosting': GradientBoostingRegressor(**CONFIG["models"]["GradientBoosting"]),
        'XGBoost': XGBRegressor(**CONFIG["models"]["XGBoost"]),
        'CatBoost': CatBoostRegressor(**CONFIG["models"]["CatBoost"]),
        'LightGBM': LGBMRegressor(**CONFIG["models"]["LightGBM"]),
        'kNN': KNeighborsRegressor(**CONFIG["models"]["kNN"])
    }
    
    results = {}
    for name, model in tqdm(models.items(), desc="Обучение моделей"):
        try:
            model.fit(X_train, y_train)
            preds = model.predict(X_test)
            
            results[name] = {
                'MSE': mean_squared_error(y_test, preds),
                'MAE': mean_absolute_error(y_test, preds),
                'R2': r2_score(y_test, preds),
                'model': model
            }
        except Exception as e:
            print(f"Ошибка с моделью {name}: {e}")
            results[name] = None
    
    return results

def visualize_results(results, y_test, best_model_preds):
    """Создает визуализации результатов"""
    print("\nСоздание визуализаций...")
    os.makedirs(CONFIG["data"]["output_dir"], exist_ok=True)
    
    # 1. Сравнение моделей по MSE
    plt.figure(figsize=(12, 6))
    mse_values = [v['MSE'] for v in results.values() if v is not None]
    model_names = [k for k, v in results.items() if v is not None]
    sns.barplot(x=model_names, y=mse_values, palette='viridis')
    plt.xticks(rotation=45)
    plt.ylabel("Mean Squared Error")
    plt.title("Сравнение моделей по MSE")
    plt.tight_layout()
    plt.savefig(os.path.join(CONFIG["data"]["output_dir"], "model_comparison.png"))
    plt.close()
    
    # 2. Лучшая модель: фактические vs предсказанные значения
    plt.figure(figsize=(10, 6))
    plt.scatter(y_test, best_model_preds, alpha=0.3)
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
    plt.xlabel("Фактическая задержка")
    plt.ylabel("Предсказанная задержка")
    plt.title("Фактические vs предсказанные значения задержки")
    plt.tight_layout()
    plt.savefig(os.path.join(CONFIG["data"]["output_dir"], "actual_vs_predicted.png"))
    plt.close()
    
    # 3. Распределение ошибок
    errors = y_test - best_model_preds
    plt.figure(figsize=(10, 6))
    sns.histplot(errors, bins=100, kde=True)
    plt.xlabel("Ошибка предсказания")
    plt.title("Распределение ошибок предсказания")
    plt.tight_layout()
    plt.savefig(os.path.join(CONFIG["data"]["output_dir"], "error_distribution.png"))
    plt.close()

def save_best_model(results):
    """Сохраняет лучшую модель"""
    valid_results = {k: v for k, v in results.items() if v is not None}
    if not valid_results:
        print("Нет валидных моделей для сохранения")
        return
    
    best_model_name = min(valid_results, key=lambda x: valid_results[x]['MSE'])
    best_model = valid_results[best_model_name]['model']
    
    model_path = os.path.join(CONFIG["data"]["output_dir"], "best_model.pkl")
    joblib.dump(best_model, model_path)
    print(f"\nЛучшая модель ({best_model_name}) сохранена в {model_path}")

def main():
    """Основной поток выполнения"""
    try:
        # 1. Загрузка данных
        df = load_data()
        
        # 2. Подготовка данных
        X_train, X_test, y_train, y_test, _ = prepare_data(df)
        
        # 3. Обучение моделей
        results = train_models(X_train, X_test, y_train, y_test)
        
        # 4. Определение лучшей модели
        valid_results = {k: v for k, v in results.items() if v is not None}
        best_model_name = min(valid_results, key=lambda x: valid_results[x]['MSE'])
        best_model_preds = valid_results[best_model_name]['model'].predict(X_test)
        
        # 5. Визуализация
        visualize_results(results, y_test, best_model_preds)
        
        # 6. Сохранение лучшей модели
        save_best_model(results)
        
        print("\nАнализ успешно завершен!")
        
    except Exception as e:
        print(f"\nОшибка в основном потоке выполнения: {e}")

if __name__ == "__main__":
    main()

Загрузка данных...
Данные успешно загружены. Размер: (1170501, 8)

Подготовка данных...
Данные готовы для ML:
- Обучающая выборка: (936400, 7)
- Тестовая выборка: (234101, 7)

Обучение моделей...


Обучение моделей:  44%|█████████████████████████████▎                                    | 4/9 [00:43<01:24, 16.96s/it]

In [None]:
import os
import json
import zipfile
from kaggle.api.kaggle_api_extended import KaggleApi

# Путь к папке с ноутбуком
folder_path = r'C:\Users\paris\Desktop\Untitled Folder'
kaggle_json_path = os.path.join(folder_path, 'kaggle.json')

# Читаем учетные данные из kaggle.json
with open(kaggle_json_path, 'r') as f:
    kaggle_creds = json.load(f)

# Устанавливаем переменные окружения
os.environ['KAGGLE_USERNAME'] = kaggle_creds['username']
os.environ['KAGGLE_KEY'] = kaggle_creds['key']

# Инициализируем API
api = KaggleApi()
api.authenticate()

# Скачиваем датасет (архив)
dataset_name = 'yuanyuwendymu/airline-delay-and-cancellation-data-2009-2018'
zip_path = os.path.join(folder_path, 'airline-delay-and-cancellation-data-2009-2018.zip')

# Скачиваем весь архив (так надежнее)
api.dataset_download_files(
    dataset=dataset_name,
    path=folder_path,
    force=True,
    quiet=False,
    unzip=False  # Отключаем автоматическую распаковку
)


In [None]:
# Распаковываем только нужный файл
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    # Ищем полное имя файла в архиве (может быть с подпапками)
    target_file = next(f for f in zip_ref.namelist() if f.endswith('2009.csv'))
    
    # Извлекаем файл
    zip_ref.extract(target_file, folder_path)
    
    # Если файл был во вложенной папке, перемещаем его
    extracted_path = os.path.join(folder_path, target_file)
    final_path = os.path.join(folder_path, '2009.csv')
    
    if extracted_path != final_path:
        os.rename(extracted_path, final_path)
        # Удаляем пустые папки, если они остались
        try:
            os.removedirs(os.path.dirname(extracted_path))
        except OSError:
            pass

# Удаляем архив (раскомментируйте если нужно)
os.remove(zip_path)

print(f"Файл успешно сохранен: {final_path}")