## УПРАЖНЕНИЕ 1 
### ОБРАБОТКА ДАННЫХ TITANIC DATASET С ПОМОЩЬЮ PYTHON И PANDAS

In [2]:
import pandas as pd

# Загрузка данных
df = pd.read_csv('data/titanic_dataset.csv')
df.head(2).T

Unnamed: 0,0,1
PassengerId,1,2
Survived,0,1
Pclass,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th..."
Sex,male,female
Age,22.0,38.0
SibSp,1,1
Parch,0,0
Ticket,A/5 21171,PC 17599
Fare,7.25,71.2833


In [3]:
# 1. Обработка пропущенных значений:
# Заполнение пропусков в возрасте медианным значением
df['Age'] = df['Age'].fillna(df['Age'].median()) 

In [4]:
# 2. Преобразование категориальных признаков:
# Преобразование 'Sex' and 'Embarked' в числовые значения
data = df.copy(deep=True)
data = pd.get_dummies(data, columns=['Sex', 'Embarked']) 

In [5]:
# 3. Стандартизация числовых признаков:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
# Стандартизация 'Age' и 'Fare'

data[['Age', 'Fare']] = scaler.fit_transform(data[['Age', 'Fare']]) 

In [6]:
# Вывод обработанных данных:
# для удобства транспонируем
data.head(2).T

Unnamed: 0,0,1
PassengerId,1,2
Survived,0,1
Pclass,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th..."
Age,-0.565736,0.663861
SibSp,1,1
Parch,0,0
Ticket,A/5 21171,PC 17599
Fare,-0.502445,0.786845
Cabin,,C85


## УПРАЖНЕНИЕ 2 – ONE-HOT ENCODING
Задача: 
Предположим, у нас есть следующие данные о цветах (таблица 2.1). После применения One-Hot Encoding мы получим таблицу 2.2
| Таблица 2.1    |      
| -------------|
| COLOR       |
| Red          |  
| Blue          | 
| Green          |   
| Blue            |   
| Red              |    


 |         Таблица 2.2          |                            |                             |           
 | -------------------------- | -------------------------- | -------------------------- |
 |         RED               |      BLUE                 |   GREEN                     |           
 |         1                |      0               |   0                  | 
  |         0                |      1                 | 0                     | 
 |         0                |      0                 | 1                     | 
 |         0               |      1                 |   0                     | 
   |         1                |      0                 |   0                     | 



In [7]:
import pandas as pd
# Исходные данные
data = {'Color': ['Red', 'Blue', 'Green', 'Blue', 'Red']}
df = pd.DataFrame(data)
# Применение One-Hot Encoding
df_one_hot = pd.get_dummies(df, columns=['Color'])
df_one_hot


Unnamed: 0,Color_Blue,Color_Green,Color_Red
0,False,False,True
1,True,False,False
2,False,True,False
3,True,False,False
4,False,False,True


## УПРАЖНЕНИЕ 3 – LABEL ENCODING
Используя те же данные о цветах (таблица 3.1). После применения Label Encoding мы получим таблицу 3.2.

| Таблица 3.1    |      
| -------------|
| COLOR       |
| Red          |  
| Blue          | 
| Green          |   
| Blue            |   
| Red              |    


 |         Таблица 3/2          |  
 | -------------------------- |
 |         COLOR            |   
 |         2                |     
  |         0                |     
 |         1                |     
 |         0               |     
   |        2                |      


In [8]:
from sklearn.preprocessing import LabelEncoder
# Исходные данные
data = {'Color': ['Red', 'Blue', 'Green', 'Blue', 'Red']}
df = pd.DataFrame(data)
# Применение Label Encoding
label_encoder = LabelEncoder()
df['Color_Encoded'] = label_encoder.fit_transform(df['Color'])
df


Unnamed: 0,Color,Color_Encoded
0,Red,2
1,Blue,0
2,Green,1
3,Blue,0
4,Red,2


## УПРАЖНЕНИЕ 4 
### ПРИМЕР ИСПОЛЬЗОВАНИЯ MLFLOW
Задание: 
```
### Установка MLflow
Для установки MLflow можно использовать pip:
pip install mlflow
#### 1. Запуск MLflow Tracking
Загрузка данных
Разделение на обучающую и тестовую выборки
Запуск MLflow
Обучение модели
Оценка модели
Логирование метрик и параметров
Сохранение модели
Завершение работы
Просмотр результатов
После выполнения кода вы можете запустить интерфейс MLflow для просмотра результатов:
mlflow ui
Откройте браузер и перейдите по адресу http://127.0.0.1:5000, чтобы увидеть интерфейс MLflow, где вы сможете просмотреть зарегистрированные эксперименты, параметры, метрики и сохраненные модели.
```

In [None]:
# !pip install mlflow

In [9]:
import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [10]:
# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [11]:
# Запуск MLflow
mlflow.start_run()

<ActiveRun: >

In [12]:
# Обучение модели
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

In [13]:
# Оценка модели
accuracy = model.score(X_test, y_test)

In [14]:
# Логирование метрик и параметров
mlflow.log_param("n_estimators", 100)
mlflow.log_metric("accuracy", accuracy)

In [15]:
# Сохранение модели
mlflow.sklearn.log_model(model, "model")



<mlflow.models.model.ModelInfo at 0x1adeb5c54f0>

In [16]:
# Завершение работы
mlflow.end_run()

print(f"Model accuracy: {accuracy}")

Model accuracy: 1.0


## УПРАЖНЕНИЕ 5 
### ВЕРСИОНИРОВАНИЕ МОДЕЛЕЙ С MLFLOW
Задание:
 1.	Создайте несколько моделей машинного обучения (например, RandomForest, LogisticRegression) на одном и том же наборе данных (например, Iris или Titanic).<br>
 2.	Для каждой модели используйте MLflow для логирования параметров, метрик и модели.<br>
 3.	Загрузите и сохраните модели в MLflow Registry.<br>
 4.	Проверьте зарегистрированные модели и их версии через интерфейс MLflow.<br>
 5.	Попробуйте развернуть одну из моделей через MLflow и протестируйте ее с новыми данными.<br>
### Решение

In [17]:
import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [18]:
# Загрузка набора данных Iris
data = load_iris()
X = data.data
y = data.target

# Разделение данных на обучающие и тестовые выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [19]:
# Запуск первого эксперимента для RandomForestClassifier
with mlflow.start_run() as run_rf:
    # Обучение модели
    model_rf = RandomForestClassifier(n_estimators=100)
    model_rf.fit(X_train, y_train)
    
    # Оценка модели
    y_pred_rf = model_rf.predict(X_test)
    accuracy_rf = accuracy_score(y_test, y_pred_rf)
    
    # Логирование параметров и метрик
    mlflow.log_param("n_estimators", 100)
    mlflow.log_metric("accuracy", accuracy_rf)
    
    # Логирование модели
    mlflow.sklearn.log_model(model_rf, "random_forest_model")
    
    # Выводим информацию
    print(f"RandomForest accuracy: {accuracy_rf}")



RandomForest accuracy: 1.0


In [20]:
# Запуск второго эксперимента для LogisticRegression
with mlflow.start_run() as run_lr:
    # Обучение модели
    model_lr = LogisticRegression(max_iter=200)
    model_lr.fit(X_train, y_train)
    
    # Оценка модели
    y_pred_lr = model_lr.predict(X_test)
    accuracy_lr = accuracy_score(y_test, y_pred_lr)
    
    # Логирование параметров и метрик
    mlflow.log_param("max_iter", 200)
    mlflow.log_metric("accuracy", accuracy_lr)
    
    # Логирование модели
    mlflow.sklearn.log_model(model_lr, "logistic_regression_model")
    
    # Выводим информацию
    print(f"LogisticRegression accuracy: {accuracy_lr}")



LogisticRegression accuracy: 1.0


In [21]:
# Регистрация модели Random Forest в MLflow Registry
model_uri_rf = f"runs:/{run_rf.info.run_id}/random_forest_model"
mlflow.register_model(model_uri_rf, "RandomForestModel")


# Регистрация модели Logistic Regression в MLflow Registry
model_uri_lr = f"runs:/{run_lr.info.run_id}/logistic_regression_model"
mlflow.register_model(model_uri_lr, "LogisticRegressionModel")

Successfully registered model 'RandomForestModel'.
Created version '1' of model 'RandomForestModel'.
Successfully registered model 'LogisticRegressionModel'.
Created version '1' of model 'LogisticRegressionModel'.


<ModelVersion: aliases=[], creation_timestamp=1744546645378, current_stage='None', description=None, last_updated_timestamp=1744546645378, name='LogisticRegressionModel', run_id='43bf32eaed7c4ac6a6b3848d23a215c2', run_link=None, source='file:///C:/Users/79181/aston_repos/n.brykovskaya/module_3/1Arch_and_data_modeling/5_Data_modeling_ML/mlruns/0/43bf32eaed7c4ac6a6b3848d23a215c2/artifacts/logistic_regression_model', status='READY', status_message=None, tags={}, user_id=None, version=1>

In [22]:
# Загрузка модели из MLflow Registry по имени и версии
model_version = 1  # Укажите нужную версию модели

model_rf_loaded = mlflow.pyfunc.load_model(f"models:/RandomForestModel/{model_version}")

# Тестирование модели с новыми данными
sample_data = X_test[:5]  # Пример новых данных
predictions = model_rf_loaded.predict(sample_data)

print("Predictions:", predictions)

Predictions: [1 0 2 1 1]


## УПРАЖНЕНИЕ 6 – ПРАКТИКА 
### ПРЕДОБРАБОТКА ДАННЫХ ДЛЯ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ
Задание: В этом примере мы будем использовать набор данных, например, "Titanic", для выполнения предобработки данных с использованием Python и библиотеки Pandas.

In [23]:
import pandas as pd
# Загрузка данных
data = pd.read_csv('data/titanic_dataset.csv')
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [24]:
# 1. Очистка данных
# Обработка пропущенных значений
# Заполнение пропусков в возрасте медианным значением
data['Age'] = data['Age'].fillna(data['Age'].median())  
# Удаление столбца Cabin с большим количеством пропусков
data = data.drop(columns=['Cabin'])  
# Удаление строк с пропущенными значениями в Embarked
data.dropna(subset=['Embarked'], inplace=True) 

In [25]:
# 2. Кодирование категориальных признаков
# Преобразование 'Sex' and 'Embarked' в числовые значения
data = pd.get_dummies(data, columns=['Sex', 'Embarked']) 

In [26]:
# 3. Масштабирование (нормализация)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
 # Стандартизация 'Age' и 'Fare'
data[['Age', 'Fare']] = scaler.fit_transform(data[['Age', 'Fare']]) 

In [27]:
# 4. Создание новых признаков (Feature Engineering)
# Создание нового признака FamilySize
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1  
# Вывод обработанных данных
data.head(2).T

Unnamed: 0,0,1
PassengerId,1,2
Survived,0,1
Pclass,3,1
Name,"Braund, Mr. Owen Harris","Cumings, Mrs. John Bradley (Florence Briggs Th..."
Age,-0.563674,0.669217
SibSp,1,1
Parch,0,0
Ticket,A/5 21171,PC 17599
Fare,-0.50024,0.788947
Sex_female,False,True


## УПРАЖНЕНИЕ 7 – ПРАКТИКА С FEATURE STORE
Задание:
1.	Выберите набор данных (например, "Titanic" или "Iris").<br>
2.	Выполните очистку и предобработку данных, аналогично приведенному примеру.<br>
3.	Создайте Feature Store для хранения признаков, которые вы создали, с помощью инструмента, такого как Feast или Hopsworks.<br>
4.	Добавьте в Feature Store новые признаки и создайте API для доступа к ним.<br>
  
### РЕШЕНИЕ
Сначала загрузим данные и выполним базовую очистку и предобработку.

In [34]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder

# Загрузка данных
data = pd.read_csv('data/titanic_dataset.csv')

# Проверка на пропуски
print(data.isnull().sum())

# Заполнение пропусков в возрасте медианным значением
imputer = SimpleImputer(strategy='median')
data['Age'] = imputer.fit_transform(data[['Age']])

# Заполнение пропусков в Embarked наиболее частым значением
data['Embarked'] = data['Embarked'].fillna(data['Embarked'].mode()[0])

# Удаление столбца Cabin из-за большого количества пропусков
data = data.drop('Cabin', axis=1)

# Кодирование категориальных переменных
le = LabelEncoder()
data['Sex'] = le.fit_transform(data['Sex'])
data['Embarked'] = le.fit_transform(data['Embarked'])

# Создание нового признака FamilySize
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

data['IsAlone'] = (data['FamilySize'] == 1).astype(int)

# Сохранение обработанных данных
data.to_csv('data/titanic_processed.csv', index=False)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


#### Создание Feature Store:
используем Feast, популярный инструмент для работы с Feature Store.

In [30]:
#  Установка Feast
# !pip install feast

#### Создаем файл с настройками
[feature_store.yaml](feature_store.yaml)


In [31]:
from datetime import timedelta

In [38]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked', 'FamilySize', 'IsAlone'],
      dtype='object')

In [39]:
df = pd.read_csv('data/titanic_processed.csv')

```
# укажем явно тип данных
df['timestamp'] = pd.to_datetime(df['timestamp'])
df['created'] = pd.to_datetime(df['created'])

# Сохранение в Parquet
df.to_parquet('titanic_processed.parquet')
```

In [None]:
 !feast apply

Создание [API](api.py) для доступа к признакам - api.py

Затем запускаю сервер  Flask командой `python3 api.py`

Отправляем запрос через `curl`, в теле передаем`json`


```
!curl -X POST -H "Content-Type: application\json" -d '{"PassengerId": 1}' http://localhost:5000 get_features
```