# Установка библиотек

In [1]:
!pip install numpy pandas scikit-learn tensorflow



In [2]:
# Для создание и тренировки нейросети
import tensorflow as tf

# Для работы с данными
import numpy as np
import pandas as pd

# Для загрузки датасета
from sklearn.datasets import fetch_california_housing

Skilit Learn (sklearn) - удобная библиотека для того, чтобы научиться обучать различные нейросетевые модели. Наш датасет для тренировки - [California Housing Dataset](https://scikit-learn.org/1.5/modules/generated/sklearn.datasets.fetch_california_housing.html).

# Работа с датасетом

## Загрузка и просмотр

In [3]:
# Загрузка датасета California Housing
housing = fetch_california_housing() # Вызов автоматической функции для загрузки датасета
data = pd.DataFrame(housing.data, columns=housing.feature_names) # Создание таблички с данными, которые послужат признаками (входные данные)
target = pd.DataFrame(housing.target, columns=["MedHouseVal"]) # Создание таблички с данными, которые послужат примером правильного ответа (выходные данные)

In [4]:
# Объединение data и target в один DataFrame для просмотра данных (для дальнейшего обучения это не нужно, это просто чтобы посмотреть данные)
housing_df = pd.concat([data, target], axis=1)
housing_df.head(30) # Укажите количество строк для вывода

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
5,4.0368,52.0,4.761658,1.103627,413.0,2.139896,37.85,-122.25,2.697
6,3.6591,52.0,4.931907,0.951362,1094.0,2.128405,37.84,-122.25,2.992
7,3.12,52.0,4.797527,1.061824,1157.0,1.788253,37.84,-122.25,2.414
8,2.0804,42.0,4.294118,1.117647,1206.0,2.026891,37.84,-122.26,2.267
9,3.6912,52.0,4.970588,0.990196,1551.0,2.172269,37.84,-122.25,2.611


Данные, которые ты видишь выше, взяты из **California Housing Dataset**, и они содержат информацию о домах в Калифорнии. Целевая переменная (то, что мы пытаемся предсказать) — это **"MedHouseVal"** — медианная стоимость домов (в сотнях тысяч долларов) для каждого региона.

---

**Не путать срендее значение и медианное!**

> Средняя (mean) — это сумма всех значений, разделённая на их количество. Это то, что обычно называют «среднее арифметическое». Например, средняя зарплата находится как сумма всех зарплат, поделённая на количество людей.

> Медианная (median) — это центральное значение в отсортированном ряду данных. То есть, половина значений будет меньше медианы, а половина — больше. Медиана устойчива к выбросам (крайним значениям) и даёт более точную картину в асимметричных распределениях.

```
Пример:
Рассмотрим набор данных: 10, 20, 30, 40, 1000.

Среднее: (10 + 20 + 30 + 40 + 1000) / 5 = 220
Медиана: 30 (центральное значение в отсортированном списке)
В этом примере медиана лучше отражает типичное значение, так как среднее сильно смещено из-за одного экстремально большого значения (1000).

Для цен на жилье часто используют медианную стоимость, так как она меньше подвержена влиянию редких, но очень дорогих объектов.
```
---

Описание признаков:
1. **MedInc** — Медианный доход по региону (в десятках тысяч долларов).
2. **HouseAge** — Средний возраст домов в регионе.
3. **AveRooms** — Среднее количество комнат на одно жилище.
4. **AveBedrms** — Среднее количество спален на одно жилище.
5. **Population** — Население региона.
6. **AveOccup** — Среднее количество людей на одно жилище.
7. **Latitude** — Широта региона.
8. **Longitude** — Долгота региона.

Мы строим модель, которая на основе этих признаков предсказывает **медианную цену жилья** в различных регионах Калифорнии. То есть на выходе модель будет давать предсказанную стоимость жилья в регионе, учитывая различные факторы, такие как доход, возраст домов, количество комнат, и т.д.

## Нормализация данных

**Формула нормализации min-max scaling**

Нормализация по методу min-max используется для преобразования значений так, чтобы они находились в диапазоне от 0 до 1. Формула выглядит следующим образом:

\begin{align}
x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}}
\end{align}

где:
- $x$ — значение, которое мы хотим нормализовать.
- $x_{min}$ — минимальное значение в данных для этого признака.
- $x_{max}$ — максимальное значение в данных для этого признака.

> Конечно, это не единственный метод нормализации, но для текущей задачи пока достаточно.

**Пример нормализации**

Давай возьмем пример таблицы:

| Индекс | HouseAge | MedInc | Population |
|--------|----------|--------|------------|
| 0      | 1        | 2.0    | 100        |
| 1      | 50       | 8.0    | 5000       |
| 2      | 30       | 4.0    | 3000       |

**Шаги нормализации:**

1) Находим минимумы и максимумы для каждого столбца:

   - `HouseAge`:
- $ x_{min} = 1 $
- $ x_{max} = 50 $

   - `MedInc`:
- $ x_{min} = 2.0 $
- $ x_{max} = 8.0 $

   - `Population`:
- $ x_{min} = 100 $
- $ x_{max} = 5000 $

2) Применяем нормализацию для каждого столбца:

**Для столбца `HouseAge`**:
- Для значения 1:
  $
x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}} = \frac{1 - 1}{50 - 1} = \frac{0}{49} = 0
  $

- Для значения 50:
  $
x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}} = \frac{50 - 1}{50 - 1} = \frac{49}{49} = 1
  $

- Для значения 30:
  $
x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}} = \frac{30 - 1}{50 - 1} = \frac{29}{49} \approx 0.5918
  $

**Для столбца `MedInc`**:

- Для значения 2.0:
  $
x_{normalized} =\frac{2.0 - 2}{8 - 2} = \frac{0}{6} = 0
  $

- Для значения 8.0:
  $
x_{normalized} =\frac{8.0 - 2}{8 - 2} = \frac{6}{6} = 1
  $

- Для значения 4.0:
  $
x_{normalized} =\frac{4.0 - 2}{8 - 2} = \frac{2}{6} \approx 0.3333
  $

**Для столбца `Population`**:

- Для значения 100:
  $
x_{normalized} =\frac{100 - 100}{5000 - 100} = \frac{0}{4900} = 0
  $

- Для значения 5000:
  $
x_{normalized} =\frac{5000 - 100}{5000 - 100} = \frac{4900}{4900} = 1
  $

- Для значения 3000:
  $
x_{normalized} =\frac{3000 - 100}{5000 - 100} = \frac{2900}{4900} \approx 0.5918
  $

**Итог**

После нормализации по столбцам, ваши данные будут выглядеть так:

| HouseAge | MedInc | Population |
|----------|--------|------------|
| 0        | 0      | 0          |
| 1        | 1      | 1          |
| 0.5918   | 0.3333 | 0.5918     |

Таким образом, нормализация проведена по каждому столбцу отдельно, и теперь все значения находятся в диапазоне от 0 до 1.

In [5]:
# Нормализация данных (min-max scaling)
X = np.array(data)
y = np.array(target)

# Находим минимум и максимум для X
X_min = np.min(X, axis=0)
X_max = np.max(X, axis=0)
# Нормализуем X
X_normalized = (X - X_min) / (X_max - X_min)

# Находим минимум и максимум для y
y_min = np.min(y)
y_max = np.max(y)
# Нормализуем y
y_normalized = (y - y_min) / (y_max - y_min)

### Задание по нормализации данных

**Данные:**

У вас есть следующий набор данных о продажах в магазине, который содержит информацию о количестве проданных товаров и их ценах:

| Индекс | Количество продаж | Цена  | Рейтинг  |
|--------|-------------------|-------|----------|
| 0      | 150               | 20.5  | 4.5      |
| 1      | 300               | 10.0  | 3.8      |
| 2      | 50                | 50.0  | 4.9      |
| 3      | 200               | 15.0  | 4.0      |
| 4      | 500               | 25.0  | 3.5      |

**Задача:**

1. Нормализуйте данные по методу min-max scaling для всех трех признаков (`Количество продаж`, `Цена`, `Рейтинг`) используя код. Используйте формулу:
\begin{align}
x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}}
\end{align}

2. Представьте нормализованные данные в виде таблицы.

3.  Для индекса 2 сделайте рассчет вручную, с помощью калькулятора.

3. Ответьте на следующие вопросы:
   - Какое значение `Количество продаж` нормализовано до 0?
   - Какое значение `Цена` нормализовано до 1?
   - Какой признак имеет наибольшую разницу между максимальным и минимальным значением? Как это может повлиять на процесс нормализации?

In [6]:
# Код для задач 1 и 2. Запишите результат в таблицу normalized_df

import numpy as np
import pandas as pd

# Исходные данные
data = {
    'Количество продаж': [150, 300, 50, 200, 500],
    'Цена': [20.5, 10.0, 50.0, 15.0, 25.0],
    'Рейтинг': [4.5, 3.8, 4.9, 4.0, 3.5]
}

# Создание DataFrame
df = pd.DataFrame(data)

 # Копируем исходный DataFrame, чтобы повторить размер таблицы
normalized_df = df.copy()

# Для каждого столбца нормализуем данные по методу min-max scaling
for column in normalized_df.columns:
    # normalized_df[column] = ...
    print(normalized_df)

   Количество продаж  Цена  Рейтинг
0                150  20.5      4.5
1                300  10.0      3.8
2                 50  50.0      4.9
3                200  15.0      4.0
4                500  25.0      3.5
   Количество продаж  Цена  Рейтинг
0                150  20.5      4.5
1                300  10.0      3.8
2                 50  50.0      4.9
3                200  15.0      4.0
4                500  25.0      3.5
   Количество продаж  Цена  Рейтинг
0                150  20.5      4.5
1                300  10.0      3.8
2                 50  50.0      4.9
3                200  15.0      4.0
4                500  25.0      3.5


### Резделяем датасет для тренировки и проверки

In [7]:
# Разделение на тренировочную и тестовую выборки вручную
train_size = int(0.8 * X_normalized.shape[0]) # Берём 80% от датасета для тренировки и 20% для проверки

# Разделяем
X_train, X_test = X_normalized[:train_size], X_normalized[train_size:]
y_train, y_test = y_normalized[:train_size], y_normalized[train_size:]

# Работа с моделью



In [8]:
# Создание нейросетевой модели
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


## Визуализация модели
Это необязательный пункт. Просто удобно посмотреть как выглядит модель.

### Простой вывод информации

In [None]:
# Вывод сводки модели
model.summary()

### Рисуем связи самостоятельно

In [None]:
!pip install matplotlib networkx

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import networkx as nx
import tensorflow as tf

def draw_neural_network(layer_sizes):
    G = nx.Graph()

    # Создание узлов для каждого слоя
    for layer_num, layer_size in enumerate(layer_sizes):
        for node_num in range(layer_size):
            G.add_node((layer_num, node_num))

    # Создание связей между слоями
    for layer_num in range(len(layer_sizes) - 1):
        for node_num in range(layer_sizes[layer_num]):
            for next_node_num in range(layer_sizes[layer_num + 1]):
                G.add_edge((layer_num, node_num), (layer_num + 1, next_node_num))

    pos = {}
    for layer_num in range(len(layer_sizes)):
        layer_pos = np.linspace(0, 1, layer_sizes[layer_num])
        for node_num in range(layer_sizes[layer_num]):
            pos[(layer_num, node_num)] = (layer_num, layer_pos[node_num])

    plt.figure(figsize=(12, 8))
    nx.draw(G, pos, with_labels=True, node_size=2000, node_color='lightblue', font_size=10, font_weight='bold', edge_color='gray')
    plt.title("Visualization of Neural Network Architecture", fontsize=16)
    plt.axis('off')  # Отключить оси
    plt.show()

# Получение размеров слоев модели автоматически
layer_sizes = [X_train.shape[1]]  # Входной слой
layer_sizes += [layer.units for layer in model.layers]  # Скрытые и выходной слои

# Визуализация архитектуры модели
draw_neural_network(layer_sizes)

### Используем инструмент Netron для просмотра модели

In [None]:
!pip install netron

In [None]:
# Запустите Netron
import netron
import portpicker
from google.colab import output

# Сохраните модель
model.save("my_model.keras")

port = portpicker.pick_unused_port()

with output.temporary():
  netron.start('my_model.keras', port, browse=False)

output.serve_kernel_port_as_iframe(port, height='800', width='720')

## Обучаем модель

In [None]:
# Компиляция модели
model.compile(optimizer='adam', loss='mean_squared_error')

In [None]:
# Обучение модели
model.fit(X_train, y_train, epochs=100, validation_split=0.2, batch_size=32)

## Проверяем модель

In [None]:
# Оценка модели на тестовой выборке
test_loss = model.evaluate(X_test, y_test)
print(f'Test loss (MSE): {test_loss}')

In [None]:
# Предсказания на тестовой выборке
predictions = model.predict(X_test)

# Обратная нормализация предсказаний для интерпретации
predictions_unscaled = predictions * (y_max - y_min) + y_min

# Вывод первых 10 предсказанных и реальных значений для сравнения
for i in range(10):
    print(f'Предсказанная цена: {predictions_unscaled[i][0]:.2f}, Реальная цена: {y_test[i][0] * (y_max - y_min) + y_min:.2f}')