# 🛠️ Урок 13: Установка библиотек для машинного обучения
**Цель урока:** Научиться создавать виртуальное окружение, устанавливать и использовать основные библиотеки для машинного обучения: `NumPy`, `pandas`, `scikit-learn`, `matplotlib`.

## 📌 Что такое библиотеки и зачем они нужны?
- **Библиотека** — это набор готовых функций и инструментов, которые можно использовать в коде без необходимости писать их с нуля.
- **Зачем это нужно?** Ускоряет разработку, упрощает обработку данных и визуализацию, позволяет сосредоточиться на логике, а не на реализации базовых функций.
- **Пример:** Вместо написания кода для матричных операций — используйте `NumPy`, вместо ручного построения графиков — `matplotlib` [[1]](https://example.com ).

💡 **Аналогия:** Библиотеки — это как инструменты в мастерской. Вместо того чтобы изобретать молоток, вы берете готовый.

## 🧪 Создание виртуального окружения (venv)
### Зачем нужны виртуальные окружения?
- **Изоляция проектов:** Каждый проект использует свои версии библиотек.
- **Избежание конфликтов:** Разные проекты могут требовать разные версии одной библиотеки.
- **Чистота системы:** Не засоряйте глобальное окружение Python.

### Как создать виртуальное окружение?
**Шаг 1:** Откройте терминал (или командную строку).
**Шаг 2:** Перейдите в папку проекта:
```bash
cd path/to/your/project
```
**Шаг 3:** Создайте окружение:
```bash
python -m venv env
```
**Шаг 4:** Активируйте окружение:
- **Windows:**
  ```bash
  env\Scripts\activate
  ```
- **macOS/Linux:**
  ```bash
  source env/bin/activate
  ```
**Результат:** В терминале появится `(env)` — это означает, что вы в виртуальном окружении.

💡 **Совет:** Имя окружения может быть любым, например, `ml_env` [[3]](https://example.com ).

## 📦 Установка библиотек через pip
### 1. Установка NumPy
**Что это?** Библиотека для работы с массивами, математических вычислений и линейной алгебры.
**Пример использования:**
```python
import numpy as np
arr = np.array([1, 2, 3])
print(arr * 2)  # [2 4 6]
```
**Установка:**
```bash
pip install numpy
```

### 2. Установка pandas
**Что это?** Библиотека для работы с табличными данными, аналогичными SQL-таблицам.
**Пример использования:**
```python
import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
print(df)
```
**Установка:**
```bash
pip install pandas
```

### 3. Установка scikit-learn
**Что это?** Основная библиотека для машинного обучения: содержит алгоритмы классификации, регрессии, кластеризации и метрики.
**Пример использования:**
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```
**Установка:**
```bash
pip install scikit-learn
```

### 4. Установка matplotlib
**Что это?** Библиотека для построения графиков и визуализации данных.
**Пример использования:**
```python
import matplotlib.pyplot as plt
plt.plot([1, 2, 3], [5, 7, 4])
plt.show()
```
**Установка:**
```bash
pip install matplotlib
```

✅ **Проверка установки:**
```bash
pip list  # Список установленных библиотек
```

⚠️ **Если возникла ошибка:** Попробуйте обновить `pip`:
```bash
python -m pip install --upgrade pip
```

## 🔍 Обзор библиотек
### 1. NumPy — работа с массивами и математикой
- **Массивы:** `np.array` — аналог списка, но быстрее и эффективнее.
- **Функции:** `np.mean()`, `np.std()`, `np.random.rand()`.
- **Пример:** Вычисление среднего значения:
  ```python
  import numpy as np
  arr = np.array([1, 2, 3, 4, 5])
  print(np.mean(arr))  # 3.0
  ```

### 2. pandas — работа с таблицами и данными
- **DataFrame:** Таблица с именованными столбцами.
- **Функции:** `df.head()`, `df.describe()`, `df.groupby()`.
- **Пример:** Загрузка CSV-файла:
  ```python
  import pandas as pd
  df = pd.read_csv('data.csv')
  print(df.shape)  # (количество строк, столбцов)
  ```

### 3. scikit-learn — инструменты машинного обучения
- **Классификация:** `LogisticRegression`, `SVC`.
- **Регрессия:** `LinearRegression`, `RandomForestRegressor`.
- **Метрики:** `accuracy_score`, `mean_squared_error`.
- **Пример:** Обучение модели:
  ```python
  from sklearn.model_selection import train_test_split
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
  ```

### 4. matplotlib — визуализация данных
- **Графики:** `plt.plot()`, `plt.scatter()`, `plt.bar()`.
- **Настройки:** Подписи осей, легенды, сетка.
- **Пример:** Гистограмма:
  ```python
  import matplotlib.pyplot as plt
  plt.hist([1, 2, 2, 3, 3, 3], bins=3)
  plt.title('Гистограмма')
  plt.show()
  ```

## 🧪 Практика: Установка и базовое использование библиотек
**Задание 1:** Создайте виртуальное окружение и установите все библиотеки (`numpy`, `pandas`, `scikit-learn`, `matplotlib`).

In [None]:
# Проверка установки
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
print("Все библиотеки импортированы! ✅")

**Задание 2:** Создайте массив с помощью NumPy и посчитайте его среднее значение.

In [None]:
# Ваш код здесь
import numpy as np
arr = np.array([10, 20, 30, 40, 50])
average = np.mean(arr)
print(f"Среднее значение: {average}")  # Ожидаемый результат: 30.0

**Задание 3:** Создайте DataFrame в pandas из словаря и выведите первые 2 строки.

In [None]:
# Ваш код здесь
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000, 60000, 70000]
}
df = pd.DataFrame(data)
print(df.head(2))  # Ожидаемый результат: первые 2 строки таблицы

**Задание 4:** Постройте график с помощью matplotlib.

In [None]:
# Ваш код здесь
import matplotlib.pyplot as plt
plt.plot([1, 2, 3], [4, 5, 1])
plt.title('Пример графика')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.show()

**Задание 5:** Обучите простую модель регрессии с помощью scikit-learn.

In [None]:
# Ваш код здесь
from sklearn.linear_model import LinearRegression
import numpy as np

# Пример данных
X = np.array([[1], [2], [3]])
y = np.array([2, 4, 6])

# Обучение модели
model = LinearRegression()
model.fit(X, y)

# Предсказание
print(model.predict([[4]]))  # Ожидаемый результат: [8.]

## 📝 Домашнее задание
**Задача 1:** Установите все библиотеки в виртуальное окружение. Проверьте, что все импорты работают без ошибок.

**Задача 2:** Создайте DataFrame в pandas с 3 столбцами: `Product`, `Price`, `Quantity`. Сохраните его в файл `products.csv` и загрузите обратно.

In [None]:
# Ваш код здесь
import pandas as pd

# Создание DataFrame
data = {
    'Product': ['A', 'B', 'C'],
    'Price': [100, 200, 300],
    'Quantity': [10, 20, 30]
}
df = pd.DataFrame(data)

# Сохранение в файл
df.to_csv('products.csv', index=False)

# Загрузка из файла
df_loaded = pd.read_csv('products.csv')
print(df_loaded)

**Задача 3:** Постройте график с помощью matplotlib, где на оси X — числа от 0 до 10, а на Y — квадраты этих чисел.

In [None]:
# Ваш код здесь
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(0, 11)
y = x**2

plt.plot(x, y, marker='o', color='blue')
plt.title('Квадраты чисел')
plt.xlabel('X')
plt.ylabel('Y')
plt.grid(True)
plt.show()

## ✅ Рекомендации по выполнению домашнего задания
- **Задача 1:** Убедитесь, что вы активировали виртуальное окружение перед установкой.
- **Задача 2:** Используйте `index=False` при сохранении CSV, чтобы не добавлять лишние индексы.
- **Задача 3:** Попробуйте разные стили графиков (например, `plt.scatter()` вместо `plt.plot()`).