

---

### 13.09. Data Science: Основные шаги работы с данными

1. **Сбор данных**  
   Определите источники данных, такие как файлы с интернета или данные с мобильных устройств, для оценки точности. 

2. **Подготовка данных**  
   Начните с линейной регрессии как модели для начального анализа.

3. **Использование RandomForestRegressor**  
   Попробуйте использовать модель RandomForestRegressor с тем же набором данных и сравните результаты. Напомним, что модели случайного леса обучают несколько деревьев решений на данных и усредняют результаты всех деревьев для получения прогноза.

### Д/Э. Модель со случайным лесом: Конспектирование

1. **Предварительный анализ данных**  
   После очистки данных следует провести предварительный анализ. Это важный этап, на котором оцениваются основные характеристики данных:
   - Распределение переменных
   - Наличие выбросов
   - Корреляции между признаками и другие аспекты.

   Для этого можно использовать:
   - **Описательная статистика (describe())** — позволяет получить информацию о среднем, медиане, минимальных и максимальных значениях.
   - **Визуализация данных** — построение графиков (гистограммы, диаграммы рассеяния и т.д.) помогает лучше понять структуру данных и выявить закономерности.

   **Пример кода для анализа данных:**

   ```python
   import pandas as pd
   import matplotlib.pyplot as plt

   # Пример загрузки данных
   df = pd.read_csv('data.csv')

   # Описательная статистика
   print(df.describe())

   # Визуализация данных
   df['Age'].hist()
   plt.show()
   ```

2. **Обработка выбросов (outliers)**  
   Выбросы — это значения, которые сильно отличаются от большинства данных и могут искажать результаты анализа. 

   Для обработки выбросов можно использовать:
   - **Границы квантилей** — исключение значений, которые лежат ниже 1-го и выше 99-го процентилей.
   - **Метод межквартильного диапазона (IQR)** — значения, выходящие за пределы 1.5 * IQR, считаются выбросами.

   **Пример обработки выбросов:**

   ```python
   Q1 = df['Age'].quantile(0.25)
   Q3 = df['Age'].quantile(0.75)
   IQR = Q3 - Q1

   # Удаляем выбросы
   df = df[~((df['Age'] < (Q1 - 1.5 * IQR)) | (df['Age'] > (Q3 + 1.5 * IQR)))]
   ```

3. **Обработка пропущенных данных**  
   Часто в наборах данных встречаются пропущенные значения. Их необходимо обрабатывать, чтобы модели машинного обучения или аналитика могли работать корректно.

   Основные подходы:
   - **Удаление строк с пропущенными значениями** (dropna()). Этот подход работает, если пропущенных данных немного.
   - **Заполнение пропущенных данных** — можно использовать средние, медианные значения или более сложные методы, такие как модели регрессии или алгоритмы машинного обучения.

---

