In [None]:

---

**06.09 Наука о данных**  
**Автор:** Joel Grus — книга *Data Science from Scratch*

**Наука о данных (Data Science)** — это область, связанная с данными (обработка, сбор, анализ и поиск эффективных решений на основе данных). Дата-сайентисты собирают неструктурированные данные, анализируют их с помощью математических моделей и делают выводы.

### План этапов в обработке данных

1. **Сбор:**  
   Определите объем и структуру данных и соберите их в удобной для обработки форме. Необходимо также установить цели анализа данных и подобрать методы для следующих этапов.

2. **Подготовка:**  
   Включает создание архитектуры базы данных и системы хранения, а также проверку и очистку от нерелевантных значений (валидацию).

3. **Обработка:**  
   На этом этапе проводятся кластеризация и классификация, применяются математические модели и программные методы, такие как машинное обучение.

4. **Анализ:**  
   Дата-сайентист изучает результаты моделирования, ищет ответы на изначальные гипотезы, проводит качественный и количественный анализ. Например, он может находить ошибки в бизнес-процессах или прогнозировать поведение данных в будущем.

5. **Коммуникация:**  
   Включает визуализацию данных, создание аналитических отчетов и предложений: какие решения на основе данных можно принять для повышения эффективности бизнеса.

### Основные термины

- **Big Data (Большие данные):** гигантские массивы информации, генерируемые большими информационными системами (например, соцсети и сотовая связь).

- **Математическое моделирование:** использование математики и статистики для поиска закономерностей в данных. Временные ряды анализируются с помощью регрессионных моделей, которые помогают выявлять зависимости между переменными.

- **Data Mining (Добыча данных):** процесс поиска неизвестных закономерностей и полезных знаний в больших базах "сырых" данных.

- **Tree-based алгоритмы:** использование метода "дерева решений" в Data Mining, который классифицирует данные по принадлежности к определенным признакам.

- **Machine Learning (Машинное обучение):** наука о изучении алгоритмов для работы с данными с целью автоматизации обработки новых данных.

- **Feature Engineering (Конструирование признаков):** процесс подготовки необработанных данных для обучения ML-моделей.

- **Deep Learning (Глубокое обучение):** метод машинного обучения с использованием многослойных нейронных сетей.

### Введение в науку о данных

**Необходимые инструменты для Data Science:**

1. **Языки программирования:**  
   - **Python** — самый популярный.

2. **Библиотеки Python:**  
   - **pandas** — для работы с табличными данными.  
   - **NumPy** — для числовых вычислений.  
   - **matplotlib и seaborn** — для визуализации.  
   - **scikit-learn** — для машинного обучения.  
   - **TensorFlow и PyTorch** — для работы с нейронными сетями.

3. **SQL:** для работы с базами данных.

4. **Jupyter Notebook:** среда для написания и выполнения кода с визуализацией результатов анализа.

5. **Практика:**  
   - **Kaggle** — платформа для соревнований по анализу данных, где можно решать реальные задачи и соревноваться с другими специалистами.

### Заключение

Наука о данных — динамично развивающаяся область, востребованная в различных отраслях, от медицины до маркетинга. Чтобы стать специалистом в этой сфере, важно владеть основными инструментами и методами анализа данных, понимать статистику и быть готовым к постоянному обучению.

### Основные команды для работы с данными в Pandas

В Data Science работа с данными обычно начинается с загрузки данных в DataFrame, что позволяет легко их анализировать и обрабатывать. Ниже приведены основные команды для работы с Pandas DataFrame в Python.

```python
import pandas as pd

# 1. Создание DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
```

**Первичный обзор данных:**
- `df.head()` — отображает первые 5 строк DataFrame.
- `df.tail()` — отображает последние 5 строк DataFrame.

**Информация о DataFrame:**
- `df.info()` — выводит информацию о DataFrame: типы данных, количество ненулевых значений и использование памяти.
- `df.describe()` — выводит основные статистические характеристики числовых столбцов.

**Получение данных из DataFrame:**
- `df['column_name']` — извлекает данные по отдельному столбцу.
- `df[['column1', 'column2']]` — доступ к нескольким столбцам сразу.

**Добавление новых столбцов:**
```python
df['Country'] = ['USA', 'USA', 'USA']  # добавление нового столбца
print(df)
```

**Фильтрация данных:**
```python
df[df['Age'] > 30]  # фильтрация по возрасту
```

**Сортировка данных:**
```python
df.sort_values('Age')  # сортировка по возрасту
```

**Удаление строк и столбцов:**
```python
df.drop('City', axis=1, inplace=True)  # удаление столбца
df.drop([0, 2], axis=0, inplace=True)  # удаление строк
```

**Метод fillna():**
Используется для замены пропущенных значений (NaN) в DataFrame на другие значения.

**Пример заполнения пропущенных значений:**
```python
df.fillna(0, inplace=True)  # замена на 0
df.fillna({'Age': 0, 'City': 'Unknown'}, inplace=True)  # замена разными значениями
```

---
