<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотека Pandas

## Введение

**Pandas** — это библиотека для анализа данных в языке программирования Python. Она обеспечивает высокоэффективные, удобные и гибкие инструменты для работы с данными, а также поддерживает различные форматы хранения данных. Pandas отлично подходит для работы с таблицами и временными рядами, а также для выполнения различных операций над данными, таких как фильтрация, сортировка, группировка, агрегация и многое другое.

### Основные концепции Pandas

#### 1. **Основные структуры данных**
Pandas предоставляет две ключевые структуры данных:

- **Series** — одномерный массив, похожий на колонку данных в таблице. Это может быть массив чисел, строк, дат и т.д.
- **DataFrame** — двумерная таблица данных, которая представляет собой коллекцию объектов Series. Каждый столбец DataFrame является объектом Series.

#### 2. **Зачем использовать Pandas?**

- **Удобная работа с данными**: Pandas предоставляет методы для удобного манипулирования табличными данными (чтение, фильтрация, сортировка, группировка).
- **Работа с различными источниками данных**: Pandas поддерживает CSV, Excel, SQL, JSON и многие другие форматы.
- **Быстрое выполнение вычислений**: Под капотом используется библиотека NumPy, что позволяет работать с данными эффективно.
  
Теперь рассмотрим на примерах, как использовать Pandas для обработки и анализа данных.

## Установка библиотеки

Прежде чем начать, нужно установить библиотеку Pandas, если она у вас еще не установлена. Это можно сделать с помощью pip:

```bash
pip install pandas
```

После установки можно импортировать библиотеку и приступить к работе:

```python
import pandas as pd
```



## 1. Структура данных **Series**

**Pandas Series** — это одна из ключевых структур данных в библиотеке Pandas. Это одномерный массив, который может содержать данные различных типов: целые числа, числа с плавающей запятой, строки, объекты Python, даты, временные метки и многое другое. Series можно рассматривать как упорядоченный словарь, так как он сопоставляет значения с индексами. К каждому элементу можно обращаться по индексу, как по номерному, так и по именованному.

Основные черты Pandas Series:
- **Одномерная структура**: В отличие от DataFrame (двумерной структуры), Series является одномерным объектом.
- **Гибкость типов данных**: Series поддерживает хранение данных различных типов в одном столбце.
- **Наличие индекса**: Каждый элемент Series связан с индексом, который может быть как числовым, так и строковым.

### Пример создания Series

Для начала создадим простую Series из списка чисел. Это позволит нам увидеть, как Pandas автоматически создает индексы для каждого элемента.

```python
import pandas as pd

# Создание Series из списка
data = [1, 2, 3, 4, 5]
s = pd.Series(data)

# Выводим на экран созданную Series
print(s)
```

**Результат**:

```
0    1
1    2
2    3
3    4
4    5
dtype: int64
```

Как видно из результата, каждый элемент Series имеет свой числовой индекс, который автоматически присваивается Pandas.

## Основные способы создания Series

### 1. Series из списка

Первый и самый простой способ создать Series — это передать Python список или массив. Давайте создадим Series, состоящую из целых чисел.

```python
# Создаем Series из списка целых чисел
data = [10, 20, 30, 40]
s = pd.Series(data)

# Выводим Series на экран
print(s)
```

**Результат**:

```
0    10
1    20
2    30
3    40
dtype: int64
```

Теперь мы видим, что каждый элемент списка представлен в Series с присвоенным ему индексом.

### 2. Series из словаря

Другой способ создания Series — это использование словаря. В этом случае ключи словаря станут индексами, а значения — данными Series. Давайте посмотрим на этот пример.

```python
# Создаем Series из словаря
data = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data)

# Выводим на экран
print(s)
```

**Результат**:

```
a    1
b    2
c    3
dtype: int64
```

Как видно, индексы теперь являются строками, что позволяет более удобно работать с данными.

### 3. Series с явным указанием индекса

Вы можете создать Series, указав свои индексы. Это удобно, когда вы хотите, чтобы индексы имели определенные значения, которые имеют смысл в контексте ваших данных.

```python
# Создаем Series с явным указанием индексов
data = [100, 200, 300]
index = ['apple', 'banana', 'cherry']
s = pd.Series(data, index=index)

# Выводим на экран
print(s)
```

**Результат**:

```
apple     100
banana    200
cherry    300
dtype: int64
```

Теперь каждый элемент имеет собственный индекс, который представляет собой строку, что может облегчить обращение к данным.

### 4. Series с константным значением

Иногда может потребоваться создать Series, состоящую из одного значения, которое будет повторяться. Это можно сделать с помощью функции `pd.Series()`.

```python
# Создаем Series с константным значением
s = pd.Series(5, index=[0, 1, 2, 3])

# Выводим Series на экран
print(s)
```

**Результат**:

```
0    5
1    5
2    5
3    5
dtype: int64
```

Каждый элемент Series равен 5, и они имеют индексы от 0 до 3.

### 5. Series с NaN (отсутствующими значениями)

Вы можете создать Series, содержащую отсутствующие значения (NaN). Это полезно для работы с неполными наборами данных.

```python
import numpy as np

# Создаем Series с пропущенными значениями
data = [1, np.nan, 3, 4]
s = pd.Series(data)

# Выводим Series на экран
print(s)
```

**Результат**:

```
0    1.0
1    NaN
2    3.0
3    4.0
dtype: float64
```

Пропущенные значения отображаются как NaN, что позволяет легко идентифицировать их.

## Индексы Series

Pandas автоматически создает числовой индекс для каждого элемента Series, если вы не указываете его явно. Индекс можно задать и вручную, что дает больше гибкости.

### Доступ по индексу

Вы можете обращаться к элементам Series по их индексам. Например, для доступа к элементу по умолчанию (числовому индексу):

```python
# Доступ к первому элементу Series по числовому индексу
print(s[0])  # Первый элемент Series
```

Вывод будет следующим:

```
1.0
```

Теперь обратимся к элементу с использованием явного индекса, если мы создали Series с пользовательскими индексами.

```python
# Создаем Series с пользовательскими индексами
s = pd.Series([100, 200, 300], index=['apple', 'banana', 'cherry'])

# Доступ к элементу по пользовательскому индексу
print(s['banana'])  # Получаем значение по индексу 'banana'
```

**Результат**:

```
200
```

### Модификация индекса

Если вам нужно изменить индексы в уже существующей Series, это можно сделать с помощью метода `.index`.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# Меняем индексы на новые
s.index = ['A', 'B', 'C', 'D']

# Выводим Series с новыми индексами
print(s)
```

**Результат**:

```
A    1
B    2
C    3
D    4
dtype: int64
```

Теперь Series имеет новые индексы, которые мы задали.

## Основные методы Series

### 1. Операции над элементами Series

Series позволяет выполнять элементарные математические операции с каждым элементом. Например, давайте добавим к каждому элементу Series число 10.

```python
# Создаем Series из чисел
s = pd.Series([1, 2, 3, 4])

# Добавляем 10 ко всем элементам Series
result = s + 10

# Выводим результат
print(result)
```

**Результат**:

```
0    11
1    12
2    13
3    14
dtype: int64
```

Мы видим, что 10 было добавлено ко всем элементам Series.

### 2. Методы для обработки данных

#### 2.1. **`head()` и `tail()`**

Методы `head()` и `tail()` позволяют быстро получить первые или последние несколько элементов Series. Это полезно для предварительного просмотра данных.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4, 5, 6])

# Получаем первые два элемента
print(s.head(2))  # Первые два элемента

# Получаем последние два элемента
print(s.tail(2))  # Последние два элемента
```

**Результат**:

```
0    1
1    2
dtype: int64

4    5
5    6
dtype: int64
```

#### 2.2. **`describe()`**

Метод `describe()` возвращает сводную статистику по данным в Series, включая такие показатели, как среднее, стандартное отклонение, минимальное и максимальное значения.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4, 5])

# Получаем сводную статистику
print(s.describe())
```

**Результат**:

```
count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64
```

Этот метод полезен для быстрого анализа характеристик данных.

#### 2.3. **`value_counts()`**

Метод `value_counts()`

 показывает количество уникальных значений в Series и их частоту. Это полезно для анализа распределения данных.

```python
# Создаем Series с повторяющимися значениями
s = pd.Series([1, 2, 2, 3, 3, 3])

# Получаем частоту уникальных значений
print(s.value_counts())
```

**Результат**:

```
3    3
2    2
1    1
dtype: int64
```

#### 2.4. **`unique()` и `nunique()`**

- `unique()` возвращает массив уникальных значений в Series.
- `nunique()` возвращает количество уникальных значений.

```python
# Получаем уникальные значения
print(s.unique())    # Уникальные значения

# Получаем количество уникальных значений
print(s.nunique())   # Количество уникальных значений
```

**Результат**:

```
[1 2 3]
3
```

### 3. Манипуляции с данными

#### 3.1. **`drop()`**

Метод `drop()` позволяет удалять элементы из Series по их индексу. Это полезно, когда вам нужно избавиться от ненужных данных.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# Удаляем элемент с индексом 'b'
s_dropped = s.drop('b')

# Выводим результат
print(s_dropped)
```

**Результат**:

```
a    1
c    3
d    4
dtype: int64
```

Теперь элемент с индексом 'b' был успешно удален.

#### 3.2. **`sort_values()`**

Метод `sort_values()` сортирует Series по значениям, что может быть полезно для анализа данных.

```python
# Создаем Series
s = pd.Series([10, 3, 5, 1])

# Сортируем Series по значениям
s_sorted = s.sort_values()

# Выводим отсортированную Series
print(s_sorted)
```

**Результат**:

```
3     1
1     3
2     5
0    10
dtype: int64
```

#### 3.3. **`sort_index()`**

Метод `sort_index()` сортирует Series по индексу. Это может быть полезно для упорядочивания данных.

```python
# Создаем Series с неупорядоченными индексами
s = pd.Series([1, 2, 3], index=['b', 'c', 'a'])

# Сортируем Series по индексам
s_sorted = s.sort_index()

# Выводим отсортированную Series
print(s_sorted)
```

**Результат**:

```
a    3
b    1
c    2
dtype: int64
```

#### 3.4. **`apply()`**

Метод `apply()` позволяет применить функцию к каждому элементу Series. Это полезно для выполнения операций над всеми элементами.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4])

# Применяем функцию, возводящую в квадрат
s_applied = s.apply(lambda x: x ** 2)

# Выводим результат
print(s_applied)
```

**Результат**:

```
0     1
1     4
2     9
3    16
dtype: int64
```

#### 3.5. **`map()`**

Метод `map()` позволяет заменять значения на основе отображения (словаря или функции). Это удобно для трансформации данных.

```python
# Создаем Series
s = pd.Series([1, 2, 3, 4])

# Заменяем значения с помощью словаря
s_mapped = s.map({1: 'A', 2: 'B'})

# Выводим результат
print(s_mapped)
```

**Результат**:

```
0      A
1      B
2    NaN
3    NaN
dtype: object
```

Значения 1 и 2 были заменены, а остальные элементы стали NaN.

### 4. Работа с пропущенными значениями

#### 4.1. **`isnull()` и `notnull()`**

Эти методы возвращают булевы значения, указывающие на наличие или отсутствие пропущенных данных в Series.

```python
# Создаем Series с пропущенными значениями
s = pd.Series([1, None, 3, None])

# Проверяем на пропущенные значения
print(s.isnull())    # Проверка на пропущенные значения

# Проверяем на ненулевые значения
print(s.notnull())   # Проверка на ненулевые значения
```

**Результат**:

```
0    False
1     True
2    False
3     True
dtype: bool

0     True
1    False
2     True
3    False
dtype: bool
```

#### 4.2. **`fillna()`**

Метод `fillna()` заполняет пропущенные значения указанным значением, что может быть полезно для обработки неполных данных.

```python
# Заполняем NaN нулями
s_filled = s.fillna(0)

# Выводим результат
print(s_filled)
```

**Результат**:

```
0    1.0
1    0.0
2    3.0
3    0.0
dtype: float64
```

#### 4.3. **`dropna()`**

Метод `dropna()` удаляет элементы с пропущенными значениями (NaN), что может быть полезно для очистки данных.

```python
# Удаляем элементы с NaN
s_dropped = s.dropna()

# Выводим результат
print(s_dropped)
```

**Результат**:

```
0    1.0
2    3.0
dtype: float64
```



## Сравнение с другими структурами данных

### Series vs. Списки и кортежи

- **Списки и кортежи**: Это стандартные структуры данных в Python, которые могут хранить элементы различных типов. Однако они не предоставляют удобных методов для анализа данных, таких как фильтрация, группировка и агрегация.
- **Series**: Имеет встроенные функции и методы, которые позволяют легко выполнять операции на данных, а также предоставляет возможность использовать именованные индексы для удобного доступа к элементам.

### Series vs. Массивы NumPy

- **NumPy**: Массивы NumPy обеспечивают высокую производительность и позволяют эффективно выполнять математические операции. Однако они не поддерживают нечисловые данные и не имеют встроенной поддержки пропущенных значений.
- **Series**: Может хранить данные различных типов и автоматически обрабатывать пропуски (NaN), что делает её более удобной для анализа данных.

## Индексация и срезы

### Индексация

Индексация в Series позволяет извлекать отдельные элементы или подмножества данных. Рассмотрим несколько способов индексации.

#### Числовая индексация

```python
s = pd.Series([10, 20, 30, 40, 50])

# Доступ к элементу по числовому индексу
print(s[2])  # Третий элемент
```

**Результат**:

```
30
```

#### Именная индексация

```python
s = pd.Series([100, 200, 300], index=['a', 'b', 'c'])

# Доступ к элементу по имени индекса
print(s['b'])
```

**Результат**:

```
200
```

### Срезы

Вы можете использовать срезы, чтобы извлекать группы элементов.

```python
# Срез элементов с 1 по 3
print(s[1:3])
```

**Результат**:

```
b    200
c    300
dtype: int64
```

### Логическая индексация

Логическая индексация позволяет фильтровать данные на основе условий.

```python
s = pd.Series([1, 2, 3, 4, 5])

# Фильтруем элементы, большие 3
filtered = s[s > 3]
print(filtered)
```

**Результат**:

```
3    4
4    5
dtype: int64
```

## Группировка данных

Группировка позволяет объединять данные по определённому критерию. Хотя это чаще используется с DataFrame, вы также можете применить `groupby()` к Series.

### Пример группировки

```python
# Создаем Series с категориями
data = pd.Series([1, 2, 2, 3, 3, 3], index=['a', 'b', 'c', 'd', 'e', 'f'])

# Группируем и суммируем значения
grouped = data.groupby(data).sum()
print(grouped)
```

**Результат**:

```
1    1
2    4
3    9
dtype: int64
```

## Преобразование данных

### Изменение типа данных

Метод `astype()` позволяет менять тип данных в Series, что полезно, если вы хотите провести определенные операции.

```python
s = pd.Series([1, 2, 3], dtype='int')
s_float = s.astype('float')
print(s_float)
```

**Результат**:

```
0    1.0
1    2.0
2    3.0
dtype: float64
```

## Построение графиков

Pandas Series легко визуализируются с использованием Matplotlib или Seaborn. Это помогает лучше понять данные.

### Пример построения графика

```python
import matplotlib.pyplot as plt

# Создаем Series
s = pd.Series([1, 3, 2, 5, 4])

# Строим линейный график
s.plot(kind='line')
plt.title('Пример линейного графика')
plt.xlabel('Индекс')
plt.ylabel('Значение')
plt.show()
```

Этот код создаст простой линейный график, отображающий значения Series.

## Примеры реальных задач

### Анализ временных рядов

Pandas Series часто используются для работы с временными рядами. Например, вы можете создать Series с временными метками.

```python
dates = pd.date_range('2023-01-01', periods=5)
s = pd.Series([10, 20, 30, 40, 50], index=dates)

print(s)
```

**Результат**:

```
2023-01-01    10
2023-01-02    20
2023-01-03    30
2023-01-04    40
2023-01-05    50
Freq: D, dtype: int64
```

### Работа с данными о продажах

Вы можете использовать Series для анализа данных о продажах, чтобы подсчитать общие продажи за определенный период.

```python
sales = pd.Series([100, 150, 200, 130], index=['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'])
total_sales = sales.sum()
print(f'Общие продажи: {total_sales}')
```

**Результат**:

```
Общие продажи: 580
```

## Оптимизация производительности

При работе с большими наборами данных важно учитывать производительность. Вот несколько советов:

- **Используйте категории**: Если у вас есть Series с повторяющимися строковыми значениями, преобразуйте её в категориальный тип, чтобы сэкономить память.

```python
s = pd.Series(['apple', 'banana', 'apple', 'orange'])
s = s.astype('category')
print(s.memory_usage())
```

- **Избегайте циклов**: Используйте векторизованные операции, которые быстрее выполняются на уровне C, чем обычные циклы Python.

## Советы и рекомендации

1. **Используйте метод `info()`**: Этот метод предоставляет краткую информацию о Series, включая тип данных и количество ненулевых значений.
   
```python
s = pd.Series([1, 2, np.nan])
print(s.info())
```

## Вычисление квантилей в Pandas Series

Квантили — это точки в распределении данных, которые делят данные на равные части. Они используются для анализа распределения и выявления выбросов. В Pandas вы можете вычислять квантили с помощью метода `quantile()`.

### Пример вычисления квантили

Рассмотрим, как вычислить квантили для Series.

```python
import pandas as pd

# Создаем Series с набором данных
data = pd.Series([10, 20, 30, 40, 50, 60, 70])

# Вычисляем 25-й, 50-й и 75-й квантили
q1 = data.quantile(0.25)  # 25-й процентиль
q2 = data.quantile(0.50)  # 50-й процентиль (медиана)
q3 = data.quantile(0.75)  # 75-й процентиль

print(f"25-й процентиль (Q1): {q1}")
print(f"50-й процентиль (Q2): {q2}")
print(f"75-й процентиль (Q3): {q3}")
```

**Результат**:

```
25-й процентиль (Q1): 27.5
50-й процентиль (Q2): 40.0
75-й процентиль (Q3): 52.5
```

### Объяснение

- **`quantile(0.25)`**: Вычисляет 25-й процентиль, который разделяет нижние 25% данных от верхних 75%.
- **`quantile(0.50)`**: Вычисляет медиану (50-й процентиль), которая делит данные пополам.
- **`quantile(0.75)`**: Вычисляет 75-й процентиль, который отделяет верхние 25% данных от нижних 75%.

## 2. Структура данных **DataFrame**


`DataFrame` в Pandas — это таблица данных с метками для строк и столбцов. Это как таблица, где данные представлены в виде рядов (строк) и колонок (столбцов). Каждая колонка может содержать данные разного типа, например, числа, строки или даже временные метки.

#### Пример создания DataFrame из словаря данных

Для начала рассмотрим пример создания DataFrame из словаря. В Pandas DataFrame можно создать из различных источников данных, одним из самых распространенных является словарь, где ключи — это названия столбцов, а значения — данные.

```python
import pandas as pd

# Создаем DataFrame из словаря данных
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)
```

**Объяснение:**
- В данном примере мы создаем DataFrame из словаря `data`, где ключами являются имена столбцов: `'Name'`, `'Age'`, и `'City'`.
- Значениями для каждого ключа являются списки с данными, которые будут размещены по строкам.
- В итоге создается таблица, где строки автоматически индексируются (индексы 0, 1, 2), а столбцы содержат данные из словаря.

### 2. Способы создания DataFrame

В Pandas существует несколько различных способов создания DataFrame. Вы можете создавать его из:
- словарей списков,
- списков списков,
- массивов NumPy,
- других DataFrame.

#### 2.1 Создание DataFrame из словаря списков

Чаще всего DataFrame создается из словаря, где ключи — это имена столбцов, а значения — это списки данных.

```python
# Создание DataFrame из словаря списков
data = {
    'Product': ['Apple', 'Banana', 'Mango'],
    'Price': [100, 50, 75]
}
df = pd.DataFrame(data)
print(df)
```

**Объяснение:**
- Мы создали DataFrame, в котором два столбца: `Product` (название продукта) и `Price` (цена).
- В данном случае данные организованы в виде словаря, где для каждого столбца (ключа) указан список значений.

#### 2.2 Создание DataFrame из списка списков

Вы можете создать DataFrame и из списка списков, где каждая внутренняя структура представляет строку данных.

```python
# Создание DataFrame из списка списков
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df)
```

**Объяснение:**
- В этом примере каждая строка таблицы представлена отдельным списком, который содержит данные по каждому столбцу.
- Мы явно задаем имена столбцов через параметр `columns`, чтобы дать понять, что данные в этих столбцах представляют имя, возраст и город.

#### 2.3 Создание DataFrame из массива NumPy

Если данные уже представлены в виде массива NumPy, вы можете использовать их для создания DataFrame.

```python
import numpy as np

# Создание DataFrame из массива NumPy
data = np.array([[10, 20, 30], [40, 50, 60]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)
```

**Объяснение:**
- Здесь мы создали двумерный массив NumPy и передали его в Pandas DataFrame.
- Каждая строка в массиве становится строкой в DataFrame, а столбцам мы присвоили названия `A`, `B`, и `C`.

### 3. Основные атрибуты DataFrame

Когда мы создаем DataFrame, важно понимать, как извлекать информацию о его структуре. Pandas предоставляет несколько полезных атрибутов для этой цели.

- **`df.shape`**: Возвращает количество строк и столбцов DataFrame.
- **`df.columns`**: Возвращает список названий столбцов.
- **`df.index`**: Возвращает метки строк (индексы).
- **`df.dtypes`**: Показывает типы данных каждого столбца.

#### Пример использования атрибутов DataFrame

```python
# Получение основных атрибутов DataFrame
print("Форма DataFrame:", df.shape)
print("Названия столбцов:", df.columns)
print("Индексы строк:", df.index)
print("Типы данных:", df.dtypes)
```

**Объяснение:**
- `shape` возвращает кортеж (число строк, число столбцов), что позволяет быстро оценить размер таблицы.
- `columns` возвращает названия всех столбцов DataFrame.
- `index` показывает метки строк (индексы), которые по умолчанию числовые, начиная с 0.
- `dtypes` показывает тип данных каждого столбца, что помогает понимать, как данные представлены в каждом столбце.


### 4. Индексация и выбор данных в Pandas DataFrame

В Pandas DataFrame предусмотрено множество способов выбора данных, которые обеспечивают гибкость при работе с таблицами. Вы можете выбирать данные по именам столбцов, индексам строк, а также с помощью специализированных методов `.loc[]` и `.iloc[]`. Ниже рассмотрим каждый из этих способов более подробно.

#### 4.1 Выбор данных по названиям столбцов

Один из самых простых способов выбрать данные — это обращение к столбцам DataFrame по их названиям, как к ключам в словаре. Вы можете выбрать как один, так и несколько столбцов одновременно.

```python
# Выбор одного столбца
print(df['Name'])

# Выбор нескольких столбцов
print(df[['Name', 'Age']])
```

**Пояснение:**
- Когда вы выбираете один столбец по его имени, Pandas возвращает объект типа `Series`, который представляет собой одномерную структуру данных (похожую на массив). В этом примере `df['Name']` вернет все значения столбца `Name`.
- Для выбора нескольких столбцов необходимо передать список с их названиями, заключенный в двойные квадратные скобки. Например, `df[['Name', 'Age']]` вернет новый DataFrame, содержащий только столбцы `Name` и `Age`.

#### 4.2 Выбор данных с помощью `.loc[]`

Метод `.loc[]` используется для выборки данных на основе меток индексов строк и имен столбцов. Этот способ полезен, когда вам нужно точно указать строки и столбцы по их названиям, а не по позициям.

```python
# Выбор строки по метке индекса
print(df.loc[1])

# Выбор конкретного значения по меткам строки и столбца
print(df.loc[1, 'Age'])
```

**Пояснение:**
- Вызов `df.loc[1]` выбирает строку с меткой индекса `1`, возвращая значения всех столбцов для этой строки.
- Если вам нужно выбрать конкретное значение в пересечении строки и столбца, вы можете указать оба — как в случае `df.loc[1, 'Age']`, что вернет значение в строке с индексом `1` и столбце `Age`.
- Метод `.loc[]` удобен, когда вы работаете с метками строк или именами столбцов, особенно если они не совпадают с порядковыми номерами.

#### 4.3 Выбор данных с помощью `.iloc[]`

Метод `.iloc[]` позволяет выбирать данные по их числовым индексам — как строк, так и столбцов. Это похоже на индексацию массивов в Python, где для каждой строки и столбца используется порядковый номер, начиная с нуля.

```python
# Выбор строки по позиции
print(df.iloc[0])

# Выбор конкретного значения по индексу строки и столбца
print(df.iloc[0, 1])
```

**Пояснение:**
- В отличие от `.loc[]`, метод `.iloc[]` не опирается на метки строк и столбцов. Он работает исключительно с их порядковыми номерами, начиная с 0. Например, `df.iloc[0]` выберет первую строку в DataFrame.
- Для доступа к конкретному значению по его позиции в строке и столбце, вы можете указать два индекса: строку и столбец. Например, `df.iloc[0, 1]` вернет значение из первой строки и второго столбца.
- Этот метод полезен, когда вы не знаете или не хотите работать с метками, а только с позициями данных.



### 5. Фильтрация данных

Фильтрация данных является одним из важнейших инструментов работы с данными в Pandas, который позволяет выбирать строки, удовлетворяющие определенным условиям. Это особенно полезно, когда требуется работать только с определенными подмножествами данных.

#### 5.1 Фильтрация по одному условию

Pandas предоставляет возможность фильтровать строки DataFrame на основе логических условий. Для этого достаточно указать условие фильтрации через логическое выражение.

**Пример:**

```python
# Фильтрация строк, где Age больше 30
filtered_df = df[df['Age'] > 30]
print(filtered_df)
```

**Объяснение:**
- Логическое выражение `df['Age'] > 30` создает булев массив (True для строк, где возраст больше 30, и False для остальных).
- Pandas использует этот булев массив для фильтрации строк, возвращая только те строки, где условие выполняется. В данном примере мы получим все строки, в которых значение столбца `Age` больше 30.

**Пример результата:**

```
   Name  Age      City
2  John   35  New York
3  Lisa   45   Chicago
```

#### 5.2 Фильтрация по нескольким условиям

Иногда необходимо фильтровать данные сразу по нескольким условиям. В Pandas это делается с использованием логических операторов:
- `&` — логическое "И" (AND)
- `|` — логическое "ИЛИ" (OR)

**Пример:**

```python
# Фильтрация строк, где Age больше 30 и City равно 'Chicago'
filtered_df = df[(df['Age'] > 30) & (df['City'] == 'Chicago')]
print(filtered_df)
```

**Объяснение:**
- Здесь мы используем два условия: первое условие проверяет, что `Age` больше 30, а второе — что `City` равно `Chicago`.
- Оператор `&` требует, чтобы оба условия были истинны для строки, и возвращает только те строки, где оба условия выполняются.
- Скобки вокруг каждого условия обязательны при использовании логических операторов в Pandas.

**Пример результата:**

```
   Name  Age     City
3  Lisa   45  Chicago
```

#### 5.3 Фильтрация с использованием метода `query()`

Для более удобного синтаксиса фильтрации можно использовать метод `query()`. Он позволяет писать фильтры в виде SQL-подобных запросов.

**Пример:**

```python
# Фильтрация строк, где Age больше 30 и City равно 'Chicago' с помощью query()
filtered_df = df.query('Age > 30 and City == "Chicago"')
print(filtered_df)
```

**Объяснение:**
- Метод `query()` позволяет задавать условия фильтрации в виде строк. Это может быть более читаемым и удобным для сложных фильтров.
- Использование `and` и `or` в методе `query()` аналогично логическим операторам `&` и `|` в обычной фильтрации.

**Пример результата:**

```
   Name  Age     City
3  Lisa   45  Chicago
```

#### 5.4 Фильтрация с использованием метода `isin()`

Иногда требуется отфильтровать строки, основываясь на наличии значений в списке. Для этого используется метод `isin()`.

**Пример:**

```python
# Фильтрация строк, где City равно 'Chicago' или 'New York'
filtered_df = df[df['City'].isin(['Chicago', 'New York'])]
print(filtered_df)
```

**Объяснение:**
- Метод `isin()` проверяет, содержится ли значение в столбце в заданном списке значений.
- В данном примере мы получаем строки, где `City` равно либо `Chicago`, либо `New York`.

**Пример результата:**

```
   Name  Age      City
2  John   35  New York
3  Lisa   45   Chicago
```

#### 5.5 Фильтрация строк с отсутствующими значениями

Иногда важно отфильтровать строки, в которых отсутствуют данные (`NaN`). Для этого можно использовать методы `isna()` и `notna()`.

**Пример:**

```python
# Фильтрация строк, где значение в столбце Age отсутствует (NaN)
filtered_df = df[df['Age'].isna()]
print(filtered_df)
```

**Объяснение:**
- Метод `isna()` возвращает булев массив, где `True` соответствует строкам с пропущенными значениями (`NaN`) в указанном столбце.
- В данном примере будут возвращены все строки, где в столбце `Age` значение отсутствует.

**Пример результата:**

```
   Name  Age    City
4  Mark  NaN  Boston
```

#### 5.6 Фильтрация с использованием регулярных выражений

Pandas также поддерживает фильтрацию строк с использованием регулярных выражений через метод `str.contains()`.

**Пример:**

```python
# Фильтрация строк, где City начинается с 'Ch'
filtered_df = df[df['City'].str.contains('^Ch', regex=True)]
print(filtered_df)
```

**Объяснение:**
- Метод `str.contains()` позволяет выполнять фильтрацию строковых данных по шаблонам регулярных выражений.
- В данном примере фильтруются строки, где значения в столбце `City` начинаются с букв "Ch".




### 6. Добавление, удаление и изменение данных

#### 6.1 Добавление новых столбцов

Pandas позволяет легко добавлять новые столбцы в существующий DataFrame. Это может быть результатом математических операций или данных, полученных из внешних источников.

**Пример:**

```python
# Добавление нового столбца с вычислением годового дохода
df['Income'] = [50000, 60000, 55000]
print(df)
```

**Объяснение:**
- Новый столбец `Income` добавляется к DataFrame, где каждому человеку присваивается его годовой доход.
- Важное преимущество Pandas — это возможность легко добавлять или изменять данные, просто присваивая значения новым столбцам.

#### 6.2 Удаление столбцов и строк

Для удаления столбцов или строк используется метод `drop()`.

**Пример:**

```python
# Удаление столбца Age
df = df.drop(columns=['Age'])
print(df)

# Удаление строки с индексом 1
df = df.drop(index=1)
print(df)
```

**Объяснение:**
- Метод `drop()` позволяет удалять строки или столбцы. Аргумент `columns` указывает, какой столбец удалить, а `index` — какую строку.
- По умолчанию `drop()` возвращает новый DataFrame без удаленных данных, не изменяя исходный DataFrame.

#### 6.3 Изменение данных

Можно легко изменить значения в DataFrame, например, с помощью логических условий или прямого присвоения.

**Пример:**

```python
# Изменение всех значений в столбце City на 'San Francisco', где Name = 'Alice'
df.loc[df['Name'] == 'Alice', 'City'] = 'San Francisco'
print(df)
```

**Объяснение:**
- Используя `.loc[]`, можно выбрать строки по определенным условиям и обновить значения в соответствующих столбцах. Здесь для всех строк, где имя равно 'Alice', город изменяется на 'San Francisco'.



### 7. Сортировка данных

Pandas позволяет сортировать данные как по значениям столбцов, так и по индексам строк.

#### 7.1 Сортировка по значениям столбца

Вы можете отсортировать DataFrame по значениям одного или нескольких столбцов с помощью метода `sort_values()`.

**Пример:**

```python
# Сортировка по столбцу Age
sorted_df = df.sort_values(by='Age')
print(sorted_df)
```

**Объяснение:**
- Метод `sort_values()` сортирует строки DataFrame по значениям в указанном столбце. Здесь мы сортируем по возрасту.

#### 7.2 Сортировка по индексу

Метод `sort_index()` сортирует DataFrame по индексам строк, что полезно при работе с временными рядами или если индексы имеют определенное значение.

**Пример:**

```python
# Сортировка по индексу в обратном порядке
sorted_df = df.sort_index(ascending=False)
print(sorted_df)
```

**Объяснение:**
- В этом примере строки сортируются по индексу в обратном порядке (с конца). Параметр `ascending=False` задает сортировку по убыванию.


### 8. Преобразование данных

Для работы с текстовыми и числовыми данными в Pandas предоставлены разнообразные методы для преобразования данных. Включает работу с дубликатами, замена значений и изменение типов данных.

#### 8.1 Удаление дубликатов

Метод `drop_duplicates()` удаляет повторяющиеся строки.

**Пример:**

```python
# Удаление дубликатов в DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Alice'], 'Age': [25, 30, 25]})
df = df.drop_duplicates()
print(df)
```

**Объяснение:**
- В данном случае строки с одинаковыми значениями в столбце `Name` и `Age` считаются дубликатами, и одна из них удаляется.

#### 8.2 Замена значений

Метод `replace()` позволяет заменять конкретные значения в DataFrame на другие.

**Пример:**

```python
# Замена значения 'Bob' на 'Robert'
df['Name'] = df['Name'].replace('Bob', 'Robert')
print(df)
```

**Объяснение:**
- Метод `replace()` заменяет все вхождения строки `'Bob'` на `'Robert'` в столбце `Name`.

#### 8.3 Изменение типов данных

Вы можете изменять тип данных столбцов, используя метод `astype()`.

**Пример:**

```python
# Преобразование столбца Age в тип float
df['Age'] = df['Age'].astype(float)
print(df.dtypes)
```

**Объяснение:**
- Метод `astype()` изменяет тип данных столбца. Здесь мы преобразуем значения столбца `Age` в тип `float`, чтобы работать с дробными числами.


### 9. Работа с пропущенными данными

Пропущенные данные (отсутствующие значения) часто встречаются в реальных наборах данных. В Pandas такие значения обозначаются как `NaN` (Not a Number). Наличие пропущенных данных может приводить к ошибкам при анализе и моделировании, поэтому важно уметь правильно их обрабатывать. Pandas предоставляет широкий набор методов для обнаружения, удаления и заполнения пропущенных значений, что позволяет улучшить качество данных и повысить точность анализа.



#### 9.1 Обнаружение пропущенных значений

Прежде чем приступить к обработке пропущенных данных, необходимо их обнаружить.

**Метод `isnull()` и `notnull()`**

- `isnull()`: возвращает DataFrame или Series с булевыми значениями `True` для пропущенных значений и `False` для непропущенных.
- `notnull()`: обратный метод, возвращает `True` для непропущенных значений.

**Пример:**

Допустим, у нас есть DataFrame с пропущенными значениями.

```python
import pandas as pd
import numpy as np

# Создаем DataFrame с пропущенными значениями
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, np.nan, 35, 40],
    'City': ['New York', 'Los Angeles', np.nan, 'Chicago']
}
df = pd.DataFrame(data)
print("Исходный DataFrame:")
print(df)
```

**Объяснение:**

- Мы импортируем необходимые библиотеки `pandas` и `numpy`.
- Создаем словарь `data`, где некоторые значения установлены как `np.nan`, что обозначает пропущенные данные.
- Инициализируем DataFrame с этим словарем и выводим его.

**Результат:**

```
   Name   Age         City
0   Alice  25.0     New York
1     Bob   NaN  Los Angeles
2  Charlie 35.0          NaN
3   David  40.0      Chicago
```

**Использование `isnull()`:**

```python
# Проверяем, где находятся пропущенные значения
null_checks = df.isnull()
print("\nПроверка на пропущенные значения:")
print(null_checks)
```

**Объяснение:**

- Метод `isnull()` возвращает DataFrame того же размера, где каждое значение — это булево значение, указывающее, является ли исходное значение пропущенным.

**Результат:**

```
    Name    Age   City
0  False  False  False
1  False   True  False
2  False  False   True
3  False  False  False
```



#### 9.2 Подсчет количества пропущенных значений

**Метод `isnull().sum()`**

Вы можете подсчитать количество пропущенных значений в каждом столбце.

```python
# Подсчет пропущенных значений в каждом столбце
missing_values_count = df.isnull().sum()
print("\nКоличество пропущенных значений в каждом столбце:")
print(missing_values_count)
```

**Объяснение:**

- Вызываем `isnull()` для получения DataFrame с булевыми значениями.
- Затем применяем метод `sum()`, который суммирует `True` значения как 1, давая количество пропущенных значений в каждом столбце.

**Результат:**

```
Name    0
Age     1
City    1
dtype: int64
```



#### 9.3 Заполнение пропущенных значений

Обработка пропущенных данных часто включает их замену на какие-либо значения. Pandas предоставляет метод `fillna()` для заполнения пропущенных значений.

**Метод `fillna()`**

- Позволяет заменить все `NaN` значения на заданное значение или метод.

**Пример 1: Замена на фиксированное значение**

Предположим, мы хотим заменить все пропущенные значения в столбце `Age` на 30.

```python
# Замена пропущенных значений в столбце Age на 30
df['Age'] = df['Age'].fillna(30)
print("\nDataFrame после замены пропущенных значений в 'Age' на 30:")
print(df)
```

**Объяснение:**

- Используем `fillna(30)` для столбца `Age`, что заменяет все `NaN` значения на 30.

**Результат:**

```
    Name   Age         City
0   Alice 25.0     New York
1     Bob 30.0  Los Angeles
2  Charlie 35.0          NaN
3   David 40.0      Chicago
```

**Пример 2: Замена на среднее значение столбца**

Более распространенный подход — заменить пропущенные значения на статистические показатели, например, на среднее или медианное значение.

```python
# Вычисляем среднее значение столбца Age
mean_age = df['Age'].mean()
print("\nСреднее значение возраста:", mean_age)

# Замена пропущенных значений на среднее значение
df['Age'] = df['Age'].fillna(mean_age)
print("\nDataFrame после замены пропущенных значений в 'Age' на среднее значение:")
print(df)
```

**Объяснение:**

- Вычисляем среднее значение возраста с помощью `df['Age'].mean()`.
- Применяем `fillna(mean_age)` для замены пропущенных значений на среднее.

**Результат:**

```
Среднее значение возраста: 32.5

DataFrame после замены пропущенных значений в 'Age' на среднее значение:
     Name   Age         City
0   Alice 25.0     New York
1     Bob 30.0  Los Angeles
2  Charlie 35.0          NaN
3   David 40.0      Chicago
```

**Пример 3: Заполнение пропущенных строковых значений**

Для строковых данных можно заполнить пропуски наиболее часто встречающимся значением или любым другим способом.

```python
# Заполнение пропущенных значений в 'City' на 'Unknown'
df['City'] = df['City'].fillna('Unknown')
print("\nDataFrame после замены пропущенных значений в 'City' на 'Unknown':")
print(df)
```

**Объяснение:**

- Заменяем `NaN` в столбце `City` на строку `'Unknown'`.

**Результат:**

```
    Name   Age         City
0   Alice 25.0     New York
1     Bob 30.0  Los Angeles
2  Charlie 35.0      Unknown
3   David 40.0      Chicago
```



#### 9.4 Удаление пропущенных данных

Иногда проще удалить строки или столбцы с пропущенными значениями, особенно если их немного.

**Метод `dropna()`**

- Удаляет строки или столбцы, содержащие пропущенные значения.

**Пример 1: Удаление строк с пропущенными значениями**

```python
# Создаем DataFrame с пропущенными значениями
df = pd.DataFrame(data)

# Удаление строк с пропущенными значениями
df_dropped_rows = df.dropna()
print("\nDataFrame после удаления строк с пропущенными значениями:")
print(df_dropped_rows)
```

**Объяснение:**

- Метод `dropna()` без параметров удаляет все строки, содержащие хотя бы одно пропущенное значение.

**Результат:**

```
DataFrame после удаления строк с пропущенными значениями:
    Name   Age      City
0  Alice  25.0  New York
3  David  40.0   Chicago
```

**Пример 2: Удаление столбцов с пропущенными значениями**

```python
# Удаление столбцов с пропущенными значениями
df_dropped_columns = df.dropna(axis=1)
print("\nDataFrame после удаления столбцов с пропущенными значениями:")
print(df_dropped_columns)
```

**Объяснение:**

- Параметр `axis=1` указывает, что нужно удалить столбцы с пропущенными значениями.

**Результат:**

```
DataFrame после удаления столбцов с пропущенными значениями:
    Name
0  Alice
1    Bob
2  Charlie
3  David
```

**Пример 3: Удаление строк с пропущенными значениями в конкретном столбце**

```python
# Удаление строк, где в столбце 'Age' есть пропущенные значения
df_dropped_specific = df.dropna(subset=['Age'])
print("\nDataFrame после удаления строк с пропущенным значением в 'Age':")
print(df_dropped_specific)
```

**Объяснение:**

- Параметр `subset=['Age']` указывает, что нужно удалить только те строки, где пропущены значения в столбце `Age`.

**Результат:**

```
DataFrame после удаления строк с пропущенным значением в 'Age':
    Name   Age         City
0  Alice  25.0     New York
2  Charlie 35.0          NaN
3  David  40.0      Chicago
```



#### 9.5 Интерполяция пропущенных значений

Иногда вместо заполнения средним значением или удаления строк лучше использовать интерполяцию, особенно при работе с временными рядами.

**Метод `interpolate()`**

- Заполняет пропущенные значения, используя интерполяцию (например, линейную).

**Пример:**

```python
# Создаем DataFrame с пропущенными значениями в временном ряду
time_data = {
    'Time': [1, 2, 3, 4, 5],
    'Value': [10, np.nan, np.nan, 40, 50]
}
df_time = pd.DataFrame(time_data)
print("\nИсходный DataFrame с временным рядом:")
print(df_time)

# Интерполяция пропущенных значений
df_time['Value'] = df_time['Value'].interpolate()
print("\nDataFrame после интерполяции пропущенных значений:")
print(df_time)
```

**Объяснение:**

- Создаем DataFrame с временным рядом, где некоторые значения отсутствуют.
- Применяем метод `interpolate()`, который по умолчанию выполняет линейную интерполяцию.

**Результат:**

```
Исходный DataFrame с временным рядом:
   Time  Value
0     1   10.0
1     2    NaN
2     3    NaN
3     4   40.0
4     5   50.0

DataFrame после интерполяции пропущенных значений:
   Time  Value
0     1   10.0
1     2   20.0
2     3   30.0
3     4   40.0
4     5   50.0
```

**Объяснение результата:**

- Пропущенные значения на позициях 1 и 2 заполнены линейно между 10 и 40, получив значения 20 и 30 соответственно.



#### 9.6 Замена пропущенных значений методом `replace()`

Иногда может потребоваться заменить определенные значения (например, специальные маркеры пропусков) на `NaN` или наоборот.

**Пример:**

```python
# Создаем DataFrame со специальными маркерами пропусков
data_special = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Score': [85, 'N/A', 95, 'Missing']
}
df_special = pd.DataFrame(data_special)
print("\nИсходный DataFrame со специальными маркерами пропусков:")
print(df_special)

# Замена специальных маркеров на NaN
df_special['Score'] = df_special['Score'].replace(['N/A', 'Missing'], np.nan)
print("\nDataFrame после замены специальных маркеров на NaN:")
print(df_special)
```

**Объяснение:**

- Изначально в столбце `Score` есть значения `'N/A'` и `'Missing'`, которые должны рассматриваться как пропуски.
- Используем метод `replace()` для замены этих значений на `np.nan`.



#### 9.7 Параметры методов обработки пропущенных данных

**Метод `fillna()`**

- **`value`**: значение или словарь значений для замены пропущенных данных.
- **`method`**: метод заполнения (`'ffill'` для заполнения предыдущим значением, `'bfill'` для заполнения следующим).
- **`axis`**: ось заполнения (`0` для строк, `1` для столбцов).
- **`inplace`**: если `True`, изменения будут применены к исходному DataFrame.

**Пример: Заполнение предыдущим значением**

```python
# Заполнение пропущенных значений предыдущим известным значением
df_time['Value'] = df_time['Value'].fillna(method='ffill')
```

**Метод `dropna()`**

- **`axis`**: ось удаления (`0` для строк, `1` для столбцов).
- **`how`**: определяет, какие строки или столбцы удалять:
  - `'any'`: удаляет, если есть хотя бы одно пропущенное значение.
  - `'all'`: удаляет, если все значения пропущены.
- **`thresh`**: требует минимальное количество ненулевых значений для сохранения строки или столбца.
- **`subset`**: список столбцов или строк для проверки на пропуски.
- **`inplace`**: если `True`, изменения будут применены к исходному DataFrame.





###10. Объединение и слияние

При работе с большими данными зачастую требуется объединить информацию из нескольких источников или таблиц. Pandas предоставляет мощные и гибкие инструменты для объединения и слияния различных DataFrame. Эти методы позволяют не только совмещать данные по строкам и столбцам, но и эффективно объединять таблицы по общим ключам, как это делается в реляционных базах данных.

Pandas поддерживает три основных метода для объединения DataFrame:
- `concat()`
- `merge()`
- `join()`

Каждый из этих методов имеет свои особенности и применяется в зависимости от структуры данных и целей объединения.


### 10.1. Конкатенация DataFrame с помощью `concat()`

Метод `concat()` используется для простого объединения двух или более DataFrame по строкам (по умолчанию) или по столбцам. Это полезно, когда необходимо сложить наборы данных друг на друга, как если бы добавляли новые записи в существующую таблицу или создавали таблицу с дополнительными признаками.

#### Параметры `concat()`
- **`objs`**: Список или словарь DataFrame, которые нужно объединить.
- **`axis`**: Определяет направление объединения. Значение `0` (по умолчанию) означает объединение по строкам, `1` — объединение по столбцам.
- **`ignore_index`**: Сбрасывает индексы после объединения (если `True`).
- **`join`**: Определяет тип объединения по столбцам: `'inner'` (пересечение) или `'outer'` (объединение всех).
- **`keys`**: Добавляет мультииндекс к результату для различения источников данных.

#### Пример: Объединение DataFrame по строкам

Предположим, у нас есть два DataFrame с одинаковыми столбцами, которые содержат данные о продажах в двух разных магазинах. Мы хотим объединить эти данные в один DataFrame.

```python
import pandas as pd

# Данные о продажах в магазине A
df1 = pd.DataFrame({
    'Product': ['Apple', 'Banana', 'Orange'],
    'Quantity': [10, 5, 8]
})

# Данные о продажах в магазине B
df2 = pd.DataFrame({
    'Product': ['Apple', 'Banana', 'Grapes'],
    'Quantity': [15, 7, 12]
})

# Объединение по строкам
result = pd.concat([df1, df2], ignore_index=True)
print(result)
```

**Объяснение:**
- Мы использовали метод `concat()` для объединения данных двух магазинов в один DataFrame. Параметр `ignore_index=True` сбрасывает индексы, чтобы новый DataFrame имел непрерывные индексы.

#### Пример: Объединение DataFrame по столбцам

Можно объединить данные не по строкам, а по столбцам. Например, у нас есть два DataFrame, один с продуктами и их количеством, другой — с ценами на те же продукты.

```python
# Данные о ценах на продукты
df3 = pd.DataFrame({
    'Price': [1.2, 0.8, 1.5]
}, index=['Apple', 'Banana', 'Orange'])

# Объединение по столбцам
result = pd.concat([df1.set_index('Product'), df3], axis=1)
print(result)
```

**Объяснение:**
- Мы объединили данные о количестве и цене продуктов по столбцам, при этом `axis=1` указывает, что объединение происходит по столбцам. Важно отметить, что для корректного объединения по индексам мы установили продукт как индекс.



### 10.2. Слияние DataFrame с помощью `merge()`

Метод `merge()` используется для более сложного объединения DataFrame, аналогичного объединению таблиц с помощью операций `JOIN` в реляционных базах данных. Этот метод позволяет объединять данные на основе значений в одном или нескольких общих столбцах, таких как `Primary Key` и `Foreign Key`.

#### Параметры `merge()`
- **`on`**: Указывает общий столбец, по которому будет выполняться объединение.
- **`left_on`** и **`right_on`**: Если имена ключевых столбцов различаются в DataFrame, можно указать, по каким столбцам сливать.
- **`how`**: Тип объединения (`'left'`, `'right'`, `'outer'`, `'inner'`).
  - `'inner'` (по умолчанию) — пересечение данных в обоих DataFrame.
  - `'outer'` — объединение всех данных.
  - `'left'` — все данные из левого DataFrame, и только совпадающие из правого.
  - `'right'` — все данные из правого DataFrame, и только совпадающие из левого.
- **`suffixes`**: Добавление суффиксов к одинаковым столбцам в результате объединения.

#### Пример: Объединение по общему ключу

Допустим, у нас есть два DataFrame: один содержит информацию о продуктах, а другой — информацию о поставщиках. Нам нужно объединить эти таблицы, используя столбец с идентификаторами продуктов.

```python
# Данные о продуктах
products = pd.DataFrame({
    'ProductID': [101, 102, 103],
    'Product': ['Apple', 'Banana', 'Orange']
})

# Данные о поставщиках
suppliers = pd.DataFrame({
    'ProductID': [101, 102, 104],
    'Supplier': ['Supplier A', 'Supplier B', 'Supplier C']
})

# Слияние по ProductID
merged_df = pd.merge(products, suppliers, on='ProductID', how='inner')
print(merged_df)
```

**Объяснение:**
- Мы объединили два DataFrame по общему столбцу `ProductID`. Так как метод объединения — это `'inner'`, результат будет содержать только те строки, у которых есть соответствие в обоих DataFrame.

#### Пример: Левое соединение (left join)

Теперь предположим, что мы хотим получить все продукты, даже если у некоторых нет поставщиков.

```python
# Левое соединение
left_merged_df = pd.merge(products, suppliers, on='ProductID', how='left')
print(left_merged_df)
```

**Объяснение:**
- Мы используем `how='left'`, чтобы получить все строки из левого DataFrame (`products`), даже если для некоторых продуктов нет соответствующих поставщиков. Строки с отсутствующими данными будут заполнены значениями NaN.



### 10.3. Объединение DataFrame с помощью `join()`

Метод `join()` — это упрощенный способ объединения DataFrame по индексам. Он похож на `merge()`, но используется для слияния по индексам, а не по столбцам. Это удобно, когда нужно объединить данные на основе индексов строк.

#### Пример: Объединение по индексу

Предположим, у нас есть два DataFrame с общими индексами, представляющими дни продаж, и нам нужно объединить их по этим индексам.

```python
# Данные о продажах в магазине A
sales_A = pd.DataFrame({
    'Sales_A': [200, 150, 100]
}, index=['2023-09-20', '2023-09-21', '2023-09-22'])

# Данные о продажах в магазине B
sales_B = pd.DataFrame({
    'Sales_B': [220, 140, 130]
}, index=['2023-09-20', '2023-09-21', '2023-09-22'])

# Объединение по индексу
joined_df = sales_A.join(sales_B)
print(joined_df)
```

**Объяснение:**
- Метод `join()` автоматически объединяет два DataFrame по индексу. В данном примере мы объединили данные о продажах в двух магазинах на основе индексов, которые представляют даты.

#### Пример: Левое соединение с join()

Вы можете использовать параметр `how` для указания типа соединения, подобно методу `merge()`.

```python
# Левое соединение с использованием join
left_joined_df = sales_A.join(sales_B, how='left')
print(left_joined_df)
```

**Объяснение:**
- В этом примере используются данные из левого DataFrame (sales_A), а данные из sales_B добавляются, если они существуют. Если данных в sales_B нет, значения будут NaN.


#Вопросы для самопроверки

##Структура данных **Series**

1. Что такое **Pandas Series**?
2. Как создать Series из списка, словаря и массива NumPy?
3. Чем отличается Series от списка в Python?
4. Как можно явно задать индексы в Series?
5. Как получить доступ к элементам Series по индексу (числовому и строковому)?
6. Что произойдет, если обратиться к несуществующему индексу в Series?
7. Как изменить индексы уже существующей Series?
8. Какие методы позволяют быстро получить первые и последние элементы Series?
9. Как узнать основные статистические характеристики Series?
10. Как подсчитать количество уникальных значений в Series?
11. В чем разница между методами `unique()` и `nunique()`?
12. Как удалить элемент из Series по его индексу?
13. Как отсортировать Series по значениям или индексам?
14. Что делает метод `apply()` и как его использовать?
15. Для чего используется метод `map()`?

##Структура данных **DataFrame**



1. Что такое DataFrame в Pandas и какова его основная структура?
   
2. Как создать DataFrame из словаря, где ключи — это названия столбцов, а значения — списки данных? Приведите пример.

3. Какие атрибуты DataFrame вы можете использовать для получения информации о его размере, названиях столбцов и типах данных?

4. Как вы можете отфильтровать строки DataFrame по одному условию? Приведите пример кода.

5. Что делает метод `.loc[]` и как он отличается от метода `.iloc[]`?

6. Как добавить новый столбец в существующий DataFrame и какие способы для этого существуют?

7. Как удалить строки с отсутствующими значениями в DataFrame?

8. Что такое метод `groupby()` и как его использовать для агрегации данных? Приведите пример.

9. Как вы можете объединить два DataFrame по общему столбцу? Какие типы соединений вы можете использовать?

10. Как использовать метод `pivot_table()` для создания сводной таблицы? Приведите пример использования.

11. Что делает метод `fillna()` и как его можно использовать для обработки пропущенных значений?

12. Как вы можете преобразовать строковые значения в одном из столбцов в верхний регистр?

13. Что такое временные ряды в Pandas и как с ними работать? Как можно агрегировать данные по месяцам?

14. Как найти корреляцию между числовыми столбцами в DataFrame и как ее визуализировать?

15. Как можно сохранить DataFrame в CSV файл и затем загрузить его обратно в новый DataFrame?


# Задачи для самостоятельной работы

##Структура данных **Series**

### 1. **Создание Series из списка**  
Создайте Series из списка чисел `[5, 10, 15, 20, 25]`. Выведите её на экран.

### 2. **Создание Series из словаря**  
Создайте Series из словаря, где ключи — это названия фруктов, а значения — их количество: `{'яблоки': 10, 'бананы': 5, 'груши': 7}`.

### 3. **Создание Series с явными индексами**  
Создайте Series из списка `[100, 200, 300]`, но с индексами `'Москва', 'Лондон', 'Париж'`. Выведите её на экран.

### 4. **Создание Series с одинаковыми значениями**  
Создайте Series, состоящую из числа `8`, с индексами от 0 до 4. Выведите на экран.

### 5. **Заполнение пропущенных значений**  
Создайте Series из списка `[1, None, 3, None, 5]`. Заполните пропущенные значения нулями.

### 6. **Преобразование типов данных**  
Создайте Series из списка `[1, 2, 3]`. Преобразуйте её тип данных в `float`.

### 7. **Доступ по индексу**  
Создайте Series с индексами `'а', 'b', 'c'`, состоящую из чисел `[10, 20, 30]`. Выведите значение с индексом `'b'`.

### 8. **Сортировка по значениям**  
Создайте Series из чисел `[50, 10, 20, 40, 30]`. Отсортируйте её по значениям и выведите результат.

### 9. **Сортировка по индексам**  
Создайте Series с индексами `'первый', 'второй', 'третий'`, состоящую из чисел `[100, 50, 150]`. Отсортируйте её по индексам.

### 10. **Извлечение данных с помощью логической индексации**  
Создайте Series с числами от 1 до 10. Извлеките и выведите все значения, которые больше 5.

### 11. **Применение функции ко всем элементам**  
Создайте Series из чисел `[1, 2, 3, 4]`. Примените к каждому элементу функцию, возводящую его в квадрат.

### 12. **Удаление элемента по индексу**  
Создайте Series с числами `[10, 20, 30, 40]`, используя индексы `'a', 'b', 'c', 'd'`. Удалите элемент с индексом `'b'`.

### 13. **Получение сводной статистики с помощью describe()**  
Создайте Series из чисел `[5, 15, 25, 35, 45]`. Используйте метод `describe()` для получения статистики.

### 14. **Подсчет уникальных значений**  
Создайте Series из списка `[1, 2, 2, 3, 3, 3, 4, 4, 4, 4]`. Подсчитайте количество уникальных значений с помощью метода `nunique()`.

### 15. **Использование метода value_counts()**  
Создайте Series с числами `[1, 2, 2, 3, 3, 3]`. Подсчитайте, сколько раз каждое число встречается в Series.

### 16. **Создание Series с временными метками**  
Создайте Series из пяти случайных чисел с временными метками (timestamps) в качестве индексов, используя `pd.date_range()`.

### 17. **Фильтрация данных по индексу**  
Создайте Series с индексами `['A', 'B', 'C', 'D']` и значениями `[10, 20, 30, 40]`. Извлеките только элементы с индексами `'B'` и `'C'`.

### 18. **Манипуляции с индексами**  
Создайте Series с индексами `[0, 1, 2, 3]` и значениями `[100, 200, 300, 400]`. Измените индексы на `'a', 'b', 'c', 'd'`.

### 19. **Использование метода head() и tail()**  
Создайте Series из чисел от 1 до 10. Выведите первые 3 элемента с помощью метода `head()`, а затем последние 2 с помощью метода `tail()`.

### 20. **Построение графика**  
Создайте Series с числами `[10, 20, 15, 30, 25]`. Постройте линейный график значений с помощью `plot()`.

### 21. **Суммирование значений**  
Создайте Series с числами `[100, 150, 200, 250]`. Вычислите и выведите их сумму.

### 22. **Среднее значение элементов**  
Создайте Series с числами `[3, 6, 9, 12, 15]`. Найдите и выведите среднее значение элементов.

### 23. **Заполнение NaN значениями**  
Создайте Series из списка `[1, None, 2, None, 3]`. Замените все `NaN` значением `0`.

### 24. **Удаление элементов с пропущенными значениями**  
Создайте Series с пропущенными значениями `[1, np.nan, 3, np.nan, 5]`. Удалите все элементы с `NaN`.

### 25. **Создание Series из строки**  
Создайте Series, где каждый элемент — это символ строки `"Pandas"`, используя метод `list()`.

### 26. **Группировка значений с помощью groupby()**  
Создайте Series с числами `[1, 2, 2, 3, 3, 3]`. Используйте `groupby()` для группировки данных и нахождения суммы в каждой группе.

### 27. **Преобразование категорий в Series**  
Создайте Series с элементами `'Мужчина', 'Женщина', 'Мужчина', 'Мужчина', 'Женщина'`. Преобразуйте её в категориальный тип данных.

### 28. **Присваивание нового значения элементам Series**  
Создайте Series из чисел `[10, 20, 30]` с индексами `'x', 'y', 'z'`. Измените значение элемента с индексом `'y'` на `50`.

### 29. **Использование метода map()**  
Создайте Series с числами `[1, 2, 3]`. Используйте метод `map()`, чтобы заменить 1 на `'один'`, 2 на `'два'`, и 3 на `'три'`.

### 30. **Применение условия к Series**  
Создайте Series с числами от 1 до 10. Замените все числа, которые меньше 5, на 0.


## Структура данных DataFrame в Pandas

### Задачи на создание DataFrame
1. Создайте DataFrame из словаря, содержащего информацию о студентах (имя, возраст, оценка).
2. Создайте DataFrame из списка списков, где каждая внутренняя структура представляет данные о продажах (продукт, количество, цена).
3. Создайте DataFrame из массива NumPy, содержащего данные о температуре в градусах Цельсия за неделю.

### Задачи на атрибуты DataFrame
4. Получите размер DataFrame (количество строк и столбцов) и выведите его.
5. Выведите названия всех столбцов DataFrame.
6. Выведите типы данных каждого столбца в DataFrame.

### Задачи на индексацию и выбор данных
7. Выберите один столбец из DataFrame и выведите его.
8. Выберите несколько столбцов из DataFrame и выведите их.
9. Используя метод `.loc[]`, выберите строку по метке индекса.
10. Используя метод `.iloc[]`, выберите строку по позиции.

### Задачи на фильтрацию данных
11. Отфильтруйте строки DataFrame, где значение в одном из столбцов больше определенного числа.
12. Отфильтруйте строки DataFrame, где значение в одном из столбцов равно определенной строке.
13. Используя метод `query()`, отфильтруйте строки по нескольким условиям.

### Задачи на добавление и удаление данных
14. Добавьте новый столбец в DataFrame, который будет содержать рассчитанное значение (например, общую стоимость).
15. Удалите столбец из DataFrame.
16. Удалите строки из DataFrame, где есть пропущенные значения.

### Задачи на изменение данных
17. Измените значения в одном из столбцов DataFrame на определенное значение.
18. Замените все дубликаты в DataFrame на уникальные значения.

### Задачи на сортировку данных
19. Отсортируйте DataFrame по значениям одного из столбцов.
20. Отсортируйте DataFrame по индексам строк.

### Задачи на преобразование данных
21. Преобразуйте тип данных одного из столбцов в другой (например, из int в float).
22. Заполните пропущенные значения в одном из столбцов средним значением.

### Задачи на работу с пропущенными данными
23. Найдите и выведите количество пропущенных значений в каждом столбце.
24. Удалите все строки с пропущенными значениями из DataFrame.

### Задачи на объединение и слияние
25. Объедините два DataFrame по строкам с помощью метода `concat()`.
26. Объедините два DataFrame по общему столбцу с помощью метода `merge()`.
27. Используя метод `join()`, объедините два DataFrame по индексам.

### Задачи на визуализацию данных
28. Постройте график на основе данных в одном из столбцов DataFrame (например, с использованием matplotlib или seaborn).
29. Создайте сводную таблицу на основе данных в DataFrame.

### Задача на экспорт и импорт данных
30. Сохраните DataFrame в CSV файл и затем загрузите его обратно в новый DataFrame.


##Задачи повышенной сложности.
### Задачи на создание и манипуляцию DataFrame
1. Создайте DataFrame из нескольких словарей, каждый из которых содержит данные о разных аспектах (например, имя, возраст, город, зарплата) и объедините их.
2. Создайте DataFrame с временными метками и значениями, представляющими временной ряд (например, температура по дням), используя `pd.date_range()`.

### Задачи на агрегацию и группировку данных
3. Используя метод `groupby()`, сгруппируйте данные по одному из столбцов и вычислите среднее значение для другой колонки.
4. Сгруппируйте данные по нескольким столбцам и получите общее количество записей в каждой группе.
5. Используя `agg()`, примените несколько агрегирующих функций к сгруппированным данным (например, среднее, максимум, минимум).

### Задачи на сложные фильтрации
6. Отфильтруйте строки, где значения в одном столбце находятся в определенном диапазоне (например, от 10 до 20).
7. Используя метод `isin()`, выберите строки, где значения в одном столбце соответствуют списку заданных значений.
8. Используя регулярные выражения, отфильтруйте строки, где значения в строковом столбце начинаются с определенной буквы.

### Задачи на объединение и слияние
9. Объедините три DataFrame по общему столбцу с использованием метода `merge()`, при этом используйте разные типы соединений (inner, outer).
10. Создайте две таблицы с разными индексами и объедините их, используя `join()`, и проанализируйте результат.

### Задачи на преобразование данных и работа с текстом
11. Используя метод `apply()`, создайте новый столбец, который будет содержать длину строк из другого столбца.
12. Извлеките подстроки из строкового столбца и создайте новый столбец с этими подстроками.
13. Преобразуйте значения в одном из столбцов в верхний регистр и сохраните результат в новом столбце.

### Задачи на работу с пропущенными данными
14. Заполните пропущенные значения в одном из столбцов с использованием метода `fillna()` на основе значений соседних строк (например, методом `ffill`).
15. Используя метод `interpolate()`, заполните пропущенные значения в временном ряду.

### Задачи на сложные операции с данными
16. Создайте сводную таблицу с несколькими индексами и агрегирующими функциями, используя метод `pivot_table()`.
17. Выполните операцию "разворота" (pivot) DataFrame, чтобы изменить его структуру, и проанализируйте результат.

### Задачи на визуализацию данных
18. Постройте график распределения значений в одном из числовых столбцов с помощью библиотеки matplotlib или seaborn.
19. Создайте график зависимости между двумя столбцами (например, scatter plot) и добавьте линию регрессии.

### Задачи на экспорт и импорт данных
20. Сохраните DataFrame в Excel файл, а затем загрузите его обратно в новый DataFrame.
21. Импортируйте данные из JSON файла в DataFrame и выполните базовую агрегацию.

### Задачи на обработку временных рядов
22. Преобразуйте столбец с временными метками в формат datetime и извлеките год, месяц и день в отдельные столбцы.
23. Используя метод `resample()`, агрегируйте временные данные по месяцам и вычислите среднее значение.

### Задачи на многомерные данные
24. Создайте многоуровневый индекс в DataFrame и выполните выборку данных по нескольким уровням индекса.
25. Используя метод `stack()` и `unstack()`, измените структуру DataFrame и проанализируйте изменения.

### Задачи на сложные манипуляции с данными
26. Создайте новый DataFrame, который будет содержать только уникальные строки из исходного DataFrame, но с учетом нескольких столбцов.
27. Реализуйте функцию, которая будет принимать DataFrame и возвращать новый DataFrame с удаленными дубликатами по нескольким столбцам.

### Задачи на анализ данных
28. Проведите анализ данных, используя метод `describe()`, и интерпретируйте результаты.
29. Найдите корреляцию между несколькими числовыми столбцами и визуализируйте ее с помощью тепловой карты.

### Задача на создание пользовательских функций
30. Напишите пользовательскую функцию, которая будет принимать DataFrame и выполнять несколько операций (например, фильтрацию, агрегацию и сортировку), и примените ее к DataFrame.






