<a href="https://colab.research.google.com/github/sonicfsw/Check_ULP-R-_722-1/blob/main/2_2_%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0_Pandas_%D0%B4%D0%BB%D1%8F__%D0%9F%D0%9E_%D0%B4%D0%BB%D1%8F_%D1%80%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%9D%D0%A1_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Почему Pandas

- универсальное решение для табличных данных и текста
- на одной машине (в отличие от PySpark, который работает на кластере)
- профессиональный стандарт в задачах, где нет Big Data или нужен именно Spark

Для подключения и использования библиотеки, её необходимо подключить следующей командой:


In [None]:
import pandas as pd

# Основные команды при работе с Pandas

## DataFrame и Series, что такое index

- DataFrame — это двумерная таблица данных с индексами и столбцами. Он напоминает таблицу в SQL или Excel.
- Series — это одномерный массив данных, который представляет собой колонку DataFrame.

Создать DataFrame можно из других структур Python: например, словаря. Series - логично, из списка.

In [None]:
# Создание Series
data_in_series = pd.Series([1, 2, 3, 4], index=[0, 1, 2, 3])

# Создадим DataFrame
# сначала словарь
data = {'Department': ['HR', 'Finance', 'HR', 'IT', 'Finance'],
        'Salary': [40000, 50000, 45000, 60000, 70000],
        'Age': [25, 45, 35, 40, 50]}

# передадим словарь в DataFrame
df = pd.DataFrame(data)


In [None]:
df

Unnamed: 0,Department,Salary,Age
0,HR,40000,25
1,Finance,50000,45
2,HR,45000,35
3,IT,60000,40
4,Finance,70000,50


Индекс (Index) — это уникальный идентификатор строк. По умолчанию pandas создает числовой индекс, начиная с 0, но его можно задать вручную или использовать одну из колонок как индекс.

In [None]:
# Задание столбца 'Department' в качестве индекса
df_new = df.set_index('Department')

In [None]:
df_new

Unnamed: 0_level_0,Salary,Age
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
HR,40000,25
Finance,50000,45
HR,45000,35
IT,60000,40
Finance,70000,50


## Информация о датасете

Для того чтобы понять структуру и содержание DataFrame, можно использовать следующие команды:

* Просмотр первых и последних строк:

In [None]:
# Первые 5 строк
df.head()

# Последние 5 строк, отобразится только последняя строка
df.tail()


Unnamed: 0,Department,Salary,Age
0,HR,40000,25
1,Finance,50000,45
2,HR,45000,35
3,IT,60000,40
4,Finance,70000,50


In [None]:
# Информация о типах данных, количестве не-null значений и памяти
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Department  5 non-null      object
 1   Salary      5 non-null      int64 
 2   Age         5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [None]:
# Статистическая информация (среднее, медиана и т.д.)
df.describe()

Unnamed: 0,Salary,Age
count,5.0,5.0
mean,53000.0,39.0
std,12041.594579,9.617692
min,40000.0,25.0
25%,45000.0,35.0
50%,50000.0,40.0
75%,60000.0,45.0
max,70000.0,50.0


In [None]:
# Названия колонок
list(df.columns)

['Department', 'Salary', 'Age']

In [None]:
# Индексы строк
list(df.index)

[0, 1, 2, 3, 4]

In [None]:
# Как часто каждое уникальное значение встречается в столбце
df.value_counts('Department')

Unnamed: 0_level_0,count
Department,Unnamed: 1_level_1
Finance,2
HR,2
IT,1


## Работа с отдельными колонками и несколькими колонками, удаление колонок

Получить доступ к колонке можно дву способами:
* аналогично словарю, указать в квадратных скобках
* через точку (только для названий на латинице и без пробелов/тире/слэшей)

In [None]:
# Доступ к колонке '<название_колонки>'
df['Department']

# Эквивалентная запись:
df.Department


Unnamed: 0,Department
0,HR
1,Finance
2,HR
3,IT
4,Finance


In [None]:
# Доступ к двум колонкам
df[['Age', 'Salary']]


Unnamed: 0,Age,Salary
0,25,40000
1,45,50000
2,35,45000
3,40,60000
4,50,70000


In [None]:
# Создание новой колонки на основе другой колонки
df['Bonus'] = df['Salary'] / 12

axis=1 - это ось столбцов, axis=0 - ось строк. inplace = True выполняет операцию над самим датафрейом, результат другой переменной присваивать не надо.

In [None]:
# Удаление колонки
df.drop('Bonus', axis=1, inplace=True)

# Пол умолчанию inplace = False, возвращаемый результат - копия датасета
# df = df.drop('Bonus', axis=1)


In [None]:
# Удаление строки с индексом 0
df.drop(0, axis=0)


Unnamed: 0,Department,Salary,Age
1,Finance,50000,45
2,HR,45000,35
3,IT,60000,40
4,Finance,70000,50


# Фильтрация и сортировка

In [None]:
# Выбор строк, где значения в колонке 'Column1' больше 50000
filtered_df = df[df['Salary'] > 50000]
filtered_df.head()

Unnamed: 0,Department,Salary,Age
3,IT,60000,40
4,Finance,70000,50


In [None]:
# Сортировка по колонке 'Salary' в порядке возрастания
sorted_df = df.sort_values('Salary')

# Сортировка по убыванию:
sorted_df = df.sort_values('Salary', ascending=False)


Фильтрация по сложным условиям в pandas делается с помощью логических операторов, таких как & (и), | (или), и ~ (не). Важно обернуть каждое отдельное условие в круглые скобки для корректной работы.

In [None]:
# Условия через логическое И - остаются записи, где возраст > 30 и зп > 50_000
filtered_df = df[(df['Age'] > 30) & (df['Salary'] > 50000)]
filtered_df

Unnamed: 0,Department,Salary,Age
3,IT,60000,40
4,Finance,70000,50


In [None]:
# Логическое отрицание - записи с возрастом меньше 30
filtered_df = df[~(df['Age'] > 30)]
filtered_df

Unnamed: 0,Department,Salary,Age
0,HR,40000,25


Если мы хотим выбрать строки, где значение в колонке Department равно одному из значений в списке ['IT', 'Finance']:

In [None]:
# Фильтрация по значениям в списке:
filtered_df = df[df['Department'].isin(['IT', 'Finance'])]
filtered_df

Unnamed: 0,Department,Salary,Age
1,Finance,50000,45
3,IT,60000,40
4,Finance,70000,50


## Работа с записями: loc и iloc

loc и iloc в pandas — это два метода, используемые для доступа к строкам и столбцам DataFrame.

> **loc** используется для доступа к данным по меткам индексов и названиям колонок. Это означает, что вы можете использовать имена строк и колонок для выборки данных.

In [None]:
# Выбор строки с индексом 1
row = df.loc[1]

In [None]:
row

Unnamed: 0,1
Department,Finance
Salary,50000
Age,45


Несколько строк по индексам:

In [None]:
# Выбор строк с индексами 1 и 2
rows = df.loc[[1, 2]]

In [None]:
rows

Unnamed: 0,Department,Salary,Age
1,Finance,50000,45
2,HR,45000,35


In [None]:
# Выбор строки с индексом 1 и колонки
value = df.loc[1, 'Salary']
value

50000

In [None]:
# Выбор строки с индексом 1 и нескольких колонок
value = df.loc[1, ['Salary', 'Age']]
value

Unnamed: 0,1
Salary,50000
Age,45


In [None]:
# Выбор всех строк, где значения в колонке больше 25
filtered_rows = df.loc[df['Age'] > 25]
filtered_rows

Unnamed: 0,Department,Salary,Age
1,Finance,50000,45
2,HR,45000,35
3,IT,60000,40
4,Finance,70000,50


> **iloc** используется для доступа к данным по числовым индексам. Это означает, что вы обращаетесь к строкам и столбцам по их позициям (то есть по их порядковым номерам).

In [None]:
# Выбор первой строки
row = df.iloc[0]
row

Unnamed: 0,0
Department,HR
Salary,40000
Age,25


In [None]:
# Выбор первого элемента (первой строки и первого столбца)
value = df.iloc[0, 0]
value

'HR'

Использование срезов (slices) для получения фрагмента датасета по выбранным строкам и колонкам:

In [None]:
# Выбор строк с 0 по 2 и колонок с 0 по 1
subset = df.iloc[0:3, 0:2]
subset

Unnamed: 0,Department,Salary
0,HR,40000
1,Finance,50000
2,HR,45000


* loc использует метки индексов (имена строк и колонок).
* iloc использует числовые индексы (позиции строк и колонок).

Методы .loc[], .iloc[] также применимы к структуре Series.

## Группировка, агрегация

Группировка и агрегация данных в pandas позволяют обобщать информацию, используя различные математические операции, такие как сумма, среднее значение, количество, минимумы и максимумы. Эти операции удобны для анализа больших наборов данных.

**1. Группировка данных: метод groupby**

groupby используется для группировки данных по одной или нескольким колонкам. После группировки можно применять различные агрегатные функции к этим группам.

In [None]:
import pandas as pd

# Группировка по колонке 'Department'
grouped = df.groupby('Department')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7c2b3d3cc0d0>

На этом этапе никаких изменений в данных не происходит, но DataFrame теперь структурирован по группам, и к этим группам можно применять агрегационные функции.

Группировать можно и по нескольким столбцам:

In [None]:
# Группировка по нескольким колонкам: 'Department' и 'Age'
grouped = df.groupby(['Department', 'Age'])
print(grouped)


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7c2b3d3cc160>


**2. Агрегация данных**

После группировки можно применить различные агрегатные функции, такие как:

* mean() — среднее значение
* sum() — сумма
* count() — количество элементов
* min() и max() — минимальное и максимальное значения

In [None]:
# Средняя зарплата по каждому департаменту
mean_salary = df.groupby('Department')['Salary'].mean()
mean_salary

Unnamed: 0_level_0,Salary
Department,Unnamed: 1_level_1
Finance,60000.0
HR,42500.0
IT,60000.0


**3. Функция agg()**

agg() позволяет выполнять множественные агрегации для одного или нескольких столбцов, а также применять разные функции к разным столбцам.

In [None]:
# Применение различных функций к столбцам 'Salary' и 'Age'
aggregated = df.groupby('Department').agg({
    'Salary': 'mean',  # Средняя зарплата
    'Age': 'max'       # Максимальный возраст
})
aggregated

Unnamed: 0_level_0,Salary,Age
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
Finance,60000.0,50
HR,42500.0,35
IT,60000.0,40


## apply() и лямбда-функции

Метод apply() позволяет применять функции к колонкам или строкам DataFrame или Series. Он особенно полезен, когда стандартные функции вроде sum(), mean() и других агрегационных операций не удовлетворяют специфическим требованиям. Часто используется совместно с лямбда-функциями.

> lambda — это способ объявления кратких анонимных функций в Python. Они могут принимать любое количество аргументов, но могут состоять только из одного выражения.

Синтаксис:
> lambda аргументы: выражение

Пример:

```code
multiply_by_two = lambda x: x * 2

print(multiply_by_two(5))  # Выведет 10
```



Часто lambda используется внутри apply(), чтобы не создавать отдельную функцию. Например, если нужно применить сложную логику агрегации:

In [None]:
# Применение кастомной функции для вычисления разницы между максимальной и минимальной зарплатой в каждой группе
salary_range = df.groupby('Department')['Salary'].apply(lambda x: x.max() - x.min())
salary_range


Unnamed: 0_level_0,Salary
Department,Unnamed: 1_level_1
Finance,20000
HR,5000
IT,0


Если логика преобразования сложнее, чем может быть выражена одной строкой, можно использовать обычные функции:

In [None]:
# Определим более сложную функцию
def adjust_salary(salary):
    if salary > 5000:
        return salary * 1.2
    else:
        return salary * 1.1

# Применим эту функцию к колонке 'Salary'
df['Adjusted_Salary'] = df['Salary'].apply(adjust_salary)
df


Unnamed: 0,Department,Salary,Age,Adjusted_Salary
0,HR,40000,25,48000.0
1,Finance,50000,45,60000.0
2,HR,45000,35,54000.0
3,IT,60000,40,72000.0
4,Finance,70000,50,84000.0


А можно комбинировать все функции выше - наложить условие: выбрать только те департаменты, где средняя зарплата больше 50000:

In [None]:
# Фильтрация групп с условием
filtered = df.groupby('Department').filter(lambda x: x['Salary'].mean() > 50000)
filtered


Unnamed: 0,Department,Salary,Age
1,Finance,50000,45
3,IT,60000,40
4,Finance,70000,50


## Конкатенация датафреймов

Конкатенация DataFrame-ов в pandas — это процесс объединения нескольких таблиц (DataFrame-ов) по строкам или столбцам. pandas предоставляет различные способы для выполнения этой операции, но самый базовый — concat().

> concat() используется для объединения DataFrame-ов вдоль определенной оси (axis). Это мощный инструмент, позволяющий выполнять различные операции объединения.

Синтаксис:

```code
pd.concat([object1, object2, ...], axis=0, join='outer')

```

* object1, object2, ... — список DataFrame-ов для конкатенации.
* axis — ось для конкатенации: axis=0 (по строкам), axis=1 (по столбцам).
* join — тип объединения: inner или outer (по умолчанию outer).

In [None]:
# Создадим дополнительный DataFrame
# сначала словарь
data = {'Department': ['ML', 'School', 'DevOPS', 'ML', 'Finance'],
        'Salary': [80_000, 60_000, 70_000, 75_000, 35_000],
        'Age': [36, 21, 42, 28, 47]}

# передадим словарь в DataFrame
df_new_rows = pd.DataFrame(data)

In [None]:
# Создадим дополнительный DataFrame
# сначала словарь
data = {'Gender': ['Male', 'Female', 'Female', 'Male', 'Male'],
        'Remote Worker': [True, False, False, True, True]}

# передадим словарь в DataFrame
df_new_cols = pd.DataFrame(data)

Добавляем новые строки:

In [None]:
refresh_df = pd.concat([df, df_new_rows], axis=0)
refresh_df

Unnamed: 0,Department,Salary,Age,Adjusted_Salary
0,HR,40000,25,48000.0
1,Finance,50000,45,60000.0
2,HR,45000,35,54000.0
3,IT,60000,40,72000.0
4,Finance,70000,50,84000.0
0,ML,80000,36,
1,School,60000,21,
2,DevOPS,70000,42,
3,ML,75000,28,
4,Finance,35000,47,


Добавляем новые столбцы:

In [None]:
refresh_df = pd.concat([df, df_new_cols], axis=1)
refresh_df

Unnamed: 0,Department,Salary,Age,Adjusted_Salary,Gender,Remote Worker
0,HR,40000,25,48000.0,Male,True
1,Finance,50000,45,60000.0,Female,False
2,HR,45000,35,54000.0,Female,False
3,IT,60000,40,72000.0,Male,True
4,Finance,70000,50,84000.0,Male,True


## merge()

merge() в pandas используется для объединения (слияния) двух DataFrame или DataFrame и Series по одному или нескольким ключевым столбцам или индексам. Она работает по принципу объединения таблиц (join) в SQL.

Аргумент «on» — столбец или список столбцов, по которым будет выполнено объединение. Если не указано, pandas попытается найти общие столбцы в обоих DataFrame.

Аргумент «how» — определяет тип объединения (join). По умолчанию значение «inner», значение «left» — возвращает все строки из левого DataFrame, а из правого добавляет только те строки, у которых есть соответствие.

In [None]:
# Группировка данных по 'Department' и вычисление средней зарплаты
avg_salary_df = df.groupby('Department')['Salary'].mean().reset_index()

# Переименуем столбец для ясности
avg_salary_df.columns = ['Department', 'Avg_Salary']

# Выполним merge по столбцу 'Department'
merged_df = pd.merge(df, avg_salary_df, on='Department', how='left')

merged_df

Unnamed: 0,Department,Salary,Age,Avg_Salary
0,HR,40000,25,42500.0
1,Finance,50000,45,60000.0
2,HR,45000,35,42500.0
3,IT,60000,40,60000.0
4,Finance,70000,50,60000.0


## Переименование колонок

В pandas для переименования колонок в DataFrame используется метод rename(). Этот метод позволяет переименовывать как отдельные колонки, так и индексы строк. Также можно изменять имена всех колонок напрямую через атрибут columns.

> Метод rename() позволяет переименовать одну или несколько колонок, передав словарь с текущими и новыми названиями.

In [None]:
# Переименуем колонку 'Remote Worker' на 'Remote'
df_renamed = refresh_df.rename(columns={'Remote Worker': 'Remote'})
df_renamed

Unnamed: 0,Department,Salary,Age,Adjusted_Salary,Gender,Remote
0,HR,40000,25,48000.0,Male,True
1,Finance,50000,45,60000.0,Female,False
2,HR,45000,35,54000.0,Female,False
3,IT,60000,40,72000.0,Male,True
4,Finance,70000,50,84000.0,Male,True


> Если вы хотите переименовать все колонки сразу, можно просто назначить новый список имен через атрибут columns.

In [None]:
# Переименуем все колонки
df.columns = ['Branch', 'Wages', 'Years Old', 'Adjusted Wages']
df

Unnamed: 0,Branch,Wages,Years Old,Adjusted Wages
0,HR,40000,25,48000.0
1,Finance,50000,45,60000.0
2,HR,45000,35,54000.0
3,IT,60000,40,72000.0
4,Finance,70000,50,84000.0


## Сохранение датасета

Сохранить датасет можно с помощью его выгрузки в файл определенного формата. Часто используется csv, но также можно увидеть parquet, Excel-файл и другие.

In [None]:
df.to_csv('Office Workers.csv')

Если работаете в Google Colab, то соответствующий файл можно найти слева в разделе "Файлы".

# Работа с датами

In [None]:
import pandas as pd

**Преобразование строк в даты**

Чтобы преобразовать строки в формат даты, используйте функцию pd.to_datetime():

In [None]:
date_series = pd.to_datetime(['2024-01-01', '2024-02-01', '2024-03-01'])

**Извлечение компонентов даты**

Вы можете легко извлекать компоненты даты, такие как год, месяц, день и т. д.:

In [None]:
dates = pd.Series(pd.to_datetime(['2024-01-01', '2024-02-01']))
years = dates.dt.year
months = dates.dt.month
days = dates.dt.day

**Фильтрация по дате**

Для фильтрации данных по дате используйте логическое индексирование:

In [None]:
df = pd.DataFrame({'date': pd.date_range(start='2024-01-01', periods=10), 'value': range(10)})
filtered_df = df[df['date'] > '2024-01-05']


In [None]:
df.dtypes

Unnamed: 0,0
date,datetime64[ns]
value,int64


**Операции с датами**

Можно выполнять арифметические операции с датами, например, добавлять или вычитать дни:

In [None]:
# Получение текущей даты
current_date = pd.Timestamp.now()

In [None]:
current_date

Timestamp('2024-10-10 10:29:35.136145')

In [None]:
# Вычисление разницы в годах между текущей датой и в датафрейме
df['years_diff'] = (current_date - df['date']).dt.days // 365

In [None]:
# Двигаем дату на 5 дней вперед
df['new_date'] = df['date'] + pd.Timedelta(days=5)