### Pandas

In [1]:
# загрузка библиотек
import pandas as pd
import numpy as np

In [2]:
# генерация данных

# установка воспроизводимости
np.random.seed(0)
num = 100

employee_id = np.arange(1, num+1)
ages = np.random.randint(22, 60, size = num)
salary = np.random.randint(60, 120, size = num)
department = np.random.choice(['HR', 'IT', 'Marketing', 'Sales', 'Finance'], size = num)


# собираем в датафрейм

df = pd.DataFrame({
    'EmployeeID': employee_id,
    'Age': ages,
    'Salary': salary,
    'Department': department
    })

# посмотрим да данные
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
2,3,25,78,Finance
3,4,31,106,HR
4,5,41,95,HR


#### Подсчет

In [3]:
# посчитать сколько в каждом отделе сотрудников
df['Department'].value_counts()

Sales        25
IT           23
Marketing    18
Finance      17
HR           17
Name: Department, dtype: int64

In [4]:
# тоже только с помощью групировки
df.groupby('Department').size()

Department
Finance      17
HR           17
IT           23
Marketing    18
Sales        25
dtype: int64

In [5]:
# describe: Вычисляет основные статистики по числовым данным
df.describe()

Unnamed: 0,EmployeeID,Age,Salary
count,100.0,100.0,100.0
mean,50.5,39.3,89.82
std,29.011492,11.914256,17.812367
min,1.0,22.0,60.0
25%,25.75,28.0,74.75
50%,50.5,38.5,90.0
75%,75.25,50.25,105.0
max,100.0,59.0,119.0


#### Фильтрация

In [6]:
# выбрать только сотрудников департамента айти

only_IT = df[df['Department'] == 'IT']
only_IT.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
23,24,27,114,IT
28,29,46,102,IT
29,30,51,111,IT


In [7]:
# отобрать сразу из двух отделов

IT_and_HR = df[df['Department'].isin(['HR', 'IT'])]

IT_and_HR.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
3,4,31,106,HR
4,5,41,95,HR
12,13,23,61,HR


In [8]:
# отобрать моложе 30 имеющих зп больше 100

young_and_rich = df[(df['Age']<30)&(df['Salary']>100)]

young_and_rich.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
23,24,27,114,IT
50,51,26,112,HR
52,53,23,104,IT
64,65,26,116,Finance


In [9]:
# сколько их?
young_and_rich.shape[0]

8

In [10]:
# фильтрация с помощью query
# названия колонок не в ковычках

old_HR = df.query("Department == 'HR' and Age > 50")

old_HR.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
43,44,56,68,HR
51,52,53,63,HR
54,55,57,92,HR
97,98,56,98,HR


In [11]:
# отберем по строкам, сначала установим айди как индекс
df.set_index('EmployeeID', inplace = True)

df.head()

Unnamed: 0_level_0,Age,Salary,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,22,119,IT
2,25,63,IT
3,25,78,Finance
4,31,106,HR
5,41,95,HR


In [12]:
# отберем пять сотрудников по индексу
my_employee = df.loc[5:10]
my_employee

Unnamed: 0_level_0,Age,Salary,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,41,95,HR
6,43,80,Sales
7,58,77,Marketing
8,45,110,Sales
9,28,87,Marketing
10,46,74,Finance


In [13]:
# фильтрация промежутка
age_range = df[df['Age'].between(25, 40)]
age_range.head()

Unnamed: 0_level_0,Age,Salary,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,25,63,IT
3,25,78,Finance
4,31,106,HR
9,28,87,Marketing
12,34,118,Sales


In [14]:
# Фильтрация сотрудников с четным возрастом
even_age_filter = df[df['Age'].apply(lambda x: x % 2 == 0)]
even_age_filter.head()

Unnamed: 0_level_0,Age,Salary,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,22,119,IT
7,58,77,Marketing
9,28,87,Marketing
10,46,74,Finance
11,46,101,Sales


#### Присоединение

Метод **concat** используется для объединения DataFrame вдоль оси

DataFrame.merge(
right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)

In [15]:
# создадим новый датафрейм чтобы потом присоединить

df1 = pd.DataFrame({
    'EmployeeID': [102, 103, 104],
    'Age': [44, 55, 45],
    'Salary': [78, 84, 99],
    'Department': ['IT', 'IT', 'Marketing']
    })

# сделаем айди индексами
df1.set_index('EmployeeID', inplace = True)
df1

Unnamed: 0_level_0,Age,Salary,Department
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
102,44,78,IT
103,55,84,IT
104,45,99,Marketing


In [16]:
# проверим размер до объединения
df.shape[0]

100

In [17]:
# добавляем строки и проверяем размер
concat = pd.concat([df, df1])
concat.shape[0]

103

Метод **merge** используется для объединения DataFrame по ключевым колонкам, аналогично SQL JOIN.

In [18]:
# создаем новые столбцы

df2 = pd.DataFrame({
    'EmployeeID':  np.arange(1, num+1),
    'Experience': np.random.randint(1, 11, size = num)
    })

df2.head()

Unnamed: 0,EmployeeID,Experience
0,1,9
1,2,5
2,3,4
3,4,4
4,5,9


In [19]:
# объединение c указанием колонки!
merged_df = pd.merge(df, df2, how = 'left', on = 'EmployeeID')
merged_df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department,Experience
0,1,22,119,IT,9
1,2,25,63,IT,5
2,3,25,78,Finance,4
3,4,31,106,HR,4
4,5,41,95,HR,9


Метод **join** используется для объединения DataFrame по индексам.

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False, validate=None)

In [20]:
df2.set_index('EmployeeID', inplace = True)

df2.head()

Unnamed: 0_level_0,Experience
EmployeeID,Unnamed: 1_level_1
1,9
2,5
3,4
4,4
5,9


In [21]:
# объединение по дефолту по индексам!

joined_df = df.join(df2, how = 'left')

joined_df.head()

Unnamed: 0_level_0,Age,Salary,Department,Experience
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,22,119,IT,9
2,25,63,IT,5
3,25,78,Finance,4
4,31,106,HR,4
5,41,95,HR,9


In [22]:
# создаем новые столбцы

df_country = pd.DataFrame({
    'EmployeeID':  np.arange(1, num+1),
    'Country': np.random.choice(['UK', 'Emirates', 'Italy', 'Denmark', 'Lalalend'],size = num )
    })

df_country.head()

Unnamed: 0,EmployeeID,Country
0,1,Emirates
1,2,Emirates
2,3,Emirates
3,4,UK
4,5,Denmark


In [23]:
df_country.set_index('EmployeeID', inplace = True)

df_country.head()

Unnamed: 0_level_0,Country
EmployeeID,Unnamed: 1_level_1
1,Emirates
2,Emirates
3,Emirates
4,UK
5,Denmark


In [24]:
new_df = joined_df.join(df_country, how = 'left')

new_df.head()

Unnamed: 0_level_0,Age,Salary,Department,Experience,Country
EmployeeID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,22,119,IT,9,Emirates
2,25,63,IT,5,Emirates
3,25,78,Finance,4,Emirates
4,31,106,HR,4,UK
5,41,95,HR,9,Denmark


#### Изменение формы данных

Метод **pivot** используется для преобразования данных из длинного формата в широкий с использованием агрегирующей функции

DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=_NoDefault.no_default, sort=True)

In [25]:
# какая средняя зп в отделе?

df_pivot_table = df.pivot_table(index='Department', values='Salary', aggfunc='mean')
df_pivot_table

Unnamed: 0_level_0,Salary
Department,Unnamed: 1_level_1
Finance,88.882353
HR,84.823529
IT,91.304348
Marketing,93.666667
Sales,89.72


In [26]:
# какая максимальная зарплата для сотрудников из разных стран?

df_pivot_young_salary = new_df.pivot_table(index = 'Country', values = 'Salary', aggfunc='max')
df_pivot_young_salary

Unnamed: 0_level_0,Salary
Country,Unnamed: 1_level_1
Denmark,119
Emirates,119
Italy,119
Lalalend,117
UK,116


Метод **melt** в Pandas применяется для преобразования данных из широкого формата в длинный

pandas.DataFrame.melt
DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)[source]


In [28]:
# Создаем DataFrame
product_data = {
    'Product': ['Product A', 'Product B', 'Product C'],
    'North': [120, 200, 150],
    'South': [85, 70, 95],
    'East': [60, 90, 80],
    'West': [105, 150, 130]
}

product_df = pd.DataFrame(product_data)
product_df.head()

Unnamed: 0,Product,North,South,East,West
0,Product A,120,85,60,105
1,Product B,200,70,90,150
2,Product C,150,95,80,130


Чтобы преобразовать этот DataFrame в длинный формат, где у нас будет одна колонка для региона и одна колонка для значений продаж, чтобы упростить анализ данных по регионам.

In [29]:
melted_product_df = pd.melt(product_df, id_vars=['Product'], var_name='Region', value_name='Sales')
melted_product_df

Unnamed: 0,Product,Region,Sales
0,Product A,North,120
1,Product B,North,200
2,Product C,North,150
3,Product A,South,85
4,Product B,South,70
5,Product C,South,95
6,Product A,East,60
7,Product B,East,90
8,Product C,East,80
9,Product A,West,105
