### Pandas

In [1]:
# загрузка библиотек
import pandas as pd
import numpy as np

In [2]:
# генерация данных

# установка воспроизводимости
np.random.seed(0)
num = 100

employee_id = np.arange(1, num+1)
ages = np.random.randint(22, 60, size = num)
salary = np.random.randint(60, 120, size = num)
department = np.random.choice(['HR', 'IT', 'Marketing', 'Sales', 'Finance'], size = num)


# собираем в датафрейм

df = pd.DataFrame({
    'EmployeeID': employee_id,
    'Age': ages,
    'Salary': salary,
    'Department': department
    })

# посмотрим да данные
df.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
2,3,25,78,Finance
3,4,31,106,HR
4,5,41,95,HR


#### Сортировка и измененеи порядка

In [3]:
# сортировка по столбцу
# sort_values('col', ascending = True)

df_filtered = df.sort_values(['Age','Salary'], ascending = [True, False])
df_filtered.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
80,81,22,119,Finance
93,94,22,100,IT
25,26,22,98,Finance
45,46,22,91,HR


In [4]:
# Отбор некоторых столбцов из даиафрейма
# df[['col1','col2']]


df_only_ages_and_salary = df[['Age','Salary']]
df_only_ages_and_salary.head()

Unnamed: 0,Age,Salary
0,22,119
1,25,63
2,25,78
3,31,106
4,41,95


#### Подсчет

In [5]:
# посчитать сколько в каждом отделе сотрудников
df['Department'].value_counts()

Sales        25
IT           23
Marketing    18
Finance      17
HR           17
Name: Department, dtype: int64

In [6]:
# тоже только с помощью групировки
df.groupby('Department').size()

Department
Finance      17
HR           17
IT           23
Marketing    18
Sales        25
dtype: int64

In [7]:
# describe: Вычисляет основные статистики по числовым данным
df.describe()

Unnamed: 0,EmployeeID,Age,Salary
count,100.0,100.0,100.0
mean,50.5,39.3,89.82
std,29.011492,11.914256,17.812367
min,1.0,22.0,60.0
25%,25.75,28.0,74.75
50%,50.5,38.5,90.0
75%,75.25,50.25,105.0
max,100.0,59.0,119.0


Функция агрегации 

DataFrame.agg(func=None, axis=0, *args, kwargs)

In [10]:
# применение функции агрецаии для подсчета среднего и макс в двух колонках
# df[[columns]].agg([functions])


df[['Age','Salary']].agg([np.mean, max])

Unnamed: 0,Age,Salary
mean,39.3,89.82
max,59.0,119.0


Функция удаления дубликатов

DataFrame.drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)

In [11]:
# удаление дубликатов комбинации двух колонок, а не каждой отдельно
without_duplicates = df.drop_duplicates(subset = ['Age','Salary'])
without_duplicates.head()

Unnamed: 0,EmployeeID,Age,Salary,Department
0,1,22,119,IT
1,2,25,63,IT
2,3,25,78,Finance
3,4,31,106,HR
4,5,41,95,HR
...,...,...,...,...
95,96,45,75,Marketing
96,97,24,71,HR
97,98,56,98,HR
98,99,57,107,Marketing


#### Фильтрация

In [None]:
# выбрать только сотрудников департамента айти

only_IT = df[df['Department'] == 'IT']
only_IT.head()

In [None]:
# отобрать сразу из двух отделов

IT_and_HR = df[df['Department'].isin(['HR', 'IT'])]

IT_and_HR.head()

In [None]:
# отобрать моложе 30 имеющих зп больше 100
# df[(уловие)&(условие)]

young_and_rich = df[(df['Age']<30)&(df['Salary']>100)]

young_and_rich.head()

In [None]:
# сколько их?
young_and_rich.shape[0]

In [None]:
# фильтрация с помощью query
# названия колонок не в ковычках

old_HR = df.query("Department == 'HR' and Age > 50")

old_HR.head()

In [None]:
# фильрация через лист

selected_dep = ['IT','HR']
filterd_df = df[df['Department'].isin(selected_dep)]
filterd_df.head()

In [None]:
# отберем по строкам, сначала установим айди как индекс
df.set_index('EmployeeID', inplace = True)

df.head()

In [None]:
# отберем пять сотрудников по индексу горизонтально!

my_employee = df.loc[5:10]
my_employee

In [None]:
# фильтрация промежутка
age_range = df[df['Age'].between(25, 40)]
age_range.head()

In [None]:
# Фильтрация сотрудников с четным возрастом
even_age_filter = df[df['Age'].apply(lambda x: x % 2 == 0)]
even_age_filter.head()

#### Присоединение

Метод **concat** используется для объединения DataFrame вдоль оси

DataFrame.merge(
right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)

In [None]:
# создадим новый датафрейм чтобы потом присоединить по горизонтали

df1 = pd.DataFrame({
    'EmployeeID': [102, 103, 104],
    'Age': [44, 55, 45],
    'Salary': [78, 84, 99],
    'Department': ['IT', 'IT', 'Marketing']
    })

# сделаем айди индексами
df1.set_index('EmployeeID', inplace = True)
df1

In [None]:
# проверим размер до объединения
df.shape[0]

In [None]:
# добавляем строки и проверяем размер
concat = pd.concat([df, df1])
concat.shape[0]

Метод **merge** используется для объединения DataFrame по ключевым колонкам, аналогично SQL JOIN.

In [None]:
# создаем новые столбцы

df2 = pd.DataFrame({
    'EmployeeID':  np.arange(1, num+1),
    'Experience': df['Age']/5
    })

df2.head(10)

In [None]:
# объединение c указанием колонки!
merged_df = pd.merge(df, df2, how = 'left', on = 'EmployeeID')
merged_df.head()

Метод **join** используется для объединения DataFrame по индексам.

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False, validate=None)

In [None]:
df2.set_index('EmployeeID', inplace = True)

df2.head()

In [None]:
# объединение по дефолту по индексам!

joined_df = df.join(df2, how = 'left')

joined_df.head()

In [None]:
# создаем новые столбцы

df_country = pd.DataFrame({
    'EmployeeID':  np.arange(1, num+1),
    'Country': np.random.choice(['UK', 'Emirates', 'Italy', 'Denmark', 'Lalalend'],size = num )
    })

df_country.head()

In [None]:
df_country.set_index('EmployeeID', inplace = True)

df_country.head()

In [None]:
new_df = joined_df.join(df_country, how = 'left')

new_df.head()

#### Изменение формы данных

Метод **pivot** используется для преобразования данных из длинного формата в широкий с использованием агрегирующей функции

DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=_NoDefault.no_default, sort=True)

In [None]:
# какая средняя зп в отделе?

df_pivot_table = df.pivot_table(index='Department', values='Salary', aggfunc='mean')
df_pivot_table

In [None]:
# какая максимальная зарплата для сотрудников из разных стран?

df_pivot_young_salary = new_df.pivot_table(index = 'Country', values = 'Salary', aggfunc='max')
df_pivot_young_salary

Метод **melt** в Pandas применяется для преобразования данных из широкого формата в длинный

pandas.DataFrame.melt
DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)[source]


In [None]:
# Создаем DataFrame
product_data = {
    'Product': ['Product A', 'Product B', 'Product C'],
    'North': [120, 200, 150],
    'South': [85, 70, 95],
    'East': [60, 90, 80],
    'West': [105, 150, 130]
}

product_df = pd.DataFrame(product_data)
product_df.head()

Чтобы преобразовать этот DataFrame в длинный формат, где у нас будет одна колонка для региона и одна колонка для значений продаж, чтобы упростить анализ данных по регионам.

In [None]:
melted_product_df = pd.melt(product_df, id_vars=['Product'], var_name='Region', value_name='Sales')
melted_product_df