# Введение в **Pandas**

<div style="text-align:right;">Гейне М.А. <span style="font-style: italic;font-weight: bold;">(geine@bmstu.ru)</div>

**Pandas** - это мощная библиотека Python с открытым исходным кодом, используемая для манипулирования данными и их анализа, в частности для обработки и анализа структурированных данных. Она предоставляет структуры данных и функции, призванные сделать обработку данных эффективной и интуитивно понятной. Две основные структуры данных в Pandas - это:

1. **Series**: Одномерный маркированный массив, способный хранить данные любого типа (например, целые числа, строки, действительные числа и т. д.). Серии сами по себе часто используются для данных временных рядов или любой другой последовательности данных с маркированным индексом.
2. **DataFrame**: Двумерная, изменяемая по размеру и потенциально неоднородная табличная структура данных с размеченными осями (строками и столбцами). DataFrame - наиболее распространенная структура данных в Pandas, напоминающая таблицу со столбцами потенциально разных типов.

Pandas предлагает множество инструментов для:

- **Загрузки и сохранения данных**: Можно читать и записывать данные в файлы различных форматов (например, CSV, Excel, базы данных SQL, JSON).
- **Очистка данных**: В том числе обработка отсутствующих данных, дубликатов, преобразование типов данных и многое другое.
- **Трансформация данных**: Позволяет манипулировать данными путем слияния, объединения, изменения формы и фильтрации.
- **Статистические операции**: Предоставляет функции для  статистики и агрегирования.
- **Анализ временных рядов**: Встроенная поддержка индексации по времени и операций над данными временных рядов.

**ETL (Extract, Transform, Load)** - это фундаментальный процесс управления данными, а Pandas - отличный инструмент для выполнения каждого из этих этапов, особенно в области науки о данных и аналитики. 

1. **Извлечение**: Этот шаг включает в себя извлечение данных из различных источников. Pandas предоставляет множество методов для чтения данных из различных форматов:
	  - `pd.read_csv()` для чтения CSV-файлов.
	  - `pd.read_excel()` для чтения файлов Excel.
	  - `pd.read_sql()` для данных из баз данных SQL.
	  - `pd.read_json()` для файлов в формате JSON.
	  - Пользовательские загрузчики для веб API или необработанных данных.
2. **Трансформация**: На этом этапе данные очищаются, преобразуются и структурируются, чтобы сделать их пригодными для анализа.
	  - **Очистка данных**: Pandas предлагает инструменты для обработки пропущенных значений, удаления дубликатов и фильтрации данных.
	  - **Трансформация данных**: Пользователи могут изменять форму данных (используя такие методы, как `pivot()`, `melt()`), объединять наборы данных (`merge()`, `concat()`) и изменять типы данных.
	  - **Создание характеристик**: Новые столбцы могут быть созданы на основе существующих данных с помощью пользовательских функций, `apply()` и выражений `lambda`.
	  - **Объединения и группировка**: С помощью `groupby()` можно агрегировать данные по определенным столбцам, что особенно полезно для обобщения данных.
3. **Загрузка**: На этом этапе очищенные и преобразованные данные сохраняются в конечный пункт назначения.
	  - Pandas может экспортировать DataFrames в такие форматы, как CSV (`to_csv()`), Excel (`to_excel()`) или базы данных SQL (`to_sql()`), что позволяет легко загружать данные в хранилища данных или аналитические инструменты для дальнейшей обработки.

Использование Pandas для ETL-процессов популярно, потому что это гибкий, питонический подход для небольших и средних наборов данных. Для больших данных или производственного ETL можно предпочесть такие инструменты, как Apache Spark, но Pandas остается основным инструментом для создания прототипов и работы с данными в проектах по науке о данных.

## Основные типы данных в **Pandas**

Рассматриваемые вопросы:

- последовательность **Series** 
- табличная структура **DataFrame**


In [None]:
import pandas as pd
import numpy as np

### Последовательность (**Series**)

Последовательность **Series** - одномерный массив с метками (индексами) для хранения различных типов данных: целых (integer), действительных чисел (float), строк (string), объектов Python

In [None]:
data  = ['Dima', 'Sveta', 'Alex', 'Ivan', 'Kate', 'Maria']
# index = list(range(1,7))

s = pd.Series(data=data, name='Name')
s

In [None]:
data  = [-2.011894, 0.098981, 0.693385, 1.055508, 0.640023]
index = ['a', 'b', 'c', 'd', 'e']

In [None]:
s2 = pd.Series(data=data, index=index, name='Number')
s2

In [None]:
data  = [-2.0, 0.0, 0.0, 1.0, 0.0]
index = ['a', 'b', 'c', 'd', 'e']

In [None]:
s3 = pd.Series(data=data, index=index, name='Number', dtype='int32')
s3

Вывод первых (`head`) и последних (`tail`) $n$ значений

In [None]:
s.head(2)

In [None]:
s.tail(2)

Возврат `numpy` массива

In [None]:
s.to_numpy()

Обращение к элементам **Series**

In [None]:
s

In [None]:
s[3]

In [None]:
s2

In [None]:
s2['b'], s2[1], s2.iloc[1], s2.loc['b']

In [None]:
s[3] = "NewAlex"
s

### Табличная структура данных (**DataFrame**)

Табличная структура **DataFrame** - двумерный массив с метками

In [None]:
rand_matrix = np.random.randn(4,3)
rand_matrix

In [None]:
cmls = ['Column_1', 'Column_2', 'Column_3']
cmls

In [None]:
df = pd.DataFrame(data=rand_matrix, columns=cmls)
df

In [None]:
df2 = pd.DataFrame(data=rand_matrix, columns=cmls, index=['a','b','c','d'])
df2

Вывод первых и последних $n$ значений

In [None]:
df2.head(2)

In [None]:
df2.tail(2)

Возврат `numpy` массива

In [None]:
df.to_numpy()

Способы обращения к столбцам, строкам и ячейкам **DataFrame**'а рассматриваются в следующих разделах

# Первые шаги с **DataFrame**

Рассматриваемые вопросы:

- создание `DataFrame`'а: с использованием матрицы, списков, словаря, последовательностей
- обращение к элементам
- запись содержания `DataFrame`'а во внешний файл: `csv` формат данных
- загрузка внешних данных в `DataFrame`: обращение к ячейкам, изменение значений

### Создание **DataFrame**'а

Создание **DataFrame**'а с использованием *матрицы*

In [None]:
matrix = [
    ['Dima', 'Moscow', 1988, 4, 'm'],
    ['Sveta', 'Kiev', 1999, 4, 'f'],
    ['Alex', 'Minsk', 1954, np.NaN, 'm'],
    ['Ivan', 'St.Petersburg', 2005, 6, 'm'],
    ['Kate', 'London', 2001, np.NaN, 'f'],
    ['Maria', 'New York', 1997, 7, 'f']
]

matrix

In [None]:
columns = ['Name', 'City', 'Year', 'Grade', 'Gender']

df = pd.DataFrame(data=matrix, columns=columns)
df

In [None]:
df.info()

In [None]:
def init_df():
    return pd.DataFrame(data=matrix, columns=columns)

Создание **DataFrame**'а с использованием *списков* и **zip()**

In [None]:
names = ["Dima", "Sveta","Alex", "Ivan", "Kate", "Maria"]
cities = ["Moscow", "Kiev", "Minsk", "St.Petersburg", "London", "New York"]
year = [1988, 1999, 1954, 2005, 2001, 1997]
grades = [4, 4, np.NaN, 6, np.NaN, 7]
gender = ["m", "f", "m", "m", "f", "f"]

rows = list(zip(names, cities, year, grades, gender))
rows

In [None]:
df = pd.DataFrame(data=rows, columns=['Name', 'City', 'Year', 'Grade', 'Gender'])
df

Создание **DataFrame**'а с использованием *списков* и *словаря*

In [None]:
d_data = {
    'Name': ["Dima", "Sveta","Alex", "Ivan", "Kate", "Maria"],
    'City': ["Moscow", "Kiev", "Minsk", "St.Petersburg", "London", "New York"],
    'Year': [1988, 1999, 1954, 2005, 2001, 1997],
    'Grade': [4, 4, np.NaN, 6, np.NaN, 7],
    'Gender': ["m", "f", "m", "m", "f", "f"]
}
d_data

In [None]:
df = pd.DataFrame(data=d_data)
df

Чтобы указать последовательность столбцов, следует воспользоваться параметром *columns*

In [None]:
df = pd.DataFrame(data=d_data, columns=['Name', 'Year', 'City', 'Grade', 'Gender'])
df

Создание **DataFrame**'а с использованием *последовательностей*

In [None]:
s1 = pd.Series(data=["Dima", "Sveta", "Alex", "Ivan", "Kate", "Maria"], name="Name")
s2 = pd.Series(data=["Moscow", "Kiev", "Minsk", "St.Petersburg", "London", "New York"], name="City")
s3 = pd.Series(data=[1988, 1999, 1954, 2005, 2001, 1997], name="Year")
s4 = pd.Series(data=[4, 4, np.NaN, 6, np.NaN, 7], name="Grade")
s5 = pd.Series(data=['m', 'f', 'm', 'm', 'f', 'f'], name="Gender")

df1 = pd.DataFrame(data=[s1,s2,s3,s4,s5])
df1

In [None]:
df1 = df1.T
df1

In [None]:
df2 = pd.DataFrame({"Name": s1.values, "City": s2.values, "Year": s3.values})
df2

Чтобы изменить стандартную индексацию от 0, можно воспользоваться следующим выражением

In [None]:
df.index = df.index + 1  # индексация будет от 1
df

Доступ к индексам

In [None]:
df.index

Доступ к именам столбцов

In [None]:
df.columns

### Обращение к элементам **DataFrame**

Обращение к элементу по **индексу** строки и имени столбца

In [None]:
df

In [None]:
df.loc[2, 'City']

Обращение к элементу по **номеру** строки и номеру столбца

In [None]:
df.iloc[2, 2]

### Запись содержания **DataFrame** во внешний файл

Pandas позволяет работать с различными форматами файлов, такими как `csv`, `excel`, `xml`, `json` и др. Более подробно [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

В качестве примера далее рассматривается небольшой пример того, как значения `DataFrame`'а записать во внешний файл csv, а затем загрузить из него данные обратно в `DataFrame`

Запись данных в файл `csv`

In [None]:
df.to_csv("testFile.csv", index=False, header=True)

### Загрузка внешних данных в **DataFrame**

In [None]:
df1 = pd.read_csv("testFile.csv")
df1

## Манипулирование **DataFrame**'ми

### Столбцы

Исходный **DataFrame**

In [None]:
df

#### Выбор столбцов

Получение последовательности по имени столбца

In [None]:
s_name = df['Name']
s_name

In [None]:
s_name = df.Name
s_name

In [None]:
type(s_name)

Получение DataFrame по столбцу

In [None]:
df_name = df[['Name']]  # обращение по имени столбца
df_name

In [None]:
df_name = df[[df.columns[0]]]  # обращение по индексу столбца
df_name

In [None]:
type(df_name)

Использование нескольких столбцов для выбора данных

In [None]:
df_select = df[['Name', 'City']]
df_select

Метод `filter`

In [None]:
df.filter(items=['Name', 'City'], axis=1)

In [None]:
df.filter(like='i', axis=1)

In [None]:
df.filter(regex='i', axis=1)

Получение уникальных значений столбца

In [None]:
df.Name.unique()

In [None]:
df['Gender'].unique()

#### Добавление/изменение столбца

In [None]:
df['NewColumn'] = [4, 5, 7, 3, 2, 6]  # добавление
df

In [None]:
df['Grade'] = [1, 1, 1, 1, 1, 1]  # изменение
df

In [None]:
df['Grade'] = [4, 4, np.NaN, 6, np.NaN, 7]
df

In [None]:
if 'NewColumn2' not in df.columns:
    df.insert(loc=1, value=[10,40,50,30,70,49], column='NewColumn2')  # loc - позиция столбца
df

Создание из исходного `df` нового `DataFrame`'а `df2` без столбца `NewColumn` 

In [None]:
df2 = df.drop('NewColumn', axis=1, inplace=False)  # axis = 1 - удаление столбца
df2

In [None]:
df

Удаление столбцов из исходного `DataFrame`'а

In [None]:
df.drop(['NewColumn', 'NewColumn2'], axis=1, inplace=True)  # удаление нескольких столбцов
df

### Строки

Исходный `DataFrame`

In [None]:
df

#### Фильтрация строк

Выбор строк по **индексу**

In [None]:
df.loc[2]

Выбор строк по **позиции** (номер строки начиная с 0)

In [None]:
df.iloc[2]

Использование диапазона позиций

In [None]:
df[:3]

In [None]:
df[1:4]

Использование условий

In [None]:
df[df['Name']=='Dima']

In [None]:
df[df['Grade']>=5]

In [None]:
df[df.Grade>=5]

In [None]:
df[(df.Grade>=5) & (df.Gender=='f')]  # операция "И"

In [None]:
df[(df.Grade==4) | (df.Grade==6)]  # операция "ИЛИ"

In [None]:
cond = (df.Grade==4) | (df.Grade==6)

In [None]:
cond

In [None]:
df[cond]

Применение метода `isin` для вывода строк, в которых значение заданного столбца содержится в списке

In [None]:
l_cities = ['Moscow', 'Minsk']
df.City.isin(l_cities)

In [None]:
df2 = df[df.City.isin(l_cities)]
df2

Функция `isnan`

In [None]:
df[pd.isna(df.Grade)]  # строки с неопредленным значнием Grade

Функция `notna`

In [None]:
df[pd.notna(df.Grade)]  # notnull

Метод `filter`

In [None]:
cond = (df.Grade==4) | (df.Grade==6)
indx = df.index[cond]

df.filter(items=indx, axis=0)

In [None]:
indx

Метод `query`

In [None]:
# тоже с методом query
df.query('Grade == 4 | Grade == 6')

In [None]:
a = 4
df.query(f'Grade == {a} | Grade == 6')

In [None]:
grade_list = [4, 6]
df.query('Grade == @grade_list')

In [None]:
df.query('Grade + 5 > 10')

#### Добавление/изменение строки

In [None]:
df

In [None]:
# Добавление строки с указанием индекса
df.loc[10] = ['NewName', 'NewCity', 2016, 1, 'f']
df

In [None]:
# Изменение строки с указанием её номера
df.loc[4] = ['ChangedIvan', 'St.Petersburg', 2005, 6, 'm']
df

In [None]:
# Изменение строки по индексу строки
df.iloc[0] = ['Changed', 'Changed', 2000, 10, 'm']
df

Метод `fillna` заполняет пустые ячейки значением аргумента 

In [None]:
df4 = df['Grade'].fillna(-1)  # возвращает новый DataFrame
pd.DataFrame(df4)

Удаление строки

In [None]:
# Удаление по номеру строки, axis = 0 - строки, inplace = True - удаляет в df
df.drop(df.index[6], axis=0, inplace=True)
df

In [None]:
# Удаление по индексу строки
df.drop(df.index[df.index==1], axis=0, inplace=True)
df

In [None]:
df2 = df.drop(df.index[df.index==2], axis=0, inplace=False)
df2

In [None]:
df

In [None]:
df.drop(2, axis=0, inplace=False)

In [None]:
df.drop([2, 5], axis=0, inplace=False)

Удаление всех строк, в которых есть неопределенное значение (`NaN`)

In [None]:
df.dropna()  # возвращает новый DataFrame

### Значения ячеек

Обращение по **индексу** строки

In [None]:
df.loc[2, 'City']

Обращение по **позиции** (номеру) строки

In [None]:
df.iloc[2, 1]

Пример использования с циклом `for`

In [None]:
# Изменение значений в столбце Grade на +10
# Замечение: есть более простой способ для такой операции (см. раздел 4)
for i in range(len(df)):
    df.iloc[i, 3] += 10
df

Срезы по строкам

In [None]:
df.loc[:, 'City']

In [None]:
df.iloc[:, 2]

Срезы по строкам и столбцам

In [None]:
df.loc[1:4, 'Name':'City']

In [None]:
df

Изменение значения ячейки. Если нет указанного индекса в `DataFrame`'е, то добавляется новая строка

In [None]:
df.loc[11, 'Name'] = 'NewName'
df

In [None]:
df.iloc[2, 0] = 'NewName'
df

In [None]:
df.drop(df.index[df.index==11], axis=0, inplace=True) # удаление по индексу строки
df

### Группировка

In [None]:
# исходный датафрейм
df = init_df()
df

In [None]:
# дополнительные столбцы
salary = [10, 40, 50, 30, 70, 49]
marital_status = [True, False, True, True, True, False]

# создание нового датафрейма со столбцами salary и marital_status
df_group = df.copy()
df_group['Salary'] = salary
df_group['Marriage'] = marital_status
df_group

In [None]:
# итеративный объект с группами по значению столбца
groupby = df_group.groupby('Gender')
groupby

In [None]:
# вывод групп
for i, group in groupby:
    print(i)
    print(group)

In [None]:
# количество строк в каждой группе
groupby.size()

In [None]:
# группировка по нескольким столбцам
groupby_2 = df_group.groupby(['Gender', 'Marriage'])

# вывод
for i, group in groupby_2:
    print(i)
    print(group)

In [None]:
# доступ к конкретной группе
df2 = groupby.get_group('f')
df2

In [None]:
groupby_2.get_group(('f', False))

Фильтр для групп

In [None]:
# исходный датафрейм
df_group

In [None]:
# Возвращает DataFrame с группами, в которых сумма Grade > 10
df_group\
    .groupby('Gender')\
    .filter(lambda group: group.Grade.sum() > 10)

Агрегирование в группах

In [None]:
# исходный датафрейм
df2 = df_group[['Gender', 'Grade', 'Salary']]
df2

In [None]:
# использование aggregate c udf функцией
df2\
    .groupby('Gender')\
    .aggregate(lambda group: group.mean())  # .agg - сокращение

In [None]:
# использование aggregate cо стандартной функцией
df2\
    .groupby('Gender')\
    .agg('sum')

In [None]:
# использование sum для групп
df2\
    .groupby('Gender')\
    .sum()

In [None]:
# если нужены только определенные столбцы
df2\
    .groupby('Gender')[['Salary']]\
    .sum()

In [None]:
df2\
    .groupby('Gender')\
    .agg({'Salary': 'sum', 'Grade': ['min', 'max']})

Трансформация выполняется для элементов отдельных столбцов каждой группы

In [None]:
# пример операции над массивами (вычитание среднего)
v = np.array([1,2,3])
v - v.mean()

In [None]:
# исходный датафрейм
df2

In [None]:
# средние каждой группы
df2\
    .groupby('Gender')\
    .mean()

In [None]:
# Значение элемента минус среднее значение в столбце группы
# [1,2,3]-2 = [-1,0,1]
df2\
    .groupby('Gender')\
    .transform(lambda x: x - x.mean())

In [None]:
df2\
    .groupby('Gender')\
    .apply(lambda x: x - x.mean())

Группировка данных по диапазонам значений

In [None]:
df_group['Salary']

In [None]:
# Формирование диапазонов
salary_bins = pd.cut(df_group['Salary'], bins=[0, 30, 50, 80])
salary_bins

In [None]:
# Создание одного диапазона
interval = pd.Interval(left=30, right=50, closed='right')
interval

In [None]:
# Группировка по диапазонам
gr3 = df_group.groupby(salary_bins)

# Вывод одной группы
gr3.get_group(interval)

In [None]:
# Формирование именованных диапазонов
salary_bins__named = pd.cut(
    df_group.Salary,
    bins=[0, 30, 50, 80],
    labels=['bad', 'medium', 'good']
)
salary_bins__named

In [None]:
df_group['Salary_Interval'] = salary_bins__named
df_group

In [None]:
# Группировака и доступ к одной группе
df_group\
    .groupby(salary_bins__named)\
    .get_group('medium')

In [None]:
# Формирование диапазонов с использованием range
salary_bins__range = pd.cut(x=df_group.Salary, bins=np.arange(0, 100, 10))
salary_bins__range

In [None]:
# Формирование диапазонов с указанием количества диапазонов
salary_bins__num = pd.cut(
    x=df_group.Salary,
    bins=3,
    labels=['bad','medium','good']
)
salary_bins__num

### Сортировка

In [None]:
# исходный массив
df

In [None]:
# Сортировка по одному столбцу (по возрастанию)
df.sort_values('Year', ascending=1)

In [None]:
# Сортировка по одному столбцу (по убыванию)
df.sort_values('Year', ascending=0)

In [None]:
# Сортировка по нескольким столбцам
df.sort_values(['Gender', 'Year'], ascending=[1, 0])

### Сложные индексы

In [None]:
# Исходные данные
data =  np.random.randint(low=0, high=101, size=(4,3))
data

In [None]:
index1 = ['Week1', 'Week1', 'Week2', 'Week2']  # первый индекс
index2 = ['Working Days', 'Weekend', 'Working Days', 'Weekend']  # второй индекс

# Формирование датафрейма с двумя индексами
df = pd.DataFrame(
    data=data,
    columns=['TV', 'Smartphone', 'Pendrive'],
    index=[index1, index2])
df

Доступ к данный по индексам

In [None]:
# Вывод данных по первому индексу
df.loc['Week1']

In [None]:
# Вывод данных по двум индексам
df.loc[('Week1', 'Weekend')]

Пример с суммой

In [None]:
df.sum()  # сумма по столбцам для всех индексов

In [None]:
df.loc['Week1'].sum()  # сумма по столбцам для Week1

In [None]:
# Сумма по столбцам за Weekend для Week1 и Week2
df.loc[[('Week1', 'Weekend'),('Week2', 'Weekend')]].sum()

### Объединение DataFrame'ов

#### Функция `concat`

Добавление строк

In [None]:
df

In [None]:
# Создание второго датафрейма
rows_new = [
    ['Petr', 'Bryansk', 1978, 5, 'm'],
    ['Ann', 'Tehran', 1997, 7, 'f']
]
df2 = pd.DataFrame(
    data=rows_new,
    columns=['Name','City','Year','Grade','Gender']
)
df2

In [None]:
# Объединение данных двух датафреймов
df3 = pd.concat([df, df2], ignore_index=False, sort=False)
df3

In [None]:
# Вывод строк по индексу
df3.loc[1]

In [None]:
# Объединение данных двух датафреймов
df3 = pd.concat([df, df2], ignore_index=True)
df3

Добавление ключа/индекса

In [None]:
# Добавление индекса датафрейма
df3 = pd.concat([df, df2], keys=['Table1', 'Table2'])
df3

In [None]:
# Доступ по первому индексу
df3.loc['Table1']

In [None]:
# Доступ по двум индексам
df3.loc[('Table1', 1)]

Соединение таблиц по столбцам

In [None]:
df

In [None]:
# Создание нового датафрейма
dict_new = {
    'Marriage_status': [True, False, True, False],
    'Salary': [12, 40, 53, 25]
}

df_right_1 = pd.DataFrame(index=[1,3,4,5], data=dict_new)
df_right_1

Внешнее соединение (**outer join**) таблиц по индексу

In [None]:
# Соединение двух датафреймов
df3 = pd.concat([df, df_right_1], axis=1, join='outer')
df3

Внутреннее соединение (**inner join**) таблиц по индексу

In [None]:
# join = "inner" - соединение по совпадающим индексам строк
df3 = pd.concat([df, df_right_1], axis=1, join='inner')
df3

#### Функция `merge`

Внешнее соединение (**outer join**) таблиц по индексу

In [None]:
df3 = pd.merge(
    left=df, right=df_right_1,
    left_index=True, right_index=True, how='outer'
)
df3

Внешнее соединение (**outer join**) таблиц по значению столбца

In [None]:
df

In [None]:
dict_new_2 = {
    'Name': ['Sveta', 'Sveta', 'Alex', 'Alex', 'Kate', 'Vlad', 'Alice'],
    'Device': ['TV', 'Smartphone', 'TV', 'Pendrive', 'TV', 'TV', 'PC']
}

df_right_2 = pd.DataFrame(data=dict_new_2)
df_right_2

In [None]:
df3 = pd.merge(df, df_right_2, on=['Name'], how='outer')
df3

Внешнее соединение (**outer join**) таблиц по значениям столбцов одной таблицы и индексам другой

In [None]:
df

In [None]:
dict_new_3 = {
    "ClientId":[2, 2, 3, 3, 4, 4, 10],
    "Device":["TV", "Smartphone", "TV", "Pendrive", "TV", "TV", "PC"]
}

df_right_3 = pd.DataFrame(data=dict_new_3)
df_right_3

In [None]:
df3 = pd.merge(df, df_right_3, left_index=True, right_on="ClientId", how="outer")
df3

#### Метод `join`

Внешнее соединение (**outer join**) таблиц по индексу

In [None]:
df

In [None]:
df_right_1

In [None]:
df3 = df.join(df_right_1, how="outer")
df3

Внешнее соединение (**outer join**) таблиц по значениям столбцов одной таблицы и индексам другой

In [None]:
dict_new_3 = {
    'ClientId': [2, 2, 3, 3, 4, 4, 10],
    'Device': ['TV', 'Smartphone', 'TV', 'Pendrive', 'TV', 'TV', 'PC']
}

df_left = pd.DataFrame(data=dict_new_3)
df_left

In [None]:
df3 = df_left.join(other=df, on='ClientId', how='outer')
df3

Левое внешнее соединение (**left outer join**) таблиц по индексу

In [None]:
df3 = df.join(df_right_1, how='left')
df3

Внешнее левое соединение (**left outer join**) таблиц по значениям столбцов одной таблицы и индексам другой

In [None]:
df3 = df_left.join(df, on='ClientId', how='left')
df3

Правое внешнее соединение (**right outer join**) таблиц по индексу

In [None]:
df3 = df.join(df_right_1, how='right')
df3

Внешнее правое соединение (**right outer join**) таблиц по значениям столбцов одной таблицы и индексам другой

In [None]:
df3 = df_left.join(df, on='ClientId', how='right')
df3

Внутреннее соединение (**inner join**) таблиц по индексу

In [None]:
df3 = df.join(df_right_1, how='inner')
df3

Внутреннее соединение (**inner join**) таблиц по значениям столбцов одной таблицы и индексам другой

In [None]:
df3 = df_left.join(df, on='ClientId', how='inner')
df3

### Методы *iterrows*, *map*, *apply*, *applymap*

Использование итератора по строкам - метод **iterrows()**

In [None]:
for i, row in df.iterrows():
    print(i)
    print(row)

Пример

In [None]:
df2 = pd.DataFrame(columns=df.columns)  # новый DataFrame со схемой (столбцами) df
for i, row in df.iterrows():
    # Если City есть Moscow или Minsk, строка row добавляется в df2
    if row.City in ['Moscow', 'Minsk']:
        df2.loc[i] = row

df2

Выбор/фильтрация строк посредством методов **apply()** и **map()**

In [None]:
df2 = df[df["City"].apply(lambda city: city in ["Moscow", "Minsk"])]
df2

In [None]:
# Через функцию (без lambda)
def func(city):
    return city in ["Moscow", "Minsk"]

df2 = df[df.City.apply(func)]
df2

In [None]:
# Более простой вариант
df[df.City.isin(["Moscow", "Minsk"])]

Выбор строк без нулевых значений

In [None]:
df[df.Grade.apply(lambda x: not np.isnan(x))]

In [None]:
df[df.Grade.notnull()]

Выбор строк с условием Year > 2000

In [None]:
df[df['Year'].map(lambda year: year >= 2000)]

In [None]:
df[df['Year']>=2000]

Применение метода **apply()** для вычислений

In [None]:
data = np.random.randint(low=0, high=101, size=(3,7))
data

In [None]:
dfA = pd.DataFrame(
    data=data,
    columns=["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"],
    index = ["TV", "Smartphone", "Pendrive"]
)
dfA

In [None]:
clmn_sum = dfA.apply(lambda clmns: clmns.sum(), axis=0)  # axis = 0 - выбор по столбцам
clmn_sum

In [None]:
type(clmn_sum)

In [None]:
# Более простой вариант
dfA.sum(axis=0)

In [None]:
# clmn_sum.reset_index()

In [None]:
clmn_sum.name = 'TotalByDay'
pd.DataFrame(clmn_sum)

In [None]:
row_sum = dfA.apply(lambda row: row.sum(), axis=1)  # axis = 1 - выбор по строкам
row_sum

In [None]:
# Более простой вариант
dfA.sum(axis=1)

In [None]:
row_sum.name = 'TotalByDevice'
pd.DataFrame(row_sum)

In [None]:
dfA["Working_Days"] = dfA.apply(lambda x: x[:5].sum(), axis=1)
dfA

In [None]:
# Более простой вариант
dfA.iloc[:,:5].sum(axis=1)

In [None]:
dfA["Weekend"] = dfA.apply(lambda x: x[5:7].sum(), axis=1)
dfA

In [None]:
# Более простой вариант
dfA.iloc[:,5:].sum(axis=1)

In [None]:
# Удаление столбцов Working_Days и Weekend
dfA.drop(["Working_Days","Weekend"], axis=1, inplace=True)

Нормализация значений по строке через *apply*

In [None]:
dfA.apply(lambda x: x/x.sum(), axis=1)

Нормализация через дополнительную функцию

In [None]:
def norm(row):
    s = row.sum()
    return [el/s for el in row] # или return row/s

dfA.apply(norm, axis=1)

Применение метода **applymap()**

In [None]:
dfA

In [None]:
df4 = dfA.map(lambda cell: cell/100)
df4

In [None]:
# Более простой вариант
dfA / 100

## Математическая поддержка

### Операции со столбцами

In [None]:
dfA

In [None]:
nom_values = dfA.Mon / 100
nom_values

In [None]:
dfA.Mon = dfA.Mon + 10
dfA

In [None]:
sum_Mon_Tue = dfA["Mon"] + dfA["Tue"]
sum_Mon_Tue

In [None]:
mult_Mon_Tue = dfA["Mon"] * dfA["Tue"]
mult_Mon_Tue

Пример вычисления суммы по всем столбцам с циклом *for*

In [None]:
dfA.columns

In [None]:
dfA["Total"] = dfA[dfA.columns[0]]
for i in range(1, len(dfA.columns)-1):
    dfA["Total"] += dfA[dfA.columns[i]]

dfA

In [None]:
# Удаление столбца Total
dfA.drop(["Total"], axis=1, inplace=True)
dfA

Пример вычисления суммы по всем столбцам с использованием *apply*

In [None]:
dfA["Total"] = dfA.apply(lambda row: row.sum(), axis=1)
dfA

In [None]:
dfA.drop(["Total"], axis=1, inplace=True)

Пример вычисления суммы по всем столбцам с использованием *sum*

In [None]:
dfA["Total"] = dfA.sum(axis=1)
dfA

In [None]:
dfA.drop(["Total"], axis=1, inplace=True)

### Специальные методы

In [None]:
dfA

In [None]:
dfA.count(axis=0)

In [None]:
dfA.count(axis=1)

In [None]:
dfA.min(axis=0)

In [None]:
dfA.min(axis=1)

In [None]:
dfA["Mon"].min()

In [None]:
dfA["Mon"].idxmin()

In [None]:
dfA.max(axis=0)

In [None]:
dfA.max(axis=1)

In [None]:
dfA["Mon"].idxmax()

In [None]:
dfA.sum(axis=0)

In [None]:
dfA.sum(axis=1)

In [None]:
dfA["Mon"].sum()

In [None]:
dfA.mean(axis=0)

In [None]:
dfA.mean(axis=1)

In [None]:
dfA["Mon"].mean()

In [None]:
dfA.var(axis=0)

In [None]:
dfA.var(axis=1)

In [None]:
dfA.std(axis=1)

In [None]:
dfA["Mon"].std()

In [None]:
dfA.describe()

In [None]:
dfA["Mon"].describe()

In [None]:
dfA.corr()

In [None]:
dfA.cov()

## Визуализация данных

### График (plot)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
dfA

In [None]:
dfA.T.plot(style='o-')
plt.title('TV vs Smartphone')
plt.grid(True)
plt.xlabel("Day of the Week")
plt.ylabel("Count")
plt.show()

In [None]:
fig, ax = plt.subplots(1, 1)
ax.set_title('TV vs Smartphone')
ax = dfA.T.plot.line(style='o-', ax=ax)
ax.set_xlabel("Day of the Week")
ax.set_ylabel("Count")
ax.grid(True)
plt.show()

### Гистограмма

In [None]:
hists = dfA.hist(
    bins=10,
    color="orange",
    figsize=(12,8),
    density=False,
    sharex=False
)
plt.tight_layout()
plt.show()

In [None]:
hist = dfA.T.hist(bins=4)
plt.tight_layout()
plt.show()

In [None]:
hist = dfA.plot.hist(bins=10, alpha=0.5)
plt.show()

## Источники

<div>Документация
<a href="https://pandas.pydata.org/pandas-docs/version/0.25.1/index.html">Pandas 0.25.1 documentation. Index</a><br>

Разбор функциональных возможностей
<a href="http://pandas.pydata.org/pandas-docs/stable/dsintro.html">Intro to Data Structures</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/indexing.html">Indexing and Selecting Data</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/io.html">IO Tools (Text, CSV, HDF5, ...)</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/groupby.html">Group By: split-apply-combine</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/advanced.html">MultiIndex / Advanced Indexing</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/merging.html">Merge, join, and concatenate</a><br>
<a href="http://pandas.pydata.org/pandas-docs/stable/merging.html">Essential Basic Functionality</a><br>
<a href="https://s3.amazonaws.com/quandl-static-content/Documents/Quandl+-+Pandas,+SciPy,+NumPy+Cheat+Sheet.pdf">NumPy / SciPy / Pandas Cheat Sheet</a><br>
<a href="http://www.swegler.com/becky/blog/2014/08/06/useful-pandas-snippets/">Useful Pandas Snippets</a><br>
<a href="http://chrisalbon.com/python/pandas_apply_operations_to_dataframes.html">Applying Operations Over pandas Dataframes</a><br>
<a href="http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/01%20-%20Lesson.ipynb">Pandas. Lesson 1</a><br>
<a href="http://chrisalbon.com/python/pandas_dropping_column_and_rows.html">Dropping Rows And Columns In pandas Dataframe</a><br>
<a href="http://chrisalbon.com/python/pandas_dataframe_descriptive_stats.html">Descriptive Statistics For pandas Dataframe</a><br>

Примеры использования
<a href="http://synesthesiam.com/posts/an-introduction-to-pandas.html">An Introduction to Pandas (weather analysis)</a><br>
<a href="http://pbpython.com/excel-pandas-comp.html">Common Excel Tasks Demonstrated in Pandas</a><br>
<a href="http://wavedatalab.github.io/datawithpython/aggregate.html">Using Pandas for Analyzing Data - Grouping and Aggregating</a><br>
<a href="http://dataconomy.com/14-best-python-pandas-features/">14 BEST PYTHON PANDAS FEATURES</a><br>
<a href="http://www.randalolson.com/2012/08/06/statistical-analysis-made-easy-in-python/">Statistical analysis made easy in Python with SciPy and pandas DataFrames</a><br>
</div>