# Pandas

# Series

Начнем изучение pandas с рядов. Ряды очень похожи на NumPy array. Различие в том, что ряды могут иметь не только числовые индексы, а состоящие из любых Python объектов.

Разберем некоторые примеры.

In [None]:
import numpy as np
import pandas as pd

### Создание

В ряд можно превратить лист, numpy array, или словарь:

In [None]:
spells = ['Accio','Riddikulus','Expelliarmus']
power = [100, 300, 500]
arr = np.array([100, 300, 500])
dict_of_spells = {'Accio':100, 'Riddikulus':200, 'Expelliarmus':300}

**Лист**

In [None]:
pd.Series(power)

In [None]:
pd.Series(data=power, index=spells)

**NumPy Arrays**

In [None]:
pd.Series(arr)

In [None]:
pd.Series(arr, spells)

**Словарь**

In [None]:
d_o_s = pd.Series(dict_of_spells)
d_o_s

## Использование индекса:

In [None]:
d_o_s['Riddikulus']

# DataFrames

DataFrames - это очень удобный инструмент для работы с данными. DataFrames можно представлять как набор индексированных одним индексом рядов.

In [None]:
from numpy.random import randint

In [None]:
# Создание DataFrame
np.random.seed(42)
df = pd.DataFrame(randint(50, 100, size=(4,8)),index='Harry Ron Luna Neville'.split(),
                  columns='Astronomy Charms Flying Herbology History_of_Magic Potions Transfiguration Apparition'.split())

In [None]:
df

## Выбор и индексация

In [None]:
df['Potions']

In [None]:
# Выбор нескольких колонок по именам колонок
df[['History_of_Magic', 'Potions']]

**Создание новой колонки разными способами:**

In [None]:
# MeanACF = Mean Astronomy Charms Flying - подсчет средней разными способами
df['MeanACF_0'] = (df['Astronomy'] + df['Charms'] + df['Flying'])/\
                                    df[['Astronomy', 'Charms', 'Flying']].shape[1]
df

In [None]:
df['MeanACF_1'] = df[['Astronomy', 'Charms', 'Flying']].mean(axis=1)
df

In [None]:
df['MeanACF_2'] = df[['Astronomy', 'Charms', 'Flying']].apply(lambda x: np.mean(x), axis=1)
df

In [None]:
# Удобство исаользования lambda выражений, через них можно реализовывать широкий перечень несложных функций
df['Apparition_new'] = df['Apparition'].apply(lambda x: x*1.2)
df

**Удаление колонок**

In [None]:
df.drop('MeanACF_2', axis=1)

In [None]:
# В примере выше реального удаления не произошло, надо добавить inplace
df

In [None]:
df.drop(['MeanACF_0', 'MeanACF_1', 'MeanACF_2', 'Apparition_new'], axis=1, inplace=True)

In [None]:
df

Точно так же можно удалять и строки:

In [None]:
df.drop('Luna',axis=0)

**Индексация по строкам и столбцам**

In [None]:
df.loc['Neville','Astronomy']

In [None]:
df.iloc[[1, 0], [4, 5]]

In [None]:
df.loc[['Ron','Harry'],['History_of_Magic', 'Potions']]

### Выбор по условиям, фильтрация

In [None]:
df

In [None]:
df>80

In [None]:
df[df>80]

In [None]:
# Фильтрация с помощью условий
df[df['Herbology']>80]

In [None]:
# Без inplace опять ничего не проиходит с таблицей
df

Для нескольких условий можно использовать или | и и &:

In [None]:
df[(df['Herbology']>=90) & (df['Transfiguration']>75)][['Flying','Apparition']]

## Больше информации про индексы

In [None]:
# Удаление индекса до базового 0,1...n index
df.reset_index()

In [None]:
newind = 'Potter Weasley Lovegood Longbottom'.split()

In [None]:
df['Surname'] = newind

In [None]:
df

In [None]:
df.set_index('Surname')

In [None]:
df

In [None]:
df.set_index('Surname', inplace=True)

In [None]:
df

# Другие операции

In [None]:
# Поиск уникальных значений в столбце
df['Herbology'].unique()

In [None]:
# Кол-во уникальных значений в столбце
df['Herbology'].nunique()

In [None]:
# Сортировка по значениям одного из столбцов
df.sort_values(by='Transfiguration', ascending=False)

In [None]:
# Перечисление всех названий колонок
list(df.columns)

# Пропущенные данные

In [None]:
df = df[df>70]

In [None]:
df

In [None]:
# Кол-во пропусков в каждом столбце
df.isnull().sum()

In [None]:
# Удаление строк с пропусками, по дефолту удаляются те, где хотя бы один пропуск
df.dropna()

In [None]:
# То же самое со столбцами
df.dropna(axis=1)

In [None]:
# Заполнение пропусков
df.fillna(value='-999')

# Группировка

Группировки в pandas - это очень мощный инструмент, здесь приведено лишь несколько примеров. Но в интеренете можно найти много туториалов по работе с groupby для решения ваших конкретных задач.

Вводая по данным:
Департамент регулирования и контроля магических существ классифицирует всех магических существ по шкале от 1 (X) до 5 (XXXXX) таким образом:

XXXXX: Known wizard killer / impossible to train or domesticate

XXXX: Dangerous / requires specialist knowledge / skilled wizard may handle

XXX: Competent wizards should cope

XX: Harmless / may be domesticated

X: Boring

In [None]:
np.random.seed(4242)

X = ['Flobberworm', 'Horklump']
XX = ['Augurey', 'Bowtruckle', 'Chizpurfle', 'Clabbert', 'Diricawl', 'Fairy', 'Ghoul', 
      'Gnome', 'Grindylow', 'Imp', 'Jobberknoll', 'Mooncalf', 'Porlock', 'Puffskein', 'Ramora', 'Winged horse']
XXX = ['Ashwinder', 'Billywig', 'Bundimun', 'Crup', 'Doxy', 'Dugbog', 'Fire crab', 
       'Fwooper', 'Glumbumble', 'Hippocampus', 'Hippogriff', 'Hodag', 'Jarvey', 'Knarl', 'Kneazle', 
       'Leprechaun', 'Lobalug', 'Mackled Malaclaw', 'Moke', 'Murtlap', 'Niffler', 'Nogtail', 'Pixie',
       'Plimpy', 'Pogrebin', 'Red Cap', 'Salamander', 'Sea serpent', 'Shrake', 'Streeler', 'Winged horse']
XXXX = ['Centaur', 'Demiguise', 'Erkling', 'Erumpent', 'Golden Snidget', 'Graphorn', 'Griffin', 'Hidebehind',
        'Kappa', 'Kelpie', 'Merpeople', 'Occamy', 'Phoenix', "Re'em", 'Runespoor', 'Snallygaster', 'Sphinx',
        'Tebo', 'Thestral', 'Thunderbird', 'Troll', 'Unicorn', 'Winged horse', 'Yeti']
XXXXX = ['Acromantula', 'Basilisk', 'Chimaera', 'Dragon', 'Horned Serpent', 'Lethifold', 'Manticore',
         'Nundu', 'Quintaped', 'Wampus cat', 'Werewolf']

X_count = len(X)
XX_count = len(XX)
XXX_count = len(XXX)
XXXX_count = len(XXXX)
XXXXX_count = len(XXXXX)

Class = ['X']*X_count + ['XX']*XX_count + ['XXX']*XXX_count + ['XXXX']*XXXX_count + ['XXXXX']*XXXXX_count
Creatures = X + XX + XXX + XXXX + XXXXX

data = {'Class': Class,
        'Creature': Creatures,
        'Prettiness': randint(0, 100, size = (len(Class)))}


In [None]:
data = pd.DataFrame(data)
data.head()

In [None]:
# Сгруппируем данные по классам и посмотрим на среднюю оценку симпатичности
data.groupby('Class')['Prettiness'].mean()

In [None]:
# Это можно сделать и иным способом. В agg() можно передавать любые функции
data.groupby('Class')['Prettiness'].agg(np.mean)

In [None]:
# Подсчет кол-ва элементов в группах
data.groupby('Class')['Prettiness'].count()

In [None]:
# проверка пролого вывода, все сходится.
data['Class'].value_counts()

In [None]:
# Вывод макимального значения в группе
by_class = data.groupby('Class')
by_class.max()

In [None]:
# Описание групп
by_class.describe()

# Объединение таблиц

Существует несколько основных способов объединения DataFrames вместе.

In [None]:
# Обратите внимание на индекс в этом примере, он не пересекается.
df1 = pd.DataFrame({'Gryffindor': ['G0', 'G1', 'G2', 'G3'],
                        'Hufflepuff': ['H0', 'H1', 'H2', 'H3'],
                        'Ravenclaw': ['R0', 'R1', 'R2', 'R3'],
                        'Slytherin': ['S0', 'S1', 'S2', 'S3']},
                        index=[0, 1, 2, 3])

df2 = pd.DataFrame({'Gryffindor': ['G4', 'G5', 'G6', 'G7'],
                        'Hufflepuff': ['H4', 'H5', 'H6', 'H7'],
                        'Ravenclaw': ['R4', 'R5', 'R6', 'R7'],
                        'Slytherin': ['S4', 'S5', 'S6', 'S7']},
                        index=[4, 5, 6, 7])

df3 = pd.DataFrame({'Gryffindor': ['G8', 'G9', 'G10', 'G11'],
                        'Hufflepuff': ['H8', 'H9', 'H10', 'H11'],
                        'Ravenclaw': ['R8', 'R9', 'R10', 'R11'],
                        'Slytherin': ['S8', 'S9', 'S10', 'S11']},
                        index=[8, 9, 10, 11])

In [None]:
df1

In [None]:
df2

## Concatenation

Concatenation склеивает DataFrames вместе. Помните, что размерность данных по той оси, по которой склеиваете, должна совпадать у всех склеиваемых частей, если только не вмешивается индекс. **pd.concat** можно просто передать лист таблиц, которые будут объединены:

In [None]:
pd.concat([df1,df2,df3])

In [None]:
# Сравните этот случай, с непересекающимся индексом
pd.concat([df1,df2,df3], axis=1)

In [None]:
df1 = pd.DataFrame({'Gryffindor': ['G0', 'G1', 'G2', 'G3'],
                        'Hufflepuff': ['H0', 'H1', 'H2', 'H3'],
                        'Ravenclaw': ['R0', 'R1', 'R2', 'R3'],
                        'Slytherin': ['S0', 'S1', 'S2', 'S3']})
df2 = pd.DataFrame({'Gryffindor': ['G4', 'G5', 'G6', 'G7'],
                        'Hufflepuff': ['H4', 'H5', 'H6', 'H7'],
                        'Ravenclaw': ['R4', 'R5', 'R6', 'R7'],
                        'Slytherin': ['S4', 'S5', 'S6', 'S7']})
df3 = pd.DataFrame({'Gryffindor': ['G8', 'G9', 'G10', 'G11'],
                        'Hufflepuff': ['H8', 'H9', 'H10', 'H11'],
                        'Ravenclaw': ['R8', 'R9', 'R10', 'R11'],
                        'Slytherin': ['S8', 'S9', 'S10', 'S11']})

In [None]:
# И этот - с пересекающимся индексом
pd.concat([df1,df2,df3], axis=1)

In [None]:
# Append так же подходит для простых случаев склейки таблиц, но только по 0 оси.
df1.append(df2).append(df3)

In [None]:
# Очень полезная опция удаления индекса на случай, если он пересекающийся. 
# Часто по пересекающимуся индексу проблематично осуществлять индексирование. 
# Так что лучше всегда удалять индекс.
df1.append(df2).append(df3).reset_index(drop=True)

## Merging

**merge** позволяет объединять таблицы, следуя той же логике, что и в SQL.

In [None]:
left = pd.DataFrame({'key': ['Astronomy', 'Apparition', 'Charms', 'Flying', 'Herbology'],
                     'Gryffindor': ['G0', 'G1', 'G2', 'G3', 'G4'],
                     'Slytherin': ['S0', 'S1', 'S2', 'S3', 'S4']})
   
right = pd.DataFrame({'key': ['Astronomy', 'Charms', 'Flying', 'Potions', 'Herbology'],
                      'Hufflepuff': ['H0', 'H1', 'H2', 'H3', 'H4'],
                      'Ravenclaw': ['R0', 'R1', 'R2', 'R3', 'R4']})    

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left,right,how='inner',on='key')

In [None]:
pd.merge(left, right, how='outer', on='key')

In [None]:
pd.merge(left, right, how='right', on='key')

In [None]:
pd.merge(left, right, how='left', on='key')

Есть и другие способы объединения таблиц в разных специфических случаях. Так что не пренебрегайте гуглением, там есть ответы на почти все ваши вопросы. Если ответа на ваш вопрос не нашлось, скорее всего, вы немного не так спрашиваете.

# Отличная работа!