# Библиотека Pandas


## DataFrame и Serries

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)


In [61]:
import pandas as pd
import numpy as np

Создаем произвольный массив

In [62]:
table = np.array((range(4,-3, -2), np.random.choice(range(100), size=4, replace=False)))
table 

array([[ 4,  2,  0, -2],
       [46, 15, 89, 59]])

Выбираем произвольную ячейку...

In [63]:
table[1][2]

89

...либо строку целиком

In [64]:
table[0]

array([ 4,  2,  0, -2])

Такая структура простая и понятная, но недостаточно удобная. Например, затруднительно выделять столбецы.


Также на больших объемах данных быстродействие может оказаться недостаточным.

Этих недостатков лишена библиотека Pandas

В pandas реализованы типы данных с разным числом измерений: одномерный тип (просто ряд) называется Series, двумерный (табличка) — DataFrame, трёхмерный — Panel (здесь не рассматриваем).  

Преобразуем массив в DataFrame:

In [65]:
df = pd.DataFrame(table)
df

Unnamed: 0,0,1,2,3
0,4,2,0,-2
1,46,15,89,59


У такой таблицы можно обращаться к строкам, а можно и к столбцам:

In [66]:
df[1] # ВТОРОЙ столбец

0     2
1    15
Name: 1, dtype: int64

... и по строкам

In [67]:
df.loc[0] # первая строка

0    4
1    2
2    0
3   -2
Name: 0, dtype: int64

И всё  вместе:

In [68]:
df[1].loc[0] 

2

## Загрузка датафрейма из CSV-файла
Рассмотрим простой CSV-файл с данными, изображающими результаты нескольких виртуальных студентов по некоторым тестам.

In [69]:
df = pd.read_csv("pandas_exsample.csv")
df

Unnamed: 0,Предмет,Аня,Петя,Клава,Гриша
0,Алгебра,1.0,2.0,3.0,2.0
1,English,2.3,1.2,3.2,1.2
2,Литература,2.1,2.3,2.3,2.2
3,Физкультура,4.0,2.5,2.4,1.2
4,Обществознание,6.0,5.0,4.0,5.0


In [70]:
df.Аня

0    1.0
1    2.3
2    2.1
3    4.0
4    6.0
Name: Аня, dtype: float64

In [71]:
df["Аня"]

0    1.0
1    2.3
2    2.1
3    4.0
4    6.0
Name: Аня, dtype: float64

Переразгружаем файл и делаем столбец с предметами индексным

In [72]:
df = pd.read_csv("pandas_exsample.csv", index_col=0)
df

Unnamed: 0_level_0,Аня,Петя,Клава,Гриша
Предмет,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алгебра,1.0,2.0,3.0,2.0
English,2.3,1.2,3.2,1.2
Литература,2.1,2.3,2.3,2.2
Физкультура,4.0,2.5,2.4,1.2
Обществознание,6.0,5.0,4.0,5.0


In [73]:
df.loc['Физкультура']

Аня      4.0
Петя     2.5
Клава    2.4
Гриша    1.2
Name: Физкультура, dtype: float64

Строка датафрейма называется «наблюдением» (observation), а столбец — «переменной» (variable). Данные в столбце должны быть однородны (т.е. может быть столбец, состоящий только из чисел или только из строк, но не может быть столбца, в котором перемешаны строки и числа), а по строкам данные могут быть разнородны.

In [74]:
df.index

Index(['Алгебра', 'English', 'Литература', 'Физкультура', 'Обществознание'], dtype='object', name='Предмет')

Не если не хотим видеть имя столбца индексов

In [75]:
df.index.name = None
df.index

Index(['Алгебра', 'English', 'Литература', 'Физкультура', 'Обществознание'], dtype='object')

Клава хочет быть переименованной в Клавдию

In [76]:
df.columns

Index(['Аня', 'Петя', 'Клава', 'Гриша'], dtype='object')

In [77]:
my_columns = list(df.columns)
print(my_columns)
my_columns[2] = 'Клавдия'
print(my_columns)

['Аня', 'Петя', 'Клава', 'Гриша']
['Аня', 'Петя', 'Клавдия', 'Гриша']


In [78]:
df.columns = my_columns
df.columns

Index(['Аня', 'Петя', 'Клавдия', 'Гриша'], dtype='object')

## Срезы
Несмотря на то, что просто квадратные скобки (безо всяких .loc перед ними) позволяют обращаться к столбцам таблицы, те же самые квадратные скобки, используемые вместе со срезами, работают «по строчкам». Например, вот так можно получить вторую и третью строчки таблицы:

In [79]:
df[1:4]

Unnamed: 0,Аня,Петя,Клавдия,Гриша
English,2.3,1.2,3.2,1.2
Литература,2.1,2.3,2.3,2.2
Физкультура,4.0,2.5,2.4,1.2


In [80]:
df['English':'Физкультура']

Unnamed: 0,Аня,Петя,Клавдия,Гриша
English,2.3,1.2,3.2,1.2
Литература,2.1,2.3,2.3,2.2
Физкультура,4.0,2.5,2.4,1.2


In [81]:
df[['Аня', 'Клавдия']]

Unnamed: 0,Аня,Клавдия
Алгебра,1.0,3.0
English,2.3,3.2
Литература,2.1,2.3
Физкультура,4.0,2.4
Обществознание,6.0,4.0


А вот так можно с помощью loc[] получить столбец:

In [82]:
df.loc[:, 'Клавдия']

Алгебра           3.0
English           3.2
Литература        2.3
Физкультура       2.4
Обществознание    4.0
Name: Клавдия, dtype: float64

## iloc[  ]
Метод loc[  ] работает с именами строк и столбцов, а если нужно использовать их номера, то вызывается метод iloc[  ]

In [83]:
df.iloc[1] # вторая строка

Аня        2.3
Петя       1.2
Клавдия    3.2
Гриша      1.2
Name: English, dtype: float64

In [84]:
df.iloc[:, 2] # третий столбец


Алгебра           3.0
English           3.2
Литература        2.3
Физкультура       2.4
Обществознание    4.0
Name: Клавдия, dtype: float64

In [85]:
df.iloc[1, 2] # ячейка во второй строке, третьем столбце


3.2

## at[  ] и iat[  ]
Обычные квадратные скобки, а также методы loc[  ] и iloc[  ] относительно медленные. Для быстрого обращения к конкретной ячейке используются методы at[] или iat[].

In [86]:
df.at['Литература', 'Аня']

2.1

In [87]:
df.iat[2, 0]

2.1

## Выбор по условию
Предположим, что нам нужно получить все строки, соответствующие тестам, по которым Аня получила оценку выше тройки. 

In [88]:
df[df['Аня']>3]


Unnamed: 0,Аня,Петя,Клавдия,Гриша
Физкультура,4.0,2.5,2.4,1.2
Обществознание,6.0,5.0,4.0,5.0


Этот синтаксис работает примерно так же, как аналогичный синтаксис в np.array. Результатом сравнения df['Ann'] с числом 3 является  pd.Series булевских элементов, являющиеся результатами попарного сравнения элементов df['Ann'] с числом 3

In [89]:
df['Аня']>3

Алгебра           False
English           False
Литература        False
Физкультура        True
Обществознание     True
Name: Аня, dtype: bool

In [90]:
df.loc[:, df.loc['English']>2] 
# выбрать все столбцы, у которых в строке `English` оценка больше двух

Unnamed: 0,Аня,Клавдия
Алгебра,1.0,3.0
English,2.3,3.2
Литература,2.1,2.3
Физкультура,4.0,2.4
Обществознание,6.0,4.0


In [91]:
df[ (df['Аня'] > 1) & (df['Гриша'] >= 2) ]

Unnamed: 0,Аня,Петя,Клавдия,Гриша
Литература,2.1,2.3,2.3,2.2
Обществознание,6.0,5.0,4.0,5.0


In [92]:
df.query('Аня > 1 and Гриша >= 2')

Unnamed: 0,Аня,Петя,Клавдия,Гриша
Литература,2.1,2.3,2.3,2.2
Обществознание,6.0,5.0,4.0,5.0


## Мультииндекс


In [93]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
ds = pd.Series(populations, index=index)
ds

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [94]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [95]:
ds = ds.reindex(index)

ds

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [96]:
ds[:,2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [97]:
ds['New York']

2000    18976457
2010    19378102
dtype: int64

In [98]:
ds[:,2000]['New York'] # не изящно

18976457

In [99]:
pop_ds = ds.unstack()
pop_ds

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [100]:
pop_ds.stack()


California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [101]:
pop_df = pd.DataFrame({'total': ds,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [102]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [103]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2019, 2020], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 57

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2019,1,46.0,58.4,59.0,57.3,49.0,56.0
2019,2,68.0,56.7,72.0,56.9,45.0,57.2
2020,1,52.0,57.6,48.0,57.8,70.0,57.1
2020,2,60.0,57.2,57.0,58.2,53.0,56.8


In [104]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,1,59.0,57.3
2019,2,72.0,56.9
2020,1,48.0,57.8
2020,2,57.0,58.2


In [105]:
health_data['Guido', 'HR']

year  visit
2019  1        59.0
      2        72.0
2020  1        48.0
      2        57.0
Name: (Guido, HR), dtype: float64

In [106]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2019,1,46.0,58.4
2019,2,68.0,56.7


In [107]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2019  1        46.0
      2        68.0
2020  1        52.0
      2        60.0
Name: (Bob, HR), dtype: float64

In [108]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2019,1,46.0,59.0,49.0
2020,1,52.0,48.0,70.0


In [109]:
health_data.to_excel("health_data.xls")

  health_data.to_excel("health_data.xls")


## Альтернативы Multy Index

### вернемся к табелю успеваемости

In [110]:
df

Unnamed: 0,Аня,Петя,Клавдия,Гриша
Алгебра,1.0,2.0,3.0,2.0
English,2.3,1.2,3.2,1.2
Литература,2.1,2.3,2.3,2.2
Физкультура,4.0,2.5,2.4,1.2
Обществознание,6.0,5.0,4.0,5.0


### добавим еще строку и колонку

In [111]:
new_index = list(df.index)
new_index.append('Физика')
new_index

['Алгебра', 'English', 'Литература', 'Физкультура', 'Обществознание', 'Физика']

In [112]:
df = df.append({'Аня':2.3, 'Петя':2.2, 'Клавдия':4.5, 'Гриша':1.9}, ignore_index=True)
df

  df = df.append({'Аня':2.3, 'Петя':2.2, 'Клавдия':4.5, 'Гриша':1.9}, ignore_index=True)


Unnamed: 0,Аня,Петя,Клавдия,Гриша
0,1.0,2.0,3.0,2.0
1,2.3,1.2,3.2,1.2
2,2.1,2.3,2.3,2.2
3,4.0,2.5,2.4,1.2
4,6.0,5.0,4.0,5.0
5,2.3,2.2,4.5,1.9


In [113]:
df.index = new_index

In [114]:
df["Направление"] = ["Техническое", "Гуманитарное", "Гуманитарное", "Гуманитарное","Гуманитарное","Техническое"]
df

Unnamed: 0,Аня,Петя,Клавдия,Гриша,Направление
Алгебра,1.0,2.0,3.0,2.0,Техническое
English,2.3,1.2,3.2,1.2,Гуманитарное
Литература,2.1,2.3,2.3,2.2,Гуманитарное
Физкультура,4.0,2.5,2.4,1.2,Гуманитарное
Обществознание,6.0,5.0,4.0,5.0,Гуманитарное
Физика,2.3,2.2,4.5,1.9,Техническое


### pandas.pivot(data, index=None, columns=None, values=None)
#### _Возвращает измененный DataFrame, организованный по заданным значениям индекса/столбца._

In [55]:
df_pivot = df.pivot( columns='Направление', values=['Аня','Петя', 'Клавдия', 'Гриша']) 
# index = df.index
df_pivot

Unnamed: 0_level_0,Аня,Аня,Петя,Петя,Клавдия,Клавдия,Гриша,Гриша
Направлене,Гуманитарное,Техническое,Гуманитарное,Техническое,Гуманитарное,Техническое,Гуманитарное,Техническое
English,2.3,,1.2,,3.2,,1.2,
Алгебра,,1.0,,2.0,,3.0,,2.0
Литература,2.1,,2.3,,2.3,,2.2,
Обществознание,6.0,,5.0,,4.0,,5.0,
Физика,,2.3,,2.2,,4.5,,1.9
Физкультура,4.0,,2.5,,2.4,,1.2,


In [115]:
df_pivot.columns

MultiIndex([(    'Аня', 'Гуманитарное'),
            (    'Аня',  'Техническое'),
            (   'Петя', 'Гуманитарное'),
            (   'Петя',  'Техническое'),
            ('Клавдия', 'Гуманитарное'),
            ('Клавдия',  'Техническое'),
            (  'Гриша', 'Гуманитарное'),
            (  'Гриша',  'Техническое')],
           names=[None, 'Направлене'])

### pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
#### _Создается сводная таблицу в стиле электронной таблицы как DataFrame._

In [117]:
df_pivot_table = pd.pivot_table(df,  columns='Направление', values=['Аня','Петя', 'Клавдия', 'Гриша'],
                    aggfunc={'Аня': np.mean,
                             'Петя': np.mean,
                             'Клавдия': np.mean,
                             'Гриша': np.mean
                            })
df_pivot_table

Направление,Гуманитарное,Техническое
Аня,3.6,1.65
Гриша,2.4,1.95
Клавдия,2.975,3.75
Петя,2.75,2.1


In [118]:
df_pivot_table.columns

Index(['Гуманитарное', 'Техническое'], dtype='object', name='Направление')

In [120]:
df_pivot_table = pd.pivot_table(df,  columns='Направление', values=['Аня','Петя', 'Клавдия', 'Гриша'],
                    aggfunc={'Аня': np.min,
                             'Петя': np.min,
                             'Клавдия': np.min,
                             'Гриша': np.min
                            })
df_pivot_table

Направление,Гуманитарное,Техническое
Аня,2.1,1.0
Гриша,1.2,1.9
Клавдия,2.3,3.0
Петя,1.2,2.0
