# Библиотека Pandas

# Основные возможности

Библиотека Pandas делает Python мощным инструментом для анализа данных. Работа Pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. С ее помощью удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками Matplotlib и Seaborn появляется возможность удобного визуального анализа табличных данных.

Название библиотеки происходит от эконометрического термина «**пан**ельные **да**нные».

** Pandas **
* дает возможность строить сводные таблицы,
* выполнять группировки, 
* предоставляет удобный доступ к табличным данным.

** Pandas ** умеет работать с широким набором источников данных:
* SQL
* Текстовые файлы (*.txt, *.csv)
* Excel файлы
* HTML
* и др.

In [1]:
from pandas import read_csv 
df1 = read_csv('df1.txt', sep=";", decimal=',', encoding = 'utf-8-sig')
df1

Unnamed: 0,shop,qty
0,427,3
1,707,4
2,957,2
3,437,1


# Cтруктуры данных

## Series (1D)

** Series (1D) ** – это проиндексированный одномерный массив значений. Он похож на простой словарь типа dict, где имя элемента соответствует ключу, а значение – значению записи.

In [2]:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) 
s

a   -0.738621
b    1.014577
c    1.953101
d    0.109037
e    0.139139
dtype: float64

In [3]:
print(s['c'])

1.95310075339


* Индексирование возможно в виде s.Name или s['Name']:

In [4]:
print(s.b == s['b'])

True


* **Series** поддерживает пропуски в данных:

In [5]:
s.c = np.nan

* Применимы операции взятия срезов:

In [6]:
print(s[:3]) 

a   -0.738621
b    1.014577
c         NaN
dtype: float64


* Фильтрация данных:

In [7]:
print('Положительные элементы в списке:\n', s[s > 0], sep='', end='\n\n')
print('Элементы, ключи которых находятся раньше "с":\n', s[s.index < 'c'], sep='')

Положительные элементы в списке:
b    1.014577
d    0.109037
e    0.139139
dtype: float64

Элементы, ключи которых находятся раньше "с":
a   -0.738621
b    1.014577
dtype: float64


* Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy:

In [8]:
print(np.exp(s))

a    0.477772
b    2.758198
c         NaN
d    1.115204
e    1.149284
dtype: float64


* К спискам Series можно применять арифметические операции, которые выполняются поэлементно. Так, можно сложить два списка одинакового размера или умножить список на число:

In [9]:
print(2 * s * s + 1)

a    2.091121
b    3.058735
c         NaN
d    1.023778
e    1.038719
dtype: float64


* Есть возможность делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [10]:
s[['a', 'c', 'd']] = -1
s

a   -1.000000
b    1.014577
c   -1.000000
d   -1.000000
e    0.139139
dtype: float64

Индексы можно поменять в процессе работы, присвоив список атрибуту **index** объекта Series:

In [11]:
s.index = ['A', 'B', 'C', 'D', 'E']
s

A   -1.000000
B    1.014577
C   -1.000000
D   -1.000000
E    0.139139
dtype: float64

## DataFrame (2D)

** DataFrame (2D) ** — это проиндексированный двумерный массив значений, соответственно каждый столбец **DataFrame** является структурой **Series**. Он отлично подходит для представления реальных данных: столбцы соответствуют признакам, а  строки - признаковым описаниям отдельных объектов.

In [12]:
df3 = pd.DataFrame(np.random.randn(8, 3),
                   index=pd.date_range('1/1/2016', periods=8),
                   columns=['A', 'B', 'C']) 
df3

Unnamed: 0,A,B,C
2016-01-01,-1.94246,-0.73922,0.352957
2016-01-02,-0.520464,1.552517,-0.517912
2016-01-03,1.682261,-0.388093,-0.010736
2016-01-04,0.43788,-0.049847,0.756627
2016-01-05,-0.526353,0.102491,-1.112666
2016-01-06,-0.338367,-1.241973,0.096983
2016-01-07,0.95527,0.313187,0.886577
2016-01-08,-1.804898,2.144823,0.647946


Создание  **DataFrame** с неоднородными столбцами:

In [35]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ['a', 'b', 'c', 'd', 'e'], 
                    'C': np.arange(5) > 2}) 
df2

Unnamed: 0,A,B,C
0,0.567764,a,False
1,0.110349,b,False
2,0.349065,c,False
3,0.256361,d,True
4,0.572428,e,True


Объект **DataFrame** имеет 2 индекса: по строкам и по столбцам:

In [14]:
print(df3.index, end='\n\n')
print(df3.columns)

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08'],
              dtype='datetime64[ns]', freq='D')

Index(['A', 'B', 'C'], dtype='object')


Доступ к элементам по индексу возможен несколькими способами:

* .**loc** - используется для доступа по строковой метке
* .**iloc** - используется для доступа по числовому значению (начиная от 0)

In [15]:
df2.loc[[2, 4], 'B']

2    c
4    e
Name: B, dtype: object

## Panel (3D)

**Panel (3D)** —  это проиндексированный трехмерный массив значений.

In [16]:
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'],
              major_axis=pd.date_range('1/1/2016', periods=5),
              minor_axis=['A', 'B', 'C', 'D']) 
wp 

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2016-01-01 00:00:00 to 2016-01-05 00:00:00
Minor_axis axis: A to D

Pandas поддерживает и работу с многомерными объектами.

# Базовые операции

* Объединение наборов данных:

In [17]:
df2 = read_csv("df2.txt", sep=';', decimal=',', encoding='utf-8-sig')
df2 = df2.merge(df1, 'left', on='shop') # похожа на JOIN в SQL (такие же параметры: left, right, inner)
df2

Unnamed: 0,shop,name,qty
0,347,Киев,
1,427,Самара,3.0
2,707,Минск,4.0
3,957,Иркутск,2.0
4,437,Москва,1.0


* Добавление столбцов:

In [18]:
country = ['Украина', 'РФ', 'Беларусь', 'РФ', 'РФ']
df2.insert(1, 'country', country) #Первый параметр указывает после какого столбца следует добавить столбец.
                                 #Если размерность вставляемого столбца не совпадает, будет ошибка.
df2

Unnamed: 0,shop,country,name,qty
0,347,Украина,Киев,
1,427,РФ,Самара,3.0
2,707,Беларусь,Минск,4.0
3,957,РФ,Иркутск,2.0
4,437,РФ,Москва,1.0


* Добавление записей (строк):

In [19]:
news = pd.DataFrame([["Name", "444", "Moscow"], ["N2", "43", "Tula"]], columns=["country", "shop", 'name']) 
df3 = df2.append(news) # команда append не изменяет текущий DataFrame, а возращает новый
df3

Unnamed: 0,country,name,qty,shop
0,Украина,Киев,,347
1,РФ,Самара,3.0,427
2,Беларусь,Минск,4.0,707
3,РФ,Иркутск,2.0,957
4,РФ,Москва,1.0,437
0,Name,Moscow,,444
1,N2,Tula,,43


* Фильтрация данных:

In [45]:
print('There are', len(df3.qty[df3.qty > 0]), 'positive elements in qty\n')

There are 4 positive elements in qty



* Взятие выборки:

In [21]:
dset = df2[df2.shop == 957] 
dset

Unnamed: 0,shop,country,name,qty
3,957,РФ,Иркутск,2.0


* Группировка данных:

In [22]:
# Для каждого уникального значения A найти минимальный B 
d = pd.DataFrame({'A': [1, 2, 2, 1, 3, 3], 'B': [1, 2, 3, 3, 2, 1]}) 
d

Unnamed: 0,A,B
0,1,1
1,2,2
2,2,3
3,1,3
4,3,2
5,3,1


In [23]:
print(d.loc[d.groupby('A')['B'].idxmin()])

   A  B
0  1  1
1  2  2
5  3  1


* Построение сводных таблиц (GROUP BY в SQL):

In [24]:
df2

Unnamed: 0,shop,country,name,qty
0,347,Украина,Киев,
1,427,РФ,Самара,3.0
2,707,Беларусь,Минск,4.0
3,957,РФ,Иркутск,2.0
4,437,РФ,Москва,1.0


In [25]:
new_res = df2.pivot_table(['qty'], ['country'], aggfunc='sum', fill_value=0) # параметры:
        # 1-ый: по чему будет выполняться расчет;
        # 2-й: список столбцов итоговой таблицы;
        # 3-й: как считать;
        # 4-й: чем заполнять пустые значения.
new_res

Unnamed: 0_level_0,qty
country,Unnamed: 1_level_1
Беларусь,4
РФ,6
Украина,0


# Иерархическая (многоуровневая) индексация

In [26]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], 
                    ['one', 'two', 'one', 'two','one', 'two', 'one', 'two']])) 
print(tuples)

[('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]


In [27]:
index1 = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) 
df = pd.DataFrame(np.random.randn(8, 2), index=index1, columns=['A', 'B']) 
print(df)

                     A         B
first second                    
bar   one    -0.818288 -0.908068
      two    -1.134250 -0.568076
baz   one    -0.660429  0.521894
      two     0.335369  1.843277
foo   one     0.249952 -0.746251
      two    -2.073181 -0.320745
qux   one     0.077002 -0.310938
      two     0.329941  0.633243


In [28]:
print(df.stack()) # обратная операция unstack() 

first  second   
bar    one     A   -0.818288
               B   -0.908068
       two     A   -1.134250
               B   -0.568076
baz    one     A   -0.660429
               B    0.521894
       two     A    0.335369
               B    1.843277
foo    one     A    0.249952
               B   -0.746251
       two     A   -2.073181
               B   -0.320745
qux    one     A    0.077002
               B   -0.310938
       two     A    0.329941
               B    0.633243
dtype: float64


# Pivot table (сводная таблица)

In [29]:
df = pd.DataFrame({'ind1': [1, 1, 1, 2, 2, 2, 2],
                   'ind2': [1, 1, 2, 2, 3, 3, 2],
                   'x': [1, 2, 3, 4, 5, 6, 7],
                   'y': [1, 1, 1, 1, 1, 1, 2]}) 
df

Unnamed: 0,ind1,ind2,x,y
0,1,1,1,1
1,1,1,2,1
2,1,2,3,1
3,2,2,4,1
4,2,3,5,1
5,2,3,6,1
6,2,2,7,2


In [30]:
df.pivot(index='x', columns='ind2', values='y')

ind2,1,2,3
x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.0,,
2,1.0,,
3,,1.0,
4,,1.0,
5,,,1.0
6,,,1.0
7,,2.0,


In [31]:
dfp = df.pivot_table(index=['ind1', 'ind2'], aggfunc='sum')
df

Unnamed: 0,ind1,ind2,x,y
0,1,1,1,1
1,1,1,2,1
2,1,2,3,1
3,2,2,4,1
4,2,3,5,1
5,2,3,6,1
6,2,2,7,2


In [32]:
dfp

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
ind1,ind2,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,3,2
1,2,3,1
2,2,11,3
2,3,11,2
