# Библиотека Pandas

# Основные возможности

Библиотека Pandas делает Python мощным инструментом для анализа данных. С ее помощью удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками Matplotlib и Seaborn появляется возможность удобного визуального анализа табличных данных.

** Pandas **
* дает возможность строить сводные таблицы,
* выполнять группировки, 
* предоставляет удобный доступ к табличным данным.

** Pandas ** умеет работать с широким набором источников данных:
* SQL
* Текстовые файлы (*.txt, *.csv)
* Excel файлы
* HTML
* и др.

In [1]:
from pandas import read_csv 
df1 = read_csv('df1.txt', sep=";", decimal=',', encoding = 'utf-8-sig')
df1

Unnamed: 0,shop,qty
0,427,3
1,707,4
2,957,2
3,437,1


# Cтруктуры данных

## Series (1D)

** Series (1D) ** – это проиндексированный одномерный массив значений. Он похож на простой словарь типа dict, где имя элемента соответствует индексу, а значение – значению записи.

In [2]:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) 
s

a    2.315918
b    0.029613
c    1.530393
d    0.120361
e   -0.666416
dtype: float64

In [3]:
print(s['c'])

1.53039292841


* Индексирование возможно в виде s.Name или s['Name']:

In [4]:
print(s.b == s['b'])

True


* **Series** поддерживает пропуски в данных:

In [5]:
s.c = np.nan

* Применимы операции взятия срезов:

In [6]:
print(s[:3]) 

a    2.315918
b    0.029613
c         NaN
dtype: float64


* Фильтрация данных:

In [7]:
print('There are', len(s[s > 0]), 'positive elements in s\n')

There are 3 positive elements in s



* Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy:

In [8]:
print(np.exp(s))

a    10.134218
b     1.030056
c          NaN
d     1.127903
e     0.513546
dtype: float64


* К спискам Series можно применять арифметические операции, которые выполняются поэлементно. Так, можно сложить два списка одинакового размера или умножить список на число.

In [47]:
print(2 * s * s + 1)

a    11.726949
b     1.001754
c          NaN
d     1.028973
e     1.888221
dtype: float64


## DataFrame (2D)

** DataFrame (2D) ** — это проиндексированный двумерный массив значений, соответственно каждый столбец **DataFrame** является структурой **Series**. Он отлично подходит для представления реальных данных: столбцы соответствуют признакам, а  строки - признаковым описаниям отдельных объектов.

In [9]:
df3 = pd.DataFrame(np.random.randn(8, 3),
                   index=pd.date_range('1/1/2016', periods=8),
                   columns=['A', 'B', 'C']) 
df3

Unnamed: 0,A,B,C
2016-01-01,-1.230291,-1.630489,-0.615419
2016-01-02,-0.805837,0.651497,-0.003628
2016-01-03,0.130811,0.170999,-0.436417
2016-01-04,-0.19901,-0.262889,0.226405
2016-01-05,-0.682811,0.851462,-1.84482
2016-01-06,1.066799,-0.027782,1.731407
2016-01-07,-1.507228,-0.943056,-0.244126
2016-01-08,-0.762284,-0.144448,-0.612154


Создание  **DataFrame** с неоднородными столбцами:

In [10]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ['a', 'b', 'c', 'd', 'e'], 
                    'C': np.arange(5) > 2}) 
df2

Unnamed: 0,A,B,C
0,0.390248,a,False
1,0.48634,b,False
2,0.007243,c,False
3,0.242918,d,True
4,0.536379,e,True


## Panel (3D)

**Panel (3D)** —  это проиндексированный трехмерный массив значений.

In [11]:
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'],
              major_axis=pd.date_range('1/1/2016', periods=5),
              minor_axis=['A', 'B', 'C', 'D']) 
wp 

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2016-01-01 00:00:00 to 2016-01-05 00:00:00
Minor_axis axis: A to D

Pandas поддерживает и работу с многомерными объектами.

# Базовые операции

* Объединение наборов данных:

In [23]:
df2 = read_csv("df2.txt", sep=';', decimal=',', encoding='utf-8-sig')
df2 = df2.merge(df1, 'left', on='shop') # похожа на JOIN в SQL (такие же параметры: left, right, inner)
df2

Unnamed: 0,shop,name,qty
0,347,Киев,
1,427,Самара,3.0
2,707,Минск,4.0
3,957,Иркутск,2.0
4,437,Москва,1.0


* Добавление столбцов:

In [24]:
country = ['Украина', 'РФ', 'Беларусь', 'РФ', 'РФ']
df2.insert(1, 'country', country) #Первый параметр указывает после какого столбца следует добавить столбец.
                                 #Если размерность вставляемого столбца не совпадает, будет ошибка.
df2

Unnamed: 0,shop,country,name,qty
0,347,Украина,Киев,
1,427,РФ,Самара,3.0
2,707,Беларусь,Минск,4.0
3,957,РФ,Иркутск,2.0
4,437,РФ,Москва,1.0


* Добавление записей (строк):

In [25]:
news = pd.DataFrame([["Name", "444", "Moscow"], ["N2", "43", "Tula"]], columns=["country", "shop", 'name']) 
df3 = df2.append(news) # команда append не изменяет текущий DataFrame, а возращает новый
df3

Unnamed: 0,country,name,qty,shop
0,Украина,Киев,,347
1,РФ,Самара,3.0,427
2,Беларусь,Минск,4.0,707
3,РФ,Иркутск,2.0,957
4,РФ,Москва,1.0,437
0,Name,Moscow,,444
1,N2,Tula,,43


* Фильтрация данных:

In [15]:
print('There are', len(df3[df3 > 0]), 'positive elements in df3\n')

There are 7 positive elements in df3



* Взятие выборки:

In [16]:
dset = df2[df2.shop == 957] 
dset

Unnamed: 0,shop,country,name
3,957,РФ,Иркутск


* Группировка данных:

In [17]:
# Для каждого уникального значения A найти минимальный B 
d = pd.DataFrame({'A': [1, 2, 2, 1, 3, 3], 'B': [1, 2, 3, 3, 2, 1]}) 
d

Unnamed: 0,A,B
0,1,1
1,2,2
2,2,3
3,1,3
4,3,2
5,3,1


In [18]:
print(d.loc[d.groupby('A')['B'].idxmin()])

   A  B
0  1  1
1  2  2
5  3  1


* Построение сводных таблиц (GROUP BY в SQL):

In [26]:
df2

Unnamed: 0,shop,country,name,qty
0,347,Украина,Киев,
1,427,РФ,Самара,3.0
2,707,Беларусь,Минск,4.0
3,957,РФ,Иркутск,2.0
4,437,РФ,Москва,1.0


In [27]:
new_res = df2.pivot_table(['qty'], ['country'], aggfunc='sum', fill_value=0) # параметры:
        # 1-ый: по чему будет выполняться расчет;
        # 2-й: список столбцов итоговой таблицы;
        # 3-й: как считать;
        # 4-й: чем заполнять пустые значения.
new_res

Unnamed: 0_level_0,qty
country,Unnamed: 1_level_1
Беларусь,4
РФ,6
Украина,0


# Иерархическая (многоуровневая) индексация

In [28]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], 
                    ['one', 'two', 'one', 'two','one', 'two', 'one', 'two']])) 
print(tuples)

[('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]


In [29]:
index1 = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) 
df = pd.DataFrame(np.random.randn(8, 2), index=index1, columns=['A', 'B']) 
print(df)

                     A         B
first second                    
bar   one    -1.197810 -0.241551
      two    -0.512390 -0.451757
baz   one    -1.224862  1.093550
      two     0.770834 -0.753719
foo   one    -0.519362 -0.407468
      two    -0.481633 -0.883505
qux   one     1.291748 -0.442164
      two    -0.852747 -0.378528


In [30]:
print(df.stack()) # обратная операция unstack() 

first  second   
bar    one     A   -1.197810
               B   -0.241551
       two     A   -0.512390
               B   -0.451757
baz    one     A   -1.224862
               B    1.093550
       two     A    0.770834
               B   -0.753719
foo    one     A   -0.519362
               B   -0.407468
       two     A   -0.481633
               B   -0.883505
qux    one     A    1.291748
               B   -0.442164
       two     A   -0.852747
               B   -0.378528
dtype: float64


# Pivot table (сводная таблица)

In [35]:
df = pd.DataFrame({'ind1': [1, 1, 1, 2, 2, 2, 2],
                   'ind2': [1, 1, 2, 2, 3, 3, 2],
                   'x': [1, 2, 3, 4, 5, 6, 7],
                   'y': [1, 1, 1, 1, 1, 1, 2]}) 
df

Unnamed: 0,ind1,ind2,x,y
0,1,1,1,1
1,1,1,2,1
2,1,2,3,1
3,2,2,4,1
4,2,3,5,1
5,2,3,6,1
6,2,2,7,2


In [36]:
df.pivot(index='x', columns='ind2', values='y')

ind2,1,2,3
x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.0,,
2,1.0,,
3,,1.0,
4,,1.0,
5,,,1.0
6,,,1.0
7,,2.0,


In [37]:
dfp = df.pivot_table(index=['ind1', 'ind2'], aggfunc='sum')
df

Unnamed: 0,ind1,ind2,x,y
0,1,1,1,1
1,1,1,2,1
2,1,2,3,1
3,2,2,4,1
4,2,3,5,1
5,2,3,6,1
6,2,2,7,2


In [38]:
dfp

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
ind1,ind2,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,3,2
1,2,3,1
2,2,11,3
2,3,11,2
