# Библиотека Pandas

# Основные возможности

Библиотека Pandas делает Python мощным инструментом для анализа данных. С ее помощью удобно загружать, обрабатывать и анализировать табличные данные с помощью SQL-подобных запросов. В связке с библиотеками Matplotlib и Seaborn появляется возможность удобного визуального анализа табличных данных.

** Pandas **
* дает возможность строить сводные таблицы,
* выполнять группировки, 
* предоставляет удобный доступ к табличным данным.

** Pandas ** умеет работать с широким набором источников данных:
* SQL
* Текстовые файлы (*.txt, *.csv)
* Excel файлы
* HTML
* и др.

In [1]:
from pandas import read_csv 
df1 = read_csv('df1.txt', sep=";", decimal=',', encoding = 'utf-8-sig')
df1

Unnamed: 0,shop,qty
0,427,3
1,707,4
2,957,2
3,437,1


# Cтруктуры данных

## Series (1D)

** Series (1D) ** – это проиндексированный одномерный массив значений. Он похож на простой словарь типа dict, где имя элемента соответствует индексу, а значение – значению записи.

In [2]:
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) 
s

a   -1.170662
b    2.358135
c   -1.840366
d    1.426490
e   -0.809149
dtype: float64

In [3]:
print(s['c'])

-1.84036581568


* Индексирование возможно в виде s.Name или s['Name']:

In [4]:
print(s.b == s['b'])

True


* **Series** поддерживает пропуски в данных:

In [5]:
s.c = np.nan

* Применимы операции взятия срезов:

In [6]:
print(s[:3]) 

a   -1.170662
b    2.358135
c         NaN
dtype: float64


* Фильтрация данных:

In [7]:
print('There are', len(s[s > 0]), 'positive elements in s\n')

There are 2 positive elements in s



* Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy:

In [8]:
print(np.exp(s))

a     0.310162
b    10.571216
c          NaN
d     4.164058
e     0.445237
dtype: float64


## DataFrame (2D)

** DataFrame (2D) ** — это проиндексированный двумерный массив значений, соответственно каждый столбец **DataFrame** является структурой **Series**. Он отлично подходит для представления реальных данных: столбцы соответствуют признакам, а  строки - признаковым описаниям отдельных объектов.

In [9]:
df3 = pd.DataFrame(np.random.randn(8, 3),
                   index=pd.date_range('1/1/2016', periods=8),
                   columns=['A', 'B', 'C']) 
df3

Unnamed: 0,A,B,C
2016-01-01,0.961209,1.821566,-0.075719
2016-01-02,0.371296,0.814516,0.438158
2016-01-03,-2.538576,-0.943226,-0.57389
2016-01-04,-1.389238,-0.062414,0.299852
2016-01-05,-2.041339,0.723207,-0.243597
2016-01-06,-1.437758,-1.037278,-1.810663
2016-01-07,-1.593434,-0.942821,2.277435
2016-01-08,-0.115026,1.667048,0.24416


Создание  **DataFrame** с неоднородными столбцами:

In [10]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ['a', 'b', 'c', 'd', 'e'], 
                    'C': np.arange(5) > 2}) 
df2

Unnamed: 0,A,B,C
0,0.160093,a,False
1,0.423673,b,False
2,0.296343,c,False
3,0.380087,d,True
4,0.144572,e,True


## Panel (3D)

**Panel (3D)** —  это проиндексированный трехмерный массив значений.

In [11]:
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'],
              major_axis=pd.date_range('1/1/2016', periods=5),
              minor_axis=['A', 'B', 'C', 'D']) 
wp 

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2016-01-01 00:00:00 to 2016-01-05 00:00:00
Minor_axis axis: A to D

Pandas поддерживает и работу с многомерными объектами.

# Базовые операции

* Объединение наборов данных:

In [12]:
df2 = read_csv("df2.txt", sep=';', decimal=',', encoding='utf-8-sig')
res = df2.merge(df1, 'left', on='shop') # похожа на JOIN в SQL (такие же параметры: left, right, inner)
res

Unnamed: 0,shop,name,qty
0,347,Киев,
1,427,Самара,3.0
2,707,Минск,4.0
3,957,Иркутск,2.0
4,437,Москва,1.0


* Добавление столбцов:

In [13]:
dataset = [i for i in range(4)]
df1.insert(1, 'A1', dataset) #Первый параметр указывает после какого столбца следует добавить столбец.
                             #Если размерность вставляемого столбца не совпадает, будет ошибка.
df1

Unnamed: 0,shop,A1,qty
0,427,0,3
1,707,1,4
2,957,2,2
3,437,3,1


* Добавление записей (строк):

In [14]:
df2

Unnamed: 0,shop,name
0,347,Киев
1,427,Самара
2,707,Минск
3,957,Иркутск
4,437,Москва


In [15]:
news = pd.DataFrame([["Name", "444", "Moscow"], ["N2", "43", "Tula"]], columns=["country", "shop", "town"]) 
df3 = df2.append(news) # команда append не изменяет текущий DataFrame, а возращает новый
df3

Unnamed: 0,name,country,shop,town
0,Киев,,347,
1,Самара,,427,
2,Минск,,707,
3,Иркутск,,957,
4,Москва,,437,
0,,Name,444,Moscow
1,,N2,43,Tula


* Фильтрация данных:

In [16]:
print('There are', len(df3[df3 > 0]), 'positive elements in df3\n')

There are 7 positive elements in df3



* Взятие выборки:

In [17]:
dset = df2[df2.shop == 957] 
dset

Unnamed: 0,shop,name
3,957,Иркутск


* Группировка данных:

In [18]:
# Для каждого уникального значения A найти минимальный B 
d = pd.DataFrame({'A': [1, 2, 2, 1, 3, 3], 'B': [1, 2, 3, 3, 2, 1]}) 
d

Unnamed: 0,A,B
0,1,1
1,2,2
2,2,3
3,1,3
4,3,2
5,3,1


In [19]:
print(d.loc[d.groupby('A')['B'].idxmin()]) # первый способ 

   A  B
0  1  1
1  2  2
5  3  1


In [20]:
print(d.sort('B').groupby('A', as_index=False).first()) # второй способ

   A  B
0  1  1
1  2  2
2  3  1


  if __name__ == '__main__':


# ^ странный ворнинг

* Построение сводных таблиц (GROUP BY в SQL):

In [21]:
res

Unnamed: 0,shop,name,qty
0,347,Киев,
1,427,Самара,3.0
2,707,Минск,4.0
3,957,Иркутск,2.0
4,437,Москва,1.0


In [22]:
new_res = res.pivot_table(['qty'], ['country'], aggfunc='sum', fill_value = 0) # параметры:
        # 1-ый: по чему будет выполняться расчет;
        # 2-й: список столбцов итоговой таблицы;
        # 3-й: как считать;
        # 4-й: чем заполнять пустые значения.
new_res

KeyError: 'country'

## ^ непонятненько, загадочно, не хочет видеть name

# Иерархическая (многоуровневая) индексация

In [23]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], 
                    ['one', 'two', 'one', 'two','one', 'two', 'one', 'two']])) 
print(tuples)

[('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]


In [24]:
index1 = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) 
df = pd.DataFrame(np.random.randn(8, 2), index=index1, columns=['A', 'B']) 
print(df)

                     A         B
first second                    
bar   one    -1.119488 -0.095911
      two    -1.589933  0.427569
baz   one    -0.754748 -0.043446
      two     0.458707  1.187332
foo   one    -0.257783  0.045991
      two     0.802320 -0.981245
qux   one     0.904125  0.222872
      two    -1.406246 -0.998784


In [25]:
print(df.stack()) # обратная операция unstack() 

first  second   
bar    one     A   -1.119488
               B   -0.095911
       two     A   -1.589933
               B    0.427569
baz    one     A   -0.754748
               B   -0.043446
       two     A    0.458707
               B    1.187332
foo    one     A   -0.257783
               B    0.045991
       two     A    0.802320
               B   -0.981245
qux    one     A    0.904125
               B    0.222872
       two     A   -1.406246
               B   -0.998784
dtype: float64


# Pivot table (сводная таблица)

In [26]:
df = pd.DataFrame({'ind1':[1, 1, 1, 2, 2, 2, 2],
                   'ind2':[1, 1, 2, 2, 3, 3, 2],
                   'x':[1, 2, 3, 4, 5, 6, 7],
                   'y':[1, 1, 1, 1, 1, 1, 2]}) 
print(df)

   ind1  ind2  x  y
0     1     1  1  1
1     1     1  2  1
2     1     2  3  1
3     2     2  4  1
4     2     3  5  1
5     2     3  6  1
6     2     2  7  2


In [27]:
print(df.pivot(index='x', columns='ind2', values='y'))

ind2    1    2    3
x                  
1     1.0  NaN  NaN
2     1.0  NaN  NaN
3     NaN  1.0  NaN
4     NaN  1.0  NaN
5     NaN  NaN  1.0
6     NaN  NaN  1.0
7     NaN  2.0  NaN


## ^непонятно, что происходит

In [28]:
dfp = df.pivot_table(index=['ind1', 'ind2'], aggfunc='sum')
print(df)

   ind1  ind2  x  y
0     1     1  1  1
1     1     1  2  1
2     1     2  3  1
3     2     2  4  1
4     2     3  5  1
5     2     3  6  1
6     2     2  7  2


In [29]:
print(dfp) 

            x  y
ind1 ind2       
1    1      3  2
     2      3  1
2    2     11  3
     3     11  2
