In [73]:
import pandas as pd
import numpy as np
'''
С помощью пандас можно манипулировать табличными данными. (как продвинутый уровень языка SQL)
series - одна из структур данных библиотеки Pandas. Похожа на словарь но является упорядоченной
'''

'\nС помощью пандас можно манипулировать табличными данными. (как продвинутый уровень языка SQL)\nseries - одна из структур данных библиотеки Pandas. Похожа на словарь но является упорядоченной\n'

In [2]:
a = [2, 5, 7, 8, 3]

b = pd.Series(a)
print(b)

0    2
1    5
2    7
3    8
4    3
dtype: int64


In [4]:
# можно задать индексы явно как цифрами так и символами.
b2 = pd.Series(a, index = [0, 1, 4, 5, 6])
print(b2)

0    2
1    5
4    7
5    8
6    3
dtype: int64


In [5]:
# В качестве индексов можно использовать и другие типы данных
from datetime import date

ind = [date(y, m, d) for y, m, d in [(2018, 1, 17), (2018, 1, 17), (2018, 1, 15), (2018, 1, 21), (2018, 1, 31)]]
b3 = pd.Series(a, index = ind)
print(b3)

2018-01-17    2
2018-01-17    5
2018-01-15    7
2018-01-21    8
2018-01-31    3
dtype: int64


In [9]:
# получим индексы
print(b3.index)
print(b3.index[0].year)
print(b3.index[0].month)

Index([2018-01-17, 2018-01-17, 2018-01-15, 2018-01-21, 2018-01-31], dtype='object')
2018
1


In [10]:
# в массив индексов библиотека помещает не маси данные а только указатели на них. 
# а соответствующие данные хранятся в специально выделенном месте
# так как в данном случае данные хранятся в виде datetime то библиотеки pandas и numpy дают им свой тип данных
# numpy object. мы можем по прежднему пользоваться функционаллом текущего типа но лишь по одному элементу из индекса.
# поэтому мы можем перевести в необходимый тип данных индекс

b3.index = pd.to_datetime(b3.index, format = '%Y-%m-%d')
print(b3.index)

DatetimeIndex(['2018-01-17', '2018-01-17', '2018-01-15', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)


In [12]:
# тогда мы сможем для всех элементов индекса производить какие либо действия, например
print(b3.index.year)

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')


In [14]:
# Индексы могут быть не уникальными
b = pd.Series(a, index = [0, 10, 0, 2, 1])
print(b)

0     2
10    5
0     7
2     8
1     3
dtype: int64


In [15]:
# можно поменять индексы
b.index = [10, 11, 12, 13, 15]
# можно задать тип данных сразу при создании
b = pd.Series(a, dtype = np.float64)
print(b)

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64


In [16]:
# либо у уже созданного Series можно поменять тип данных
b = pd.Series(a)
b = b.astype(np.float64)
print(b)

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64


In [17]:
# создание из словаря, при этом ключи становятся индексами а занчения данными
d = {'1st':'a', '2st':'b', '3st':'c', '4st':'d', '5st':'e'}
b = pd.Series(d)
print(b)

1st    a
2st    b
3st    c
4st    d
5st    e
dtype: object


In [18]:
# Просмотреть данные в виде массива
b.values


array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [19]:
# доступ к данным можно осуществять по индексу
b['1st']

'a'

In [20]:
b.index = [10, 11, 12, 13, 15]
print(b)

10    a
11    b
12    c
13    d
15    e
dtype: object


In [22]:
# доступ по списку индексов
b[[10, 12]]

10    a
12    c
dtype: object

In [24]:
b.head(3)

10    a
11    b
12    c
dtype: object

In [25]:
b.tail(1)

15    e
dtype: object

In [28]:
b[b > 'b' ]

12    c
13    d
15    e
dtype: object

In [30]:
# изменеие элементов
b[11] = 4
print(b)

10    a
11    4
12    c
13    d
15    e
dtype: object


In [31]:
b[[10, 11, 12]] = 1
print(b)

10    1
11    1
12    1
13    d
15    e
dtype: object


In [32]:
# добавление данных
b = b.append(pd.Series({6:10, 7:15, 8:11, 9:14}))
print(b)

10     1
11     1
12     1
13     d
15     e
6     10
7     15
8     11
9     14
dtype: object


In [34]:
# удаление данных по индексу
b = b.drop([13, 15])
print(b)

10     1
11     1
12     1
6     10
7     15
8     11
9     14
dtype: object


In [35]:
# Чтение и запись данных из файла
b.to_pickle('b.pkl')
b2 = pd.read_pickle('b.pkl')
print(b2)

10     1
11     1
12     1
6     10
7     15
8     11
9     14
dtype: object


In [37]:
# Создание dataFrame
# DataFrame - двумерная структура данных библиоткеки Pandas
df = pd.DataFrame({'Col1':['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                    'Col2':[1, 3, 5, 7, 9, 11, 13, 15]},
                  columns=['Col1', 'Col2'])
df

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [38]:
# размерность
df.shape

(8, 2)

In [39]:
# столбцы
df.columns

Index(['Col1', 'Col2'], dtype='object')

In [40]:
# индекс структуры
df.index

RangeIndex(start=0, stop=8, step=1)

In [41]:
# информация
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
Col1    8 non-null object
Col2    8 non-null int64
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


In [43]:
df.describe()

Unnamed: 0,Col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


In [44]:
df['Col1'].head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [45]:
df.tail()

Unnamed: 0,Col1,Col2
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [46]:
df.index = [2, 4, 6, 8, 10, 12, 14, 16]

In [47]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [48]:
# выбрать данные по индексу
df.loc[2, 'Col1']

'a'

In [49]:
df.loc[2, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [50]:
df.loc[2:4, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [51]:
# выбор данных по позиции
df.iloc[0, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [52]:
df.iloc[0:2, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [53]:
df.iloc[0:2, 0]

2    a
4    b
Name: Col1, dtype: object

In [54]:
# выбор по условию
df.loc[df['Col1'] == 'b', :]

Unnamed: 0,Col1,Col2
4,b,3


In [55]:
 df.loc[df['Col1'] == 'b', 'Col2']

4    3
Name: Col2, dtype: int64

In [58]:
# получить в виде массива значений
df.loc[df['Col1'] == 'b', 'Col2'].values

array([3], dtype=int64)

In [59]:
df.loc[df['Col2'] > 10, 'Col1']

12    f
14    g
16    h
Name: Col1, dtype: object

In [60]:
df.loc[(df['Col2'] > 10) & (df['Col1'] != 'g'), :]

Unnamed: 0,Col1,Col2
12,f,11
16,h,15


In [61]:
df.loc[(df['Col2'] > 10) | (df['Col2'] % 9 == 0), :]

Unnamed: 0,Col1,Col2
10,e,9
12,f,11
14,g,13
16,h,15


In [62]:
df.loc[df['Col2'].between(11, 13), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13


In [64]:
df.loc[df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9


In [65]:
df.loc[~df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


In [66]:
df.query('Col1 == "b"')

Unnamed: 0,Col1,Col2
4,b,3


In [68]:
df.query('Col2 > 10')

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


In [72]:
# когда мы выбираем один столбце из DataFrame мы получаем Series
s = df['Col1']
s
type(s)

pandas.core.series.Series

In [73]:
# Получение DataFrame из Series
df2 = pd.DataFrame(s)
df2

Unnamed: 0,Col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


In [75]:
# копирование dataFrame
df_copy = df.copy()
df_copy


Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [76]:
# Получение случайной выборки из DataFrame
df.sample(n = 2) # аргумент - кол во строк результата

Unnamed: 0,Col1,Col2
10,e,9
6,c,5


In [77]:
# случайный выбор доли от исходного датафрейма
df.sample(frac = 0.5)

Unnamed: 0,Col1,Col2
12,f,11
8,d,7
6,c,5
14,g,13


In [78]:
# случайный выбор с возвращением (строки могут повторяться)
df.sample(frac=0.5, replace=True)

Unnamed: 0,Col1,Col2
10,e,9
14,g,13
10,e,9
10,e,9


In [79]:
# Случайное перемешивание
df.sample(frac = 1, random_state=42) # чтобы снова и снова получать данную выборку необходимо прописать рандомное число

Unnamed: 0,Col1,Col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


In [80]:
# Запись и чтение DataFrame в csv
df.to_csv('Test.csv', sep = ';', index = False)
df_new = pd.read_csv('Test.csv', sep = ';')
df_new

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [81]:
# так же можно в excel и pickle


In [74]:
# Работа с данными в Pandas
# Слияние данных
authors = pd.DataFrame({'author_id': [1, 2, 3], 'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky']},
                      columns = ['author_id', 'author_name'])
authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


In [75]:
books = pd.DataFrame({'author_id': [2, 3, 3, 4],
                    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment', 'Fathers and Sons']})
books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The Idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


In [76]:
df1 = pd.merge(authors, books, on = 'author_id', how = 'inner')
df1

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment


In [77]:
df2 = pd.merge(authors, books, on = 'author_id', how = 'left')
df2

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


In [78]:
df3 = pd.merge(authors, books, on = 'author_id', how = 'right')
df3

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment
3,4,,Fathers and Sons


In [79]:
df4 = pd.merge(authors, books, on = 'author_id', how = 'outer')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


In [80]:
# Работа с пропущенными данными
df4.loc[df4['book_title'].isnull(), :]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,


In [26]:
df4.loc[df4['author_name'].notnull(), :]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


In [81]:
df4['book_title'] = df4['book_title'].fillna('unknown')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,unknown
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


In [82]:
df4['author_name'].fillna('unknown', inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,unknown
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


In [83]:
# добавление столбцов
df4.loc[(df4['author_name'] != 'unknown') & (df4['book_title'] != 'unknown'), 'quantity'] = 1
df4


Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,


In [84]:
df4['quantity'].fillna(0, inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [85]:
# установка индекса author_id
df4.set_index('author_id', inplace = True)
df4

Unnamed: 0_level_0,author_name,book_title,quantity
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pushkin,unknown,0.0
2,Tolstoy,War and Peace,1.0
3,Dostoevsky,The Idiot,1.0
3,Dostoevsky,Crime and Punishment,1.0
4,unknown,Fathers and Sons,0.0


In [86]:
df4.reset_index(inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [88]:
# удаление данных
df4['price'] = 500
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0.0,500
1,2,Tolstoy,War and Peace,1.0,500
2,3,Dostoevsky,The Idiot,1.0,500
3,3,Dostoevsky,Crime and Punishment,1.0,500
4,4,unknown,Fathers and Sons,0.0,500


In [89]:
df4 = df4.drop('price', axis = 1)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [90]:
df4 = df.drop(1, axis = 0)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [91]:
df4 = df4.append(pd.DataFrame({'author_id': [2],
                             'author_name': ['Tolstoy'],
                             'book_title': ['War and Peace'],
                             'quantity': [1]},
                             columns = ['author_id', 'author_name', 'book_title', 'quantity']),
                ignore_index=True)


In [92]:
df4.sort_values(by='author_id')

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
4,2,Tolstoy,War and Peace,1.0
1,3,Dostoevsky,The Idiot,1.0
2,3,Dostoevsky,Crime and Punishment,1.0
3,4,unknown,Fathers and Sons,0.0


In [93]:
df5 = pd.DataFrame({'author_id': [3, 5],
                             'author_name': ['Dostoevsky', 'Chekhov'],
                             'book_title': ['The Gambler', 'Three sisters'],
                             'quantity': [2, 3]},
                             columns = ['author_id', 'author_name', 'book_title', 'quantity'])
df5

Unnamed: 0,author_id,author_name,book_title,quantity
0,3,Dostoevsky,The Gambler,2
1,5,Chekhov,Three sisters,3


In [94]:
df6 = pd.concat([df4, df5], axis = 0, ignore_index = True)
df6

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,3,Dostoevsky,The Idiot,1.0
2,3,Dostoevsky,Crime and Punishment,1.0
3,4,unknown,Fathers and Sons,0.0
4,2,Tolstoy,War and Peace,1.0
5,3,Dostoevsky,The Gambler,2.0
6,5,Chekhov,Three sisters,3.0


In [96]:
prices = pd.DataFrame({'price': [700, 450, 500, 400, 350]}, columns=['price'], index=[1,2,3,5,6])
prices

Unnamed: 0,price
1,700
2,450
3,500
5,400
6,350


In [97]:
df7 = pd.concat([df6, prices], axis = 1)
df7

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0.0,
1,3,Dostoevsky,The Idiot,1.0,700.0
2,3,Dostoevsky,Crime and Punishment,1.0,450.0
3,4,unknown,Fathers and Sons,0.0,500.0
4,2,Tolstoy,War and Peace,1.0,
5,3,Dostoevsky,The Gambler,2.0,400.0
6,5,Chekhov,Three sisters,3.0,350.0


In [98]:
# Применеие ффункции и методов
df7['total'] = df7['quantity'] * df7['price']
df7

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,unknown,0.0,,
1,3,Dostoevsky,The Idiot,1.0,700.0,700.0
2,3,Dostoevsky,Crime and Punishment,1.0,450.0,450.0
3,4,unknown,Fathers and Sons,0.0,500.0,0.0
4,2,Tolstoy,War and Peace,1.0,,
5,3,Dostoevsky,The Gambler,2.0,400.0,800.0
6,5,Chekhov,Three sisters,3.0,350.0,1050.0


In [99]:
df7['price'].max()

700.0

In [100]:
df7['price'].min()

350.0

In [101]:
df7['price'].mean()

480.0

In [102]:
df7['price'].median()

450.0

In [103]:
df7['price'].std()

135.09256086106296

In [104]:
df7['price'].var()

18250.0

In [105]:
df7['author_name'].unique()

array(['Pushkin', 'Dostoevsky', 'unknown', 'Tolstoy', 'Chekhov'],
      dtype=object)

In [106]:
df7['author_name'].nunique()

5

In [107]:
df7['author_name'].value_counts()

Dostoevsky    3
Pushkin       1
Tolstoy       1
Chekhov       1
unknown       1
Name: author_name, dtype: int64

In [108]:
df7['book_title'].apply(lambda x: x.upper())

0                 UNKNOWN
1               THE IDIOT
2    CRIME AND PUNISHMENT
3        FATHERS AND SONS
4           WAR AND PEACE
5             THE GAMBLER
6           THREE SISTERS
Name: book_title, dtype: object

In [109]:
# Группировка данных
df7.groupby('author_name')['price'].max()

author_name
Chekhov       350.0
Dostoevsky    700.0
Pushkin         NaN
Tolstoy         NaN
unknown       500.0
Name: price, dtype: float64

In [110]:
price_agg = df7.groupby('author_name').agg({'price': 'max'})
price_agg

Unnamed: 0_level_0,price
author_name,Unnamed: 1_level_1
Chekhov,350.0
Dostoevsky,700.0
Pushkin,
Tolstoy,
unknown,500.0


In [111]:
price_agg = price_agg.reset_index()
price_agg = price_agg.rename(columns={'price':'max_price'})
price_agg


Unnamed: 0,author_name,max_price
0,Chekhov,350.0
1,Dostoevsky,700.0
2,Pushkin,
3,Tolstoy,
4,unknown,500.0
