<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500 height=450/></p>

<h3 style="text-align: center;"><b>"Глубокое обучение". Продвинутый поток</b></h3>

<h2 style="text-align: center;"><b>День 3. Библиотека <a href="http://pandas.pydata.org/">pandas</a></b></h2>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [1]:
# !pip install numpy pandas

In [2]:
import numpy as np
import pandas as pd

## pd.Series

Одномерный набор данных. Похож на `np.ndarray`, но с более расширенным функционалом

In [3]:
np.random.seed(42)

In [4]:
np_array = np.random.randint(low=-15, high=20, size=4)
np_array

array([13, -1, -8,  5])

In [5]:
# Series можно сделать из массива
pd_series_1 = pd.Series(np_array)
pd_series_1

0    13
1    -1
2    -8
3     5
dtype: int32

In [6]:
# Так же можно аннотировать индексы, чтобы потом было более удобно обращаться к элементам
pd_series_2 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'])
pd_series_2

1st day    13
2nd day    -1
3rd day    -8
4th day     5
dtype: int32

In [7]:
pd_series_2['4th day']

5

In [8]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
pd_series_3 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'], name='Temperature')
pd_series_3

1st day    13
2nd day    -1
3rd day    -8
4th day     5
Name: Temperature, dtype: int32

In [9]:
# с индексами можно работать так же, как и в случае с обычным list
print(pd_series_3[0])
print('*'*5)
print(pd_series_3[1:3])
print('*'*5)
print(pd_series_3[::-1])

13
*****
2nd day   -1
3rd day   -8
Name: Temperature, dtype: int32
*****
4th day     5
3rd day    -8
2nd day    -1
1st day    13
Name: Temperature, dtype: int32


`series` можно отсортировать как по значениям, так и по индексу

In [10]:
pd_series_3.sort_index()

1st day    13
2nd day    -1
3rd day    -8
4th day     5
Name: Temperature, dtype: int32

In [11]:
pd_series_3.sort_values()

3rd day    -8
2nd day    -1
4th day     5
1st day    13
Name: Temperature, dtype: int32

с `series` можно работать как с `np.ndarray`

In [12]:
pd_series_3 + 100

1st day    113
2nd day     99
3rd day     92
4th day    105
Name: Temperature, dtype: int32

In [13]:
np.exp(pd_series_3)

1st day    442413.392009
2nd day         0.367879
3rd day         0.000335
4th day       148.413159
Name: Temperature, dtype: float64

In [14]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

print('Term1:\n{}\n\nTerm2:\n{}\n\nSum:\n{}'.format(term_1, term_2, term_1 + term_2))

Term1:
0    6
1    9
2    2
3    6
4    7
dtype: int32

Term2:
0    4
1    3
2    7
3    7
4    2
5    5
dtype: int32

Sum:
0    10.0
1    12.0
2     9.0
3    13.0
4     9.0
5     NaN
dtype: float64


In [15]:
term_1.shape

(5,)

In [16]:
date_range = pd.date_range('20190101', periods=10)
pd_series_4 = pd.Series(np.random.rand(10), date_range)
pd_series_4

2019-01-01    0.056412
2019-01-02    0.721999
2019-01-03    0.938553
2019-01-04    0.000779
2019-01-05    0.992212
2019-01-06    0.617482
2019-01-07    0.611653
2019-01-08    0.007066
2019-01-09    0.023062
2019-01-10    0.524775
Freq: D, dtype: float64

In [17]:
pd_series_4 > 0.5

2019-01-01    False
2019-01-02     True
2019-01-03     True
2019-01-04    False
2019-01-05     True
2019-01-06     True
2019-01-07     True
2019-01-08    False
2019-01-09    False
2019-01-10     True
Freq: D, dtype: bool

в качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых знвчение является `True`

In [18]:
pd_series_4[pd_series_4 > 0.5]

2019-01-02    0.721999
2019-01-03    0.938553
2019-01-05    0.992212
2019-01-06    0.617482
2019-01-07    0.611653
2019-01-10    0.524775
dtype: float64

In [19]:
pd_series_4[(pd_series_4 > 0.5) & (pd_series_4 < 0.6)]

2019-01-10    0.524775
Freq: D, dtype: float64

In [20]:
pd_series_4[(pd_series_4 > 0.6) | (pd_series_4 < 0.2)]

2019-01-01    0.056412
2019-01-02    0.721999
2019-01-03    0.938553
2019-01-04    0.000779
2019-01-05    0.992212
2019-01-06    0.617482
2019-01-07    0.611653
2019-01-08    0.007066
2019-01-09    0.023062
Freq: D, dtype: float64

## DataFrame

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [21]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df=pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [22]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [23]:
df.columns

Index(['one', 'two'], dtype='object')

In [24]:
df['one']['c']

3.0

In [25]:
df.one

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

Если указать диапазон индексов, то это означает диапазон строк. Причём **последняя строка включается в таблицу.**

Диапазон целых чисел даёт диапазон строк с такими номерами, **не включая последнюю строку** (как обычно при индексировании списков). 

На это стоит обратить внимание

In [26]:
df['b':'d']

Unnamed: 0,one,two
b,2.0,2
c,3.0,3
d,,4


In [27]:
df[3:1:-1]

Unnamed: 0,one,two
d,,4
c,3.0,3


In [28]:
df['three'] = df['one'] * df['two']
df

Unnamed: 0,one,two,three
a,1.0,1,1.0
b,2.0,2,4.0
c,3.0,3,9.0
d,,4,


In [29]:
# concatinating
df2=pd.DataFrame({'one':{'e':0,'f':1},'one_tr':{'e':2}})
df2

Unnamed: 0,one,one_tr
e,0,2.0
f,1,


In [30]:
pd.concat([df,df2], sort=False)

Unnamed: 0,one,two,three,one_tr
a,1.0,1.0,1.0,
b,2.0,2.0,4.0,
c,3.0,3.0,9.0,
d,,4.0,,
e,0.0,,,2.0
f,1.0,,,


Теперь попробуем поработать с настоящими данными

### Скачать данные: https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps

In [31]:
#!wget https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/download
#!ls
!cat sample_data/README.md

'cat' is not recognized as an internal or external command,
operable program or batch file.


In [35]:
data = pd.read_csv('AppleStore.csv')

# вывести первые 5 строк
# data.head(10)
# вывести последние 5 строк
# data.tail(5)
# вывести 5 случайных строк
data.sample(5)

Unnamed: 0.1,Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
3817,4698,997392079,My Uncrowded,171746304,USD,0.99,224,6,3.0,2.5,18,17+,Games,40,5,1,1
2327,2722,757843896,Cursive Writing Wizard - Kids Learn to Write L...,52457472,USD,4.99,121,17,5.0,4.5,3.0.2,4+,Education,37,5,2,1
2812,3354,897880328,EOPAN,34338816,USD,0.0,0,0,0.0,0.0,2.2.0,4+,Photo & Video,37,1,2,1
4490,5693,1047113274,【謎解き】罪と罰-ノベルゲーム型 推理アドベンチャー,39232512,USD,0.0,5,0,4.0,0.0,1.9,12+,Book,37,0,1,1
6970,10444,1162719828,gogogo,7212032,USD,0.0,0,0,0.0,0.0,1.0,4+,Shopping,38,0,2,1


In [36]:
data = pd.read_csv('./AppleStore.csv', index_col=0)

data.head()

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
2,281796108,Evernote - stay organized,158578688,USD,0.0,161065,26,4.0,3.5,8.2.2,4+,Productivity,37,5,23,1
3,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,USD,0.0,188583,2822,3.5,4.5,5.0.0,4+,Weather,37,5,3,1
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.0,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
5,282935706,Bible,92774400,USD,0.0,985920,5320,4.5,5.0,7.5.1,4+,Reference,37,5,45,1


Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям

In [37]:
data.shape

(7197, 16)

In [38]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7197 entries, 1 to 11097
Data columns (total 16 columns):
id                  7197 non-null int64
track_name          7197 non-null object
size_bytes          7197 non-null int64
currency            7197 non-null object
price               7197 non-null float64
rating_count_tot    7197 non-null int64
rating_count_ver    7197 non-null int64
user_rating         7197 non-null float64
user_rating_ver     7197 non-null float64
ver                 7197 non-null object
cont_rating         7197 non-null object
prime_genre         7197 non-null object
sup_devices.num     7197 non-null int64
ipadSc_urls.num     7197 non-null int64
lang.num            7197 non-null int64
vpp_lic             7197 non-null int64
dtypes: float64(3), int64(8), object(5)
memory usage: 955.9+ KB


In [39]:
data.describe()

Unnamed: 0,id,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
count,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0
mean,863131000.0,199134500.0,1.726218,12892.91,460.373906,3.526956,3.253578,37.361817,3.7071,5.434903,0.993053
std,271236800.0,359206900.0,5.833006,75739.41,3920.455183,1.517948,1.809363,3.737715,1.986005,7.919593,0.083066
min,281656500.0,589824.0,0.0,0.0,0.0,0.0,0.0,9.0,0.0,0.0,0.0
25%,600093700.0,46922750.0,0.0,28.0,1.0,3.5,2.5,37.0,3.0,1.0,1.0
50%,978148200.0,97153020.0,0.0,300.0,23.0,4.0,4.0,37.0,5.0,1.0,1.0
75%,1082310000.0,181924900.0,1.99,2793.0,140.0,4.5,4.5,38.0,5.0,8.0,1.0
max,1188376000.0,4025970000.0,299.99,2974676.0,177050.0,5.0,5.0,47.0,5.0,75.0,1.0


Чтобы посмотреть, какие колонки есть в таблице, можно воспользоваться `columns`

In [40]:
data.columns

Index(['id', 'track_name', 'size_bytes', 'currency', 'price',
       'rating_count_tot', 'rating_count_ver', 'user_rating',
       'user_rating_ver', 'ver', 'cont_rating', 'prime_genre',
       'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'],
      dtype='object')

Метод `values` преобразует `pd.DataFrame` к `np.ndarray`

In [41]:
data.values

array([[281656475, 'PAC-MAN Premium', 100788224, ..., 5, 10, 1],
       [281796108, 'Evernote - stay organized', 158578688, ..., 5, 23, 1],
       [281940292, 'WeatherBug - Local Weather, Radar, Maps, Alerts',
        100524032, ..., 5, 3, 1],
       ...,
       [1187779532, 'Bret Michaels Emojis + Lyric Keyboard', 111322112,
        ..., 1, 1, 1],
       [1187838770, 'VR Roller Coaster World - Virtual Reality',
        97235968, ..., 0, 2, 1],
       [1188375727, 'Escape the Sweet Shop Series', 90898432, ..., 0, 2,
        1]], dtype=object)

In [42]:
type(data.values)

numpy.ndarray

In [43]:
data.values[:,0]

array([281656475, 281796108, 281940292, ..., 1187779532, 1187838770,
       1188375727], dtype=object)

Более продвинутое индексирование по таблице: **loc** и **iloc** 

`iloc` - index-based selection

In [49]:
data.iloc[6]

id                                               283646709
track_name          PayPal - Send and request money safely
size_bytes                                       227795968
currency                                               USD
price                                                    0
rating_count_tot                                    119487
rating_count_ver                                       879
user_rating                                              4
user_rating_ver                                        4.5
ver                                                 6.12.0
cont_rating                                             4+
prime_genre                                        Finance
sup_devices.num                                         37
ipadSc_urls.num                                          0
lang.num                                                19
vpp_lic                                                  1
Name: 7, dtype: object

In [50]:
data.iloc[1:3, 1:3]

Unnamed: 0,track_name,size_bytes
2,Evernote - stay organized,158578688
3,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032


In [52]:
data.iloc[[0,1,2], 0]

1    281656475
2    281796108
3    281940292
Name: id, dtype: int64

In [53]:
data.iloc[-1, :]

id                                    1188375727
track_name          Escape the Sweet Shop Series
size_bytes                              90898432
currency                                     USD
price                                          0
rating_count_tot                               3
rating_count_ver                               3
user_rating                                    5
user_rating_ver                                5
ver                                          1.0
cont_rating                                   4+
prime_genre                                Games
sup_devices.num                               40
ipadSc_urls.num                                0
lang.num                                       2
vpp_lic                                        1
Name: 11097, dtype: object

`loc` - label-based selection

In [54]:
# первое значение - index, второе - имя колонки
data.loc[1, ['id', 'track_name', 'price']]

id                  281656475
track_name    PAC-MAN Premium
price                    3.99
Name: 1, dtype: object

**Choosing between loc and iloc**

When choosing or transitioning between loc and iloc, there is one "gotcha" worth keeping in mind, which is that the two methods use slightly different indexing schemes.

`iloc` uses the Python stdlib indexing scheme, where the first element of the range is included and the last one excluded. So 0:10 will select entries 0,...,9. loc, meanwhile, indexes inclusively. So 0:10 will select entries 0,...,10.

Why the change? Remember that loc can index any stdlib type: strings, for example. If we have a DataFrame with index values `Apples, ..., Potatoes, ...,` and we want to select "all the alphabetical fruit choices between Apples and Potatoes", then it's a lot more convenient to index `df.loc['Apples':'Potatoes']` than it is to index something like `df.loc['Apples', 'Potatoet']` (t coming after s in the alphabet).

This is particularly confusing when the DataFrame index is a simple numerical list, e.g. 0,...,1000. In this case `df.iloc[0:1000]` will return 1000 entries, while `df.loc[0:1000]` return 1001 of them! To get 1000 elements using `loc`, you will need to go one lower and ask for `df.iloc[0:999]`.

Otherwise, the semantics of using `loc` are the same as those for `iloc`.

`loc` может принимать булевы выражения (так же, как и в случае с `pd.Series`)

Еще один полезный метод - `isin`

In [55]:
data.loc[data.prime_genre.isin(['Games', 'Shopping'])].head()

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.0,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
6,283619399,Shanghai Mahjong,10485713,USD,0.99,8253,5516,4.0,4.0,1.8,4+,Games,47,5,1,1
10,284736660,Ms. PAC-MAN,70023168,USD,3.99,7885,40,4.0,4.0,4.0.4,4+,Games,38,0,10,1
11,284791396,Solitaire by MobilityWare,49618944,USD,4.99,76720,4017,4.5,4.5,4.10.1,4+,Games,38,4,11,1


*Задания*

---

Получите ответ на следующие вопросы (с помощью pandas):

1). Сколько приложений с максимальным рейтингом (`user_rating`)?

2). Сколько всего жанров (`prime_genre`) и какие они? (Hint: `np.unique`)  

3). Сколько суммарно байт (`size_bytes`) весят все приложения жанра Finance?  

4). Сколько всего бесплатных приложений, у которых рейтинг юзеров больше трёх?  

5). Есть ли приложения, которые стоят больше 100 долларов?

6). Сколько приложений из жанра `Games` или `Shopping`, которые стоят дороже 10 USD или меньше 2 USD, но не являются бесплатными?

In [63]:
data.user_rating.value_counts()
print("**"*5)
data[data['user_rating']== data.user_rating.max()].shape

**********


(492, 16)

In [67]:
data.prime_genre.unique()
data.prime_genre.value_counts()

Games                3862
Entertainment         535
Education             453
Photo & Video         349
Utilities             248
Health & Fitness      180
Productivity          178
Social Networking     167
Lifestyle             144
Music                 138
Shopping              122
Sports                114
Book                  112
Finance               104
Travel                 81
News                   75
Weather                72
Reference              64
Food & Drink           63
Business               57
Navigation             46
Medical                23
Catalogs               10
Name: prime_genre, dtype: int64

In [84]:
a = data['size_bytes'][data.prime_genre == "Finance"].sum()
#8136529366
b = data[data.prime_genre == "Finance"]['size_bytes'].sum()
len(data[data.prime_genre == "Finance"]['size_bytes'])
data[data.prime_genre == "Finance"]['size_bytes']

7        227795968
14       160925696
76        39505920
83       162891776
91       281244672
           ...    
8650      66637824
8863      31624192
8864      31624192
10307     24804352
10866     86395904
Name: size_bytes, Length: 104, dtype: int64

In [93]:
data[(data.price == 0) & (data.user_rating > 3)].shape

(2944, 16)

In [95]:
data[(data.price > 100) & (data.currency == "USD")]

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
129,308368164,Proloquo2Go - Symbol-based AAC,723764224,USD,249.99,773,10,4.0,3.5,5.0.1,4+,Education,37,5,3,1
1714,551215116,LAMP Words For Life,583263232,USD,299.99,41,0,4.0,0.0,1.5.5,4+,Education,24,5,1,1


In [97]:
data[(data.price!=0)&((data.price<2)|(data.price>10))&(data.prime_genre.isin(['Games', 'Shopping']))&(data.currency == "USD")]

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
6,283619399,Shanghai Mahjong,10485713,USD,0.99,8253,5516,4.0,4.0,1.8,4+,Games,47,5,1,1
58,294536447,First Words Animals,32164864,USD,1.99,2576,4,4.0,5.0,7.0,4+,Games,38,5,1,1
70,297606726,Fish Tycoon,13564835,USD,0.99,18943,1787,3.5,4.5,1.1.0,4+,Games,47,0,1,1
92,302049354,Phase 10 Pro - Play Your Friends!,66695168,USD,1.99,59155,101,4.5,2.5,3.2.0,4+,Games,40,5,1,1
95,303058767,MASH,41691136,USD,1.99,4913,1,4.0,4.0,3.3.2,9+,Games,37,3,15,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10884,1178433845,新超级群英传OL-单机党必玩的三国群英手游,246023168,USD,0.99,1,1,4.0,4.0,1.6,9+,Games,37,5,1,1
11033,1185209084,Saloons Unleashed,327731200,USD,0.99,0,0,0.0,0.0,1.1,4+,Games,37,5,1,1
11038,1185428381,剑倚手游,178160640,USD,0.99,0,0,0.0,0.0,1.0,9+,Games,40,5,0,1
11043,1185777521,问仙奇遇-新玩法新套装嗨到爆,208026624,USD,0.99,0,0,0.0,0.0,1.0,9+,Games,38,5,1,1


Мы разобрали только малую часть работы с `pandas`. Это действительно мощный инструмент для работы с данными и его возможности обширны

Из того, что мы не разобрали, стоит обратить внимание на следующие вещи:

* Работа с пропущенными значениями (`fillna`)
* Объединение таблиц (`join`)
* Применение к данным функций (`apply`, `applymap`)
* так же стоит посмотреть, как работать с базами данных в `pandas`

Список полезных ссылок:

* Официальные туториалы: https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html

* Официальная документация: https://pandas.pydata.org/pandas-docs/stable/

* Статья на Хабре от OpenDataScience сообщества: https://habr.com/company/ods/blog/322626/

* Подробный гайд: https://media.readthedocs.org/pdf/pandasguide/latest/pandasguide.pdf

* Небольшой курс от kaggle: https://www.kaggle.com/learn/pandas

Главное в работе с новыми библиотеками -- не бояться тыкать в разные функции, смотреть типы возвращаемых объектов и активно пользоваться Яндексом, читать документацию на официальном сайте (она довольно хорошо написана), а ещё лучше понимать всё из docstring'а (`Shift+Tab` при нахождении курсора внутри скобок функции).