<p style="align: center;"><img align=center src="https://s8.hostingkartinok.com/uploads/images/2018/08/308b49fcfbc619d629fe4604bceb67ac.jpg" width=500 height=450/></p>

<h3 style="text-align: center;"><b>"Глубокое обучение". Продвинутый поток</b></h3>

<h2 style="text-align: center;"><b>День 3. Библиотека <a href="http://pandas.pydata.org/">pandas</a></b></h2>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [1]:
# !pip install numpy pandas

In [2]:
import numpy as np
import pandas as pd

## pd.Series

Одномерный набор данных. Похож на `np.ndarray`, но с более расширенным функционалом

In [3]:
np.random.seed(42)

In [6]:
np_array = np.random.randint(low=-15, high=20, size=4)
np_array

array([ 3,  7, -5, -5])

In [7]:
# Series можно сделать из массива
pd_series_1 = pd.Series(np_array)
pd_series_1

0    3
1    7
2   -5
3   -5
dtype: int64

In [8]:
# Так же можно аннотировать индексы, чтобы потом было более удобно обращаться к элементам
pd_series_2 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'])
pd_series_2

1st day    3
2nd day    7
3rd day   -5
4th day   -5
dtype: int64

In [9]:
pd_series_2['4th day']

-5

In [10]:
# А еще можно дать pd.Series имя, чтобы было совсем красиво
pd_series_3 = pd.Series(np_array, index=['1st day', '2nd day', '3rd day', '4th day'], name='Temperature')
pd_series_3

1st day    3
2nd day    7
3rd day   -5
4th day   -5
Name: Temperature, dtype: int64

In [11]:
# с индексами можно работать так же, как и в случае с обычным list
print(pd_series_3[0])
print('*'*5)
print(pd_series_3[1:3])
print('*'*5)
print(pd_series_3[::-1])

3
*****
2nd day    7
3rd day   -5
Name: Temperature, dtype: int64
*****
4th day   -5
3rd day   -5
2nd day    7
1st day    3
Name: Temperature, dtype: int64


`series` можно отсортировать как по значениям, так и по индексу

In [12]:
pd_series_3.sort_index()

1st day    3
2nd day    7
3rd day   -5
4th day   -5
Name: Temperature, dtype: int64

In [14]:
pd_series_3.sort_values()

3rd day   -5
4th day   -5
1st day    3
2nd day    7
Name: Temperature, dtype: int64

с `series` можно работать как с `np.ndarray`

In [15]:
pd_series_3 + 100

1st day    103
2nd day    107
3rd day     95
4th day     95
Name: Temperature, dtype: int64

In [16]:
np.exp(pd_series_3)

1st day      20.085537
2nd day    1096.633158
3rd day       0.006738
4th day       0.006738
Name: Temperature, dtype: float64

In [17]:
term_1 = pd.Series(np.random.randint(0, 10, 5))
term_2 = pd.Series(np.random.randint(0, 10, 6))

print('Term1:\n{}\n\nTerm2:\n{}\n\nSum:\n{}'.format(term_1, term_2, term_1 + term_2))

Term1:
0    7
1    4
2    3
3    7
4    7
dtype: int64

Term2:
0    2
1    5
2    4
3    1
4    7
5    5
dtype: int64

Sum:
0     9.0
1     9.0
2     7.0
3     8.0
4    14.0
5     NaN
dtype: float64


In [18]:
term_1.shape

(5,)

In [22]:
date_range = pd.date_range('20190101', periods=10)
pd_series_4 = pd.Series(np.random.rand(10), date_range)
pd_series_4

2019-01-01    0.391061
2019-01-02    0.182236
2019-01-03    0.755361
2019-01-04    0.425156
2019-01-05    0.207942
2019-01-06    0.567700
2019-01-07    0.031313
2019-01-08    0.842285
2019-01-09    0.449754
2019-01-10    0.395150
Freq: D, dtype: float64

In [32]:
pd_series_4 > 0.5

2019-01-01    False
2019-01-02    False
2019-01-03     True
2019-01-04    False
2019-01-05    False
2019-01-06     True
2019-01-07    False
2019-01-08     True
2019-01-09    False
2019-01-10     True
Freq: D, dtype: bool

в качестве индекса можно указать выражение, и нам будут возвращены только те элементы, для которых знвчение является `True`

In [33]:
pd_series_4[pd_series_4 > 0.5]

2019-01-03    0.973756
2019-01-06    0.618386
2019-01-08    0.983231
2019-01-10    0.859940
dtype: float64

In [36]:
pd_series_4[(pd_series_4 > 0.5) & (pd_series_4 < 0.6)]

Series([], Freq: D, dtype: float64)

In [37]:
pd_series_4[(pd_series_4 > 0.6) | (pd_series_4 < 0.2)]

2019-01-02    0.046666
2019-01-03    0.973756
2019-01-05    0.090606
2019-01-06    0.618386
2019-01-08    0.983231
2019-01-10    0.859940
dtype: float64

## DataFrame

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [38]:
# Dataframe можно составить из словаря. Ключ будет соответсовать колонке
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df=pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [39]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [40]:
df.columns

Index(['one', 'two'], dtype='object')

In [42]:
df['one']['c']

3.0

In [43]:
df.one

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

Если указать диапазон индексов, то это означает диапазон строк. Причём **последняя строка включается в таблицу.**

Диапазон целых чисел даёт диапазон строк с такими номерами, **не включая последнюю строку** (как обычно при индексировании списков). 

На это стоит обратить внимание

In [44]:
df['b':'d']

Unnamed: 0,one,two
b,2.0,2
c,3.0,3
d,,4


In [46]:
df[3:1:-1]

Unnamed: 0,one,two
d,,4
c,3.0,3


In [47]:
df['three'] = df['one'] * df['two']
df

Unnamed: 0,one,two,three
a,1.0,1,1.0
b,2.0,2,4.0
c,3.0,3,9.0
d,,4,


In [48]:
# concatinating
df2=pd.DataFrame({'one':{'e':0,'f':1},'one_tr':{'e':2}})
df2

Unnamed: 0,one,one_tr
e,0,2.0
f,1,


In [28]:
pd.concat([df,df2], sort=False)

Unnamed: 0,one,two,three,one_tr
a,1.0,1.0,1.0,
b,2.0,2.0,4.0,
c,3.0,3.0,9.0,
d,,4.0,,
e,0.0,,,2.0
f,1.0,,,


Теперь попробуем поработать с настоящими данными

### Скачать данные: https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps

In [23]:
# !wget https://www.dropbox.com/s/o9uiqxb3yr6ch6k/app-store-apple-data-set-10k-apps.zip?dl=0
# !unzip app-store-apple-data-set-10k-apps.zip?dl=0

In [24]:
data = pd.read_csv('AppleStore.csv')

# вывести первые 5 строк
# data.head(10)
# вывести последние 5 строк
# data.tail(5)
# вывести 5 случайных строк
data.sample(5)

Unnamed: 0.1,Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
5676,7713,1092704571,UA Shop by Under Armour,202311680,USD,0.0,741,16,4.5,4.5,1.15,4+,Shopping,37,0,1,1
1677,1951,582719476,"Instant Fitness : 600+ exercises, 100+ workout...",80175104,USD,9.99,571,214,4.5,4.5,2.0,4+,Health & Fitness,38,0,1,1
2892,3457,908842747,Themeboard,52408320,USD,0.0,704,87,3.0,2.5,1.2.2,4+,Utilities,37,4,1,1
1880,2183,625985591,Stupid Test!,31798272,USD,0.0,2485,2112,4.5,5.0,4.0,4+,Games,37,5,1,1
3785,4644,993570169,Swaggy Ninja,31567872,USD,0.0,1210,119,4.5,4.0,1.5.2,4+,Games,40,5,1,1


In [25]:
data = pd.read_csv('./AppleStore.csv', index_col=0)

data.head()

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
2,281796108,Evernote - stay organized,158578688,USD,0.0,161065,26,4.0,3.5,8.2.2,4+,Productivity,37,5,23,1
3,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,USD,0.0,188583,2822,3.5,4.5,5.0.0,4+,Weather,37,5,3,1
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.0,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
5,282935706,Bible,92774400,USD,0.0,985920,5320,4.5,5.0,7.5.1,4+,Reference,37,5,45,1


Можно узнать размер таблицы, информацию о значениях таблицы, различные статистики по значениям

In [26]:
data.shape

(7197, 16)

In [27]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7197 entries, 1 to 11097
Data columns (total 16 columns):
id                  7197 non-null int64
track_name          7197 non-null object
size_bytes          7197 non-null int64
currency            7197 non-null object
price               7197 non-null float64
rating_count_tot    7197 non-null int64
rating_count_ver    7197 non-null int64
user_rating         7197 non-null float64
user_rating_ver     7197 non-null float64
ver                 7197 non-null object
cont_rating         7197 non-null object
prime_genre         7197 non-null object
sup_devices.num     7197 non-null int64
ipadSc_urls.num     7197 non-null int64
lang.num            7197 non-null int64
vpp_lic             7197 non-null int64
dtypes: float64(3), int64(8), object(5)
memory usage: 955.9+ KB


In [59]:
data.describe()

Unnamed: 0,id,size_bytes,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
count,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0,7197.0
mean,863131000.0,199134500.0,1.726218,12892.91,460.373906,3.526956,3.253578,37.361817,3.7071,5.434903,0.993053
std,271236800.0,359206900.0,5.833006,75739.41,3920.455183,1.517948,1.809363,3.737715,1.986005,7.919593,0.083066
min,281656500.0,589824.0,0.0,0.0,0.0,0.0,0.0,9.0,0.0,0.0,0.0
25%,600093700.0,46922750.0,0.0,28.0,1.0,3.5,2.5,37.0,3.0,1.0,1.0
50%,978148200.0,97153020.0,0.0,300.0,23.0,4.0,4.0,37.0,5.0,1.0,1.0
75%,1082310000.0,181924900.0,1.99,2793.0,140.0,4.5,4.5,38.0,5.0,8.0,1.0
max,1188376000.0,4025970000.0,299.99,2974676.0,177050.0,5.0,5.0,47.0,5.0,75.0,1.0


Чтобы посмотреть, какие колонки есть в таблице, можно воспользоваться `columns`

In [60]:
data.columns

Index(['id', 'track_name', 'size_bytes', 'currency', 'price',
       'rating_count_tot', 'rating_count_ver', 'user_rating',
       'user_rating_ver', 'ver', 'cont_rating', 'prime_genre',
       'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'],
      dtype='object')

Метод `values` преобразует `pd.DataFrame` к `np.ndarray`

In [62]:
data.values

array([[281656475, 'PAC-MAN Premium', 100788224, ..., 5, 10, 1],
       [281796108, 'Evernote - stay organized', 158578688, ..., 5, 23, 1],
       [281940292, 'WeatherBug - Local Weather, Radar, Maps, Alerts',
        100524032, ..., 5, 3, 1],
       ...,
       [1187779532, 'Bret Michaels Emojis + Lyric Keyboard', 111322112,
        ..., 1, 1, 1],
       [1187838770, 'VR Roller Coaster World - Virtual Reality',
        97235968, ..., 0, 2, 1],
       [1188375727, 'Escape the Sweet Shop Series', 90898432, ..., 0, 2,
        1]], dtype=object)

In [63]:
type(data.values)

numpy.ndarray

In [64]:
data.values[:,0]

array([281656475, 281796108, 281940292, ..., 1187779532, 1187838770,
       1188375727], dtype=object)

Более продвинутое индексирование по таблице: **loc** и **iloc** 

`iloc` - index-based selection

In [28]:
data.iloc[0]

id                        281656475
track_name          PAC-MAN Premium
size_bytes                100788224
currency                        USD
price                          3.99
rating_count_tot              21292
rating_count_ver                 26
user_rating                       4
user_rating_ver                 4.5
ver                           6.3.5
cont_rating                      4+
prime_genre                   Games
sup_devices.num                  38
ipadSc_urls.num                   5
lang.num                         10
vpp_lic                           1
Name: 1, dtype: object

In [29]:
data.iloc[1:3, 1:3]

Unnamed: 0,track_name,size_bytes
2,Evernote - stay organized,158578688
3,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032


In [30]:
data.iloc[[0,1,2], 0]

1    281656475
2    281796108
3    281940292
Name: id, dtype: int64

In [31]:
data.iloc[-1, :]

id                                    1188375727
track_name          Escape the Sweet Shop Series
size_bytes                              90898432
currency                                     USD
price                                          0
rating_count_tot                               3
rating_count_ver                               3
user_rating                                    5
user_rating_ver                                5
ver                                          1.0
cont_rating                                   4+
prime_genre                                Games
sup_devices.num                               40
ipadSc_urls.num                                0
lang.num                                       2
vpp_lic                                        1
Name: 11097, dtype: object

`loc` - label-based selection

In [32]:
# первое значение - index, второе - имя колонки
data.loc[1, ['id', 'track_name', 'price']]

id                  281656475
track_name    PAC-MAN Premium
price                    3.99
Name: 1, dtype: object

**Choosing between loc and iloc**

When choosing or transitioning between loc and iloc, there is one "gotcha" worth keeping in mind, which is that the two methods use slightly different indexing schemes.

`iloc` uses the Python stdlib indexing scheme, where the first element of the range is included and the last one excluded. So 0:10 will select entries 0,...,9. loc, meanwhile, indexes inclusively. So 0:10 will select entries 0,...,10.

Why the change? Remember that loc can index any stdlib type: strings, for example. If we have a DataFrame with index values `Apples, ..., Potatoes, ...,` and we want to select "all the alphabetical fruit choices between Apples and Potatoes", then it's a lot more convenient to index `df.loc['Apples':'Potatoes']` than it is to index something like `df.loc['Apples', 'Potatoet']` (t coming after s in the alphabet).

This is particularly confusing when the DataFrame index is a simple numerical list, e.g. 0,...,1000. In this case `df.iloc[0:1000]` will return 1000 entries, while `df.loc[0:1000]` return 1001 of them! To get 1000 elements using `loc`, you will need to go one lower and ask for `df.iloc[0:999]`.

Otherwise, the semantics of using `loc` are the same as those for `iloc`.

`loc` может принимать булевы выражения (так же, как и в случае с `pd.Series`)

Еще один полезный метод - `isin`

In [33]:
data.loc[data.prime_genre.isin(['Games', 'Shopping'])].head()

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.0,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
6,283619399,Shanghai Mahjong,10485713,USD,0.99,8253,5516,4.0,4.0,1.8,4+,Games,47,5,1,1
10,284736660,Ms. PAC-MAN,70023168,USD,3.99,7885,40,4.0,4.0,4.0.4,4+,Games,38,0,10,1
11,284791396,Solitaire by MobilityWare,49618944,USD,4.99,76720,4017,4.5,4.5,4.10.1,4+,Games,38,4,11,1


*Задания*

---

## Получите ответ на следующие вопросы (с помощью pandas):

1). Сколько приложений с максимальным рейтингом (`user_rating`)?

2). Сколько всего жанров (`prime_genre`) и какие они? (Hint: `np.unique`)  

3). Сколько суммарно байт (`size_bytes`) весят все приложения жанра Finance?  

4). Сколько всего бесплатных приложений, у которых рейтинг юзеров больше трёх?  

5). Есть ли приложения, которые стоят больше 100 долларов?

6). Сколько приложений из жанра `Games` или `Shopping`, которые стоят дороже 10 USD или меньше 2 USD, но не являются бесплатными?

#### 1). Сколько приложений с максимальным рейтингом (user_rating)?

In [48]:
#mycode
data[data.user_rating == data.user_rating.max()].count().iloc[0]

492

In [56]:
#semcode
(data.user_rating == data.user_rating.max()).sum()

492

#### 2). Сколько всего жанров (prime_genre) и какие они? (Hint: np.unique)

In [68]:
#mycode
data.prime_genre.values

array(['Games', 'Productivity', 'Weather', ..., 'Utilities', 'Games',
       'Games'], dtype=object)

In [63]:
#semcode
data.prime_genre.unique()

array(['Games', 'Productivity', 'Weather', 'Shopping', 'Reference',
       'Finance', 'Music', 'Utilities', 'Travel', 'Social Networking',
       'Sports', 'Business', 'Health & Fitness', 'Entertainment',
       'Photo & Video', 'Navigation', 'Education', 'Lifestyle',
       'Food & Drink', 'News', 'Book', 'Medical', 'Catalogs'],
      dtype=object)

In [64]:
#semcode
data.prime_genre.value_counts()

Games                3862
Entertainment         535
Education             453
Photo & Video         349
Utilities             248
Health & Fitness      180
Productivity          178
Social Networking     167
Lifestyle             144
Music                 138
Shopping              122
Sports                114
Book                  112
Finance               104
Travel                 81
News                   75
Weather                72
Reference              64
Food & Drink           63
Business               57
Navigation             46
Medical                23
Catalogs               10
Name: prime_genre, dtype: int64

#### 3). Сколько суммарно байт (size_bytes) весят все приложения жанра Finance?

In [76]:
#semcode
data[data.prime_genre == 'Finance'].size_bytes.sum()

8136529366

#### 4). Сколько всего бесплатных приложений, у которых рейтинг юзеров больше трёх?

In [85]:
#mycode
data[(data.user_rating>3) & (data.price == 0)].iloc[:,0].count()

2944

In [86]:
#semcode
len(data[(data.user_rating>3) & (data.price == 0)])

2944

#### 5). Есть ли приложения, которые стоят больше 100 долларов?

In [90]:
#mycode
len(data[data.price > 100]) > 0

True

In [88]:
#semcode
data[data.price > 100]

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
129,308368164,Proloquo2Go - Symbol-based AAC,723764224,USD,249.99,773,10,4.0,3.5,5.0.1,4+,Education,37,5,3,1
1714,551215116,LAMP Words For Life,583263232,USD,299.99,41,0,4.0,0.0,1.5.5,4+,Education,24,5,1,1


#### 6). Сколько приложений из жанра Games или Shopping, которые стоят дороже 10 USD или меньше 2 USD, но не являются бесплатными?

In [95]:
#mycode
len(data[((data.prime_genre == 'Games') | (data.prime_genre == 'Shopping')) & (data.price > 10) & (0 < data.price) &  (data.price < 2)])

0

In [96]:
#semcode
data[(data.price > 10) | ((data.price < 2) & (data.price > 0))]

Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
6,283619399,Shanghai Mahjong,10485713,USD,0.99,8253,5516,4.0,4.0,1.8,4+,Games,47,5,1,1
22,285946052,iQuran,70707916,USD,1.99,2929,966,4.5,4.5,3.3,4+,Reference,43,0,2,1
35,289084315,Period Tracker Deluxe,40216576,USD,1.99,13350,489,4.5,5.0,9.6,12+,Health & Fitness,38,0,15,1
36,289446241,Election 2016 Map,2386944,USD,0.99,137,0,3.0,0.0,5.0,4+,Entertainment,37,1,1,1
39,289894882,White Noise,44129280,USD,0.99,33426,299,4.0,5.0,7.2,4+,Health & Fitness,37,5,3,1
41,290807369,Line Rider iRide™,1646592,USD,1.99,21609,69,3.5,2.5,2.4,9+,Entertainment,40,0,1,1
54,293760823,iFart - The Original Fart Sounds App,60320768,USD,1.99,21825,10,3.0,4.0,4.0.8,9+,Entertainment,37,5,1,1
58,294536447,First Words Animals,32164864,USD,1.99,2576,4,4.0,5.0,7.0,4+,Games,38,5,1,1
59,294631159,WeatherPro,69079040,USD,1.99,1572,34,4.0,4.5,4.8.2,4+,Weather,37,0,13,1
63,295759189,Big Day - Event Countdown,13156352,USD,0.99,812,14,3.0,4.0,8.2.0,4+,Lifestyle,38,0,7,1


---

Мы разобрали только малую часть работы с `pandas`. Это действительно мощный инструмент для работы с данными и его возможности обширны

Из того, что мы не разобрали, стоит обратить внимание на следующие вещи:

* Работа с пропущенными значениями (`fillna`)
* Объединение таблиц (`join`)
* Применение к данным функций (`apply`, `applymap`)
* так же стоит посмотреть, как работать с базами данных в `pandas`

Список полезных ссылок:

* Официальные туториалы: https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html

* Официальная документация: https://pandas.pydata.org/pandas-docs/stable/

* Статья на Хабре от OpenDataScience сообщества: https://habr.com/company/ods/blog/322626/

* Подробный гайд: https://media.readthedocs.org/pdf/pandasguide/latest/pandasguide.pdf

* Небольшой курс от kaggle: https://www.kaggle.com/learn/pandas

Главное в работе с новыми библиотеками -- не бояться тыкать в разные функции, смотреть типы возвращаемых объектов и активно пользоваться Яндексом, читать документацию на официальном сайте (она довольно хорошо написана), а ещё лучше понимать всё из docstring'а (`Shift+Tab` при нахождении курсора внутри скобок функции).