<h2 style="text-align: center;"><b>Библиотека <a href="http://pandas.pydata.org/">pandas</a></b></h2>

Библиотека `pandas` активно используется в современном data science для работы с данными, которые могут быть представлены в виде таблиц (а это очень, очень большая часть данных)

`pandas` есть в пакете Anaconda, но если вдруг у Вас её по каким-то причинам нет, то можно установить, раскомментировав следующую команду:

In [None]:
# !pip install pandas

In [None]:
import pandas as pd

Нужны данные. Про AppStore слышали? :)

### Скачать данные: https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps

Нас интересует файл `AppStore.csv`.

Кстати, `.csv` (Comma Separated Values) - наверное, самый частый формат данных в современном data science. По сути, это то же самое, что и `.xls` (и `.xlsx`), то есть таблица. 

Итак, *чтение файла с данными*:

In [None]:
data = pd.read_csv('./app-store-apple-data-set-10k-apps/AppleStore.csv')

Посмотрим, что же такое переменная `data`:

In [None]:
data.head()

In [None]:
type(data)

Тип == `pandas.core.frame.DataFrame`, обычно говорят просто "датафрейм", то есть "кусок данных".

Можно вывести информацию по датафрейму:

In [None]:
data.info()

In [None]:
len(data.prime_genre.unique())

In [None]:
data.prime_genre.unique()

In [None]:
data.loc[data.prime_genre == 'Finance'].size_bytes.sum()
'''
select sum(size_bytes)
from data
where prime_genre = 'Finance'
'''

In [None]:
len(data.loc[data.price > 100])
'''
select count(*)
from data
where price > 100
'''

И более статистически значимую информацию:

In [None]:
data.describe()

Итак, наши данные -- это какая-то **информация про приложения в AppStore**. Давайте посмотрим, что тут есть:

In [None]:
# все столбцы датафрейма (названия)
data.columns

In [None]:
data.shape

-- то есть 7197 строк и 17 столбцов.

Важно уметь обращаться к определённой строке или столбцу dataframe'а. Индексирование очень похоже на numpy, однако есть свои тонкости:

* Получить весь столбец (в даном случае столбец 'track_name'):

In [None]:
data['track_name']

In [None]:
type(data['track_name'])

In [None]:
data['track_name'][0]

`pandas.core.series.Series` -- это тип подвыборки датафрейма. С этим типом работают реже, но стоит знать, что он есть.

* Получить определённую строку:

In [None]:
data.iloc[10]

Более продвинутое и полезное индексирование:

In [None]:
data.iloc[5, 10]

-- `data.iloc[i, j]`, где `i` -- номер строки, `j` -- номер столбца

Почти все типы индексирования:

* к строкам по числовому индексу, к столбцам -- по имени

In [None]:
data.loc[[0, 1, 2], ['track_name', 'id']]

* к строкам и к столбцам по числовому индексу

In [None]:
data.iloc[[1, 3, 5], [2, 1]]

* поддерживает и то, и то, но **запрещён**:

In [None]:
data.ix[[2,1,0], ['track_name', 'id']]

In [None]:
data.ix[[0,1,2], [2, 1]]

Точно также дело обстоит со **срезами**:

In [None]:
data.iloc[5:100, 0:5]

Но обычно нужно уметь отвечать на более осмысленные вопросы, например:

* сколько приложений имеют рейтинг юзеров >= 4?

In [None]:
len(data[data['user_rating'] >= 4])

* какие есть валюты в столбце currency?

In [None]:
np.unique(data['currency'])

* сколько приложений жанра Games? А тех, которые Games и рейтинг >= 4?

In [None]:
# 1
len(data[data['prime_genre'] == 'Games'])

In [None]:
# 2
len(data[(data['user_rating'] >= 4) & (data['prime_genre'] == 'Games')])

Оператор "ИЛИ" аналогично &, только он через |

In [None]:
len(data[(data['user_rating'] >= 4) | (data['prime_genre'] == 'Games')])

---

#### Задание 1

Получите ответ на следующие вопросы (с помощью pandas):

1). Сколько всего жанров и какие они?  
2). Сколько суммарно байт весят все приложения жанра Finance?  
3). Сколько всего бесплатных приложений, у которых рейтинг юзеров больше трёх?  
4). Есть ли приложения, которые стоят больше 100 долларов?

In [None]:
# Ваш код здесь

---

Часто надо сделать что-то такое:

In [None]:
import numpy as np

In [None]:
np.array(data['size_bytes'])

То есть взять столбец из таблицы и засунуть его в np.array(). Это можно сделать и просто обратившись к .values, ведь его тип и есть np.array:

In [None]:
type(data['size_bytes'].values)

Больше про pandas можно найти по этом полезным ссылкам:

* Официальные туториалы: http://pandas.pydata.org/pandas-docs/stable/tutorials.html

* Статья на Хабре от OpenDataScience сообщества: https://habr.com/company/ods/blog/322626/

* Подробный гайд: https://media.readthedocs.org/pdf/pandasguide/latest/pandasguide.pdf