В заданиях этого урока нам предстоит проанализировать данные об американских закусочных. Мы поищем, где можно купить тако в Калифорнии, в какие месяцы чаще всего открывали рестораны и разберем, какие есть подводные камни при работе с pandas.

**Описание данных:**

*   **id** — уникальный идентификатор заведения
*   **address** — физический адрес заведения
*   **categories** — категории заведения (например, "Fast food restaurant").
*   **city** — город, в котором заведение находится.
*   **cuisines** — кухни, которые практикуются в заведении. Например "Mexican".
*   **dateAdded** — дата добавления записи. Будем считать, что она совпадает с датой открытия заведения.
*   **dateUpdated** — дата обновления информации о заведении.
*   **latitude** — географическая широта.
*   **longitude** — географическая долгота.
*   **menus.category** — категории пищи в меню.
*   **menus.currency** — валюта, в которой принимают оплату.
*   **menus.dateSeen** — дата, когда было заведено это меню.
*   **menus.description** — описание меню от заведения.
*   **menus.name** — название меню.
*   **name** — название заведения.
*   **province** — область (штат), где находится заведение.

In [1]:
import pandas as pd

In [2]:
data = pd.DataFrame(pd.read_csv('data.csv'))

**Задаине 1.**
В качестве первого шага давайте посмотрим на наши данные c помощью метода `head()`
Перечислите первые три значения колонки dateAdded через запятую и пробел в том порядке, в котором они были выведены. Например:

`2000-01-01T00:00:00Z, 2001-01-01T00:00:00Z, 2002-01-01T00:00:00Z`

In [3]:
data.head(3)

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
0,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2017-02-01T18:04:44Z,,Taco,Gambino's Pizza,KS
1,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2016-03-02T11:49:34Z,"Beef, onion, cheddar cheese, lettuce, refried...",Taco,Gambino's Pizza,KS
2,AVwc__dF_7pvs4fz1Ncy,9521 Morton Davis Dr,"Golf Course, American Restaurant, and Resort",Patterson,,2016-10-14T01:58:25Z,2016-10-14T01:58:25Z,37.401855,-121.266703,,,2016-10-14T01:58:25Z,"Beef barbacoa or chicken, spanish rice, pico d...",Smotherd Burrito,Diablo Grande Golf & Country Club,Grayson


In [4]:
task_1 = data.loc[0:2]['dateAdded']

In [5]:
print(*task_1, sep=', ')

2016-03-02T11:49:34Z, 2016-03-02T11:49:34Z, 2016-10-14T01:58:25Z


**Задаине 2.** Давайте посмотрим, какой тип имеют колонки `city` и `latitude`.
Введите через пробел названия типов.

In [6]:
print(data['city'].dtypes, data['latitude'].dtypes)

object float64


**Задаине 3.** Какие колонки будут выведены при применении метода `describe` и почему только они?
1. latitude, longitude, restaurantNumber, потому что это единственные численные колонки
2. restaurantNumber, потому что describe работает только с целочисленными колонками
3. row_number, column_number, потому что describe описывает размер датафрейма
4. **latitude, longitude, потому что это единственные численные колонки**
5. Все колонки, потому что describe показывает тип и самые популярные значения для всех колонок

In [7]:
data.describe()

Unnamed: 0,latitude,longitude
count,55636.0,55636.0
mean,36.694846,-98.713309
std,4.835124,18.245857
min,-31.986438,-159.49269
25%,33.668355,-117.64715
50%,36.047195,-96.68232
75%,40.58838,-82.67993
max,61.21946,115.903696


**Задаине 4.** Какие средние значения в тех колонках, которые вывел `describe` в предыдущем задании?

Укажите их через пробел, округлив до двух знаков после запятой. Используйте точку в качестве десятичного разделителя.

In [8]:
print(*data.describe().loc['mean'].round(2))

36.69 -98.71


**Задаине 5.** Сейчас в данных присутствуют пропущенные значения. Давайте их удалим.
Примените метод `dropna`.  Сколько осталось записей?

In [9]:
print(data.dropna().shape[0])

1925


**Задаине 6.** Отберите заведения, которые находятся в городе Калифорния (`'California'`), штат Миссури.  Укажите индексы, под которыми полученные заведения расположены в датафрейме, через запятую и пробел в порядке возрастания.

Например: `11235, 12457, 77980, 88901`

NB! В текущем и последующих заданиях вся работа происходит с изначальным датафреймом. Результат предыдущего задания не учитывается

In [10]:
print(*data[data['city'] == 'California'].index, sep=', ')

40483, 52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938, 52939, 65070


**Задаине 7.** Отберите заведения `Taco Bell` в городе Калифорния (`'California'`), штат Миссури.

Укажите индексы этих заведений через запятую и пробел в порядке возрастания.

In [11]:
task_7 = (data['city'] == 'California') & (data['name'] == 'Taco Bell')
print(*data[task_7].index, sep=', ')

52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938, 52939


**Задаине 8.** Давайте найдем заведения `Taco Bell` или заведения, которые находятся в городе Нью-Йорк. При этом обязательно, чтобы в названии меню не было `Volcano Taco` и `Fresco Soft Taco` (именно таких значений колонки). Данные нужно сохранить в датафрейм `result`.

In [12]:
result = data[((data['city'] == 'New York') | (data['name'] == 'Taco Bell')) &
              (~(data['menus.name'].isin(['Volcano Taco', 'Fresco Soft Taco'])))
             ]

**Задаине 9.** Давайте отберем заведения, где значение валюты, в которой принимают оплату, не пропущено.
Нужно сохранить данные в результирующий датафрейм `result`.

In [14]:
result = data[~(data['menus.currency'].isna())]

**Задаине 10.** Попробуйте сделать `data['categories']`, `data[['categories']]`, посмотрите на тип и на значения их элементов.

Выберете подходящие значения.
1. `data['categories']` выдает Series, `data[['categories']]` выдает DataFrame. В первом случае тип данных string, во втором случае тип данных object
2. `data['categories']` выдает DataFrame, `data[['categories']]` тоже выдает DataFrame. В обоих случаях тип данных object
3. `data['categories']` выдает DataFrame, `data[['categories']]` тоже выдает DataFrame. В обоих случаях тип данных string
4. `data['categories']` выдает Series, `data[['categories']]` тоже выдает Series. В обоих случаях тип данных string
5. **`data['categories']` выдает Series, `data[['categories']]` выдает DataFrame. В обоих случаях тип данных object**
7. `data['categories']` выдает Series, `data[['categories']]` тоже выдает Series. В обоих случаях тип данных object

In [15]:
print(data['categories'].dtypes, data[['categories']].dtypes)

object categories    object
dtype: object


**Задаине 11.** Напишите через запятую и пробел 5 городов с наибольшим количеством записей (в порядке убывания количества записей).

In [16]:
print(*data['city'].value_counts().index[0:5], sep=', ')

San Diego, Los Angeles, Chicago, San Francisco, New York


**Задаине 12.** Посчитайте, сколько ресторанов `Taco Bell` находится в каждом городе. Отберите 5 городов, в которых ресторан встречается чаще всего. Количество ресторанов для этих городов с их названиями сохраните в виде объекта `pd.Series` в переменную `result`.

In [17]:
result = data[data['name'] == 'Taco Bell']['city'].value_counts()[0:5]

**Задаине 13.** Давайте найдем рестораны, открытые в октябре.

В качестве ответа отправьте индексы первых пяти записей, соответствующих ресторанам, открытым в октябре (ресторан может повторяться). Ответ запишите через запятую и пробел в порядке возрастания.

Советуем вам посмотреть в сторону метода to_datetime.

In [18]:
data['dateAdded'] = pd.to_datetime(data['dateAdded'])

In [19]:
print(*data[data['dateAdded'].dt.month == 10].index[0:5])

2 21 22 23 24


**Задаине 14.** Сделайте группировку по месяцу открытия ресторана (переменная `dateAdded`). Сколько ресторанов было открыто в каждом месяце? Рассчитайте по количеству уникальных `id` ресторанов в каждом месяце. Значения `dateAdded` должны при этом быть индексами. Результирующий датафрейм сохраните в `result`

In [20]:
result = data.groupby(data['dateAdded'].dt.month).agg({'id': 'nunique'})

**Задаине 15.** В этом задании нужно добавить столбец `update_delta` с количеством целых дней, полученных от разницы между `dateUpdated` и `dateAdded`.

Потом для каждого города найдите (в указанном порядке):

- среднее по переменной `update_delta`

- широту самой северной закусочной (чем севернее расположена закусочная, тем больше будет значение широты)

 Названия городов не должны быть индексами. Сохраните результирующий датафрейм в переменную `result`.  Также сохраните в переменную `zep_mean` среднее значение `update_delta` по городу `Zephyrhills`.

In [38]:
data['dateUpdated'] = pd.to_datetime(data['dateUpdated'])
data['update_delta'] = (data['dateUpdated'] - data['dateAdded']).dt.days

In [39]:
result = data.groupby('city').agg({'update_delta': 'mean',
                         'latitude': 'max'}).reset_index()

In [40]:
zep_mean = data[data['city'] == 'Zephyrhills']['update_delta'].mean()

**Задаине 16.** Отберите рестораны, у которых в колонке categories упоминается Pizza

In [49]:
data[data['categories'].str.contains('Pizza', na=False)].index[2]

np.int64(66)

**Задаине 17.** В этом задании снова нужно добавить столбец `update_delta`, куда будет записана разница в днях между `dateUpdated` и `dateAdded`.  Посчитайте среднее и медиану получившейся колонки.

Перечислите значения через пробел (сначала среднее, затем медиану), округлив до 2 знаков. 

NB! Оба значения должны быть введены с десятичным разделителем в виде точки.

In [57]:
print(data['update_delta'].mean().round(2), data['update_delta'].median())

326.22 364.0


**Задаине 18.** В этом задании нужно отобрать записи, у которых более 20 категорий, далее их нужно сгруппировать по провинциям и подсчитать минимальную `longitude` в каждой. Округлите значения `longitude` до 3-х знаков после запятой.

Далее сохраните результирующий датафрейм в файл в формате `csv` с сепаратором `;`. Сам датафрейм должен содержать две колонки: `province` и `longitude`

Для решения задачи полезно будет ознакомиться с функцией. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

In [66]:
result = (
    data[data['categories'].str.split(',').str.len() > 20]
    .groupby('province')['longitude']
    .min()
    .round(3)
    .reset_index()  
    .rename(columns={'longitude': 'min_longitude'}) 
)

In [68]:
result.to_csv('result.csv', sep=';', index=False)