В заданиях этого урока нам предстоит проанализировать данные об американских закусочных. Мы поищем, где можно купить тако в Калифорнии, в какие месяцы чаще всего открывали рестораны и разберем, какие есть подводные камни при работе с pandas.

 
Описание данных:

    id - уникальный идентификатор заведения
    address - физический адрес заведения
    categories - категории заведения (например, "Fast food restaurant").
    city - город, в котором заведение находится.
    cuisines - кухни, которые практикуются в заведении. Например "Mexican".
    dateAdded - дата добавления записи. Будем считать, что она совпадает с датой открытия заведения.
    dateUpdated - дата обновления информации о заведении.
    latitude - географическая широта.
    longitude - географическая долгота.
    menus.category - категории пищи в меню.
    menus.currency - валюта, в которой принимают оплату.
    menus.dateSeen - дата, когда было заведено это меню.
    menus.description - описание меню от заведения.
    menus.name - название меню.
    name - название заведения.
    province - область (штат), где находится заведение.

`2016-03-02T11:49:34Z, 2016-03-02T11:49:34Z, 2016-10-14T01:58:25Z`

In [1]:
import pandas as pd
df = pd.read_csv('data.csv')

## 1

В качестве первого шага давайте посмотрим на наши данные c помощью метода head()

Перечислите первые три значения колонки dateAdded через запятую и пробел в том порядке, в котором они были выведены. Например:

In [2]:
list(df['dateAdded'].head(3))

['2016-03-02T11:49:34Z', '2016-03-02T11:49:34Z', '2016-10-14T01:58:25Z']

In [165]:
# или слайсом
list(df['dateAdded'][:3])

['2016-03-02T11:49:34Z', '2016-03-02T11:49:34Z', '2016-10-14T01:58:25Z']

## 2

Давайте посмотрим, какой тип имеют колонки city и latitude.

Введите через пробел названия типов.


In [3]:
df[['city', 'latitude']].dtypes

city         object
latitude    float64
dtype: object

## 3

Какие колонки будут выведены при применении метода `describe` и почему только они?

`latitude, longitude, потому что это единственные численные колонки`

In [4]:
df.dtypes
# latitude             float64
# longitude            float64

df.describe().columns.tolist() # только те, где есть значения

['latitude', 'longitude']

## 4

Какие средние значения в тех колонках, которые вывел describe в предыдущем задании?

Укажите их через пробел, округлив до двух знаков после запятой. Используйте точку в качестве десятичного разделителя.

In [5]:
lat = df.describe().loc['mean'][0].round(2)
long = df.describe().loc['mean'][1].round(2)

print(f'{lat} {long}')
#.\round(2).to_list()

36.69 -98.71


## 5

Сейчас в данных присутствуют пропущенные значения. Давайте их удалим.

Примените метод dropna.  Сколько осталось записей?

In [6]:
len(df.dropna())

# Абсолютно равносильный код:
# tmp = data.dropna()
# tmp.shape

1925

## 6

Отберите заведения, которые находятся в городе Калифорния ('California'), штат Миссури.  Укажите индексы, под которыми полученные заведения расположены в датафрейме, через запятую и пробел в порядке возрастания. 

Например:
```
11235, 12457, 77980, 88901

```
NB! В текущем и последующих заданиях вся работа происходит с изначальным датафреймом. Результат предыдущего задания не учитывается

In [4]:
df[df['city'] == 'California'].index.sort_values().to_list

<bound method IndexOpsMixin.tolist of Int64Index([40483, 52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937,
            52938, 52939, 65070],
           dtype='int64')>

## 7

Отберите заведения Taco Bell в городе Калифорния ('California'), штат Миссури.

Укажите индексы этих заведений через запятую и пробел в порядке возрастания.

In [8]:
df[(df['name'] == 'Taco Bell') & (df['city'] == 'California')].index.sort_values()

Int64Index([52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938,
            52939],
           dtype='int64')

## 8
Давайте
- найдем заведения Taco Bell или заведения, которые находятся в городе Нью-Йорк. 
- При этом обязательно, чтобы в названии меню не было Volcano Taco и Fresco Soft Taco (именно таких значений колонки). 
- Данные нужно сохранить в датафрейм result.

In [9]:
data = df.copy()
result = data[( (data['name'] == 'Taco Bell') | (data['city'] == 'New York') ) \
     & ( ~ data['menus.name'].isin(['Volcano Taco', 'Fresco Soft Taco'])  )]
result.head(5)

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
131,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Volcano Burrito,Taco Bell,NH
132,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Taco 12 Pack,Taco Bell,NH
133,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Grilled Steak Soft Taco,Taco Bell,NH
135,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Grilled Steak Soft Taco,Taco Bell,NH
136,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Crunchy Taco,Taco Bell,NH


## 9

Давайте отберем рестораны, где значение валюты, в которой принимают оплату, не пропущено.

Нужно сохранить данные в результирующий датафрейм result.

Данные загружены data. 

In [10]:
 result = data[~ data['menus.currency'].isna()]
result.head(3)
# result = data[data['menus.currency'].notna()]

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
15,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Potatoes, onion, peppers, mushroom, avocado, b...",Mondo Veggie Burrito,Java Joe's,NM
16,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Grilled tofu, potatoes and your choice of chil...",Tofu Burrito,Java Joe's,NM
17,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z",,Black Bean Burrito,Java Joe's,NM


## 10

Попробуйте сделать `data['categories'], data[['categories']],` посмотрите на тип и на значения их элементов.

Выберете подходящие значения.

`data['categories'] выдает Series, data[['categories']] выдает DataFrame. В обоих случаях тип данных object`

In [11]:
type(data['categories'])
# pandas.core.series.Series
data['categories']

0        Restaurant Delivery Service,Restaurants,Pizza,...
1        Restaurant Delivery Service,Restaurants,Pizza,...
2             Golf Course, American Restaurant, and Resort
3                                     Fast Food Restaurant
4        Mexican Restaurant Mid-City West,Mexican Resta...
                               ...                        
77255                                           Restaurant
77256                                           Restaurant
77257                                           Restaurant
77258                                           Restaurant
77259                                           Restaurant
Name: categories, Length: 77260, dtype: object

In [12]:
type(data[['categories']])
# pandas.core.frame.DataFrame
data[['categories']]

Unnamed: 0,categories
0,"Restaurant Delivery Service,Restaurants,Pizza,..."
1,"Restaurant Delivery Service,Restaurants,Pizza,..."
2,"Golf Course, American Restaurant, and Resort"
3,Fast Food Restaurant
4,"Mexican Restaurant Mid-City West,Mexican Resta..."
...,...
77255,Restaurant
77256,Restaurant
77257,Restaurant
77258,Restaurant


## 11
Напишите через запятую и пробел 5 городов с наибольшим количеством записей.

In [13]:
data.city.value_counts().head(5).index

Index(['San Diego', 'Los Angeles', 'Chicago', 'San Francisco', 'New York'], dtype='object')

## 12

Посчитайте, сколько ресторанов Taco Bell находится в каждом городе. Отберите 5 городов, в которых ресторан встречается чаще всего. Количество ресторанов для этих городов с их названиями сохраните в виде объекта pd.Series в переменную result.

Данные сохранены в переменную data

In [75]:
data[data['name'] == 'Taco Bell'].groupby('city',as_index=False).agg({'name': 'count'}).\
sort_values(['name','city'], ascending=False)[:5]

Unnamed: 0,city,name
51,Indianapolis,84
30,Columbus,63
21,Charleston,63
117,Tampa,62
132,Yukon,42


In [16]:
result = data[data['name'] == 'Taco Bell'].city.value_counts()[:5]
result

Indianapolis        84
Columbus            63
Charleston          63
Tampa               62
South Lake Tahoe    42
Name: city, dtype: int64

## 13

Давайте найдем рестораны, открытые в октябре.

Отправьте индексы первых пяти ресторанов через запятую и пробел в порядке возрастания.

Советуем вам посмотреть в сторону метода to_datetime.


In [29]:
df.dateAdded.dtypes

dtype('O')

In [33]:
df1 = df.copy()
df1['datetime'] = pd.to_datetime(df1['dateAdded'])
df1.datetime.dtypes

datetime64[ns, UTC]

In [37]:
df1[df1['datetime'].dt.month == 10].head(5).index

Int64Index([2, 21, 22, 23, 24], dtype='int64')

## 14
- Сделайте группировку по месяцу открытия ресторана (переменная dateAdded). 
- Сколько ресторанов было открыто в каждом месяце? 
- Рассчитайте по количеству уникальных id ресторанов в каждом месяце. 
- Значения dateAdded должны при этом быть индексами. 
- Результирующий датафрейм сохраните в result

Данные сохранены в переменную data
> в одной группе каждый id может повторяться (скажем, в течение месяца информация о ресторане обновлялась). Поэтому count() нам не подойдет, нужно использовать другую функцию для подсчета уникальных значений.

In [85]:
# правильное решение
import pandas as pd

data['dateAdded'] = pd.to_datetime(data['dateAdded'])
result = data.groupby(data['dateAdded'].dt.month).agg({'id': 'nunique'})
result

Unnamed: 0_level_0,id
dateAdded,Unnamed: 1_level_1
1,308
2,257
3,4970
4,3224
5,1141
6,1356
7,645
8,479
9,554
10,4716


In [86]:
df1['month_open'] = df1['datetime'].dt.month
df1.groupby('month_open').agg({'id': 'nunique'})

Unnamed: 0_level_0,id
month_open,Unnamed: 1_level_1
1,308
2,257
3,4970
4,3224
5,1141
6,1356
7,645
8,479
9,554
10,4716


## 15
В этом задании нужно 
- добавить столбец update_delta количеством целых дней, полученных от разницы между dateUpdated и dateAdded.
- Потом для каждого города найдите (в указанном порядке):
    - среднее по переменной update_delta
    - широту самой северной закусочной (чем севернее расположена закусочная, тем больше будет значение широты)
- Названия городов не должны быть индексами. 
- Сохраните результирующий датафрейм в переменную result.
- Также сохраните в переменную zep_mean среднее значение update_delta по городу Zephyrhills.

Данные сохранены в переменную data

In [111]:
import pandas as pd
# перевести колонки в тип дата 
data['dateAdded'] = pd.to_datetime(data['dateAdded'])
data['dateUpdated'] = pd.to_datetime(data['dateUpdated'])
# получаем разницу
data['update_delta'] = (data['dateUpdated'] - data['dateAdded']).dt.days

In [112]:
# группируем по городу, аггрегируем по средней update_delta и макс широте
result = data.groupby('city', as_index=False).agg({'update_delta': 'mean', 'latitude': 'max'})
result

Unnamed: 0,city,update_delta,latitude
0,Abbeville,114.857143,29.982108
1,Aberdeen,81.625000,46.975110
2,Abilene,206.454545,32.453090
3,Abingdon,303.500000,36.712800
4,Abington,393.000000,40.124851
...,...,...,...
3596,Zebulon,0.000000,33.102090
3597,Zephyr Cove,105.500000,38.984947
3598,Zephyrhills,329.695652,28.271183
3599,Zieglerville,621.000000,40.291611


In [113]:
# сначала находим город потом обращаемся к его колонке и считаем среднее
zep_mean = data[data['city'] == 'Zephyrhills']['update_delta'].mean()
zep_mean

329.69565217391306

## 16

Отберите рестораны, у которых в колонке categories упоминается Pizza

Укажите индекс 3-го элемента, полученного после фильтрации

In [14]:
data[data['categories'].str.contains('Pizza')].index[2]

66

## 17

В этом задании снова нужно добавить столбец update_delta, куда будет записана разница в днях между dateUpdated и dateAdded.  Посчитайте среднее и медиану получившейся колонки.

Перечислите значения через пробел (сначала среднее, затем медиану), округлив до 2 знаков. 

NB! Десятичным разделителем должна быть точка.

In [125]:
import pandas as pd
# перевести колонки в тип дата 
data['dateAdded'] = pd.to_datetime(data['dateAdded'])
data['dateUpdated'] = pd.to_datetime(data['dateUpdated'])
# получаем разницу
data['update_delta'] = (data['dateUpdated'] - data['dateAdded']).dt.days

mean_ud = data['update_delta'].describe().loc['mean'].round(2)
med_ud = data['update_delta'].describe().loc['50%'].round(2)
print(f'{mean_ud} {med_ud}')

326.22 364.0


## 18
В этом задании нужно  
- отобрать записи, у которых более 20 категорий, 
- далее их нужно сгруппировать по провинциям и подсчитать минимальную longitude в каждой. Округлите значения longitude до 3-х знаков после запятой.
- Далее сохраните результирующий датафрейм в файл в формате csv с сепаратором ;
- Сам датафрейм должен содержать две колонки: province и longitude

Для решения задачи полезно будет ознакомиться с функцией.
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

In [161]:
data[data.categories.str.split(',').apply(lambda x: len(x) > 20)].\
groupby('province', as_index=False).agg({'longitude': 'min'}).round(3).\
to_csv('Task_05_18_Bogdanov.csv', sep=';', index=False)

In [163]:
data[data.categories.str.split(',').apply(lambda x: len(x) > 20)].\
groupby('province', as_index=False).agg({'longitude': 'min'}).round(3)

Unnamed: 0,province,longitude
0,AZ,-110.136
1,CA,-122.417
2,DC,-77.075
3,G P O,-73.99
4,KY,-87.455
5,MA,-71.055
6,MD,-77.453
7,NY,-76.794
8,St Simons Is,-81.394
9,TX,-94.939


In [164]:
cat Task_05_18_Bogdanov.csv

province;longitude
AZ;-110.136
CA;-122.417
DC;-77.075
G P O;-73.99
KY;-87.455
MA;-71.055
MD;-77.453
NY;-76.794
St Simons Is;-81.394
TX;-94.939
VA;-77.093
WA;-122.383
WI;-89.377


In [126]:
df.head(5)

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
0,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2017-02-01T18:04:44Z,,Taco,Gambino's Pizza,KS
1,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2016-03-02T11:49:34Z,"Beef, onion, cheddar cheese, lettuce, refried...",Taco,Gambino's Pizza,KS
2,AVwc__dF_7pvs4fz1Ncy,9521 Morton Davis Dr,"Golf Course, American Restaurant, and Resort",Patterson,,2016-10-14T01:58:25Z,2016-10-14T01:58:25Z,37.401855,-121.266703,,,2016-10-14T01:58:25Z,"Beef barbacoa or chicken, spanish rice, pico d...",Smotherd Burrito,Diablo Grande Golf & Country Club,Grayson
3,AVwc__kCByjofQCxkdm-,10550 W I 25 Frontage Rd,Fast Food Restaurant,Longmont,,2016-09-09T17:30:34Z,2016-10-04T05:15:17Z,,,,,2016-09-09T17:30:34Z,,Sausage Burrito,Mcdonald's,Niwot
4,AVwc__WtByjofQCxkdkR,8495 W 3rd St,"Mexican Restaurant Mid-City West,Mexican Resta...",Los Angeles,Mexican,2016-05-19T11:50:25Z,2016-09-11T00:06:37Z,34.080724,-118.389578,,,2016-05-19T11:50:25Z,"Wahoo, avocado, cabbage, pico de gallo and av...",Wahoo Tacogrilled,Baja Fresh Mexican Grill,Bicentennial
