В заданиях этого урока нам предстоит проанализировать данные об американских закусочных. Мы поищем, где можно купить тако в Калифорнии, в какие месяцы чаще всего открывали рестораны и разберем, какие есть подводные камни при работе с pandas.

Описание данных:
<li> id - уникальный идентификатор заведения
<li> address - физический адрес заведения
<li> categories - категории заведения (например, "Fast food restaurant").
<li> city - город, в котором заведение находится.
<li> cuisines - кухни, которые практикуются в заведении. Например "Mexican".
<li> dateAdded - дата добавления записи. Будем считать, что она совпадает с датой открытия заведения.
<li> dateUpdated - дата обновления информации о заведении.
<li> latitude - географическая широта.
<li> longitude - географическая долгота.
<li> menus.category - категории пищи в меню.
<li> menus.currency - валюта, в которой принимают оплату.
<li> menus.dateSeen - дата, когда было заведено это меню.
<li> menus.description - описание меню от заведения.
<li> menus.name - название меню.
<li> name - название заведения.
<li> province - область (штат), где находится заведение.


In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('data.csv')

In [3]:
'''
В качестве первого шага давайте посмотрим на наши данные c помощью метода head()
Перечислите первые три значения колонки dateAdded через запятую и пробел в том порядке, в котором они были выведены. 
'''
data.dateAdded.head()

0    2016-03-02T11:49:34Z
1    2016-03-02T11:49:34Z
2    2016-10-14T01:58:25Z
3    2016-09-09T17:30:34Z
4    2016-05-19T11:50:25Z
Name: dateAdded, dtype: object

In [4]:
'''
Давайте посмотрим, какой тип имеют колонки city и latitude.
'''
print(data.city.dtypes)
print(data.latitude.dtypes)

object
float64


In [5]:
'''
Какие колонки будут выведены при применении метода describe и почему только они?
'''
data.describe()

Unnamed: 0,latitude,longitude
count,55636.0,55636.0
mean,36.694846,-98.713309
std,4.835124,18.245857
min,-31.986438,-159.49269
25%,33.668355,-117.64715
50%,36.047195,-96.68232
75%,40.58838,-82.67993
max,61.21946,115.903696


In [6]:
'''
Какие средние значения в тех колонках, которые вывел describe в предыдущем задании?
Укажите их через пробел, округлив до двух знаков после запятой. Используйте точку в качестве десятичного разделителя.
'''
round(data.describe(),2)

Unnamed: 0,latitude,longitude
count,55636.0,55636.0
mean,36.69,-98.71
std,4.84,18.25
min,-31.99,-159.49
25%,33.67,-117.65
50%,36.05,-96.68
75%,40.59,-82.68
max,61.22,115.9


In [7]:
'''
Сейчас в данных присутствуют пропущенные значения. Давайте их удалим.
Примените метод dropna.  Сколько осталось записей?
'''
data.dropna()
data.shape

(77260, 16)

In [8]:
'''
Отберите заведения, которые находятся в городе Калифорния ('California'), штат Миссури.  Укажите индексы, под которыми полученные заведения расположены в датафрейме, через запятую и пробел в порядке возрастания. 
Например:
11235, 12457, 77980, 88901

NB! В текущем и последующих заданиях вся работа происходит с изначальным датафреймом. Результат предыдущего задания не учитывается
'''
data.query('city=="California"').index

Int64Index([40483, 52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937,
            52938, 52939, 65070],
           dtype='int64')

In [9]:
'''
Отберите заведения Taco Bell в городе Калифорния ('California'), штат Миссури.
Укажите индексы этих заведений через запятую и пробел в порядке возрастания.
'''
data.query('city=="California" and name=="Taco Bell"').index

Int64Index([52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938,
            52939],
           dtype='int64')

In [10]:
'''
Давайте найдем заведения Taco Bell или заведения, которые находятся в городе Нью-Йорк. При этом обязательно, чтобы в названии меню не было Volcano Taco и Fresco Soft Taco (именно таких значений колонки). Данные нужно сохранить в датафрейм result.
Данные загружены в переменную data. 
'''
result = data[((data["name"] == "Taco Bell") | (data["city"] == "New York")) & (~data["menus.name"].isin(["Volcano Taco","Fresco Soft Taco"]))]
result.head()

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
131,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Volcano Burrito,Taco Bell,NH
132,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Taco 12 Pack,Taco Bell,NH
133,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Grilled Steak Soft Taco,Taco Bell,NH
135,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Grilled Steak Soft Taco,Taco Bell,NH
136,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Crunchy Taco,Taco Bell,NH


In [11]:
'''
Давайте отберем заведения, где значение валюты, в которой принимают оплату, не пропущено.
Нужно сохранить данные в результирующий датафрейм result.
'''
result = data[~data['menus.currency'].isna()==True]
result

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
15,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.085320,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Potatoes, onion, peppers, mushroom, avocado, b...",Mondo Veggie Burrito,Java Joe's,NM
16,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.085320,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Grilled tofu, potatoes and your choice of chil...",Tofu Burrito,Java Joe's,NM
17,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.085320,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z",,Black Bean Burrito,Java Joe's,NM
18,AVwc_2OQ_7pvs4fz1L5H,100 W Higgins Rd,Restaurant,Barrington,"Mexican, Latin American",2016-07-26T17:39:41Z,2016-08-26T05:25:56Z,42.074974,-88.189151,,USD,2016-08-22T00:00:00Z,,Burrito De Rajas,Mago Grill & Cantina - South Barrington,Fox Rv Vly Gn
19,AVwc_2OQ_7pvs4fz1L5H,100 W Higgins Rd,Restaurant,Barrington,"Mexican, Latin American",2016-07-26T17:39:41Z,2016-08-26T05:25:56Z,42.074974,-88.189151,,USD,2016-08-22T00:00:00Z,"lettuce, chihuahua cheese, black beans, mexica...",Taco,Mago Grill & Cantina - South Barrington,Fox Rv Vly Gn
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
77255,AVzRLlQNLD2H7whiWdH_,3919 24th St.,Restaurant,San Francisco,Mexican,2017-06-22T19:01:33Z,2017-06-22T19:01:33Z,37.751392,-122.430180,,USD,2017-06-22T16:40:06.448Z,"meat, rice, beans, guacamole, sour cream, chee...",Super Burrito,La Casona Taqueria,California
77256,AVzRLlQNLD2H7whiWdH_,3919 24th St.,Restaurant,San Francisco,Mexican,2017-06-22T19:01:33Z,2017-06-22T19:01:33Z,37.751392,-122.430180,,USD,2017-06-22T16:40:06.448Z,"melted cheese, rice, beans & salsa",Steamed Broccoli Burrito,La Casona Taqueria,California
77257,AVzRLlQNLD2H7whiWdH_,3919 24th St.,Restaurant,San Francisco,Mexican,2017-06-22T19:01:33Z,2017-06-22T19:01:33Z,37.751392,-122.430180,,USD,2017-06-22T16:40:06.448Z,meat & salsa,Regular Taco,La Casona Taqueria,California
77258,AVzRLlQNLD2H7whiWdH_,3919 24th St.,Restaurant,San Francisco,Mexican,2017-06-22T19:01:33Z,2017-06-22T19:01:33Z,37.751392,-122.430180,,USD,2017-06-22T16:40:06.448Z,"meat, rice, beans & salsa",Regular Burrito,La Casona Taqueria,California


In [12]:
'''
Попробуйте сделать data['categories'], data[['categories']], посмотрите на тип и на значения их элементов.
'''
data['categories']
#data[['categories']]

0        Restaurant Delivery Service,Restaurants,Pizza,...
1        Restaurant Delivery Service,Restaurants,Pizza,...
2             Golf Course, American Restaurant, and Resort
3                                     Fast Food Restaurant
4        Mexican Restaurant Mid-City West,Mexican Resta...
                               ...                        
77255                                           Restaurant
77256                                           Restaurant
77257                                           Restaurant
77258                                           Restaurant
77259                                           Restaurant
Name: categories, Length: 77260, dtype: object

In [13]:
data[['categories']]

Unnamed: 0,categories
0,"Restaurant Delivery Service,Restaurants,Pizza,..."
1,"Restaurant Delivery Service,Restaurants,Pizza,..."
2,"Golf Course, American Restaurant, and Resort"
3,Fast Food Restaurant
4,"Mexican Restaurant Mid-City West,Mexican Resta..."
...,...
77255,Restaurant
77256,Restaurant
77257,Restaurant
77258,Restaurant


In [14]:
'''
Напишите через запятую и пробел 5 городов с наибольшим количеством записей (в порядке убывания количества записей).
'''
data.value_counts('city').head(5)

city
San Diego        1924
Los Angeles      1603
Chicago          1186
San Francisco    1120
New York         1085
dtype: int64

In [15]:
'''
Посчитайте, сколько ресторанов Taco Bell находится в каждом городе. Отберите 5 городов, в которых ресторан встречается чаще всего. 
Количество ресторанов для этих городов с их названиями сохраните в виде объекта pd.Series в переменную result.
'''
result = data[data['name']=="Taco Bell"].value_counts('city').head(5)
result

city
Indianapolis    84
Columbus        63
Charleston      63
Tampa           62
Fresno          42
dtype: int64

In [27]:
'''
Давайте найдем рестораны, открытые в октябре.
Отправьте индексы первых пяти ресторанов через запятую и пробел в порядке возрастания.
Советуем вам посмотреть в сторону метода to_datetime.
'''
data['dateAdded'] = pd.to_datetime(data['dateAdded'])
data[data['dateAdded'].dt.month == 10].head(5).index

Int64Index([2, 21, 22, 23, 24], dtype='int64')

In [34]:
'''
Сделайте группировку по месяцу открытия ресторана (переменная dateAdded). 
Сколько ресторанов было открыто в каждом месяце? 
Рассчитайте по количеству уникальных id ресторанов в каждом месяце. Значения dateAdded должны при этом быть индексами. 
Результирующий датафрейм сохраните в result
Данные сохранены в переменную data
'''
result = data.groupby(data['dateAdded'].dt.month).agg({'id':'nunique'})
result

Unnamed: 0_level_0,id
dateAdded,Unnamed: 1_level_1
1,308
2,257
3,4970
4,3224
5,1141
6,1356
7,645
8,479
9,554
10,4716


In [68]:
'''
В этом задании нужно добавить столбец update_deltaс количеством целых дней, полученных от разницы между dateUpdated и dateAdded.

Потом для каждого города найдите (в указанном порядке):
- среднее по переменной update_delta
- широту самой северной закусочной (чем севернее расположена закусочная, тем больше будет значение широты)
 Названия городов не должны быть индексами. Сохраните результирующий датафрейм в переменную result.  
 Также сохраните в переменную zep_mean среднее значение update_delta по городу Zephyrhills.
'''
data['dateAdded'] = pd.to_datetime(data['dateAdded'])
data['dateUpdated'] = pd.to_datetime(data['dateUpdated'])

data['update_delta'] = (data['dateUpdated'] - data['dateAdded']).dt.days

result = data.groupby('city',as_index=False).agg({'update_delta': 'mean', 'latitude': 'max'})
zep_mean = result.loc[result['city'] == 'Zephyrhills', 'update_delta'].values[0]
result
#zep_mean

Unnamed: 0,city,update_delta,latitude
0,Abbeville,114.857143,29.982108
1,Aberdeen,81.625000,46.975110
2,Abilene,206.454545,32.453090
3,Abingdon,303.500000,36.712800
4,Abington,393.000000,40.124851
...,...,...,...
3596,Zebulon,0.000000,33.102090
3597,Zephyr Cove,105.500000,38.984947
3598,Zephyrhills,329.695652,28.271183
3599,Zieglerville,621.000000,40.291611


In [69]:
'''
Отберите рестораны, у которых в колонке categories упоминается Pizza
Укажите индекс 3-го элемента, полученного после фильтрации
'''
data[data['categories'].str.contains('Pizza')].index[2]

66

In [70]:
'''
В этом задании снова нужно добавить столбец update_delta, куда будет записана разница в днях между dateUpdated и dateAdded.  
Посчитайте среднее и медиану получившейся колонки.

Перечислите значения через пробел (сначала среднее, затем медиану), округлив до 2 знаков. 

NB! Оба значения должны быть введены с десятичным разделителем в виде точки.
'''
data['update_delta'] = (pd.to_datetime(data['dateUpdated']) - pd.to_datetime(data['dateAdded'])).dt.days

mean_delta = round(data['update_delta'].mean(), 2)
median_delta = round(data['update_delta'].median(), 2)

print(mean_delta, median_delta)

326.22 364.0


In [72]:
'''
В этом задании нужно отобрать записи, у которых более 20 категорий, 
далее их нужно сгруппировать по провинциям и подсчитать минимальную longitude в каждой. 
Округлите значения longitude до 3-х знаков после запятой.

Далее сохраните результирующий датафрейм в файл в формате csv с сепаратором ;. 
Сам датафрейм должен содержать две колонки: province и longitude
'''
df_filtered = data[data['categories'].str.count(',') > 19]

df_result = df_filtered.groupby('province')['longitude'].min().reset_index()

df_result['longitude'] = df_result['longitude'].round(3)

#df_result.to_csv('result.csv', sep=';', index=False, encoding='utf-8')