В заданиях этого урока нам предстоит проанализировать данные об американских закусочных. Мы поищем, где можно купить тако в Калифорнии, в какие месяцы чаще всего открывали рестораны и разберем, какие есть подводные камни при работе с pandas.

 
Описание данных:

    id - уникальный идентификатор заведения
    address - физический адрес заведения
    categories - категории заведения (например, "Fast food restaurant").
    city - город, в котором заведение находится.
    cuisines - кухни, которые практикуются в заведении. Например "Mexican".
    dateAdded - дата добавления записи. Будем считать, что она совпадает с датой открытия заведения.
    dateUpdated - дата обновления информации о заведении.
    latitude - географическая широта.
    longitude - географическая долгота.
    menus.category - категории пищи в меню.
    menus.currency - валюта, в которой принимают оплату.
    menus.dateSeen - дата, когда было заведено это меню.
    menus.description - описание меню от заведения.
    menus.name - название меню.
    name - название заведения.
    province - область (штат), где находится заведение.

`2016-03-02T11:49:34Z, 2016-03-02T11:49:34Z, 2016-10-14T01:58:25Z`

In [2]:
import pandas as pd
df = pd.read_csv('data.csv')

## 1

В качестве первого шага давайте посмотрим на наши данные c помощью метода head()

Перечислите первые три значения колонки dateAdded через запятую и пробел в том порядке, в котором они были выведены. Например:

In [13]:
list(df['dateAdded'].head(3))

['2016-03-02T11:49:34Z', '2016-03-02T11:49:34Z', '2016-10-14T01:58:25Z']

## 2

Давайте посмотрим, какой тип имеют колонки city и latitude.

Введите через пробел названия типов.


In [27]:
df[['city', 'latitude']].dtypes

city         object
latitude    float64
dtype: object

## 3

Какие колонки будут выведены при применении метода `describe` и почему только они?

`latitude, longitude, потому что это единственные численные колонки`

In [43]:
df.dtypes
# latitude             float64
# longitude            float64

df.describe().columns.tolist() # только те, где есть значения

['latitude', 'longitude']

## 4

Какие средние значения в тех колонках, которые вывел describe в предыдущем задании?

Укажите их через пробел, округлив до двух знаков после запятой. Используйте точку в качестве десятичного разделителя.

In [75]:
lat = df.describe().loc['mean'][0].round(2)
long = df.describe().loc['mean'][1].round(2)

print(f'{lat} {long}')
#.\round(2).to_list()

36.69 -98.71


## 5

Сейчас в данных присутствуют пропущенные значения. Давайте их удалим.

Примените метод dropna.  Сколько осталось записей?

In [77]:
len(df.dropna())

1925

## 6

Отберите заведения, которые находятся в городе Калифорния ('California'), штат Миссури.  Укажите индексы, под которыми полученные заведения расположены в датафрейме, через запятую и пробел в порядке возрастания. 

Например:
```
11235, 12457, 77980, 88901

```
NB! В текущем и последующих заданиях вся работа происходит с изначальным датафреймом. Результат предыдущего задания не учитывается

In [114]:
df[df['city'] == 'California'].index.sort_values().to_list

<bound method IndexOpsMixin.tolist of Int64Index([40483, 52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937,
            52938, 52939, 65070],
           dtype='int64')>

## 7

Отберите заведения Taco Bell в городе Калифорния ('California'), штат Миссури.

Укажите индексы этих заведений через запятую и пробел в порядке возрастания.

In [128]:
df[(df['name'] == 'Taco Bell') & (df['city'] == 'California')].index.sort_values()

Int64Index([52930, 52931, 52932, 52933, 52934, 52935, 52936, 52937, 52938,
            52939],
           dtype='int64')

## 8
Давайте
- найдем заведения Taco Bell или заведения, которые находятся в городе Нью-Йорк. 
- При этом обязательно, чтобы в названии меню не было Volcano Taco и Fresco Soft Taco (именно таких значений колонки). 
- Данные нужно сохранить в датафрейм result.

In [140]:
data = df.copy()
result = data[( (data['name'] == 'Taco Bell') | (data['city'] == 'New York') ) \
     & ( ~ data['menus.name'].isin(['Volcano Taco', 'Fresco Soft Taco'])  )]
result.head(5)

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
131,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Volcano Burrito,Taco Bell,NH
132,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Taco 12 Pack,Taco Bell,NH
133,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Grilled Steak Soft Taco,Taco Bell,NH
135,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Grilled Steak Soft Taco,Taco Bell,NH
136,AVwc_9yCByjofQCxkdRX,322 S. Broadway,"Fast Food,Restaurants,Mexican,Breakfast,Vegeta...",Salem,Mexican,2016-03-28T06:01:51Z,2017-06-27T10:01:48Z,42.755023,-71.20944,,,"2016-03-28T06:01:51Z,2016-06-06T16:15:44Z",,Fresco Crunchy Taco,Taco Bell,NH


## 9

Давайте отберем рестораны, где значение валюты, в которой принимают оплату, не пропущено.

Нужно сохранить данные в результирующий датафрейм result.

Данные загружены data. 

In [176]:
 result = data[~ data['menus.currency'].isna()]
result.head(3)
# result = data[data['menus.currency'].notna()]

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
15,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Potatoes, onion, peppers, mushroom, avocado, b...",Mondo Veggie Burrito,Java Joe's,NM
16,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z","Grilled tofu, potatoes and your choice of chil...",Tofu Burrito,Java Joe's,NM
17,AVwc_1y6kufWRAb51O6w,906 Park Ave SW,"Coffee Shop,Restaurants,Coffeehouses",Albuquerque,Coffee Shops,2016-06-05T20:15:56Z,2017-07-06T13:28:29Z,35.08532,-106.657616,,USD,"2016-06-05T20:15:56Z,2016-10-20T07:09:38Z",,Black Bean Burrito,Java Joe's,NM


## 10

Попробуйте сделать `data['categories'], data[['categories']],` посмотрите на тип и на значения их элементов.

Выберете подходящие значения.

`data['categories'] выдает Series, data[['categories']] выдает DataFrame. В обоих случаях тип данных object`

In [185]:
type(data['categories'])
# pandas.core.series.Series
data['categories']

0        Restaurant Delivery Service,Restaurants,Pizza,...
1        Restaurant Delivery Service,Restaurants,Pizza,...
2             Golf Course, American Restaurant, and Resort
3                                     Fast Food Restaurant
4        Mexican Restaurant Mid-City West,Mexican Resta...
                               ...                        
77255                                           Restaurant
77256                                           Restaurant
77257                                           Restaurant
77258                                           Restaurant
77259                                           Restaurant
Name: categories, Length: 77260, dtype: object

In [186]:
type(data[['categories']])
# pandas.core.frame.DataFrame
data[['categories']]

Unnamed: 0,categories
0,"Restaurant Delivery Service,Restaurants,Pizza,..."
1,"Restaurant Delivery Service,Restaurants,Pizza,..."
2,"Golf Course, American Restaurant, and Resort"
3,Fast Food Restaurant
4,"Mexican Restaurant Mid-City West,Mexican Resta..."
...,...
77255,Restaurant
77256,Restaurant
77257,Restaurant
77258,Restaurant


## 11
Напишите через запятую и пробел 5 городов с наибольшим количеством записей.

In [215]:
data.city.value_counts().head(5).index

Index(['San Diego', 'Los Angeles', 'Chicago', 'San Francisco', 'New York'], dtype='object')

## 16

Отберите рестораны, у которых в колонке categories упоминается Pizza

Укажите индекс 3-го элемента, полученного после фильтрации

In [219]:
data[data['categories'].str.contains('Pizza')].index[2]

66

## 12

Посчитайте, сколько ресторанов Taco Bell находится в каждом городе. Отберите 5 городов, в которых ресторан встречается чаще всего. Количество ресторанов для этих городов с их названиями сохраните в виде объекта pd.Series в переменную result.

Данные сохранены в переменную data

In [266]:
data[data['name'] == 'Taco Bell'].groupby('city',as_index=False).agg({'name': 'count'}).\
sort_values(['name','city'], ascending=False)[:5]

Unnamed: 0,city,name
51,Indianapolis,84
30,Columbus,63
21,Charleston,63
117,Tampa,62
132,Yukon,42


In [255]:
result = data[data['name'] == 'Taco Bell'].city.value_counts()[:5]
result

Indianapolis        84
Columbus            63
Charleston          63
Tampa               62
South Lake Tahoe    42
Name: city, dtype: int64

In [139]:
df.head(1)

Unnamed: 0,id,address,categories,city,cuisines,dateAdded,dateUpdated,latitude,longitude,menus.category,menus.currency,menus.dateSeen,menus.description,menus.name,name,province
0,AVwc__cikufWRAb51QjV,610 Commercial St,"Restaurant Delivery Service,Restaurants,Pizza,...",Atchison,Restaurant Delivery Service,2016-03-02T11:49:34Z,2017-02-01T18:04:44Z,39.56157,-95.12102,,,2017-02-01T18:04:44Z,,Taco,Gambino's Pizza,KS
