# Проект урока 1. Знакомство с библиотекой Pandas
# «Анализ данных о поездках на такси в Нью-Йорке»

## Шаг 1

В первом проекте вы будете работать с реальным набором данных о поездках на такси в Нью-Йорке. Датасет включает в себя информацию о датах и времени поездок, метеорологических условиях в это время, а также о том, является день праздничным или выходным. Описание колонок:
* pickup_dt – период с точностью до часа
* pickup_month – месяц
* borough – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)
* pickups – число поездок за период (час)
* hday – является ли день праздничным/выходным; Y — да,  N — нет
* spd – скорость ветра в милях в час
* vsb – видимость
* temp – температура в градусах Фаренгейта
* dewp – точка росы по Фаренгейту
* slp – давление
* pcp_01 – количество осадков за час
* pcp_06 – количество осадков за 6 часов
* pcp_24 – количество осадков за 24 часа
* sd – глубина снега в дюймах

Каждая строка в датасете — запись не об одной конкретной поездке, а о всех поездках, сделанных за определенный час из того или иного района Нью-Йорка, и о том, какие были показатели погоды в этот час.  

Ваша задача в этом уроке — применить навыки работы с библиотекой pandas для анализа и обработки данных. Вы научитесь загружать данные, проверять их структуру, обрабатывать и анализировать, используя различные методы и функции pandas.
Ваша конечная цель — не только успешно выполнить все задачи, но и получить ценные инсайты из анализируемого датасета.

Вы можете решать задания тем способом, который считаете наиболее удобным или оптимальным. А для того, чтобы лучше понять задание, рекомендуем выполнять его по шагам. Бывает, что их можно выполнить в одну строчку, применяя методы друг за другом. А если выполняете шаги отдельно, не забудьте сохранить результат в переменную, чтобы в следующем шаге работать именно с ней.

В ноутбуке место для вашего решения обозначено комментарием `# Ваш код здесь`, но вы можете писать код там, где вам удобно, добавлять или удалять ячейки с кодом или текстом по вашему усмотрению.

Напоминаем и о [памятке на Notion](https://www.notion.so/5214565bd5dd4152b20c364c1528258b)! Очень многие проблемы, описанные в ней, часто встречаются именно в этом уроке, поэтому рекомендуем открыть её в отдельном окне и периодически с ней сверяться.  

Кроме того можно посмотреть подсказки, кликнув на строчку `► Нажмите сюда, чтобы увидеть подсказку`. Также не забывайте о наличии конспектов и возможности задать вопрос в Discord, ссылка на нужный тред есть на странице каждого шага в LMS.

## Шаг 2

Перед открытием датасета нужно импортировать библиотеку pandas. Начнем с простого вопроса: **что произойдет в результате выполнения следующей команды?**

```python
import pandas as pnds
```

**Выберите один вариант:**

* Сможем использовать библиотеку pandas, обращаясь к ней как pnds
* Вовсе не сможем использовать библиотеку, потому что использовали сокращение pnds, а не pd
* Сможем использовать библиотеку pandas, обращаясь и как pandas, и как pnds

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>Попробуйте ввести в юпитер ноутбуке код
      
```python
import pandas as pnds
```
И обратиться к пандасу через `pd` или `pnds`, например, создать пустой датафрейм:
      
```python
df = pnds.DataFrame()
```
</p>
</details>

In [1]:
# Ваш код здесь

import pandas as pnds


## Шаг 3

В этом задании вы потренируетесь читать данные из csv файла. Откройте датасет с данными о поезках такси в Нью-Йорке и сохраните его в переменную `taxi`. **Определите, какой индекс имеет самая верхняя строка?**

Шаги выполнения:

1. Импортируйте библиотеку pandas с общепринятым алиасом (псевдонимом) pd

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Для импорта библиотеки напишите:
```python
import library as shortcut
```
где вместо `library` подставьте название библиотеки (`pandas`), а вместо `shortcut` — его общераспространённое сокращённое название (`pd`).
</p>
</details>

In [1]:
# Ваш код здесь

import pandas as pd


2. Загрузите csv файл к уроку в свою папку в JupyterНub

3. Прочитайте этот csv файл и сохраните его в переменную `taxi`

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
      
Данные о поездках на такси находятся в файле формата CSV. Для их загрузки воспользуйтесь функцией `pd.read_csv()`, передав в качестве аргумента путь к файлу. Например,
```python
df = pd.read_csv('data.csv')
```
cчитает файл `data.csv`, хранящийся в той же папке, что и юпитер ноутбук, в котором вы сейчас работаете.
</p>
</details>

In [2]:
# Ваш код здесь

wb = pd.read_csv('taxi_nyc.csv')

4. Выведите первые строки датафрейма, чтобы посмотреть на данные и узнать индекс самой верхней строки

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
      
Используйте метод `head()`. Например, код
```python
df.head(10)
```
выведет первые 10 строк датафрейма `df`.
      
Визуально индекс можно определить так:

1. Он всегда находится слева от столбцов
2. Его название (если оно есть) написано ниже, чем названия столбцов
</p>
</details>

In [3]:
# Ваш код здесь

wb.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


## Шаг 4

После загрузки данных полезно получить базовое представление об их структуре и содержании. Для этого сначала **узнайте количество строк и столбцов в датафрейме.**

Шаги выполнения:
1. Выведите количество строк и столбцов

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
      
Используйте атрибут `shape`, который возвращает кортеж: первый элемент кортежа указывает на количество строк, а второй — на количество столбцов в датафрейме.  

Для обращения к атрибуту датафрейма нужно написать переменную, где хранится датафрейм, поставить точку и написать название атрибута (без скобок!). Например:
```python
df.some_attribute
```
так мы обратимся к атрибуту `some_attribute` у датафрейма в переменной `df`.
</p>
</details>

In [6]:
# Ваш код здесь

wb.shape

(29101, 14)

## Шаг 5

**Цель этого задания — проверить типы данных в столбцах датафрейма и определить, какой тип данных преобладает.**

Шаги выполнения:
1. Проверьте типы данных в датафрейме

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
Есть два способа узнать типы данных:
      
1) Используйте атрибут `dtypes`. Он возвращает серию, индексами которой являются названия столбцов, а значениями — тип данных в этих столбцах.  

Для обращения к атрибуту датафрейма нужно написать переменную, где хранится датафрейм, поставить точку и написать название атрибута (без скобок!). Например:
```python
df.some_attribute
```
так мы обратимся к атрибуту `some_attribute` у датафрейма в переменной `df`.
      
2) Либо примените к датафрейму метод `info()`, который выводит подробную информацию о датафрейме и его колонках.
      
Как использовать метод? Например, применим метод `some_method()` к датафрейму `df`:
```python
df.some_method()
```
</p>
</details>

In [9]:
# Ваш код здесь

wb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29101 entries, 0 to 29100
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   pickup_dt     29101 non-null  object 
 1   pickup_month  29101 non-null  object 
 2   borough       26058 non-null  object 
 3   pickups       29101 non-null  int64  
 4   hday          29101 non-null  object 
 5   spd           29101 non-null  float64
 6   vsb           29101 non-null  float64
 7   temp          29101 non-null  float64
 8   dewp          29101 non-null  float64
 9   slp           29101 non-null  float64
 10  pcp 01        29101 non-null  float64
 11  pcp 06        29101 non-null  float64
 12  pcp 24        29101 non-null  float64
 13  sd            29101 non-null  float64
dtypes: float64(9), int64(1), object(4)
memory usage: 3.1+ MB


2. Определите, какой тип данных преобладает

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Код для этого писать не нужно, достаточно посмотреть глазами. Если использовали атрибут `dtypes`, количество каждого типа нужно будет посчитать. А метод `info()` все посчитал сам, смотрите на предпоследнюю строчку, которая начинается с `dtypes:`, количество колонок каждого типа указаны в скобках.
      
</p>
</details>

## Шаг 6

В названиях трех столбцов встречается пробел: это столбцы `pcp 01`, `pcp 06` и `pcp 24`. Замените пробел на знак нижнего подчеркивания, чтобы было удобно обращаться к этим столбцам: через точку, без использования кавычек и скобок. Результат сохраните в тот же датафрейм `taxi`.

Шаги выполнения:
1. Переименуйте 3 столбца, заменив пробелы на нижние подчеркивания

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
      
Для переименования колонок передайте в метод `rename()` в параметр `columns` словарь, где ключами являются старые названия колонок, а значениями — новые названия. Например:
```python
dictionary_name = {'previous_name': 'new_name_1', 'old name': 'new_name_2'} # задаём словарик
df = df.rename(columns=dictionary_name)
```
вернёт вам датафрейм `df`, где колонка `previous_name` будет переименована в колонку `new_name_1`, а `old name` — в `new_name_2`.
</p>
</details>

In [4]:
# Ваш код здесь

taxi = wb.rename(columns={'pcp 01':'pcp_01', 'pcp 06':'pcp_06', 'pcp 24':'pcp_24'})

2. Убедитесь, что названия столбцов были успешно изменены и результат сохранен в датафрейм `taxi`, выведя обновлённый список названий столбцов

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
      
Используйте атрибут `columns`. Он возвращает названия колонок датафрейма.  

Для обращения к атрибуту датафрейма нужно написать переменную, где хранится датафрейм, поставить точку и написать название атрибута (без скобок!). Например:
```python
df.some_attribute
```
Так мы обратимся к атрибуту `some_attribute` у датафрейма в переменной `df`.
</p>
</details>

In [5]:
# Ваш код здесь

taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp_01,pcp_06,pcp_24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


**В LMS датафрейм с прежними названиями колонок сохранен в переменную `taxi`. Перенесите в LMS код с переименованием столбцов и сохранением результата в тот же датафрейм `taxi`**.

## Шаг 7

Проверьте, все ли районы встречаются в данных одинаково часто. **Используя метод `value_counts()` из библиотеки pandas, определите число записей по каждому району Нью-Йорка. Сколько раз в данных встречается район Манхэттен (Manhattan)?**

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Чтобы узнать, как часто встречается каждый из районов в датафрейме, используйте метод `value_counts()`, применив его к столбцу `borough`. Этот метод возвращает серию, где индексы — это уникальные значения из столбца, а значения — это частота их встречаемости.

Как использовать метод? Применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```

</p>
</details>

In [5]:
# Ваш код здесь

taxi.borough.value_counts()

borough
Bronx            4343
Brooklyn         4343
EWR              4343
Manhattan        4343
Queens           4343
Staten Island    4343
Name: count, dtype: int64

## Шаг 8

**В этом задании посчитайте общее количество поездок,** чтобы узнать, насколько было востребовано такси в Нью-Йорке за период наблюдений. Для этого суммируйте все значения в столбце `pickups` с помощью метода [sum()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sum.html)

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Используйте метод `sum()` для столбца `pickups`. Этот метод позволит вам суммировать все значения в указанном столбце.

Как использовать метод? Например, применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```
</p>
</details>


In [8]:
# Ваш код здесь

taxi.pickups.sum()

np.int64(14265773)

## Шаг 9

**Используя возможности группировки данных в pandas, определите район Нью-Йорка, из которого было совершено наибольшее количество поездок.** Такая информация может понадобиться, чтобы принять бизнес-решение о том, в каком районе увеличить количество машин такси.

Шаги выполнения:
1. Сгруппируйте данные по районам и посчитайте количество поездок из каждого района

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

**Сгруппируйте данные по столбцу `borough`, используя метод `groupby()`**. Его вызов группирует строки по значениям в какой-то колонке (или комбинации значений из нескольких колонок). Например,
```python
df.groupby('pickup_month')
```
сгруппирует данные датафрейма `df` по колонке `pickup_month` — то есть строки с месяцем январь в колонке `pickup_month` будут в отдельной колонке от строк с месяцем май. Сама по себе группировка не вычисляет что-то по группам.

**После группировки используйте метод `sum()` для столбца `pickups`**. Этот метод позволит вам суммировать все значения в указанном столбце.

**Как использовать метод?** Например, применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```

**Как использовать метод сразу после группировки?** Например, применим метод `some_method()` к колонке `column_name_2` после группировки по столбцу `column_name_1` датафрейма `df`:
```python
df.groupby('column_name_1').column_name_2.some_method()
```      

</p>
</details>

In [6]:
# Ваш код здесь

taxi.groupby('borough').pickups.sum()

borough
Bronx              220047
Brooklyn          2321035
EWR                   105
Manhattan        10367841
Queens            1343528
Staten Island        6957
Name: pickups, dtype: int64

2. Определите район с наибольшим количеством поездок

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Используйте метод `sort_values()`. Он сортирует строки по значениям в какой-то колонке. Например,

```python
df.sort_values('spd', ascending=True)
```

отсортирует данные датафрейма `df` по значениям в колонке `spd`. Параметр `ascending` отвечает за сортировку по возрастанию (True — по возрастанию, False — по убыванию)    

</p>
</details>

In [7]:
# Ваш код здесь

taxi.groupby('borough').pickups.sum().sort_values(ascending=False)

borough
Manhattan        10367841
Brooklyn          2321035
Queens            1343528
Bronx              220047
Staten Island        6957
EWR                   105
Name: pickups, dtype: int64

## Шаг 10

⭐️Задание со звёздочкой!⭐️

Чтобы ускорить процесс аналитической работы, в этом задании вы изучите применение новых методов: `idxmin()` и `idxmax()` для определения индексов минимального и максимального значения в наборе данных.

[idxmin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmin.html) – возвращает индекс минимального значения (не само значение, а индекс строки, в которой находится это значение)  
[idxmax()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmax.html) – возвращает индекс максимального значения

Методы применяются к той колонке, по которой он определит максимальное или минимальное значение и вернет его индекс. Пример синтаксиса:

```python
df.column_name.idxmax()
```

Эти методы заменяют следующую цепочку действий: применить метод `sort_values()`, взять только первую строку, обратиться к её индексу. Обратите внимание, что оба метода помогут вернуть только одно значение индекса, даже если в данных максимальных или минимальных значений несколько.

**Чтобы потренироваться использовать новые методы, сохраните название района с наименьшим числом поездок в переменную `min_pickups`, применив подходящий метод**.

Шаги выполнения:
1. Как и в прошлом задании, группируйте данные по районам и посчитайте количество поездок из каждого района

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Сгруппируйте данные по столбцу `borough`, используя метод `groupby()`. Его вызов группирует строки по значениям в какой-то колонке (или комбинации значений из нескольких колонок). Например,

```python
df.groupby('pickup_month')
```

сгруппирует данные датафрейма `df` по колонке `pickup_month` — то есть строки с месяцем январь в колонке `pickup_month` будут в отдельной колонке от строк с месяцем май. Сама по себе группировка не вычисляет что-то по группам.

После группировки используйте метод `sum()` для столбца `pickups`. Этот метод позволит вам суммировать все значения в указанном столбце.


Как использовать метод? Например применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```

Как использовать метод сразу после группировки? Например применим метод `some_method()` к колонке `column_name_2` после группировки по столбцу `column_name_1` датафрейма `df`:
```python
df.groupby('column_name_1').column_name_2.some_method()
```      

</p>
</details>

In [8]:
# Ваш код здесь

taxi.groupby('borough').pickups.sum()


borough
Bronx              220047
Brooklyn          2321035
EWR                   105
Manhattan        10367841
Queens            1343528
Staten Island        6957
Name: pickups, dtype: int64

2. Примените подходящий метод, чтобы получить индекс района с наименьшим числом поездок. Сохраните результат в переменную `min_pickups`

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Убедитесь, что вы не использовали параметр `as_index=False` в группировке, чтобы получить нужные индексы.

Как использовать метод? Например применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```
Какой из методов нужен?  
`idxmin()` — индекс минимального элемента  
`idxmax()` — индекс максимального элемента
      
Не забудьте сохранить результат в переменную `min_pickups`.
</p>
</details>

In [9]:
# Ваш код здесь

min_pickups = taxi.groupby('borough').pickups.sum().idxmin()
min_pickups

'EWR'

In [10]:
max_pickups = taxi.groupby('borough').pickups.sum().idxmax()
max_pickups

'Manhattan'

**На LMS исходные (несгруппированные) данные сохранены в переменную `taxi`. Загрузите в LMS Ваш код, в котором сохраняете название района с наименьшим числом поездок в переменную `min_pickups`**

## Шаг 11

**Теперь ваша задача определить, из каких районов по праздникам и выходным дням в среднем поступает больше заказов, чем в обычные дни.** Такие расчеты помогут компании оптимизировать предложение машин такси и понять, в каких районах в выходные дни нужно дополнительно стимулировать водителей выходить на смену, чтобы машин хватало.

Шаги выполнения:
1. Сгруппируйте данные по району и типу дня (выходной/будний), рассчитайте среднее количество поездок для каждой группы

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

**Сгруппируйте данные одновременно по двум колонкам — `borough` (район) и `hday` (праздничный день)**, используя метод `groupby()`, и рассчитайте среднее количество поездок (`pickups`) для каждой группы.
      
**Как сгруппировать по нескольким колонкам?** Передайте в метод `groupby()` не строку-название колонки, а список с названиями колонок. Например:
```python
df.groupby(['pickup_month', 'pickups'])
```
сгруппирует по комбинации значений `pickup_month` и `pickups`.

**После группировки данных примените метод `mean()` к столбцу `pickups`**, чтобы определить среднее количество поездок для каждой комбинации района и типа дня.

**Как использовать метод?** Например применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```
</p>
</details>

In [11]:
# Ваш код здесь

taxi.groupby(['borough', 'hday']).pickups.mean()

borough        hday
Bronx          N         50.771073
               Y         48.065868
Brooklyn       N        534.727969
               Y        527.011976
EWR            N          0.023467
               Y          0.041916
Manhattan      N       2401.302921
               Y       2035.928144
Queens         N        308.899904
               Y        320.730539
Staten Island  N          1.606082
               Y          1.497006
Name: pickups, dtype: float64

In [12]:
taxi.groupby(['borough', 'hday'], as_index=False).pickups.mean()

Unnamed: 0,borough,hday,pickups
0,Bronx,N,50.771073
1,Bronx,Y,48.065868
2,Brooklyn,N,534.727969
3,Brooklyn,Y,527.011976
4,EWR,N,0.023467
5,EWR,Y,0.041916
6,Manhattan,N,2401.302921
7,Manhattan,Y,2035.928144
8,Queens,N,308.899904
9,Queens,Y,320.730539


2. Сравните среднее количества поездок в праздничные и будние дни

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>
На этом этапе проще всего это сделать «глазами».

Чтобы было удобнее смотреть на результат, задайте параметр `as_index=False` при группировке или используйте метод `to_frame()`, который превращает серию в датафрейм.
      
Как использовать метод? Например применим метод `some_method()` к пандасовской series:
```python
series.some_method()
```
      
На что смотреть? Название района, в котором после агрегации значение в колонке `pickups` в строке с `Y` (выходной день) больше, чем в строке с `N` (будний день).
</p>
</details>

**Выберите районы, из которых по праздникам в среднем поступает больше заказов, чем в обычные дни. Отметьте один или несколько вариантов**.

## Шаг 12

**Ваша цель в этом задании — определить число поездок в каждом районе по месяцам.** Эти расчеты помогут проследить динамику числа поездок, выявить закономерности и сезонность.  

**Результаты необходимо отсортировать по убыванию количества поездок и сохранить в новый датафрейм `pickups_by_mon_bor`.**
Обратите внимание, что итоговый датафрейм должен состоять из 3-х колонок — `pickup_month`, `borough`, `pickups`.

Шаги выполнения:
1. Сгруппируйте данные по району и месяцу, посчитайте сумму поездок для каждой группы


<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

**Сгруппируйте данные одновременно по двум колонкам — `borough` (район) и `pickup_month` (месяц)**, используя метод `groupby()`, и рассчитайте сумму поездок (`pickups`) для каждой группы.
      
**Как сгруппировать по нескольким колонкам?** Передайте в метод `groupby()` не строку-название колонки, а список с названиями колонок. Например:
```python
df.groupby(['pickup_month', 'pickups'])
```
сгруппирует по комбинации значений `pickup_month` и `pickups`

**Чтобы получилась не 1, а 3 колонки**, используйте параметр `as_index` в методе `groupby`. Он определяет, что станет с группировочными колонками. Параметр принимает логическое значение (`True`/`False`) - если `as_index` равно `False`, то группировочные колонки останутся колонками в результате. А если `True` (значение по умолчанию), то группировочные колонки становятся сложным индексом (мультииндексом).
      
**После группировки данных примените метод `sum()` к столбцу `pickups`**, чтобы определить сумму поездок для каждой комбинации района и месяца.

**Как использовать метод?** Например применим метод `some_method()` к колонке `column_name` датафрейма `df`:
```python
df.column_name.some_method()
```
</p>
</details>

In [20]:
# Ваш код здесь

taxi.groupby(['borough', 'pickup_month']).pickups.sum()

borough        pickup_month
Bronx          Apr               34617
               Feb               28694
               Jan               22461
               Jun               49006
               Mar               32232
               May               53037
Brooklyn       Apr              378095
               Feb              328650
               Jan              309011
               Jun              482466
               Mar              346726
               May              476087
EWR            Apr                  10
               Feb                  14
               Jan                  11
               Jun                  29
               Mar                  14
               May                  27
Manhattan      Apr             1648278
               Feb             1718571
               Jan             1455543
               Jun             1995388
               Mar             1661261
               May             1888800
Queens         Apr              2168

2. Отсортируйте результаты по убыванию количества поездок, чтобы определить наиболее активные месяцы для каждого района

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Используйте метод `sort_values()`. Он сортирует строки по значениям в какой-то колонке. Например,

```python
df.sort_values('spd', ascending=True)
```

отсортирует данные датафрейма `df` по значениям в колонке `spd`. Параметр `ascending` отвечает за сортировку по возрастанию (True — по возрастанию, False — по убыванию). Метод не меняет сам датафрейм. Если хотите сохранить данные в отсортированном виде, датафрейм нужно перезаписать    

</p>
</details>

In [22]:
# Ваш код здесь

taxi.groupby(['borough', 'pickup_month']) \
    .pickups \
    .sum() \
    .sort_values(ascending=False) \
    .to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,pickup_month,Unnamed: 2_level_1
Manhattan,Jun,1995388
Manhattan,May,1888800
Manhattan,Feb,1718571
Manhattan,Mar,1661261
Manhattan,Apr,1648278
Manhattan,Jan,1455543
Brooklyn,Jun,482466
Brooklyn,May,476087
Brooklyn,Apr,378095
Brooklyn,Mar,346726


3. Сохраните результат в новый датафрейм `pickups_by_mon_bor`. Проверьте, что он состоит из 3-х колонок - `pickup_month`, `borough`, `pickups`

<details>
<summary>&#9658; Нажмите сюда, чтобы увидеть подсказку</summary>
  <p>

Как сохранить результат в новый датафрейм? Например, сохраним результат применения метода `some_method()` к колонке `column_name` датафрейма `df` в новый датафрейм `new_df`:
```python
new_df = df.column_name.some_method()
```

**Как проверить, что датафрейм состоит из 3 колонок - `pickup_month`, `borough`, `pickups`?** Используйте атрибут `columns`, который возвращает все названия колонок в датафрейме.
      
Для обращения к атрибуту датафрейма нужно написать переменную, где хранится датафрейм, поставить точку и написать название атрибута (без скобок!). Например:
```python
df.some_attribute
```
так мы обратимся к атрибуту `some_attribute` у датафрейма в переменной `df`.     
</p>
</details>

In [24]:
# Ваш код здесь

pickups_by_mon_bor = taxi.groupby(['borough', 'pickup_month']) \
    .pickups \
    .sum() \
    .sort_values(ascending=False) \
    .to_frame()

pickups_by_mon_bor

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,pickup_month,Unnamed: 2_level_1
Manhattan,Jun,1995388
Manhattan,May,1888800
Manhattan,Feb,1718571
Manhattan,Mar,1661261
Manhattan,Apr,1648278
Manhattan,Jan,1455543
Brooklyn,Jun,482466
Brooklyn,May,476087
Brooklyn,Apr,378095
Brooklyn,Mar,346726


**На LMS данные сохранены в переменную `taxi`. Загрузите в LMS Ваш код, в котором в новый датафрейм `pickups_by_mon_bor` сохраняете число поездок в каждом районе по месяцам, с сортировкой по убыванию количества поездок**.

## Итоги

В первом проекте вы проанализировали данные о поездках на такси в Нью-Йорке, получили инсайты для бизнес-решений и потренировали следующие навыки работы с библиотекой pandas:

- Чтение данных в формате csv
- Определение размера датафрейма и типов данных в его столбцах
- Переименование колонок
- Группировка и агрегация данных
- Сортировка данных
- Получение индексов с минимальными и максимальными значениями
- Группировка по нескольким колонкам
- Сохранение результата в новый датафрейм