# Проект. Первые аналитические задачи
# «Анализ данных о поездках на такси в Нью-Йорке»

## Шаг 1

В первом проекте вы будете работать с реальным набором данных о поездках на такси в Нью-Йорке. Датасет включает в себя информацию о датах и времени поездок, метеорологических условиях в это время, а также о том, является день праздничным или выходным. Описание колонок:
* pickup_dt – период с точностью до часа
* pickup_month – месяц
* borough – район Нью-Йорка, из которого был сделан заказ (5 районов + аэропорт)
* pickups – число поездок за период (час)
* hday – является ли день праздничным/выходным; Y — да,  N — нет
* spd – скорость ветра в милях в час
* vsb – видимость
* temp – температура в градусах Фаренгейта
* dewp – точка росы по Фаренгейту
* slp – давление
* pcp_01 – количество осадков за час
* pcp_06 – количество осадков за 6 часов
* pcp_24 – количество осадков за 24 часа
* sd – глубина снега в дюймах

Каждая строка в датасете — запись не об одной конкретной поездке, а о всех поездках, сделанных за определенный час из того или иного района Нью-Йорка, и о том, какие были показатели погоды в этот час.  

Ваша задача в этом уроке — применить навыки работы с библиотекой pandas для анализа и обработки данных. Вы научитесь загружать данные, проверять их структуру, обрабатывать и анализировать, используя различные методы и функции pandas.
Ваша конечная цель — не только успешно выполнить все задачи, но и получить ценные инсайты из анализируемого датасета.

Вы можете решать задания тем способом, который считаете наиболее удобным или оптимальным. А для того, чтобы лучше понять задание, рекомендуем выполнять его по шагам. Бывает, что их можно выполнить в одну строчку, применяя методы друг за другом. А если выполняете шаги отдельно, не забудьте сохранить результат в переменную, чтобы в следующем шаге работать именно с ней.

В ноутбуке место для вашего решения обозначено комментарием `# Ваш код здесь`, но вы можете писать код там, где вам удобно, добавлять или удалять ячейки с кодом или текстом по вашему усмотрению.

Напоминаем и о [памятке на новичков в программировании](https://buildin.ai/share/62b112ad-e20b-4b85-ab63-877077d1e9c3?code=2J58AF
)! Очень многие проблемы, описанные в ней, часто встречаются именно в этом уроке, поэтому рекомендуем открыть её в отдельном окне и периодически с ней сверяться.  

## Шаг 2

Перед открытием датасета нужно импортировать библиотеку pandas. Начнем с простого вопроса: **что произойдет в результате выполнения следующей команды?**

```python
import pandas as pnds
```

**Выберите один вариант:**

* Сможем использовать библиотеку pandas, обращаясь к ней как pnds
* Вовсе не сможем использовать библиотеку, потому что использовали сокращение pnds, а не pd
* Сможем использовать библиотеку pandas, обращаясь и как pandas, и как pnds

**Ответ: Сможем использовать библиотеку pandas, обращаясь к ней как pnds**

## Шаг 3

В этом задании вы потренируетесь читать данные из csv файла. Откройте датасет с данными о поезках такси в Нью-Йорке и сохраните его в переменную `taxi`. **Определите, какой индекс имеет самая верхняя строка?**

Шаги выполнения:

1. Импортируйте библиотеку pandas с общепринятым алиасом (псевдонимом) pd

In [1]:
import pandas as pd

2. Загрузите csv файл к уроку в свою папку в JupyterНub

3. Прочитайте этот csv файл и сохраните его в переменную `taxi`

In [2]:
taxi = pd.read_csv('taxi_nyc.csv')

4. Выведите первые строки датафрейма, чтобы посмотреть на данные и узнать индекс самой верхней строки

In [3]:
taxi.head()

Unnamed: 0,pickup_dt,pickup_month,borough,pickups,hday,spd,vsb,temp,dewp,slp,pcp 01,pcp 06,pcp 24,sd
0,2015-01-01 01:00:00,Jan,Bronx,152,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
1,2015-01-01 01:00:00,Jan,Brooklyn,1519,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
2,2015-01-01 01:00:00,Jan,EWR,0,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
3,2015-01-01 01:00:00,Jan,Manhattan,5258,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0
4,2015-01-01 01:00:00,Jan,Queens,405,Y,5.0,10.0,30.0,7.0,1023.5,0.0,0.0,0.0,0.0


**Ответ: 0**

## Шаг 4

После загрузки данных полезно получить базовое представление об их структуре и содержании. Для этого сначала **узнайте количество строк и столбцов в датафрейме.**

Шаги выполнения:
1. Выведите количество строк и столбцов

In [4]:
taxi.shape

(29101, 14)

**Ответ: 29101 строка, 14 столбцов**

## Шаг 5

**Цель этого задания — проверить типы данных в столбцах датафрейма и определить, какой тип данных преобладает.**

Шаги выполнения:
1. Проверьте типы данных в датафрейме

In [5]:
taxi.dtypes

pickup_dt        object
pickup_month     object
borough          object
pickups           int64
hday             object
spd             float64
vsb             float64
temp            float64
dewp            float64
slp             float64
pcp 01          float64
pcp 06          float64
pcp 24          float64
sd              float64
dtype: object

2. Определите, какой тип данных преобладает

In [6]:
taxi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29101 entries, 0 to 29100
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   pickup_dt     29101 non-null  object 
 1   pickup_month  29101 non-null  object 
 2   borough       26058 non-null  object 
 3   pickups       29101 non-null  int64  
 4   hday          29101 non-null  object 
 5   spd           29101 non-null  float64
 6   vsb           29101 non-null  float64
 7   temp          29101 non-null  float64
 8   dewp          29101 non-null  float64
 9   slp           29101 non-null  float64
 10  pcp 01        29101 non-null  float64
 11  pcp 06        29101 non-null  float64
 12  pcp 24        29101 non-null  float64
 13  sd            29101 non-null  float64
dtypes: float64(9), int64(1), object(4)
memory usage: 3.1+ MB


**Ответ: float64**

## Шаг 6

В названиях трех столбцов встречается пробел: это столбцы `pcp 01`, `pcp 06` и `pcp 24`. Замените пробел на знак нижнего подчеркивания, чтобы было удобно обращаться к этим столбцам: через точку, без использования кавычек и скобок. Результат сохраните в тот же датафрейм `taxi`.

Шаги выполнения:
1. Переименуйте 3 столбца, заменив пробелы на нижние подчеркивания

In [7]:
taxi = taxi.rename(columns={'pcp 01':'pcp_01', 'pcp 06' : 'pcp_06', 'pcp 24': 'pcp_24'})

2. Убедитесь, что названия столбцов были успешно изменены и результат сохранен в датафрейм `taxi`, выведя обновлённый список названий столбцов

In [8]:
taxi.columns

Index(['pickup_dt', 'pickup_month', 'borough', 'pickups', 'hday', 'spd', 'vsb',
       'temp', 'dewp', 'slp', 'pcp_01', 'pcp_06', 'pcp_24', 'sd'],
      dtype='object')

## Шаг 7

Проверьте, все ли районы встречаются в данных одинаково часто. **Используя метод `value_counts()` из библиотеки pandas, определите число записей по каждому району Нью-Йорка. Сколько раз в данных встречается район Манхэттен (Manhattan)?**

In [9]:
taxi.borough.value_counts()

borough
Bronx            4343
Brooklyn         4343
EWR              4343
Manhattan        4343
Queens           4343
Staten Island    4343
Name: count, dtype: int64

**Ответ: 4343**

## Шаг 8

**В этом задании посчитайте общее количество поездок,** чтобы узнать, насколько было востребовано такси в Нью-Йорке за период наблюдений. Для этого суммируйте все значения в столбце `pickups` с помощью метода [sum()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sum.html)

In [10]:
taxi.pickups.sum()

np.int64(14265773)

**Ответ: 14265773**

## Шаг 9

**Используя возможности группировки данных в pandas, определите район Нью-Йорка, из которого было совершено наибольшее количество поездок.** Такая информация может понадобиться, чтобы принять бизнес-решение о том, в каком районе увеличить количество машин такси.

Шаги выполнения:
1. Сгруппируйте данные по районам и посчитайте количество поездок из каждого района

In [11]:
taxi.groupby('borough').pickups.sum().sort_values(ascending=False)

borough
Manhattan        10367841
Brooklyn          2321035
Queens            1343528
Bronx              220047
Staten Island        6957
EWR                   105
Name: pickups, dtype: int64

2. Определите район с наибольшим количеством поездок

**Ответ: Manhattan**

## Шаг 10

⭐️Задание со звёздочкой!⭐️

Чтобы ускорить процесс аналитической работы, в этом задании вы изучите применение новых методов: `idxmin()` и `idxmax()` для определения индексов минимального и максимального значения в наборе данных.

[idxmin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmin.html) – возвращает индекс минимального значения (не само значение, а индекс строки, в которой находится это значение)  
[idxmax()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.idxmax.html) – возвращает индекс максимального значения

Методы применяются к той колонке, по которой он определит максимальное или минимальное значение и вернет его индекс. Пример синтаксиса:

```python
df.column_name.idxmax()
```

Эти методы заменяют следующую цепочку действий: применить метод `sort_values()`, взять только первую строку, обратиться к её индексу. Обратите внимание, что оба метода помогут вернуть только одно значение индекса, даже если в данных максимальных или минимальных значений несколько.

**Чтобы потренироваться использовать новые методы, сохраните название района с наименьшим числом поездок в переменную `min_pickups`, применив подходящий метод**.

Шаги выполнения:
1. Как и в прошлом задании, группируйте данные по районам и посчитайте количество поездок из каждого района

In [12]:
min_pickups = taxi.groupby('borough').pickups.sum().idxmin()

2. Примените подходящий метод, чтобы получить индекс района с наименьшим числом поездок. Сохраните результат в переменную `min_pickups`

In [13]:
min_pickups

'EWR'

**Ответ: EWR**

## Шаг 11

**Теперь ваша задача определить, из каких районов по праздникам и выходным дням в среднем поступает больше заказов, чем в обычные дни.** Такие расчеты помогут компании оптимизировать предложение машин такси и понять, в каких районах в выходные дни нужно дополнительно стимулировать водителей выходить на смену, чтобы машин хватало.

Шаги выполнения:
1. Сгруппируйте данные по району и типу дня (выходной/будний), рассчитайте среднее количество поездок для каждой группы

In [14]:
taxi.groupby(['borough', 'hday']).pickups.mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,pickups
borough,hday,Unnamed: 2_level_1
Bronx,N,50.771073
Bronx,Y,48.065868
Brooklyn,N,534.727969
Brooklyn,Y,527.011976
EWR,N,0.023467
EWR,Y,0.041916
Manhattan,N,2401.302921
Manhattan,Y,2035.928144
Queens,N,308.899904
Queens,Y,320.730539


2. Сравните среднее количества поездок в праздничные и будние дни

**Ответ: EWR, Queens**

## Шаг 12

**Ваша цель в этом задании — определить число поездок в каждом районе по месяцам.** Эти расчеты помогут проследить динамику числа поездок, выявить закономерности и сезонность.  

**Результаты необходимо отсортировать по убыванию количества поездок и сохранить в новый датафрейм `pickups_by_mon_bor`.**
Обратите внимание, что итоговый датафрейм должен состоять из 3-х колонок — `pickup_month`, `borough`, `pickups`.

Шаги выполнения:
1. Сгруппируйте данные по району и месяцу, посчитайте сумму поездок для каждой группы


In [15]:
pickups_by_mon_bor = taxi.groupby(['borough', 'pickup_month'], as_index=False)\
    .pickups.sum()\
    .sort_values('pickups', ascending=False)

2. Сохраните результат в новый датафрейм `pickups_by_mon_bor`. Проверьте, что он состоит из 3-х колонок - `pickup_month`, `borough`, `pickups`

In [16]:
pickups_by_mon_bor

Unnamed: 0,borough,pickup_month,pickups
21,Manhattan,Jun,1995388
23,Manhattan,May,1888800
19,Manhattan,Feb,1718571
22,Manhattan,Mar,1661261
18,Manhattan,Apr,1648278
20,Manhattan,Jan,1455543
9,Brooklyn,Jun,482466
11,Brooklyn,May,476087
6,Brooklyn,Apr,378095
10,Brooklyn,Mar,346726


In [17]:
pickups_by_mon_bor.columns

Index(['borough', 'pickup_month', 'pickups'], dtype='object')

## Итоги

В первом проекте вы проанализировали данные о поездках на такси в Нью-Йорке, получили инсайты для бизнес-решений и потренировали следующие навыки работы с библиотекой pandas:

- Чтение данных в формате csv
- Определение размера датафрейма и типов данных в его столбцах
- Переименование колонок
- Группировка и агрегация данных
- Сортировка данных
- Получение индексов с минимальными и максимальными значениями
- Группировка по нескольким колонкам
- Сохранение результата в новый датафрейм