## **Полный анализ данных**

### **Постановка задачи**

Представим, что мы - аналитики в крупной транспортной компании. Компания управляет общественным транспортом в городе и хочет понять, как улучшить расписание транспорта и оптимизировать текущие маршруты.

Наша задача - провести полный цикл анализа данных и ответить на вопрос: **какой маршрут больше всего требует изменений для повышения эффективности транспортной сети?**

### **Описание данных**

Данные, с которыми нам предстоит работать, разделены на 2 части:

#### **Часть 1**

**Первая часть** данных находится в **базе данных** компании. Это информация о количестве пассажиров на различных маршрутах за последние 3 месяца. Для работы с этой частью данных нам потребуется подключиться к базе данных SQLite, выполнить соответствующие SQL-запросы, чтобы выгрузить нужную таблицу.
- Таблица: `passenger_stats`
- Колонки: `route_id` (ID маршрута), `date` (дата поездки), `time` (длительность поездки в минутах), `passenger_count` (количество пассажиров)

#### **Часть 2**

**Вторая часть** данных - результаты опроса пассажиров, собранные маркетинговой командой, сохранены в **CSV-файле**.
- Файл: `passenger_feedback.csv`
- Колонки: `route_id` (ID маршрута), `rating` (оценка маршрута от 1 до 5)

### **Этапы анализа**

Всего нам предстоит пройти через **5 этапов анализа**:

#### **1 этап**

`Сбор данных`:
- Подключиться к базе данных и выгрузить данные
- Подключиться к CSV-файлу и выгрузить данные

#### **2 этап**

`Очистка данных`:
- Проверить обе части данных на наличие пропусков и некорректных значений
- Преобразовать формат дат, если потребуется, и привести данные к единой форме

#### **3 этап**

`Обработка данных`:
- Сопоставить данные из обеих таблиц
- Рассчитать среднюю оценку для каждого маршрута
- Создать таблицу, показывающую, в какие дни каждый маршрут нагружен больше всего по количеству пассажиров

#### **4 этап**

`Визуализация данных`:
- Построить столбчатую диаграмму для сравнения средней оценки маршрутов
- Построить линейные графики, показывающий пассажиропоток по датам для самых загруженных маршрутов

#### **5 этап**

`Выводы`:
- Ответить на вопрос: какой маршрут больше всего требует изменений для повышения эффективности транспортной сети?

### **Работа с данными**

#### **1. Сбор данных**

Подключимся к БД `passenger_stats_extended.db` и выгрузим данные с помощью SELECT-запроса. 

`sqlite3` - модуль языка Python для работы с СУБД **SQLite**. С помощью нее будем отправлять SQL-запрос к БД, находясь внутри Python-программы.

`sqlite3.connect()` - функция для настройки подключения к указанной БД

Составляем SQL-запрос за выгрузки всех данных из БД и сохраняем его в виде строки:

С помощью функции`read_sql_query()` считаем данные из БД и загрузим их в DataFrame:

Подключимся к CSV-файлу `passenger_feedback.csv` и выгрузим из него данные в DataFrame:

#### **2. Очистка данных**

Воспользуемся методом `info()` для получения базовой информации о строении дата-фреймов:

**Результаты работы методов** `info()`:



**Выводы о пропусках в данных:**

Если мы хотим работать с датами более **удобно**, то можно преобразовать столбец `date` к типу `datetime`.

Визуально ничего не изменилось, но если мы снова вызовем метод `info()`, то для столбца `date` будет указан тип `datetime64[ns]`:

#### **3. Обработка данных**

Давайте сопоставим данные, которые есть в наших дата-фреймах.

**Выводы о количестве данных**:

Попробуем рассчитать среднюю оценку для каждого маршрута с помощью **группировки**.

Отсортируем полученные данные в порядке **убывания** среднего значения рейтинга, чтобы удобнее было отслеживать маршруты с максимальными и минимальными оценками.

**Выводы о средних рейтингах**:

Теперь попробуем создать таблицу, показывающую, в какие дни каждый маршрут нагружен **больше** всего по **количеству** пассажиров. 

Теперь создадим дополнительную **серию**, где индексами будут номера маршрутов, а значениями - индексы строк с максимальным значением из созданного ранее дата-фрейма.

Финальное действие - выбрать строки из дата-фрейма на основе индексов, которые содержатся в созданной ранее серии.

В итоге мы получили дата-фрейм, где для каждого маршрута указана дата с максимальной загрузкой с точки зрения количества пассажиров.

#### **4. Визуализация данных**

Для построения визуализации будем использовать известную нам библиотеку `matplotlib`, подключим ее к нашему проекту:

Наша первая задача в рамках визуализации - построить **столбчатую диаграмму** для анализа средней оценки маршрутов. Такие данные мы уже получали ранее, на этапе обработки данных. Теперь же визуализируем их, что поможет упростить восприятие данной информации для сотрудников транспортной компании:

**Выводы по столбчатой диаграмме**:

Наша следующая задача - построить **линейные графики**, показывающие пассажиропоток по датам для самых загруженных маршрутов. 

Чтобы выявить самые загруженные маршруты, сгруппируем данные по номеру маршрута (`route_id`) и для каждой группы найдем среднее количество пассаржиров.

Отберем 3 самых **загруженных** маршрута - это...

Для того, чтобы точек на графиках было не слишком много, выгрузим данные только за **октябрь**.

Полученные данные дополнительно сгруппируем по `route_id` для более удобной визуализации:

Построим 3 линейных графика в соответствии с заданием:

**Выводы по линейным графикам**:

#### **5. Выводы**

Отвечая на вопрос:"Какой маршрут больше всего требует изменений для повышения эффективности транспортной сети?", можно сказать, что...