# Программирование для всех<br>(основы работы с Python)

*Алла Тамбовцева*

## Практикум 10.1. Датафреймы pandas – часть 3

* Выбор строк и столбцов с помощью `.loc` и `.loc`
* Объединение датафреймов
* Группировка и агрегирование

In [None]:
import pandas as pd

### Загрузка и описание данных

В файле `flats-final.xlsx` два листа. На первом листе `flats` хранится информация по квартирам в Москве (выгрузка с ЦИАН по состоянию на май 2025):

* `price`: цена в рублях;
* `lprice`: логарифм цены;
* `square`: площадь квартиры, в кв. метрах;
* `rooms`: число комнат;
* `floor`: этаж;
* `mfloor`: число этажей в доме;
* `station`: станция метро;
* `metro`: доступность и расстояние до метро;
* `ametro`: шаговая доступность метро (1 – да, 0 – нет);
* `dmetro`: расстояние до метро (на транспорте или пешком), в минутах;
* `link`: ссылка на объявление;
* `add`: адрес;
* `lat`: широта;
* `lon`: долгота.

На втором листе `districts` хранится информация о районах и округах:

* `station`: станция метро;
* `district`: название района;
* `okrug`: название административного округа.

Загрузим данные из файла `flats-final.xlsx`. По умолчанию и так загружаются данные с первого листа, но для универсальности укажем индекс листа в `sheet_name`):

In [None]:
# в sheet_name может быть в название листа в кавычках

flats = pd.read_excel("flats-final.xlsx", sheet_name = 0)
flats.head()

Выберем сразу несколько столбцов списком и выведем по ним описательные статистики с помощью метода `.describe()`:

In [None]:
flats[["price", "square", "rooms"]].describe()

> Выберите строки, которые соответствуют квартирам с площадью более 300 квадратных метров.

In [None]:
### YOUR CODE HERE ###

> Выберите строки, которые соответствуют квартирам с максимальной ценой.

In [None]:
### YOUR CODE HERE ###

Также загрузим данные со второго листа:

In [None]:
okrs = pd.read_excel("flats-final.xlsx", sheet_name = 1)
okrs.tail()

Опишем и их тоже:

In [None]:
okrs.describe()

In [None]:
okrs["okrug"].value_counts()

### Выбор строк и столбцов с помощью `.loc` и `.loc`

Для более универсального выбора строк и столбцов на датафреймах `pandas` определены методы `.loc` и `.iloc`. Название метода `.loc` происходит от *location*, а метода `.iloc` – от *index location*, поэтому:

* `.loc` выбирает элементы по индексам строк (целые числа или текст) и названиям столбцов (текст);
* `.iloc` выбирает элементы по индексам строк (целые числа) и индексам столбцов (целые числа).

Так как эти методы являются дополнением к операторам `[]` для фильтрации, при их вызове тоже используются квадратные скобки, а не круглые. На первом месте в квадратных скобках указываются идентификаторы строк, на втором – идентификаторы столбцов, например:

    flats.loc[0, "price"]
    flats.iloc[0, 0]

>Используя сначала метод `.loc`, а затем `.iloc`, выведите на экран: площадь квартиры с индексом 50. 

In [None]:
### YOUR CODE HERE ###

> Подумайте, как запросить элементы сразу по нескольким индексам/названиям. Используя `.loc`, выведите значение цены и площади для квартиры с индексом 20. Используя `.iloc`, выведите цену и площадь квартир с индексами 100, 200, 300.

In [None]:
### YOUR CODE HERE ###

Как быть, если нужные нам индексы или названия следуют друг за другом? Воспользоваться срезами (*slices*), как на списках или массивах!

> Выведите на экран площадь, число комнат и число этажей в доме для квартир с индексами от 600 до 614 включительно. Используйте сначала `.loc`, а затем – `.iloc`.

In [None]:
### YOUR CODE HERE ###

### Объединение датафреймов

Для дальнейшей работы логичным будет объединить данные, взятые с двух листов файла Excel, в одну таблицу. Основание для объединения у нас есть – и в первой таблице, и во второй названия станций метро сохранены в столбце `station`.

In [None]:
print(flats.columns)
print(okrs.columns)

«Доклеим» к датафрейму `okrs` датафрейм `okrs`, объединив их по общему столбцу с названием `station`:

In [None]:
df = flats.merge(okrs, on = "station")
df.head()

Теперь можем работать с датафреймом `df`, в котором хранится полная информация о квартирах.

### Группировка и агрегирование

Сгруппируем строки по административным округам – укажем основание группировки в качестве аргумента в специальном методе `.groupby()`:

In [None]:
df.groupby("okrug")

Объект специального типа `DataFrameGroupBy` от нас скрыт. Преобразуем его в более понятный список и посмотрим на первые два элемента:

In [None]:
print(list(df.groupby("okrug"))[0:1])

> Пользуясь тем, что результат группировки представляет собой объект, похожий по структуре на список пар, сохраните в отдельные CSV-файлы строки, соответствующие каждому округу. Воспользуйтесь методом `.to_csv()` и назовите полученные файлы по названию административного округа, например, `Восточный АО.csv`.

In [None]:
### YOUR CODE HERE ###

Посмотрим на примеры агрегирования – вычисление разных числовых характеристик по группам:

In [None]:
df.groupby("okrug")["price"].describe()

In [None]:
df.groupby("okrug")[["price", "square"]].describe()

In [None]:
df.groupby("okrug")[["price", "square"]].mean()

In [None]:
df.groupby("okrug")[["price", "square"]].median()

In [None]:
df.groupby("okrug")[["price", "square"]].min()

In [None]:
df.groupby("okrug")[["price", "square"]].max()

In [None]:
df.groupby("okrug")[["lprice", "square"]].agg(["mean", "std"])

> Подумайте, как сгруппировать строки сразу по нескольким основаниям (вспомните сортировку по нескольким основания). Сгруппируйте квартиры по округу и шаговой доступности станции метро, выведите среднюю цену квартиры для каждой группы.

In [None]:
### YOUR CODE HERE ###

> Сгруппируйте квартиры по району, вычислите медианную цену и площадь квартиры для каждого района. Сохраните результат агрегирования и экспортируйте полученный датафрейм в файл `flats._agg.csv`. Он понадобится нам для практикума 10.2.

In [None]:
### YOUR CODE HERE ###