# Манипулирование данными с помощью Pandas


## Нарезка и индексирование фреймов данных

### Установка и удаление индексов

Библиотека pandas позволяет назначать столбцы в качестве индекса. Это облегчает написание более чистого кода при работе с подмножествами данных (а также обеспечивает более эффективный поиск в некоторых случаях).

В этой главе вы будете изучать температуры - это DataFrame средних температур в городах по всему миру. Библиотека pandas загружена как pd.

#### Инструкции

- Посмотрите на `temperatures`.
- Установите индекс `temperatures` на "`city`", присвоив результат переменной `temperatures_ind`.
- Посмотрите на `temperatures_ind`. В чем разница между `temperatures` и `temperatures_ind`?
- Сбросьте индекс `temperatures_ind`, сохраняя его содержимое.
- Сбросьте индекс `temperatures_ind`, удалив его содержимое.

In [3]:
import pandas as pd
temperatures = pd.read_csv('temperatures.csv')

# Посмотреть на данные в переменной temperatures
print(temperatures) 

# Установить индекс для данных в переменной temperatures по городам
temperatures_ind = temperatures.set_index['city']

# Посмотреть на данные в переменной temperatures_ind
print(temperatures_ind)

# Сбросить индекс для данных в переменной temperatures_ind, сохраняя их содержимое
print(temperatures_ind.reset_index())

# Сбросить индекс для данных в переменной temperatures_ind, удалив его содержимое
print(temperatures_ind.reset_index(drop=True))

       Unnamed: 0        date     city        country  avg_temp_c
0               0  2000-01-01  Abidjan  Côte D'Ivoire      27.293
1               1  2000-02-01  Abidjan  Côte D'Ivoire      27.685
2               2  2000-03-01  Abidjan  Côte D'Ivoire      29.061
3               3  2000-04-01  Abidjan  Côte D'Ivoire      28.162
4               4  2000-05-01  Abidjan  Côte D'Ivoire      27.547
...           ...         ...      ...            ...         ...
16495       16495  2013-05-01     Xian          China      18.979
16496       16496  2013-06-01     Xian          China      23.522
16497       16497  2013-07-01     Xian          China      25.251
16498       16498  2013-08-01     Xian          China      24.528
16499       16499  2013-09-01     Xian          China         NaN

[16500 rows x 5 columns]
         Unnamed: 0        date        country  avg_temp_c
city                                                      
Abidjan           0  2000-01-01  Côte D'Ivoire      27.293
Abidj

### Выделение подмножества с помощью .loc[]

Одной из ключевых возможностей индексов является метод `.loc[]`, предназначенный для выделения подмножества данных на основе значений индекса. Если передать ему один аргумент, он выделит соответствующее подмножество строк.

Код для выделения подмножества с использованием `.loc[]` может быть более читаемым, чем стандартное выделение с помощью квадратных скобок, что делает ваш код менее трудоемким при поддержке.

Библиотека pandas загружена как pd. Доступны `temperatures` и `temperatures_ind`; последний индексирован по `city`.

#### Инструкции

- Создайте список под названием `cities`, содержащий "Москва" и "Санкт-Петербург".
- Используйте [] для фильтрации `temperatures` по строкам, где столбец `city` принимает значение из списка `cities`.
- Используйте `.loc[]` для фильтрации `temperatures_ind` по строкам, где город находится в списке `cities`.

In [4]:
# Создание списка городов для выделения подмножества
cities = ["Moscow", "Saint Peterburg"]

# Выделение подмножества в переменной temperatures с использованием квадратных скобок
print(temperatures[temperatures["city"].isin(cities)])

# Выделение подмножества в переменной temperatures_ind с использованием .loc[]
print(temperatures_ind.loc[cities])

       Unnamed: 0        date              city country  avg_temp_c
10725       10725  2000-01-01            Moscow  Russia      -7.313
10726       10726  2000-02-01            Moscow  Russia      -3.551
10727       10727  2000-03-01            Moscow  Russia      -1.661
10728       10728  2000-04-01            Moscow  Russia      10.096
10729       10729  2000-05-01            Moscow  Russia      10.357
...           ...         ...               ...     ...         ...
13360       13360  2013-05-01  Saint Petersburg  Russia      12.355
13361       13361  2013-06-01  Saint Petersburg  Russia      17.185
13362       13362  2013-07-01  Saint Petersburg  Russia      17.234
13363       13363  2013-08-01  Saint Petersburg  Russia      17.153
13364       13364  2013-09-01  Saint Petersburg  Russia         NaN

[330 rows x 5 columns]
                  Unnamed: 0        date country  avg_temp_c
city                                                        
Moscow                 10725  2000-01-

### Установка многоуровневых индексов

Индексы также могут состоять из нескольких столбцов, формируя многоуровневый индекс (иногда называемый иерархическим индексом). Это имеет свои особенности.

Преимущество заключается в том, что многоуровневые индексы делают более естественным рассуждение о вложенных категориальных переменных. Например, в клиническом исследовании у вас может быть контрольная и терапевтическая группы. Затем каждый испытуемый принадлежит к одной из этих групп, и мы можем сказать, что испытуемый вложен в одну из групп. Точно так же, в наборе данных о температуре города находятся в стране, и мы можем сказать, что город вложен в страну.

Основной недостаток заключается в том, что код для работы с индексами отличается от кода для работы со столбцами, поэтому вам приходится изучать два синтаксиса и следить за тем, как представлены ваши данные.

Библиотека pandas загружена как pd. Доступна переменная temperatures.

#### Инструкции

- Установите индекс для temperatures по столбцам `"country"` и `"city"`, присвоив это `temperatures_ind`.
- Укажите две пары страна/город для сохранения: "Бразилия"/"Рио-де-Жанейро" и "Пакистан"/"Лахор", присвоив переменной `rows_to_keep`.
- Выведите на печать и выделите подмножество `temperatures_ind` для `rows_to_keep` с использованием `.loc[]`.

In [5]:
# Индексирование температур по стране и городу
temperatures_ind = temperatures.set_index(["country", "city"])

# Список кортежей: Бразилия, Рио-де-Жанейро и Пакистан, Лахор
rows_to_keep = [("Brazil", "Rio De Janeiro"), ("Pakistan", "Lahore")]

# Выделение подмножества для указанных строк
print(temperatures_ind.loc[rows_to_keep])

                         Unnamed: 0        date  avg_temp_c
country  city                                              
Brazil   Rio De Janeiro       12540  2000-01-01      25.974
         Rio De Janeiro       12541  2000-02-01      26.699
         Rio De Janeiro       12542  2000-03-01      26.270
         Rio De Janeiro       12543  2000-04-01      25.750
         Rio De Janeiro       12544  2000-05-01      24.356
...                             ...         ...         ...
Pakistan Lahore                8575  2013-05-01      33.457
         Lahore                8576  2013-06-01      34.456
         Lahore                8577  2013-07-01      33.279
         Lahore                8578  2013-08-01      31.511
         Lahore                8579  2013-09-01         NaN

[330 rows x 3 columns]


### Сортировка по значениям индекса

Ранее вы изменяли порядок строк в DataFrame, вызывая метод `.sort_values()`. Также полезно иметь возможность сортировать по элементам индекса. Для этого нужно использовать метод `.sort_index()`.

Библиотека pandas загружена как pd. `temperatures_ind` имеет многоуровневый индекс с категориями `country` и `city` и доступен для использования.

#### Инструкции

- Отсортируйте `temperatures_ind` по значениям индекса.
- Отсортируйте `temperatures_ind` по значениям индекса на уровне `"city"`.
- Отсортируйте `temperatures_ind` по возрастанию страны, а затем по убыванию города.

In [6]:
# Сортировка temperatures_ind по значениям индекса
print(temperature_ind.sort_index())

# Сортировка temperatures_ind по значениям индекса на уровне города
print(temperatures_ind.sort_index(level="city"))

# Сортировка temperatures_ind сначала по стране, затем по убыванию города
print(temperatures_ind.sort_index(level=["country", "city"], ascending = [True, False]))

                    Unnamed: 0        date  avg_temp_c
country     city                                      
Afghanistan Kabul         7260  2000-01-01       3.326
            Kabul         7261  2000-02-01       3.454
            Kabul         7262  2000-03-01       9.612
            Kabul         7263  2000-04-01      17.925
            Kabul         7264  2000-05-01      24.658
...                        ...         ...         ...
Zimbabwe    Harare        5605  2013-05-01      18.298
            Harare        5606  2013-06-01      17.020
            Harare        5607  2013-07-01      16.299
            Harare        5608  2013-08-01      19.232
            Harare        5609  2013-09-01         NaN

[16500 rows x 3 columns]
                       Unnamed: 0        date  avg_temp_c
country       city                                       
Côte D'Ivoire Abidjan           0  2000-01-01      27.293
              Abidjan           1  2000-02-01      27.685
              Abidjan      

### Выделение срезов значений индекса

Срезы позволяют выбирать последовательные элементы объекта, используя синтаксис первый:последний. DataFrame можно нарезать по значениям индекса или по номеру строки/столбца; мы начнем с первого случая. Это включает выделение срезов внутри метода `.loc[]`.

По сравнению с нарезкой списков, есть несколько моментов, которые следует запомнить.

- Вы можете делать срез индекса только если индекс отсортирован (с использованием `.sort_index()`).
- Для выделения среза на внешнем уровне первый и последний могут быть строками.
- Для выделения среза на внутренних уровнях первый и последний должны быть кортежами.
- Если вы передаете единичный срез в `.loc[]`, он будет выделять строки.
- Библиотека pandas загружена как pd. `temperatures_ind` содержит в индексе страну и город и доступен для использования.

#### Инструкции

- Отсортируйте индекс в temperatures_ind.
- Используйте нарезку с помощью .loc[], чтобы получить следующие подмножества:
  - от Пакистана до России.
  - от Лахора до Москвы. (Это вернет бессмыслицу.)
  - от Пакистана, Лахора до России, Москвы.

In [7]:
# Сортировка индекса в temperatures_ind
temperatures_srt = tempertures_ind.sort_index() 

# Выделение строк от Пакистана до России
print(temperatures_srt.loc['Pakistan':'Russia'])

# Попытка выделить строки от Лахора до Москвы
print(temperatures_srt.loc["Lahore":"Moscow"])

# Выделение строк от Пакистана, Лахора до России, Москвы
print(temperature_str.loc[('Pakistan', 'Lahore'):('Russia', 'Moscow')]) 

                           Unnamed: 0        date  avg_temp_c
country  city                                                
Pakistan Faisalabad              4785  2000-01-01      12.792
         Faisalabad              4786  2000-02-01      14.339
         Faisalabad              4787  2000-03-01      20.309
         Faisalabad              4788  2000-04-01      29.072
         Faisalabad              4789  2000-05-01      34.845
...                               ...         ...         ...
Russia   Saint Petersburg       13360  2013-05-01      12.355
         Saint Petersburg       13361  2013-06-01      17.185
         Saint Petersburg       13362  2013-07-01      17.234
         Saint Petersburg       13363  2013-08-01      17.153
         Saint Petersburg       13364  2013-09-01         NaN

[1155 rows x 3 columns]
                    Unnamed: 0        date  avg_temp_c
country city                                          
Mexico  Mexico           10230  2000-01-01      12.694
    

### Срезка в обе стороны

Вы уже видели, как можно нарезать DataFrame по строкам и по столбцам, но поскольку DataFrame - это двумерный объект, часто естественно выделять сразу оба измерения. То есть, передавая два аргумента в `.loc[]`, вы можете выделять как строки, так и столбцы одновременно.

Библиотека pandas загружена как pd. `temperatures_srt` проиндексирован по стране и городу, имеет отсортированный индекс и доступен для использования.

#### Инструкции

Используйте срез с помощью `.loc[]`, чтобы выделить строки от Индии, Хайдарабада до Ирака, Багдада.
Используйте срез с помощью `.loc[]`, чтобы выделить столбцы от date до avg_temp_c.
Выделите срез одновременно и по строкам (от Хайдарабада до Багдада) и по столбцам (от date до `avg_temp_c`) с помощью `.loc[]`.

In [8]:
# Выделение строк от Индии, Хайдарабада до Ирака, Багдада
print(temperatures_srt.loc[("India", "Hyderabad"):("Iraq", "Baghdad")])

# Выделение столбцов от date до avg_temp_c
print(temperatures_srt.loc[:, "date":"avg_temp_c"])

# Выделение одновременно и по строкам (от Индии, Хайдарабада до Ирака, Багдада) и по столбцам (от date до avg_temp_c)
print(temperatures_srt.loc[("India", "Hyderabad"):("Iraq", "Baghdad"), "date":"avg_temp_c"])

                   Unnamed: 0        date  avg_temp_c
country city                                         
India   Hyderabad        5940  2000-01-01      23.779
        Hyderabad        5941  2000-02-01      25.826
        Hyderabad        5942  2000-03-01      28.821
        Hyderabad        5943  2000-04-01      32.698
        Hyderabad        5944  2000-05-01      32.438
...                       ...         ...         ...
Iraq    Baghdad          1150  2013-05-01      28.673
        Baghdad          1151  2013-06-01      33.803
        Baghdad          1152  2013-07-01      36.392
        Baghdad          1153  2013-08-01      35.463
        Baghdad          1154  2013-09-01         NaN

[2145 rows x 3 columns]
                          date  avg_temp_c
country     city                          
Afghanistan Kabul   2000-01-01       3.326
            Kabul   2000-02-01       3.454
            Kabul   2000-03-01       9.612
            Kabul   2000-04-01      17.925
            Kab

### Нарезка временных рядов

Нарезка особенно полезна для временных рядов, поскольку часто бывает необходимо отфильтровать данные в определенном диапазоне дат. Добавьте столбец с датой в индекс, затем используйте .loc[] для выделения подмножества. Важно помнить о хранении дат в формате ISO 8601, то есть "гггг-мм-дд" для год-месяц-день, "гггг-мм" для год-месяц и "гггг" для года.

Напомним из главы 1, что вы можете объединять несколько булевых условий, используя логические операторы, такие как &. Чтобы сделать это в одной строке кода, вам нужно будет добавить круглые скобки () вокруг каждого условия.

Библиотека pandas загружена как pd, и temperatures, без индекса, доступны.

#### Инструкции

- Используйте логические условия, а не `.isin()` или `.loc[]`, и полные даты "гггг-мм-дд", чтобы выделить подмножество температур для строк за 2010 и 2011 годы, и выведите результаты.
- Установите индекс для `temperatures` в столбец с датой и отсортируйте его.
- Используйте `.loc[]` для выделения подмножества `temperatures_ind` для строк за 2010 и 2011 годы.
- Используйте `.loc[]` для выделения подмножества `temperatures_ind` для строк с августа 2010 года по февраль 2011 года.

In [9]:
# Используйте логические условия для выделения строк температур за 2010 и 2011 годы
temperatures_bool = temperatures[(temperatures["date"] >= "2010-01-01") & (temperatures["date"] <= "2011-12-31")]
print(temperatures_bool)

# Установите дату в качестве индекса и отсортируйте индекс
temperatures_ind = temperatures.set_index("date").sort_index()

# Используйте .loc[] для выделения подмножества temperatures_ind для строк за 2010 и 2011 годы
print(temperatures_ind.loc["2010":"2011"])

# Используйте .loc[] для выделения подмножества temperatures_ind для строк с августа 2010 по февраль 2011 года
print(temperatures_ind.loc["2010-08":"2011-02"])

       Unnamed: 0        date     city        country  avg_temp_c
120           120  2010-01-01  Abidjan  Côte D'Ivoire      28.270
121           121  2010-02-01  Abidjan  Côte D'Ivoire      29.262
122           122  2010-03-01  Abidjan  Côte D'Ivoire      29.596
123           123  2010-04-01  Abidjan  Côte D'Ivoire      29.068
124           124  2010-05-01  Abidjan  Côte D'Ivoire      28.258
...           ...         ...      ...            ...         ...
16474       16474  2011-08-01     Xian          China      23.069
16475       16475  2011-09-01     Xian          China      16.775
16476       16476  2011-10-01     Xian          China      12.587
16477       16477  2011-11-01     Xian          China       7.543
16478       16478  2011-12-01     Xian          China      -0.490

[2400 rows x 5 columns]
            Unnamed: 0        city    country  avg_temp_c
date                                                     
2010-01-01        4905  Faisalabad   Pakistan      11.810
2010-01-0

### Выделение по номеру строки/столбца

Самые распространенные способы выделения строк - это те, о которых мы ранее говорили: использование булевого условия или меток индекса. Однако иногда полезно также использовать номера строк.

Это делается с помощью .iloc[], и, как и .loc[], он может принимать два аргумента для выделения строк и столбцов.

Библиотека pandas загружена как pd. temperatures (без индекса) доступны.

#### Инструкции

- Используйте .iloc[] на объекте temperatures для выделения подмножества.
- Получите 23-ю строку, 2-й столбец (индексные позиции 22 и 1).
- Получите первые 5 строк (индексные позиции с 0 по 4).
- Получите все строки, столбцы 3 и 4 (индексные позиции с 2 по 4).
- Получите первые 5 строк, столбцы 3 и 4.

In [10]:
# Получить 23-ю строку, 2-й столбец (индекс 22, 1)
print(temperatures.iloc[22, 1])

# Использовать нарезку для получения первых 5 строк
print(temperatures.iloc[:5])

# Использовать нарезку для получения столбцов с 3 по 4
print(temperatures.iloc[:, 2:4])
# Использовать нарезку в обе стороны одновременно
print(temperatures.iloc[:5, 2:4])

2001-11-01
   Unnamed: 0        date     city        country  avg_temp_c
0           0  2000-01-01  Abidjan  Côte D'Ivoire      27.293
1           1  2000-02-01  Abidjan  Côte D'Ivoire      27.685
2           2  2000-03-01  Abidjan  Côte D'Ivoire      29.061
3           3  2000-04-01  Abidjan  Côte D'Ivoire      28.162
4           4  2000-05-01  Abidjan  Côte D'Ivoire      27.547
          city        country
0      Abidjan  Côte D'Ivoire
1      Abidjan  Côte D'Ivoire
2      Abidjan  Côte D'Ivoire
3      Abidjan  Côte D'Ivoire
4      Abidjan  Côte D'Ivoire
...        ...            ...
16495     Xian          China
16496     Xian          China
16497     Xian          China
16498     Xian          China
16499     Xian          China

[16500 rows x 2 columns]
      city        country
0  Abidjan  Côte D'Ivoire
1  Abidjan  Côte D'Ivoire
2  Abidjan  Côte D'Ivoire
3  Abidjan  Côte D'Ivoire
4  Abidjan  Côte D'Ivoire


### Поворот температуры по городу и году

Интересно посмотреть, как меняются температуры для каждого города со временем - рассматривать каждый месяц приводит к большой таблице, что может быть сложно для анализа. Вместо этого давайте посмотрим, как меняются температуры по годам.

Вы можете получить доступ к компонентам даты (год, месяц и день) с помощью кода вида `dataframe["столбец"].dt.component`. Например, компонент месяца - `dataframe["столбец"].dt.month`, а компонент года - `dataframe["столбец"].dt.year`.

После получения столбца с годом вы можете создать сводную таблицу с данными, сгруппированными по городу и году, что вы и будете исследовать в предстоящих упражнениях.

Библиотека pandas загружена как pd. temperatures доступны.

#### Инструкции

- Добавьте столбец с годом в данные о температуре из компонента года столбца с датой.
- Создайте сводную таблицу для столбца `avg_temp_c`, где строки будут представлять собой страну и город, а столбцы - год. Присвойте переменной `temp_by_country_city_vs_year` и посмотрите на результат.

In [11]:
# Добавить столбец с годом в данные о температуре
temperatures["year"] = temperatures["date"].dt.year

# Создать сводную таблицу для avg_temp_c по стране и городу по году
temp_by_country_city_vs_year = temperatures.pivot_table("avg_temp_c", index = ["country", "city"], columns = "year")

# Посмотреть результат
print(temp_by_country_city_vs_year)

year                                 2000       2001       2002       2003  \
country       city                                                           
Afghanistan   Kabul             15.822667  15.847917  15.714583  15.132583   
Angola        Luanda            24.410333  24.427083  24.790917  24.867167   
Australia     Melbourne         14.320083  14.180000  14.075833  13.985583   
              Sydney            17.567417  17.854500  17.733833  17.592333   
Bangladesh    Dhaka             25.905250  25.931250  26.095000  25.927417   
...                                   ...        ...        ...        ...   
United States Chicago           11.089667  11.703083  11.532083  10.481583   
              Los Angeles       16.643333  16.466250  16.430250  16.944667   
              New York           9.969083  10.931000  11.252167   9.836000   
Vietnam       Ho Chi Minh City  27.588917  27.831750  28.064750  27.827667   
Zimbabwe      Harare            20.283667  20.861000  21.079333 

### Выделение подмножества сводных таблиц

Сводная таблица - это просто DataFrame с отсортированными индексами, поэтому техники, которые вы уже изучили, могут быть использованы для их выделения. В частности, комбинация .loc[] + нарезки часто бывает полезной.

Библиотека pandas загружена как pd. temp_by_country_city_vs_year доступна.

#### Инструкции

Используйте .loc[] для выделения подмножества из temp_by_country_city_vs_year.

- От Египта до Индии.
- От Египта, Каира до Индии, Дели.
- От Египта, Каира до Индии, Дели и с 2005 по 2010 год.

In [12]:
# Выделение для Египта до Индии
temp_by_country_city_vs_year.loc["Egypt":"India"]

# Выделение для Египта, Каира до Индии, Дели
temp_by_country_city_vs_year.loc[("Egypt", "Cairo"):("India", "Delhi")]

# Выделение для Египта, Каира до Индии, Дели, и с 2005 по 2010 год
temp_by_country_city_vs_year.loc[("Egypt", "Cairo"):("India", "Delhi"), "2005":"2010"]

print(temp_Egypt_Cairo_2005_India_Delhi_2010)

year                       2005       2006       2007       2008       2009  \
country  city                                                                 
Egypt    Cairo        22.006500  22.050000  22.361000  22.644500  22.625000   
         Gizeh        22.006500  22.050000  22.361000  22.644500  22.625000   
Ethiopia Addis Abeba  18.312833  18.427083  18.142583  18.165000  18.765333   
France   Paris        11.552917  11.788500  11.750833  11.278250  11.464083   
Germany  Berlin        9.919083  10.545333  10.883167  10.657750  10.062500   
India    Ahmadabad    26.828083  27.282833  27.511167  27.048500  28.095833   
         Bangalore    25.476500  25.418250  25.464333  25.352583  25.725750   
         Bombay       27.035750  27.381500  27.634667  27.177750  27.844500   
         Calcutta     26.729167  26.986250  26.584583  26.522333  27.153250   
         Delhi        25.716083  26.365917  26.145667  25.675000  26.554250   

year                       2010  
country  city    

### Расчеты на сводной таблице

Сводные таблицы заполнены сводными статистиками, но это только первый шаг к нахождению информативных данных. Часто вам нужно выполнять дополнительные расчеты с ними. Часто нужно найти строки или столбцы, где значение максимально или минимально.

Напомним, что вы легко можете выделить строки интереса в Series или DataFrame, используя логическое условие в квадратных скобках. Например: `series[series > value]`.

Библиотека pandas загружена как pd, и DataFrame `temp_by_country_city_vs_year` доступен.

#### Инструкции

- Вычислите среднюю температуру для каждого года и присвойте результат переменной `mean_temp_by_year`.
- Отфильтруйте `mean_temp_by_year` для года с наибольшей средней температурой.
- Вычислите среднюю температуру для каждого города (по столбцам) и присвойте результат переменной `mean_temp_by_city`.
- Отфильтруйте `mean_temp_by_city` для города с наименьшей средней температурой.

In [13]:
# Получение среднегодовой температуры по всему миру
mean_temp_by_year = temp_by_country_city_vs_year.mean()

# Отфильтровать для года с наибольшей среднегодовой температурой
print(mean_temp_by_year[mean_temp_by_year == mean_temp_by_year.max()])

# year_with_max_temp = mean_temp_by_year[mean_temp_by_year == mean_temp_by_year.max()].index


# Получение средней температуры по городам
mean_temp_by_city = temp_by_country_city_vs_year.mean(axis="columns")

# Отфильтровать для города с наименьшей средней температурой
print(mean_temp_by_city[mean_temp_by_city == mean_temp_by_city.min()])

year
2013    20.312285
dtype: float64
country  city  
China    Harbin    4.876551
dtype: float64
