# Переименование и объединение
Данные поступают из многих источников. Чтобы все это вместе имело смысл

# Вступление¶
Часто данные поступают к нам с именами столбцов, индексов или другими соглашениями об именовании, которые нас не устраивают. В этом случае вы узнаете, как с помощью функций pandas изменить имена записей-нарушителей на что-то более подходящее.

Вы также узнаете, как объединять данные из нескольких фреймов данных и/или рядов.

Чтобы начать упражнение по этому разделу, пожалуйста, нажмите здесь.

# Переименование
Первая функция, которую мы представим здесь, - rename(), которая позволяет изменять имена индексов и/или столбцов. Например, чтобы изменить столбец баллов в нашем наборе данных на score, мы бы сделали:

In [None]:
import pandas as pd
pd.set_option('display.max_rows', 5)
reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)

In [None]:
reviews.rename(columns={'points': 'score'})

rename() позволяет переименовывать значения индекса или столбца, задавая параметр ключевого слова index или column, соответственно. Он поддерживает множество форматов ввода, но обычно наиболее удобным является словарь Python. Вот пример его использования для переименования некоторых элементов индекса.

In [None]:
reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})

Вероятно, вы будете переименовывать столбцы очень часто, но значения индекса - очень редко. Для этого обычно удобнее использовать функцию set_index().

Как индекс строки, так и индекс столбца могут иметь свой собственный атрибут name. Для изменения этих имен может быть использован дополнительный метод rename_axis(). Например:

In [None]:
reviews.rename_axis("wines", axis='rows').rename_axis("fields", axis='columns')

# Сочетающий¶
При выполнении операций с набором данных нам иногда необходимо комбинировать различные фреймы данных и/или ряды нетривиальными способами. В Pandas есть три основных метода для этого. В порядке возрастания сложности это concat(), join() и merge(). Большую часть того, что может делать merge(), также можно упростить с помощью join(), поэтому мы опустим это и сосредоточимся на первых двух функциях.

Самый простой метод объединения - concat(). При наличии списка элементов эта функция сгладит эти элементы вдоль оси.

Это полезно, когда у нас есть данные в разных объектах DataFrame или Series, но с одинаковыми полями (столбцами). Один из примеров: набор данных YouTube Videos, который разбивает данные на страны происхождения (например, Канада и Великобритания, в данном примере). Если мы хотим изучать несколько стран одновременно, мы можем использовать функцию concat(), чтобы объединить их:

In [None]:
canadian_youtube = pd.read_csv("../input/youtube-new/CAvideos.csv")
british_youtube = pd.read_csv("../input/youtube-new/GBvideos.csv")

pd.concat([canadian_youtube, british_youtube])

Средним по сложности объединителем является функция join(). функция join() позволяет объединять различные объекты фрейма данных, которые имеют общий индекс. Например, чтобы отобрать видео, которые оказались в тренде в один и тот же день как в Канаде, так и в Великобритании, мы могли бы сделать следующее:

In [None]:
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])

left.join(right, lsuffix='_CAN', rsuffix='_UK')

Параметры suffix и добавочный индекс необходимы здесь, потому что данные имеют одинаковые имена столбцов как в британском, так и в канадском наборах данных. Если бы это было не так (например, потому что мы переименовали их заранее), они бы нам не понадобились.

# Ваш ход¶
Если вы еще не приступали к выполнению упражнения, вы можете начать здесь.