# Анализ данных с Pandas
[(**Pan**el **da**ta)](https://pandas.pydata.org/index.html)
## Часть 1

## Cодержание
* [Настройка отображения](#Настройка отображения)
* [Чтение данных из файла](#Чтение данных из файла)
* [Индексация](#Индексация)
* [Поиск и фильтрация](#Поиск и фильтрация)
* [Сортировка](#Сортировка)
* [Переименование](#Переименование)

**Pandas** — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.  
Библиотека оптимизирована для высокой производительности, наиболее важные части кода написаны на `Cython` и `С`.   
  
Главные структуры данных в `Pandas`:
 - `DataFrame` (двумерный неоднородный индексированный массив, таблица)
 - `Series` (одномерный индексированный массив ndarray, столбец/строка)
 - `Index` – индекс (список названий строк/столбцов)

**Рекомендуемая литература** (переведена на русский): [Изучаем Pandas](https://drive.google.com/file/d/1EqUUrS81tAHwt_vghs9Hibksa5_GHecI/edit)

# <a id="Настройка отображения"><span style="color:green"> Настройка отображения </span></a>
[Документация set_option](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.set_option.html)

Подключим библиотеку. Стандартаная практика использовать для этой библиотеки сокращение `pd`.

In [1]:
import pandas as pd

In [2]:
print(pd.__version__)

0.22.0


Настроим опции отображения с помощью функции set_option

In [3]:
# маскимальное кол-во отображаемых столбцов
pd.set_option('display.max_columns', 13)
# маскимальное кол-во отображаемых строк
pd.set_option('display.max_rows', 10)
# максимальная ширина столбца
pd.set_option('display.max_colwidth', 45)
# максимальная ширина отображения
pd.set_option('display.width', 80)

# <a id="Чтение данных из файла"><span style="color:green"> Чтение данных из файла </span></a>

[Документация read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

Табличные данные чаще всего представлены в формате **csv** (**C**omma **S**eparated **V**alues – "значения, разделенные запятыми" (или другим разделителем))

Загрузим данные. Например мы хотим считать данные из файла csv. Это можно сделать с помощью функции `read_csv` из библиотеки pandas.   
Загрузим таблицу из датасета [FiveThirtyEight Comic Characters Dataset](https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset), содержащего данные о парсонажах комиксов Marvel и DC. Множество других датасетов вы можите найти на [kaggle](https://www.kaggle.com/datasets).

**Описание данных**

Первичный источник данных [Marvel Wikia](http://marvel.wikia.com/Main_Page)

Variable | Definition
---|---------
page_id | Уникальный идентификатор персонажа на странице wikia
name | Имя персонажа
urlslug | Уникальный url в wikia который ведет к этому персонажу
ID | Идентификационный статус персонажа (Secret Identity, Public identity, [on marvel only: No Dual Identity])
ALIGN | Характиристика персонажа (Good, Bad or Neutral)
EYE | Цвет глаз
HAIR | Цвет волос
SEX | Пол персонажа (e.g. Male, Female, etc.)
GSM | Относится ли персонаж к сексуальному меньшинсву (e.g. Homosexual characters, bisexual characters)
ALIVE | Жив ли персонаж
APPEARANCES | Количество появлений персонажа в комиксах (на момент Sep. 2, 2014)
FIRST APPEARANCE | Месяц и год первого появления персонажа в комиксе
YEAR | Год первого появления персонажа в комиксе

In [4]:
data = pd.read_csv("data/marvel-wikia-data.csv", sep=',', dtype={'year': int})

Часто в read_csv нужно указать:
   - разделитель полей sep (по умолчанию  ',')
   - кодировку encoding (например, 'utf8', в Windows часто бывает `'cp1251'`)
   - разделитель дробей delimiter
   - usecols - какие колонки нужно загрузить (бывает, что нужны не все, особенно актуально, когда данных много)
   - index_col - колонка - индекс
   - dtype - словарь, задающий типы данных для соотв. полей
   - и т д

У read_csv множество параметров. Чтобы посмотреть полный список можно воспользоваться справкой: знак вопроса и имя функции или найти описание на [сайте документации](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

In [5]:
pd.read_csv?

Итак мы считали данные в объект типа DataFrame:

In [6]:
type(data)

pandas.core.frame.DataFrame

## Просмотр данных

Посмотрим первые 5 строк таблицы

In [7]:
data.head()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0


Если нужно посмотреть первые 10 строк, то нужно просто это явно указать. Не забываем использовать подсказку (навидите курсор на функцию и нажмите shift+tab, это работает только после импорта библиотеки)

In [8]:
data.head(10)

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
0,1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
1,7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
2,64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
3,1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
4,2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
5,2458,Benjamin Grimm (Earth-616),\/Benjamin_Grimm_(Earth-616),Public Identity,Good Characters,Blue Eyes,No Hair,Male Characters,,Living Characters,2255.0,Nov-61,1961.0
6,2166,Reed Richards (Earth-616),\/Reed_Richards_(Earth-616),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2072.0,Nov-61,1961.0
7,1833,Hulk (Robert Bruce Banner),\/Hulk_(Robert_Bruce_Banner),Public Identity,Good Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,2017.0,May-62,1962.0
8,29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1963.0
9,1837,Jonathan Storm (Earth-616),\/Jonathan_Storm_(Earth-616),Public Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,1934.0,Nov-61,1961.0


Просмотр последних пяти строк

In [9]:
data.tail()

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
16371,657508,Ru'ach (Earth-616),\/Ru%27ach_(Earth-616),No Dual Identity,Bad Characters,Green Eyes,No Hair,Male Characters,,Living Characters,,,
16372,665474,Thane (Thanos' son) (Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Bald,Male Characters,,Living Characters,,,
16373,695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,
16374,708811,TK421 (Spiderling) (Earth-616),\/TK421_(Spiderling)_(Earth-616),Secret Identity,Neutral Characters,,,Male Characters,,Living Characters,,,
16375,673702,Yologarch (Earth-616),\/Yologarch_(Earth-616),,Bad Characters,,,,,Living Characters,,,


Случайные n строк

In [10]:
data.sample(n=5)

Unnamed: 0,page_id,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
6333,1732,George Blair (Earth-616),\/George_Blair_(Earth-616),Secret Identity,Bad Characters,Purple Eyes,Purple Hair,Male Characters,,Living Characters,4.0,Feb-92,1992.0
3466,425346,Bill (Lobster) (Earth-616),\/Bill_(Lobster)_(Earth-616),,Good Characters,Green Eyes,No Hair,Male Characters,,Living Characters,9.0,May-87,1987.0
1743,34039,Anne Marie Hoag (Earth-616),\/Anne_Marie_Hoag_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Grey Hair,Female Characters,,Living Characters,21.0,May-89,1989.0
7217,72934,Maria Russoff (Earth-616),\/Maria_Russoff_(Earth-616),No Dual Identity,Neutral Characters,Blue Eyes,Red Hair,Female Characters,,Deceased Characters,3.0,Jan-75,1975.0
6033,260744,Papa Shorty (Earth-616),\/Papa_Shorty_(Earth-616),Secret Identity,Bad Characters,Brown Eyes,Black Hair,Male Characters,,Deceased Characters,4.0,May-74,1974.0


### Размер данных

In [11]:
data.shape

(16376, 13)

# <a id="Индексация"><span style="color:green"> Индексация </span></a>

[Документация](https://pandas.pydata.org/pandas-docs/stable/indexing.html)

Общий подход
- Индекс + столбцы
 - элемент  **`data.loc[index, column]`**   
 - подтаблица **`data.loc[list of index, list of columns]`**

- По нумерации строк и столбцов
 - элемент  **`data.iloc[i, j]`**   
 - подтаблица **`data.iloc[list of i, list of j]`**

Наш DataFrame похож на двумерный массив. Как обратиться к его элементам? У DataFrame есть колонки (columns) и индексы (index). columns - это те названия полей, которые вы видите, а index это некий идентификатор строки, по умолчанию если ничего не указано то индекс это просто нумерация строк от 1 до n.

In [14]:
data.columns

Index(['page_id', 'name', 'urlslug', 'ID', 'ALIGN', 'EYE', 'HAIR', 'SEX',
       'GSM', 'ALIVE', 'APPEARANCES', 'FIRST APPEARANCE', 'Year'],
      dtype='object')

In [15]:
data.index

RangeIndex(start=0, stop=16376, step=1)

Можно изменить индекс, например на `page_id`.

### Изменение идекса

Метод `set_index` вернет новый DataFrame, с установленным новым индексом, если нужно применить изменения к текущему DataFrame и не возвращать новый, нужно указать `inplace=True`   
  
 ** Важное замечание**  
 Обращайте внимение на то имеет ли тот или иной метод параметр `inplace`, если такой параметр есть, по умолчанию его значение равно `False` и *возвращается новый объект*, при этом текущий не изменяется, если `inplace=True` возваращается `None` (иначе говоря ничего не возвращается) и изменения применяются к текущему объекту!

In [16]:
data.set_index('page_id', inplace=True)

In [17]:
data.head(3)

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0


In [18]:
data.index

Int64Index([  1678,   7139,  64786,   1868,   2460,   2458,   2166,   1833,
             29481,   1837,
            ...
            643435, 694583, 703892, 660799, 674414, 657508, 665474, 695217,
            708811, 673702],
           dtype='int64', name='page_id', length=16376)

Чтобы обратиться к элементу таблицы пользуясь колонками и индексами нужно воспользоваться методом `loc[index,column]`. Например посмотрим, что хранится в первой строчке в поля `name`:

In [19]:
data.loc[1678, 'name']

'Spider-Man (Peter Parker)'

Но бывает удобно обращаться к элементу по его порядковому номеру, тогда нужно использовать `iloc[i, j]`. Нумерация начитается с 0.

In [20]:
data.iloc[0, 0]

'Spider-Man (Peter Parker)'

## Транспонирование

Замена столбцов на строки.

In [21]:
data.T.head()

page_id,1678,7139,64786,1868,2460,2458,...,674414,657508,665474,695217,708811,673702
name,Spider-Man (Peter Parker),Captain America (Steven Rogers),"Wolverine (James \""Logan\"" Howlett)","Iron Man (Anthony \""Tony\"" Stark)",Thor (Thor Odinson),Benjamin Grimm (Earth-616),...,Phoenix's Shadow (Earth-616),Ru'ach (Earth-616),Thane (Thanos' son) (Earth-616),Tinkerer (Skrull) (Earth-616),TK421 (Spiderling) (Earth-616),Yologarch (Earth-616)
urlslug,\/Spider-Man_(Peter_Parker),\/Captain_America_(Steven_Rogers),\/Wolverine_(James_%22Logan%22_Howlett),\/Iron_Man_(Anthony_%22Tony%22_Stark),\/Thor_(Thor_Odinson),\/Benjamin_Grimm_(Earth-616),...,\/Phoenix%27s_Shadow_(Earth-616),\/Ru%27ach_(Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),\/Tinkerer_(Skrull)_(Earth-616),\/TK421_(Spiderling)_(Earth-616),\/Yologarch_(Earth-616)
ID,Secret Identity,Public Identity,Public Identity,Public Identity,No Dual Identity,Public Identity,...,,No Dual Identity,No Dual Identity,Secret Identity,Secret Identity,
ALIGN,Good Characters,Good Characters,Neutral Characters,Good Characters,Good Characters,Good Characters,...,Neutral Characters,Bad Characters,Good Characters,Bad Characters,Neutral Characters,Bad Characters
EYE,Hazel Eyes,Blue Eyes,Blue Eyes,Blue Eyes,Blue Eyes,Blue Eyes,...,,Green Eyes,Blue Eyes,Black Eyes,,


In [22]:
print(data.T.shape)
print(data.T.columns)

(12, 16376)
Int64Index([  1678,   7139,  64786,   1868,   2460,   2458,   2166,   1833,
             29481,   1837,
            ...
            643435, 694583, 703892, 660799, 674414, 657508, 665474, 695217,
            708811, 673702],
           dtype='int64', name='page_id', length=16376)


## pd.Serires

Каждая колонка в DataFrame это объект Series, у этого объекта тоже есть индексы. Чтобы получить всю колонку 'name' нужно просто указать ее в квадратных скобках.

**Замечание**  
К колонке можно обращаться через квадратные скобоки или через точку. Предпочтительнее через квадратные скобки, так как обращение через точку похоже на вызов метода, но обращение через точку быстрее набрать.

In [23]:
data['name'].head()

page_id
1678               Spider-Man (Peter Parker)
7139         Captain America (Steven Rogers)
64786    Wolverine (James \"Logan\" Howlett)
1868       Iron Man (Anthony \"Tony\" Stark)
2460                     Thor (Thor Odinson)
Name: name, dtype: object

In [24]:
data.name.head()

page_id
1678               Spider-Man (Peter Parker)
7139         Captain America (Steven Rogers)
64786    Wolverine (James \"Logan\" Howlett)
1868       Iron Man (Anthony \"Tony\" Stark)
2460                     Thor (Thor Odinson)
Name: name, dtype: object

In [25]:
data['name'].index

Int64Index([  1678,   7139,  64786,   1868,   2460,   2458,   2166,   1833,
             29481,   1837,
            ...
            643435, 694583, 703892, 660799, 674414, 657508, 665474, 695217,
            708811, 673702],
           dtype='int64', name='page_id', length=16376)

In [26]:
type(data['name'])

pandas.core.series.Series

Чтобы получить строку из данных можно вызвать метод loc указав индекс строки (не НОМЕР) запомните, что loc это обращение по индексу, в частном случае индекс и нумерация совпадают как и в нашем примере. **Строка это тоже Series** у которого индексы - это названия столбцов.

In [27]:
data.loc[1678]

name                  Spider-Man (Peter Parker)
urlslug             \/Spider-Man_(Peter_Parker)
ID                              Secret Identity
ALIGN                           Good Characters
EYE                                  Hazel Eyes
                               ...             
GSM                                         NaN
ALIVE                         Living Characters
APPEARANCES                                4043
FIRST APPEARANCE                         Aug-62
Year                                       1962
Name: 1678, Length: 12, dtype: object

In [28]:
type(data.loc[1678])

pandas.core.series.Series

In [29]:
data.loc[1678]['name']

'Spider-Man (Peter Parker)'

Теперь вы понимаете, что `data.loc[1678]['name']` на самом деле работает так `data.loc[1678]` это `Serires` и потом вы берете индекс 'name' у объекта Series: `data.loc[1678]['name']`

# <a id="Поиск и фильтрация"><span style="color:green"> Поиск и фильтрация</span></a>

### Отбор данных по столбцам

Например, нас интересуют не все поля\признаки\столбцы, а только некоторый список полей.   
data_sub = data[list_of_cols]

In [30]:
data_sub = data[['name', 'ALIGN']]

In [31]:
data_sub.head()

Unnamed: 0_level_0,name,ALIGN
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1678,Spider-Man (Peter Parker),Good Characters
7139,Captain America (Steven Rogers),Good Characters
64786,"Wolverine (James \""Logan\"" Howlett)",Neutral Characters
1868,"Iron Man (Anthony \""Tony\"" Stark)",Good Characters
2460,Thor (Thor Odinson),Good Characters


### Отбор данных по строкам

Отбор по индексам

In [32]:
data_sub_row = data.loc[[1678, 2460, 695217]]

In [33]:
data_sub_row

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,


### Отбор по строкам и по столбцам

Индексы + названия колонок, так

In [34]:
data.loc[[1678, 2460, 695217]][['name', 'ALIGN']]

Unnamed: 0_level_0,name,ALIGN
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1678,Spider-Man (Peter Parker),Good Characters
2460,Thor (Thor Odinson),Good Characters
695217,Tinkerer (Skrull) (Earth-616),Bad Characters


или так

In [35]:
data.loc[[1678, 2460, 695217], ['name', 'ALIGN']]

Unnamed: 0_level_0,name,ALIGN
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1678,Spider-Man (Peter Parker),Good Characters
2460,Thor (Thor Odinson),Good Characters
695217,Tinkerer (Skrull) (Earth-616),Bad Characters


По нумерации строк и столбцов

In [37]:
data.iloc[[10, 20, 100], [0, 2]]

Unnamed: 0_level_0,name,ID
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1
15725,Henry McCoy (Earth-616),Public Identity
1557,Henry Pym (Earth-616),Public Identity
1827,Hogun (Earth-616),Public Identity


До 4ой строки (нумерация с 0) и по столбацам с  нулевого до третьего

In [38]:
data.iloc[:4, 0:3]

Unnamed: 0_level_0,name,urlslug,ID
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity
1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity


### Отбор данных по условию

In [39]:
data['ALIGN'].unique()

array(['Good Characters', 'Neutral Characters', 'Bad Characters', nan],
      dtype=object)

Отберем данные только по нейтральным персонажам. Общая схема отбора такая: data[маска]. Маска - это например Serires со значениями True и False

In [40]:
mask = (data['ALIGN'] == 'Neutral Characters')

In [41]:
mask.head()

page_id
1678     False
7139     False
64786     True
1868     False
2460     False
Name: ALIGN, dtype: bool

In [42]:
data_neutral = data[mask]

In [43]:
data_neutral.head()

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1963.0
7823,Namor McKenzie (Earth-616),\/Namor_McKenzie_(Earth-616),No Dual Identity,Neutral Characters,Green Eyes,Black Hair,Male Characters,,Living Characters,1528.0,,
1872,John Jonah Jameson (Earth-616),\/John_Jonah_Jameson_(Earth-616),No Dual Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,1266.0,Mar-63,1963.0
1671,Nicholas Fury (Earth-616),\/Nicholas_Fury_(Earth-616),No Dual Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1137.0,May-63,1963.0


Можно писать более сложные условия

In [44]:
data[(data['ALIGN'] == 'Neutral Characters') & (data['EYE'] == 'Brown Eyes')].head()

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
29481,Scott Summers (Earth-616),\/Scott_Summers_(Earth-616),Public Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1955.0,Sep-63,1963.0
1671,Nicholas Fury (Earth-616),\/Nicholas_Fury_(Earth-616),No Dual Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,1137.0,May-63,1963.0
1409,Deadpool (Wade Wilson),\/Deadpool_(Wade_Wilson),Secret Identity,Neutral Characters,Brown Eyes,Bald,Male Characters,Transvestites,Living Characters,500.0,Feb-91,1991.0
1676,Galactus (Earth-616),\/Galactus_(Earth-616),Secret Identity,Neutral Characters,Brown Eyes,No Hair,Male Characters,,Living Characters,390.0,Mar-66,1966.0
2382,William Baker (Earth-616),\/William_Baker_(Earth-616),Secret Identity,Neutral Characters,Brown Eyes,Brown Hair,Male Characters,,Living Characters,338.0,Sep-63,1963.0


# <a id="Сортировка"><span style="color:green"> Сортировка </span></a>

Данные можно сортировать по столбцу\столбцам и по индексам

### Сортировка по индексу

По умолчанию сортировка всегда в порядке возрастания

In [48]:
data.sort_index()

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1025,Emil Blonsky (Earth-616),\/Emil_Blonsky_(Earth-616),Secret Identity,Bad Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,115.0,Apr-67,1967.0
1026,Absalom (Earth-616),\/Absalom_(Earth-616),Secret Identity,,Blue Eyes,Blond Hair,Male Characters,,Deceased Characters,6.0,May-92,1992.0
1027,Carl Creel (Earth-616),\/Carl_Creel_(Earth-616),Public Identity,Bad Characters,Blue Eyes,Bald,Male Characters,,Living Characters,202.0,Apr-64,1964.0
1029,Adam Warlock (Earth-616),\/Adam_Warlock_(Earth-616),No Dual Identity,Good Characters,White Eyes,Gold Hair,Male Characters,,Living Characters,252.0,Sep-67,1967.0
1030,Adam Neramani (Earth-616),\/Adam_Neramani_(Earth-616),Secret Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,21.0,Oct-93,1993.0
...,...,...,...,...,...,...,...,...,...,...,...,...
755266,Thor (Taskmaster Robot) (Earth-616),\/Thor_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,Blond Hair,Male Characters,,Living Characters,1.0,Oct-98,1998.0
755268,Iron Man (Taskmaster Robot) (Earth-616),\/Iron_Man_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,,Agender Characters,,Living Characters,1.0,Oct-98,1998.0
755271,Captain America (Taskmaster Robot) (Earth...,\/Captain_America_(Taskmaster_Robot)_(Ear...,Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Oct-98,1998.0
755276,Sub-Mariner (Taskmaster Robot) (Earth-616),\/Sub-Mariner_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Oct-98,1998.0


Чтобы изменить порядок сортировки нужно указать `ascending=False`

In [49]:
data.sort_index(ascending=False)

Unnamed: 0_level_0,name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,APPEARANCES,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
755278,Hulk (Taskmaster Robot) (Earth-616),\/Hulk_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Oct-98,1998.0
755276,Sub-Mariner (Taskmaster Robot) (Earth-616),\/Sub-Mariner_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Oct-98,1998.0
755271,Captain America (Taskmaster Robot) (Earth...,\/Captain_America_(Taskmaster_Robot)_(Ear...,Secret Identity,Bad Characters,,,Male Characters,,Living Characters,1.0,Oct-98,1998.0
755268,Iron Man (Taskmaster Robot) (Earth-616),\/Iron_Man_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,,Agender Characters,,Living Characters,1.0,Oct-98,1998.0
755266,Thor (Taskmaster Robot) (Earth-616),\/Thor_(Taskmaster_Robot)_(Earth-616),Secret Identity,Bad Characters,,Blond Hair,Male Characters,,Living Characters,1.0,Oct-98,1998.0
...,...,...,...,...,...,...,...,...,...,...,...,...
1030,Adam Neramani (Earth-616),\/Adam_Neramani_(Earth-616),Secret Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,21.0,Oct-93,1993.0
1029,Adam Warlock (Earth-616),\/Adam_Warlock_(Earth-616),No Dual Identity,Good Characters,White Eyes,Gold Hair,Male Characters,,Living Characters,252.0,Sep-67,1967.0
1027,Carl Creel (Earth-616),\/Carl_Creel_(Earth-616),Public Identity,Bad Characters,Blue Eyes,Bald,Male Characters,,Living Characters,202.0,Apr-64,1964.0
1026,Absalom (Earth-616),\/Absalom_(Earth-616),Secret Identity,,Blue Eyes,Blond Hair,Male Characters,,Deceased Characters,6.0,May-92,1992.0


### Сортировка по столбцу

In [51]:
data.sort_values('Year')[['name', 'Year']].dropna()

Unnamed: 0_level_0,name,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1
645438,Mr. Harris' Secretary (Earth-616),1939.0
1836,Human Torch (Android) (Earth-616),1939.0
331151,N'Jaga (Earth-616),1939.0
642960,Tim Roberts (Earth-616),1939.0
727086,Tex (Masked Raider) (Earth-616),1939.0
...,...,...
687367,Pestilence (11th Century) (Earth-616),2013.0
670481,Non-Newtonian Annie (Legion Personality) ...,2013.0
579240,Natalie Turner (Earth-616),2013.0
595507,Uriel Worthington (Earth-616),2013.0


Сортировка по столбцам

Не смущайтесь `dropna` о нем поговорим во второй части.

In [52]:
data.sort_values(['Year', 'FIRST APPEARANCE'])[['ID', 'name', 'Year', 'FIRST APPEARANCE']].dropna()

Unnamed: 0_level_0,ID,name,Year,FIRST APPEARANCE
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
438715,No Dual Identity,Pete Johnson (Earth-616),1939.0,Dec-39
639362,No Dual Identity,Drayson (Earth-616),1939.0,Dec-39
743298,No Dual Identity,Josef (Earth-616),1939.0,Dec-39
461528,No Dual Identity,Bardak (Earth-616),1939.0,Dec-39
437129,No Dual Identity,Blackie Ross (Earth-616),1939.0,Dec-39
...,...,...,...,...
623767,No Dual Identity,Nina Ambrose (Earth-616),2013.0,May-13
625357,Secret Identity,Morrigon (Earth-616),2013.0,May-13
595516,Public Identity,Mister Moctezuma (Earth-616),2013.0,May-13
637723,No Dual Identity,William Henry Harrison (Earth-616),2013.0,May-13


# <a id="Переименование"><span style="color:green">Переименование</span></a>

[Документация по rename](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html)

Переименование столбцов по словарю

In [53]:
data.rename(columns={'name':'full_name', 'APPEARANCES': 'cnt_appearance'})

Unnamed: 0_level_0,full_name,urlslug,ID,ALIGN,EYE,HAIR,SEX,GSM,ALIVE,cnt_appearance,FIRST APPEARANCE,Year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
...,...,...,...,...,...,...,...,...,...,...,...,...
657508,Ru'ach (Earth-616),\/Ru%27ach_(Earth-616),No Dual Identity,Bad Characters,Green Eyes,No Hair,Male Characters,,Living Characters,,,
665474,Thane (Thanos' son) (Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Bald,Male Characters,,Living Characters,,,
695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,
708811,TK421 (Spiderling) (Earth-616),\/TK421_(Spiderling)_(Earth-616),Secret Identity,Neutral Characters,,,Male Characters,,Living Characters,,,


Переведем все колонки в нижний регистр

In [54]:
data.rename(columns=str.lower)

Unnamed: 0_level_0,name,urlslug,id,align,eye,hair,sex,gsm,alive,appearances,first appearance,year
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
...,...,...,...,...,...,...,...,...,...,...,...,...
657508,Ru'ach (Earth-616),\/Ru%27ach_(Earth-616),No Dual Identity,Bad Characters,Green Eyes,No Hair,Male Characters,,Living Characters,,,
665474,Thane (Thanos' son) (Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Bald,Male Characters,,Living Characters,,,
695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,
708811,TK421 (Spiderling) (Earth-616),\/TK421_(Spiderling)_(Earth-616),Secret Identity,Neutral Characters,,,Male Characters,,Living Characters,,,


Как вы видите, можно заменять имена столбцов, применяя к названию некоторую функцию

In [55]:
data.rename(columns=lambda col: col.lower() + '_' + 'marvel')

Unnamed: 0_level_0,name_marvel,urlslug_marvel,id_marvel,align_marvel,eye_marvel,hair_marvel,sex_marvel,gsm_marvel,alive_marvel,appearances_marvel,first appearance_marvel,year_marvel
page_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1678,Spider-Man (Peter Parker),\/Spider-Man_(Peter_Parker),Secret Identity,Good Characters,Hazel Eyes,Brown Hair,Male Characters,,Living Characters,4043.0,Aug-62,1962.0
7139,Captain America (Steven Rogers),\/Captain_America_(Steven_Rogers),Public Identity,Good Characters,Blue Eyes,White Hair,Male Characters,,Living Characters,3360.0,Mar-41,1941.0
64786,"Wolverine (James \""Logan\"" Howlett)",\/Wolverine_(James_%22Logan%22_Howlett),Public Identity,Neutral Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,3061.0,Oct-74,1974.0
1868,"Iron Man (Anthony \""Tony\"" Stark)",\/Iron_Man_(Anthony_%22Tony%22_Stark),Public Identity,Good Characters,Blue Eyes,Black Hair,Male Characters,,Living Characters,2961.0,Mar-63,1963.0
2460,Thor (Thor Odinson),\/Thor_(Thor_Odinson),No Dual Identity,Good Characters,Blue Eyes,Blond Hair,Male Characters,,Living Characters,2258.0,Nov-50,1950.0
...,...,...,...,...,...,...,...,...,...,...,...,...
657508,Ru'ach (Earth-616),\/Ru%27ach_(Earth-616),No Dual Identity,Bad Characters,Green Eyes,No Hair,Male Characters,,Living Characters,,,
665474,Thane (Thanos' son) (Earth-616),\/Thane_(Thanos%27_son)_(Earth-616),No Dual Identity,Good Characters,Blue Eyes,Bald,Male Characters,,Living Characters,,,
695217,Tinkerer (Skrull) (Earth-616),\/Tinkerer_(Skrull)_(Earth-616),Secret Identity,Bad Characters,Black Eyes,Bald,Male Characters,,Living Characters,,,
708811,TK421 (Spiderling) (Earth-616),\/TK421_(Spiderling)_(Earth-616),Secret Identity,Neutral Characters,,,Male Characters,,Living Characters,,,


Продолжение ищи во второй части! =)