In [1]:
import pandas as pd
import numpy as np

# Сортировка. Методы sort_values() и sort_index()

План урока:

### Сортировка по значению элемента: Метод sort_values()
- Метод sort_values() + метод reset_index()
- Изменение исходного объекта (параметр inplace) + возможные ошибки новичка
- Сортировка по возрастанию или по убыванию (параметр ascending)
- Сортировка по нескольким столбцам (первый параметр by)
- Обработка отсутствующих значений (NaN): na_position
- Сортировка в направлении строки (параметр axis)

### Сортировка по индексам/именам строк/столбцов: Метод sort_index()
- Сортировка по индексу/имени строки
- Изменение исходного объекта (параметр inplace)
- Сортировка по возрастанию или по убыванию (параметр ascending)
- Сортировка по индексу/имени столбца (параметр axis)

In [2]:
df = pd.read_csv('files/sample_1.csv')
df

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


# Сортировка по значению элемента: Метод sort_values()

#### Пример 1.1

In [3]:
df_s1 = df.sort_values('state')
df_s1

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
2,Charlie,18,CA,70
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70


## Метод sort_values() + метод reset_index()

#### Пример 1.2.1

In [4]:
# по умолчанию метод reset_index(), как и метод sort_values(), не изменяет изначальную структуру
# появляется колонка index со старыми индексами строк
df_s2 = df.sort_values('state').reset_index()
df_s2

Unnamed: 0,index,name,age,state,point
0,1,Bob,42,CA,92
1,2,Charlie,18,CA,70
2,4,Ellen,24,CA,88
3,0,Alice,24,NY,64
4,5,Frank,30,NY,57
5,3,Dave,68,TX,70


#### Пример 1.2.2

In [5]:
# убираем колонку со старыми индексами с помощью параметра drop=True
df_s3 = df.sort_values('state').reset_index(drop=True)
df_s3

Unnamed: 0,name,age,state,point
0,Bob,42,CA,92
1,Charlie,18,CA,70
2,Ellen,24,CA,88
3,Alice,24,NY,64
4,Frank,30,NY,57
5,Dave,68,TX,70


## Изменение исходного объекта: inplace

### Возможные ошибки новичка

- Задача: отсортировать данные по колонке 'state' и переустановить индексы, изменив изначальную структуру.

### Чтобы изменить изначальную структуру DataFrame, можно

- использовать параметр inplace=True:
df2.reset_index(drop=True, inplace=True)

- или перезаписать результат в ту же переменную:
df2 = df2.reset_index(drop=True)

In [6]:
df2 = pd.read_csv('files/sample_1.csv')
df2

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [7]:
df2.sort_values('state', inplace=True)
df2

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
2,Charlie,18,CA,70
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70


In [8]:
# забываем указать inplace=True, поэтому индексы в изначальном объекте в переменной df2 не изменились
df2.reset_index(drop=True)

Unnamed: 0,name,age,state,point
0,Bob,42,CA,92
1,Charlie,18,CA,70
2,Ellen,24,CA,88
3,Alice,24,NY,64
4,Frank,30,NY,57
5,Dave,68,TX,70


In [9]:
# индексы изначального датафрейма не переустановлены
df2

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
2,Charlie,18,CA,70
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70


In [10]:
# Ошибка AttributeError: 'NoneType' object has no attribute 'reset_index'
df3 = pd.read_csv('files/sample_1.csv')
df3.sort_values('state', inplace=True).reset_index(drop=True, inplace=True)

AttributeError: 'NoneType' object has no attribute 'reset_index'

In [11]:
# сортировка прошла успешно
# переустановка индексов закончилась ошибкой
df3

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
2,Charlie,18,CA,70
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70


In [12]:
# последовательно применяем методы с включенным параметром inplace
df4 = pd.read_csv('files/sample_1.csv')
df4.sort_values('state', inplace=True)
df4.reset_index(drop=True, inplace=True)
df4

Unnamed: 0,name,age,state,point
0,Bob,42,CA,92
1,Charlie,18,CA,70
2,Ellen,24,CA,88
3,Alice,24,NY,64
4,Frank,30,NY,57
5,Dave,68,TX,70


In [13]:
# перезаписываем переменную df5 (не используем inplace)
df5 = pd.read_csv('files/sample_1.csv')
df5 = df5.sort_values('state').reset_index(drop=True)
df5

Unnamed: 0,name,age,state,point
0,Bob,42,CA,92
1,Charlie,18,CA,70
2,Ellen,24,CA,88
3,Alice,24,NY,64
4,Frank,30,NY,57
5,Dave,68,TX,70


# Сортировка по возрастанию или по убыванию (Параметр ascending)

    ascending - по возрастанию
    По умолчанию сортировка производится по возрастанию. Параметр ascending = True
    Если нужна сортировка по убыванию, необходимо установить ascending = False

#### Пример 2.1 - сортировка по возрастанию (по умолчанию)

In [14]:
df_s4 = pd.read_csv('files/sample_1.csv')
df_s4.sort_values('point')

Unnamed: 0,name,age,state,point
5,Frank,30,NY,57
0,Alice,24,NY,64
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
1,Bob,42,CA,92


#### Пример 2.2 - сортировка по убыванию

In [15]:
df_s4.sort_values('point', ascending=False)

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
4,Ellen,24,CA,88
2,Charlie,18,CA,70
3,Dave,68,TX,70
0,Alice,24,NY,64
5,Frank,30,NY,57


In [16]:
df_s4.sort_values('name', ascending=False)

Unnamed: 0,name,age,state,point
5,Frank,30,NY,57
4,Ellen,24,CA,88
3,Dave,68,TX,70
2,Charlie,18,CA,70
1,Bob,42,CA,92
0,Alice,24,NY,64


# Сортировка по нескольким столбцам

- Если указать первый параметр by в виде списка, то можно сортировать по нескольким столбцам

- Сортировка производится с конца списка по порядку, только в самом конце данные сортируются по тому столбцу, название которого стоит в списке самым первым.

- Если в списке указан параметр ascending, то для каждого столбца может быть выбран порядок - по возрастанию/убыванию

#### Пример 3.1

In [17]:
df_s5 = pd.read_csv('files/sample_1.csv')

df_s5.sort_values(by=['state', 'age'])

Unnamed: 0,name,age,state,point
2,Charlie,18,CA,70
4,Ellen,24,CA,88
1,Bob,42,CA,92
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70


#### Пример 3.2

In [18]:
df_s5.sort_values(['age', 'state'])

Unnamed: 0,name,age,state,point
2,Charlie,18,CA,70
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
1,Bob,42,CA,92
3,Dave,68,TX,70


#### Пример 3.3

In [19]:
df_s5.sort_values(['age', 'state'], ascending=[True, False])

Unnamed: 0,name,age,state,point
2,Charlie,18,CA,70
0,Alice,24,NY,64
4,Ellen,24,CA,88
5,Frank,30,NY,57
1,Bob,42,CA,92
3,Dave,68,TX,70


# Обработка отсутствующих значений (NaN): параметр na_position

- по умолчанию в процессе сортировки отсутствующие значения перемещаются в конец
- параметр na_position='first' перемещает отсутствующие значения в начало

- для удаления и замены отсутствующих значений обычно используются методы .dropna() и .fillna()

In [20]:
df_nan = pd.read_csv('files/sample_1.csv')
df_nan.iloc[2:4, 3] = np.nan
df_nan

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64.0
1,Bob,42,CA,92.0
2,Charlie,18,CA,
3,Dave,68,TX,
4,Ellen,24,CA,88.0
5,Frank,30,NY,57.0


#### Пример 4.1

In [21]:
df_nan_s = df_nan.sort_values('point')
df_nan_s

Unnamed: 0,name,age,state,point
5,Frank,30,NY,57.0
0,Alice,24,NY,64.0
4,Ellen,24,CA,88.0
1,Bob,42,CA,92.0
2,Charlie,18,CA,
3,Dave,68,TX,


#### Пример 4.2

In [22]:
df_nan_s = df_nan.sort_values('point', na_position='first')
df_nan_s

Unnamed: 0,name,age,state,point
2,Charlie,18,CA,
3,Dave,68,TX,
5,Frank,30,NY,57.0
0,Alice,24,NY,64.0
4,Ellen,24,CA,88.0
1,Bob,42,CA,92.0


### Для удаления отсутствующих значений обычно используется метод dropna, а для их замены другими значениями fillna:

In [23]:
# удаление строчек с отсутствующими значениями
df_nan.dropna()

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64.0
1,Bob,42,CA,92.0
4,Ellen,24,CA,88.0
5,Frank,30,NY,57.0


In [24]:
# замена отсутствующих значений на 0
df_nan.fillna(0)

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64.0
1,Bob,42,CA,92.0
2,Charlie,18,CA,0.0
3,Dave,68,TX,0.0
4,Ellen,24,CA,88.0
5,Frank,30,NY,57.0


# Сортировка в направлении строки: параметр axis

In [25]:
df_d = pd.read_csv('files/sample_1.csv')
df_d = df_d.drop(['name', 'state'], axis=1)
df_d

Unnamed: 0,age,point
0,24,64
1,42,92
2,18,70
3,68,70
4,24,88
5,30,57


In [26]:
df_d.sort_values(by=1, axis=1, ascending=False, inplace=True)
df_d

Unnamed: 0,point,age
0,64,24
1,92,42
2,70,18
3,70,68
4,88,24
5,57,30


# Сортировка по индексам/именам строк/столбцов: Метод sort_index()

 - по умолчанию sort_index() сортирует по вертикали в соответствии с именем строки (меткой)

# Сортировка по индексу/имени строки

In [27]:
df_i = pd.read_csv('files/sample_1.csv')
df_i

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [28]:
# перемешиваем строки
# frac задает долю строк, возвращаемых в случайной выборке 
# frac=1 означает возврат всех строк (в случайном порядке)
df_i=df_i.sample(frac=1)
df_i

Unnamed: 0,name,age,state,point
1,Bob,42,CA,92
4,Ellen,24,CA,88
0,Alice,24,NY,64
5,Frank,30,NY,57
3,Dave,68,TX,70
2,Charlie,18,CA,70


In [29]:
# изменяем исходный объект с помощью inplace=True
df_i.sort_index(inplace=True)
df_i

Unnamed: 0,name,age,state,point
0,Alice,24,NY,64
1,Bob,42,CA,92
2,Charlie,18,CA,70
3,Dave,68,TX,70
4,Ellen,24,CA,88
5,Frank,30,NY,57


In [30]:
# сортировка по возрастанию или по убыванию (параметр ascending)
df_i.sort_index(ascending=False)

Unnamed: 0,name,age,state,point
5,Frank,30,NY,57
4,Ellen,24,CA,88
3,Dave,68,TX,70
2,Charlie,18,CA,70
1,Bob,42,CA,92
0,Alice,24,NY,64


# Сортировка по индексам/ именам столбцов: параметр axis

- Если задать параметр axis = 1, то сортировка будет производиться в горизонтальм направлении - то есть по столбцам (по именам столбцов)

In [31]:
# столбцы встали в алфавитном порядке
df_i.sort_index(axis=1)

Unnamed: 0,age,name,point,state
0,24,Alice,64,NY
1,42,Bob,92,CA
2,18,Charlie,70,CA
3,68,Dave,70,TX
4,24,Ellen,88,CA
5,30,Frank,57,NY


In [32]:
# мы можем перемешать столбцы, используя тот же метод sample, поставив в нем параметры frac=1 и axis=1
df_i=df_i.sample(frac=1, axis=1)
df_i

Unnamed: 0,point,state,name,age
0,64,NY,Alice,24
1,92,CA,Bob,42
2,70,CA,Charlie,18
3,70,TX,Dave,68
4,88,CA,Ellen,24
5,57,NY,Frank,30


In [33]:
# столбцы выстроились в обратном алфавитном порядке
df_i.sort_index(axis=1, ascending=False)

Unnamed: 0,state,point,name,age
0,NY,64,Alice,24
1,CA,92,Bob,42
2,CA,70,Charlie,18
3,TX,70,Dave,68
4,CA,88,Ellen,24
5,NY,57,Frank,30
