## Pandas

- Excel в Питоне
- содержит инструменты для чтения и записи данных в различных форматах (сsv, excel tables, sql tables, html и тд)
- умная выборка данных с помощью логики, индексов и тд
- обработка отсутствующих данных (=missing data)
- доработка и реструктуризация данных 

## Series

= структура данных в Pandas, ктр хранит массив данных и именованный индекс
(отдичается от массива numpy именно наличием этого индекса) 

= одномерный масиив ndarray c метками по оси (axis labels)

В массивах Numpy есть числовой индекс, как в обычных массивах:

nparray = [1776, 1867, 1821] (индексы 0, 1, 2)

В Series (Pandas) есть именованный индекс (=labeled index):
    
ser_pandas = [USA: 1776, CANADA: 1867, MEXICO: 1821]

НО - числовая индексация по-прежнему сохранена! (то есть объект Series хранит внутри себя nparray + labeled index)

то есть доступ к данным возможен как через числовой индекс, так и через именованный 

In [46]:
import numpy as np
import pandas as pd

In [1]:
# help(pd.Series)

### Создание объекта Series 

In [48]:
my_index = ["USA", "CANADA", "MEXICO"]
my_data = [1776, 1867, 1821]

In [49]:
# создание Series на основе списков 
my_series = pd.Series(data=my_data)
my_series

# здесь по умолчанию создан числвой индекс 

0    1776
1    1867
2    1821
dtype: int64

In [50]:
my_series = pd.Series(data=my_data, index = my_index)
my_series

# тут теперь индекс уже идет именованный (очень похоже на словарь)

USA       1776
CANADA    1867
MEXICO    1821
dtype: int64

In [51]:
my_series["CANADA"]

1867

In [52]:
my_series[0]

1776

In [53]:
# создание Series на основе словаря 
d = {'Nastya': 23, 'Petr': 24, 'Gleb': 18}
pd.Series(d)

Nastya    23
Petr      24
Gleb      18
dtype: int64

### Операции с объектами Series 

In [54]:
q1 = {'Japan': 80, 'China': 450, 'India': 200, 'USA': 250}
q2 = {'Brazil': 100,'China': 500, 'India': 210,'USA': 260}

In [55]:
sales_1 = pd.Series(q1)
sales_2 = pd.Series(q2)

In [56]:
sales_1

Japan     80
China    450
India    200
USA      250
dtype: int64

In [57]:
sales_2.keys() # всю ключи данных 

Index(['Brazil', 'China', 'India', 'USA'], dtype='object')

In [58]:
[1,2,3] * 2 # обычный массив удваивается по размеру 

[1, 2, 3, 1, 2, 3]

In [59]:
np.array([1,2,3]) * 2 # numpy-массив делает broadcasting

array([2, 4, 6])

In [60]:
sales_1 * 5 # pandas-series тоже поддерживает broadcasting, так как основан на Numpy 

Japan     400
China    2250
India    1000
USA      1250
dtype: int64

In [61]:
sales_1

Japan     80
China    450
India    200
USA      250
dtype: int64

In [62]:
sales_2

Brazil    100
China     500
India     210
USA       260
dtype: int64

In [63]:
sales_1 + sales_2
# если какого-то ключа нет в одной из таблиц, то ставится NaN 

Brazil      NaN
China     950.0
India     410.0
Japan       NaN
USA       510.0
dtype: float64

In [64]:
# чтобы такой проблемы не возникало, то мж использовать add()

sales_1.add(sales_2, fill_value = 0)

# то есть если такого ключа не было, то поставится значение 0 на пропуск

Brazil    100.0
China     950.0
India     410.0
Japan      80.0
USA       510.0
dtype: float64

In [65]:
sales_1.dtype

dtype('int64')

In [66]:
sales_add = sales_1.add(sales_2, fill_value = 0)
sales_add.dtype

dtype('float64')

то есть при выполнении арифметич операци с Series тип данных мж смениться с целого на плавающий 

## DataFrames

Это таблица из строк и столбцов в Pandas, ктр мж легко фильтровать и реструктурировать 

ИЛИ это набор объектов Series, имеющих один и тот же индекс 

In [19]:
import numpy as np
import pandas as pd

### Создание DataFrame на основе массивов

In [68]:
# на основе многомерных массивов 
np.random.seed(101)
my_data = np.random.randint(0, 101, (4,3))
my_data

array([[95, 11, 81],
       [70, 63, 87],
       [75,  9, 77],
       [40,  4, 63]])

In [69]:
my_index = ['CA', 'NY', 'AZ', 'TX']
# индексы будут соотвествовать именно строкам (их 4 штуки)
my_cols = ['Jan', 'Feb', 'Mar']
# колонки соотвествуют названиям месяцев (их 3 штуки)

In [70]:
df = pd.DataFrame(my_data)
df

# создали первый датафрэйм на основе данных 

Unnamed: 0,0,1,2
0,95,11,81
1,70,63,87
2,75,9,77
3,40,4,63


In [71]:
df = pd.DataFrame(my_data, index = my_index, columns = my_cols)
df

# тут именованными аргументами добавили названия строк и столбцов 

Unnamed: 0,Jan,Feb,Mar
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


In [72]:
# получение обзорной информации про df
df.info()

# df хранится именно в ПАМЯТИ КОМПА, поэтому операции с ним происходят довольно быстро

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, CA to TX
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Jan     4 non-null      int32
 1   Feb     4 non-null      int32
 2   Mar     4 non-null      int32
dtypes: int32(3)
memory usage: 80.0+ bytes


### Чтение данных из csv-файла 

In [16]:
pwd

'C:\\Users\\User'

In [2]:
# ls 

In [20]:
df = pd.read_csv('tips.csv') # наш файл находится в той же папке 
df

# здесь не нужно указывать полный путь к папке, если файл в той же папке

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


In [70]:
df = pd.read_csv('C:\\Users\\User\\tips.csv') # наш файл находится в той же папке 
df

# указание полного пути до файла 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


### Методы и атрибуты df 

In [26]:
df.columns
# названия всех колонок (все атрибуты таблицы (фичи))

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size',
       'price_per_person', 'Payer Name', 'CC Number', 'Payment ID'],
      dtype='object')

In [28]:
df.index
# получения названий всех строк (если они строки) или набора индексов

RangeIndex(start=0, stop=244, step=1)

In [31]:
df.head(7) # получение первых n строк (по умолчанию - 5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
5,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882,Sun9679
6,8.77,2.0,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344,Sun5985


In [33]:
df.tail(6) # получение последних n строк (по умолчанию - 5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.0,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.0,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17
243,18.78,3.0,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139,Thur672


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   total_bill        244 non-null    float64
 1   tip               244 non-null    float64
 2   sex               244 non-null    object 
 3   smoker            244 non-null    object 
 4   day               244 non-null    object 
 5   time              244 non-null    object 
 6   size              244 non-null    int64  
 7   price_per_person  244 non-null    float64
 8   Payer Name        244 non-null    object 
 9   CC Number         244 non-null    int64  
 10  Payment ID        244 non-null    object 
dtypes: float64(3), int64(2), object(6)
memory usage: 21.1+ KB


In [35]:
# получение статистич сводки данных 
# среднекв отклонение\квартили\min\max\среднее 
df.describe()

# первая строка показывае сколько значений != None (Null\Nan)

Unnamed: 0,total_bill,tip,size,price_per_person,CC Number
count,244.0,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,7.888197,2563496000000000.0
std,8.902412,1.383638,0.9511,2.914234,2369340000000000.0
min,3.07,1.0,1.0,2.88,60406790000.0
25%,13.3475,2.0,2.0,5.8,30407310000000.0
50%,17.795,2.9,2.0,7.255,3525318000000000.0
75%,24.1275,3.5625,3.0,9.39,4553675000000000.0
max,50.81,10.0,6.0,20.27,6596454000000000.0


In [36]:
# транспонировать вышеуказанные данные

df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.78594,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9510998,1.0,2.0,2.0,3.0,6.0
price_per_person,244.0,7.888197,2.914234,2.88,5.8,7.255,9.39,20.27
CC Number,244.0,2563496000000000.0,2369340000000000.0,60406790000.0,30407310000000.0,3525318000000000.0,4553675000000000.0,6596454000000000.0


### Чтение данных из df 

#### Работа с колонками 

In [53]:
# получение данных только по 1 колонке 
df['total_bill']

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

In [54]:
type(df['total_bill']) 
# то есть отдельные колонки df - это объекты Series 

pandas.core.series.Series

In [55]:
# получение данных по нескольким колонкам 
my_cols = ['tip', 'total_bill']
df[my_cols]

# здесь итоговым объектом будет уже df 

Unnamed: 0,tip,total_bill
0,1.01,16.99
1,1.66,10.34
2,3.50,21.01
3,3.31,23.68
4,3.61,24.59
...,...,...
239,5.92,29.03
240,2.00,27.18
241,2.00,22.67
242,1.75,17.82


In [40]:
df['tip'] + df['total_bill']
# итоговая сумма счета 

0      18.00
1      12.00
2      24.51
3      26.99
4      28.20
       ...  
239    34.95
240    29.18
241    24.67
242    19.57
243    21.78
Length: 244, dtype: float64

In [56]:
# добавление новой колонки в df (с округлением данных)

df['tip_percent'] = np.round(df['tip'] / df['total_bill'] * 100, 2)

df.head()

# но если такая колонка уже существует, то произойдет перзапись данных 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percent
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.05
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.68


In [57]:
# удаление колонок (по умолч стоит ось 0 - это строки)
# поэтому дополнительно надо указать значение оси по колонкам axis = 1

df = df.drop('tip_percent', axis = 1)
df

# метод НЕ inplace, то есть не происходит удаления 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


In [58]:
df.drop('price_per_person', axis = 1, inplace = True)
df.head()

# здесь удаление Inplace помечаем этим именованным аргументом 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,Tonya Carter,4832732618637221,Sun2251


In [59]:
df.shape # размер таблицы 

(244, 10)

In [60]:
df.shape[1]

10

#### Работа со строками 

In [64]:
# при выгрузке нашего df из csv-файла Python автоматически подставил уникальные числовые индексы
# (то есть названия строк)
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,Tonya Carter,4832732618637221,Sun2251


In [66]:
df.index

RangeIndex(start=0, stop=244, step=1)

In [71]:
# смена названия строк на существующую колонку 
# обязательное условие - так как это первичный ключ, то все элементы дб уникальными

df = df.set_index('Payment ID')
df
# теперь Payment ID - это наш первичный ключ 

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
...,...,...,...,...,...,...,...,...,...,...
Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


In [73]:
# сброс установленного индекса (возврат к начальному - числовому)

df.reset_index()

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
...,...,...,...,...,...,...,...,...,...,...,...
239,Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
240,Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
241,Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
242,Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


In [74]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [76]:
# получение строки по числовому индексу 

df.iloc[1]

total_bill                     10.34
tip                             1.66
sex                             Male
smoker                            No
day                              Sun
time                          Dinner
size                               3
price_per_person                3.45
Payer Name            Douglas Tucker
CC Number           4478071379779230
Name: Sun4608, dtype: object

In [77]:
# получение строки по именованному индексу 

df.loc['Sun4608']

total_bill                     10.34
tip                             1.66
sex                             Male
smoker                            No
day                              Sun
time                          Dinner
size                               3
price_per_person                3.45
Payer Name            Douglas Tucker
CC Number           4478071379779230
Name: Sun4608, dtype: object

In [78]:
# получение нескольких строк из таблицы

df[1:5]
# ИЛИ df.iloc[1:5]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [81]:
df.loc[['Sun2251', 'Sun4458']]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322


In [84]:
# удаление строк (по имени) -> drop() 

df = df.drop('Sun4458')
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
Sun5985,8.77,2.0,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344


In [86]:
# удаление строк по индексу - через срезы

df = df.iloc[2:]
df

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
Sun5985,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344
Sun8157,26.88,3.12,Male,No,Sun,Dinner,4,6.72,Robert Buck,3514785077705092
Sun6820,15.04,1.96,Male,No,Sun,Dinner,2,7.52,Joseph Mcdonald,3522866365840377
...,...,...,...,...,...,...,...,...,...,...
Sat2657,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950


In [87]:
# добавление новой строки

one_row = df.iloc[0] # это объект типа Series 
one_row

total_bill                     23.68
tip                             3.31
sex                             Male
smoker                            No
day                              Sun
time                          Dinner
size                               2
price_per_person               11.84
Payer Name          Nathaniel Harris
CC Number           4676137647685994
Name: Sun5260, dtype: object

In [88]:
df = df.append(one_row)
df 

# Pandas автоматически НЕ проверяет уникальность ключей при вставке элементов
# (но для Маш Обуч это крайне важно и надо будет делать самим)
# !!! в обновленных версиях Pandas надо использовать pd.concat([df, pd.DataFrame([one_row])], axis = 0)

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882
Sun5985,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344
Sun8157,26.88,3.12,Male,No,Sun,Dinner,4,6.72,Robert Buck,3514785077705092
Sun6820,15.04,1.96,Male,No,Sun,Dinner,2,7.52,Joseph Mcdonald,3522866365840377
...,...,...,...,...,...,...,...,...,...,...
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950
Thur672,18.78,3.00,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139


In [89]:
df = pd.DataFrame([["1","Первая строка"],
                   ["2","Вторая строка"],
                   ["3","Третья строка"],
                   ["4","Четвёртая строка"],
                   ["5","Пятая строка"]],columns=["Number","MyString"])

df

Unnamed: 0,Number,MyString
0,1,Первая строка
1,2,Вторая строка
2,3,Третья строка
3,4,Четвёртая строка
4,5,Пятая строка


In [104]:
# удаление сразу нескольких строк по индексам 

df = df.drop(df.iloc[2:4].index)
df

Unnamed: 0,Number,MyString
0,1,Первая строка
1,2,Вторая строка
4,5,Пятая строка


In [107]:
df = df.set_index('MyString')
df

Unnamed: 0_level_0,Number
MyString,Unnamed: 1_level_1
Первая строка,1
Вторая строка,2
Пятая строка,5


In [113]:
df = df.drop(df.loc[['Вторая строка', 'Пятая строка']].index)
df

Unnamed: 0_level_0,Number
MyString,Unnamed: 1_level_1
Первая строка,1


## Фильтрация данных по условию (=conditional filtering)

Это фильтрация позволяет отбирать строки, накладывая условия на колонки 

Колонки - это признаки\атрибуты (=features)
Строки - это экземпляры данных 

Для машинного обучения нужен определенный формат данных:
- столбцы - признаки 
- строки - экземпляры

если такого формата данных нет, то нужно будет переструктурировать данные 

In [114]:
import numpy as np
import pandas as pd

In [115]:
df = pd.read_csv('tips.csv')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


In [118]:
# получить хотим только те строки, где общая сумма счета > 40

df['total_bill'] > 40

# получаем объект Series из True/False 

0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Name: total_bill, Length: 244, dtype: bool

In [120]:
df[df['total_bill'] > 40]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
95,40.17,4.73,Male,Yes,Fri,Dinner,4,10.04,Aaron Bentley,180026611638690,Fri9628
102,44.3,2.5,Female,Yes,Sat,Dinner,3,14.77,Heather Cohen,379771118886604,Sat6240
142,41.19,5.0,Male,No,Thur,Lunch,5,8.24,Eric Andrews,4356531761046453,Thur3621
156,48.17,5.0,Male,No,Sun,Dinner,6,8.03,Ryan Gonzales,3523151482063321,Sun7518
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
182,45.35,3.5,Male,Yes,Sun,Dinner,3,15.12,Jose Parsons,4112207559459910,Sun2337
184,40.55,3.0,Male,Yes,Sun,Dinner,2,20.27,Stephen Cox,3547798222044029,Sun5140
197,43.11,5.0,Female,Yes,Thur,Lunch,4,10.78,Brooke Soto,5544902205760175,Thur9313
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


In [122]:
df[df['sex'] == 'Female']

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
11,35.26,5.00,Female,No,Sun,Dinner,4,8.82,Diane Macias,4577817359320969,Sun6686
14,14.83,3.02,Female,No,Sun,Dinner,2,7.42,Vanessa Jones,30016702287574,Sun3848
16,10.33,1.67,Female,No,Sun,Dinner,3,3.44,Elizabeth Foster,4240025044626033,Sun9715
...,...,...,...,...,...,...,...,...,...,...,...
226,10.09,2.00,Female,Yes,Fri,Lunch,2,5.04,Ruth Weiss,5268689490381635,Fri6359
229,22.12,2.88,Female,Yes,Sat,Dinner,2,11.06,Jennifer Russell,4793003293608,Sat3943
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766


In [125]:
# получение данных по нескольким условиям 
# & - and
# | - or

df[(df['total_bill'] > 40) & (df['sex'] == 'Male')]

# обязательно КРУГЛЫЕ СКОБКИ 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
95,40.17,4.73,Male,Yes,Fri,Dinner,4,10.04,Aaron Bentley,180026611638690,Fri9628
142,41.19,5.0,Male,No,Thur,Lunch,5,8.24,Eric Andrews,4356531761046453,Thur3621
156,48.17,5.0,Male,No,Sun,Dinner,6,8.03,Ryan Gonzales,3523151482063321,Sun7518
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
182,45.35,3.5,Male,Yes,Sun,Dinner,3,15.12,Jose Parsons,4112207559459910,Sun2337
184,40.55,3.0,Male,Yes,Sun,Dinner,2,20.27,Stephen Cox,3547798222044029,Sun5140
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


### Фильрация с помощью списка возможных значений 

In [126]:
# хотим получить данные только за выходные 

df[(df['day'] == 'Sun') | (df['day'] == 'Sat')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


In [128]:
# но можно сделать по-другому - через список возможных значений
# ISIN()

sp = ['Sat', 'Sun', 'Fri']

df[df['day'].isin(sp)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


## Полезные методы для df 

### Apply() для 1 колонки 

In [130]:
import numpy as np
import pandas as pd

In [131]:
df = pd.read_csv('tips.csv')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


### Задача 1

У нас стоит задача получать последние 4 цифры номеров кредитных карт 

In [133]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   total_bill        244 non-null    float64
 1   tip               244 non-null    float64
 2   sex               244 non-null    object 
 3   smoker            244 non-null    object 
 4   day               244 non-null    object 
 5   time              244 non-null    object 
 6   size              244 non-null    int64  
 7   price_per_person  244 non-null    float64
 8   Payer Name        244 non-null    object 
 9   CC Number         244 non-null    int64  
 10  Payment ID        244 non-null    object 
dtypes: float64(3), int64(2), object(6)
memory usage: 21.1+ KB


видим, что CC Number -> это столбец с типом Int 

а int объекты у нас не subscriptable (то есть нельзя взять срез или индекс от него)

поэтому преобразуем этот столбец в строковый тип (тогда сможем работать с этим как со строкой)

In [134]:
str(4676137647685994)[-4:]

'5994'

Но такое 'волшебство' как в обычном Питоне не поддерживается df, поэтому надо воспользоваться функцией apply(), ктр позволяет применять собственные функции к df 

In [135]:
def last_four(number):
    return str(number)[-4:]

In [136]:
# применение функции к каждому элементу столбца CC Number
df['CC Number'].apply(last_four)

0      3410
1      9230
2      1322
3      5994
4      7221
       ... 
239    2842
240    5404
241    7196
242    0950
243    8139
Name: CC Number, Length: 244, dtype: object

In [137]:
# добавление нового столбца к df 
df['last_four_digits'] = df['CC Number'].apply(last_four)

df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,last_four_digits
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,3410
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,9230
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,1322
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,5994
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,7221


### Задача 2

Пометить в зависимости от суммы счета - дорого ли мы поели или нет (в шкале от 1 до 3 долларах, как это обычно бывает в картах сервисах)

In [138]:
df['total_bill'].mean()
# возьмем среднее значение по счетам, чтобы было на что ориентироваться

19.78594262295082

In [142]:
# все подобные функции должны возвращать ТОЛЬКО 1 значение и принимать 1
def dollar_label(price):
    if price < 15:
        return '$'
    if price < 30:
        return '$$'
    return '$$$'

In [143]:
df['dollar_label'] = df['total_bill'].apply(dollar_label)
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,last_four_digits,dollar_label
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,3410,$$
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,9230,$
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458,1322,$$
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,5994,$$
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,7221,$$
...,...,...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657,2842,$$
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766,5404,$$
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880,7196,$$
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17,0950,$$


### Apply() для нескольких колонок 

Сначала сделаем краткий обзор лямбда-выражений (анонимных функций)

In [144]:
# не все функции приводимы в лямбда-выражение, но простые - точно  
lambda x: x ** 2 

<function __main__.<lambda>(x)>

In [145]:
df['total_bill'].apply(lambda x: x * 2 )

0      33.98
1      20.68
2      42.02
3      47.36
4      49.18
       ...  
239    58.06
240    54.36
241    45.34
242    35.64
243    37.56
Name: total_bill, Length: 244, dtype: float64

### Задача 1

Определить много ли чаевых в процентном соотношении оставили клиенты

In [153]:
def quality_tips(total_bill, tip):
    if tip / total_bill > 0.15:
        return 'good'
    return 'bad'

In [154]:
# довольно сложная конструкция !!!
# apply к нескольким колонкам применяется через lambda-функцию
# именованный аргумент axis относится к методу apply 

df[['total_bill', 'tip']].apply(lambda df: quality_tips(df['total_bill'], df['tip']), axis = 1)

0       bad
1      good
2      good
3       bad
4       bad
       ... 
239    good
240     bad
241     bad
242     bad
243    good
Length: 244, dtype: object

! Надо привыкнуть к такой структуре синтаксиса, так как она довольно сложная 

Но существует альтернативны способ работы сразу с несколькими колонками - np.vectorize()

In [156]:
# vectorize - векторизует исходную функцию, чтобы она смогла работать
# в режиме broadcasting для df (смогла работать с numpy arrays - колонками)

df['quality_tips'] = np.vectorize(quality_tips)(df['total_bill'], df['tip'])

df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,last_four_digits,dollar_label,quality_tips
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,3410,$$,bad
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,9230,$,good
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,1322,$$,good
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,5994,$$,bad
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,7221,$$,bad


### Замеры времени работы 

Сравним время работы np.vectorize() и apply() c лямбда-выражением 

In [157]:
import timeit

# установочная строка, ктр выполянется только 1 раз 
setup = '''
import numpy as np
import pandas as pd 
df = pd.read_csv('tips.csv')
def quality_tips(total_bill, tip):
    if tip / total_bill > 0.15:
        return 'good'
    return 'bad'
'''

statem_1 = '''
df['quality_tips'] =df[['total_bill', 'tip']].apply(lambda df: quality_tips(df['total_bill'], df['tip']), axis = 1)
'''

statem_2 = '''
df['quality_tips'] = np.vectorize(quality_tips)(df['total_bill'], df['tip'])
'''

In [158]:
# number - именованный аргумент для кол-ва повторов 

timeit.timeit(setup = setup, stmt = statem_1, number = 1000)

2.7542855000065174

In [159]:
timeit.timeit(setup = setup, stmt = statem_2, number = 1000)

0.2525794000030146

## Продолжение полезных методов для df

In [160]:
import numpy as np
import pandas as pd 

df = pd.read_csv('tips.csv')

df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


In [161]:
# применение описательных статистик для числовых колонок df 
df.describe()

Unnamed: 0,total_bill,tip,size,price_per_person,CC Number
count,244.0,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,7.888197,2563496000000000.0
std,8.902412,1.383638,0.9511,2.914234,2369340000000000.0
min,3.07,1.0,1.0,2.88,60406790000.0
25%,13.3475,2.0,2.0,5.8,30407310000000.0
50%,17.795,2.9,2.0,7.255,3525318000000000.0
75%,24.1275,3.5625,3.0,9.39,4553675000000000.0
max,50.81,10.0,6.0,20.27,6596454000000000.0


### Сортировка данных 

In [162]:
df.sort_values('tip')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
67,3.07,1.00,Female,Yes,Sat,Dinner,1,3.07,Tiffany Brock,4359488526995267,Sat3455
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
92,5.75,1.00,Female,Yes,Fri,Dinner,2,2.88,Leah Ramirez,3508911676966392,Fri3780
111,7.25,1.00,Female,No,Sat,Dinner,1,7.25,Terri Jones,3559221007826887,Sat4801
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
...,...,...,...,...,...,...,...,...,...,...,...
141,34.30,6.70,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
212,48.33,9.00,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


In [163]:
# сортировка в убывающем порядке 
df.sort_values('tip', ascending = False)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
170,50.81,10.00,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
212,48.33,9.00,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
141,34.30,6.70,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025
...,...,...,...,...,...,...,...,...,...,...,...
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
111,7.25,1.00,Female,No,Sat,Dinner,1,7.25,Terri Jones,3559221007826887,Sat4801
67,3.07,1.00,Female,Yes,Sat,Dinner,1,3.07,Tiffany Brock,4359488526995267,Sat3455


In [164]:
# сортировка по нескольким колонкам 

df.sort_values(['tip', 'size'])

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
67,3.07,1.00,Female,Yes,Sat,Dinner,1,3.07,Tiffany Brock,4359488526995267,Sat3455
111,7.25,1.00,Female,No,Sat,Dinner,1,7.25,Terri Jones,3559221007826887,Sat4801
92,5.75,1.00,Female,Yes,Fri,Dinner,2,2.88,Leah Ramirez,3508911676966392,Fri3780
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
...,...,...,...,...,...,...,...,...,...,...,...
141,34.30,6.70,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
212,48.33,9.00,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


### Поиск позиций (индексов) с максим\миним значением 

In [165]:
df['total_bill'].max()

50.81

In [166]:
df['total_bill'].idxmax()

170

In [167]:
df.iloc[170]

total_bill                     50.81
tip                               10
sex                             Male
smoker                           Yes
day                              Sat
time                          Dinner
size                               3
price_per_person               16.94
Payer Name             Gregory Clark
CC Number           5473850968388236
Payment ID                   Sat1954
Name: 170, dtype: object

In [168]:
# все это мж сделать в 1 строку (пример с минимумом)

df.iloc[df['total_bill'].idxmin()]

total_bill                      3.07
tip                                1
sex                           Female
smoker                           Yes
day                              Sat
time                          Dinner
size                               1
price_per_person                3.07
Payer Name             Tiffany Brock
CC Number           4359488526995267
Payment ID                   Sat3455
Name: 67, dtype: object

### Корреляция между колонками 

In [170]:
# корреляция мб только [-1, 1]
df.corr()

# df.corr(numeric_only = True)
# в последних версиях Pandas надо указывать параметр - для выбора только числовых колонок

# по диагонали главной будут все единицы, так как переменная сама с собой идеально коррелирует 

Unnamed: 0,total_bill,tip,size,price_per_person,CC Number
total_bill,1.0,0.675734,0.598315,0.647554,0.104576
tip,0.675734,1.0,0.489299,0.347405,0.110857
size,0.598315,0.489299,1.0,-0.175359,-0.030239
price_per_person,0.647554,0.347405,-0.175359,1.0,0.13524
CC Number,0.104576,0.110857,-0.030239,0.13524,1.0


Value_counts() - подсчет числа строк для всех значений в колонке 

In [171]:
df['sex'].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

### Уникальные элементы 

In [172]:
# список из уникальных элементов для колонки 
df['day'].unique()

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

In [173]:
# число уникальных элементов для колонки 
df['day'].nunique()

4

In [174]:
df['day'].value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

### Замена значений в df

Хотим пол Female\Male заменить на аббревиатуры F\M

#### replace()

In [176]:
df['sex'].replace('Female', 'F')

0         F
1      Male
2      Male
3      Male
4         F
       ... 
239    Male
240       F
241    Male
242    Male
243       F
Name: sex, Length: 244, dtype: object

In [177]:
# можно сразу у нескольких значений - списком значений

df['sex'].replace(['Female', 'Male'], ['F', 'M'])

0      F
1      M
2      M
3      M
4      F
      ..
239    M
240    F
241    M
242    M
243    F
Name: sex, Length: 244, dtype: object

#### map()

можно сделать все то же самое, но только через маппинг значений 

In [180]:
# для этого надо создать словарь old_value: new_value

my_map = {'Female': 'F', 'Male': 'M'} 

df['sex'].map(my_map)

0      F
1      M
2      M
3      M
4      F
      ..
239    M
240    F
241    M
242    M
243    F
Name: sex, Length: 244, dtype: object

какой из этих вариантов использовать зависит только от личных предпочтений 

### Работа с дубликатами строк 

Бывает такое, что строки оказываются не уникальными
Тогда для 1 раза будет True, для всех ее дублей - False 

In [181]:
df.duplicated()

# в рабочем df нет дублей 

0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Length: 244, dtype: bool

Создадим свой простой df, чтобы увидеть, как избавляться от дублей

In [182]:
my_df = pd.DataFrame([1,2,2,1], ['a', 'b', 'c', 'd'])

my_df

Unnamed: 0,0
a,1
b,2
c,2
d,1


In [183]:
my_df.duplicated()

a    False
b    False
c     True
d     True
dtype: bool

In [184]:
# этот метод оставляет ровно 1 экземпляр строки с повторениями 

my_df.drop_duplicates()

Unnamed: 0,0
a,1
b,2


### Between()

In [185]:
df['total_bill'].between(10, 20, inclusive = True)

# для более поздних версий - inclusive = 'both'

0       True
1       True
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242     True
243     True
Name: total_bill, Length: 244, dtype: bool

In [186]:
# теперь эта штука мж служить фильтром при выборе по условию

df[df['total_bill'].between(10, 20, inclusive = True)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
8,15.04,1.96,Male,No,Sun,Dinner,2,7.52,Joseph Mcdonald,3522866365840377,Sun6820
9,14.78,3.23,Male,No,Sun,Dinner,2,7.39,Jerome Abbott,3532124519049786,Sun3775
10,10.27,1.71,Male,No,Sun,Dinner,2,5.14,William Riley,566287581219,Sun2546
...,...,...,...,...,...,...,...,...,...,...,...
234,15.53,3.00,Male,Yes,Sat,Dinner,2,7.76,Tracy Douglas,4097938155941930,Sat7220
235,10.07,1.25,Male,No,Sat,Dinner,2,5.04,Sean Gonzalez,3534021246117605,Sat4615
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


### nlargest(), nsmallest()

In [187]:
df.nlargest(6, 'tip')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
141,34.3,6.7,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025
183,23.17,6.5,Male,Yes,Sun,Dinner,4,5.79,Dr. Michael James,4718501859162,Sun6059


In [188]:
# хотя верхнее выражение мж переписать и через сортировку 

df.sort_values('tip', ascending=False)[0:6]

# df.sort_values('tip', ascending=False).iloc[0:6]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
141,34.3,6.7,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025
214,28.17,6.5,Female,Yes,Sat,Dinner,3,9.39,Marissa Jackson,4922302538691962,Sat3374


In [189]:
df.nsmallest(3, 'tip')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
67,3.07,1.0,Female,Yes,Sat,Dinner,1,3.07,Tiffany Brock,4359488526995267,Sat3455
92,5.75,1.0,Female,Yes,Fri,Dinner,2,2.88,Leah Ramirez,3508911676966392,Fri3780
111,7.25,1.0,Female,No,Sat,Dinner,1,7.25,Terri Jones,3559221007826887,Sat4801


### Sample() - сэмплирование данных 

Это применяется когда хотим получить хоть КАКУЮ-ТО (случайную) выборку из наших данных

Можно указать либо кол-во строк, либо долю от общего кол-ва строк 

In [190]:
df.sample(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
68,20.23,2.01,Male,No,Sat,Dinner,2,10.12,Mr. Travis Bailey Jr.,60406789937,Sat561
63,18.29,3.76,Male,Yes,Sat,Dinner,4,4.57,Chad Hart,580171498976,Sat4178
36,16.31,2.0,Male,No,Sat,Dinner,3,5.44,William Ford,3527691170179398,Sat9139


In [191]:
df.sample(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
186,20.9,3.5,Female,Yes,Sun,Dinner,3,6.97,Heidi Atkinson,4422858423131187,Sun4254
194,16.58,4.0,Male,Yes,Thur,Lunch,2,8.29,Benjamin Weber,676210011505,Thur9318
196,10.34,2.0,Male,Yes,Thur,Lunch,2,5.17,Eric Martin,30442491190342,Thur9862


In [192]:
df.sample(frac = 0.1) # frac - доля от исходного кол-ва строк 

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
148,9.78,1.73,Male,No,Thur,Lunch,2,4.89,David Stewart,3578014604116399,Thur7276
234,15.53,3.0,Male,Yes,Sat,Dinner,2,7.76,Tracy Douglas,4097938155941930,Sat7220
192,28.44,2.56,Male,Yes,Thur,Lunch,2,14.22,Dr. Jeffrey Rich,4737538358295,Thur4334
217,11.59,1.5,Male,Yes,Sat,Dinner,2,5.8,Gary Orr,30324521283406,Sat8489
97,12.03,1.5,Male,Yes,Fri,Dinner,2,6.02,Eric Herrera,580116092652,Fri9268
72,26.86,3.14,Female,Yes,Sat,Dinner,2,13.43,Victoria Obrien MD,4216245673726,Sat1967
39,31.27,5.0,Male,No,Sat,Dinner,3,10.42,Mr. Brandon Berry,6011525851069856,Sat6373
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590
91,22.49,3.5,Male,No,Fri,Dinner,2,11.24,Earl Horn,6011849326227398,Fri5700


## Отсутствующие данные (=missing data) 

В реальном мире отдельные данные могут отсутствовать по многим причинам.

Но многие методы машинного обучения и статистич анализа не могут работать с отсутствующими данными, поэтому обязательно надо решить эту проблему перед обработкой 

Если данные отсутствуют, то Pandas отображает их как NaN (=not a number)

также в Pandas есть специализиров неопределенные значения, например, pd.NaT = not a TimeStamp (для обозначения временных рядов), то есть на месте пропуска мб только этот тип данных 

---------------------------------------------------------------------------
Варианты обработки отсутствующих значений:
* оставить их как есть 
* удалить 
* заменить на что-то

Но не существует правил, когда что нужно делать - ориентируемся по конкретной ситуации 

Вариант 1 (оставить missing data на месте )

Плюсы:
+ это легче всего
+ мы оставляем без изменений наши данные 

Минусы: 
- многие методы и алгоритмы МЛ не поддерживают значения NaN
- часто мж аргументированно заменить данные и лучше это сделать, чем оставлять все без изменений 

Вариант 2 (удаление missing data)

Плюсы: 
+ легко реализуемо, используя методы pandas
+ если например какая-то колонка содержит более 90 проц NaN-ов, то смысл ее хранить - удаляем этот признак из рассмотрения

Минусы: 
- возможна потеря данных или полезной информации
- модели МЛ будуь меньше пригодны для будущих данных, если они появятся 

---------------------------------------------------------------------------
Удаление строк:

если есть строки, где во многих признаках стоят пустые значения, то лучше их удалить (но не забыть посчитать процент таких строк, так как если он большой, то лучше этого не делать) 

Удаление колонок:
    
если в каких-то признаках подавляющее большинство строк содержит значение NaN (то есть, когда значений нет почти во всех строках) 

---------------------------------------------------------------------------
Вариант 3 (замена missing data)

+ вместо удаления - мы сохраняем данные, то есть потенциально имеем больше данных для обучения модели 

- сложность реализации\разнообразие методов 
- так как создаем ложную информацию, то возможно получение ложных выводов 

! обоснованность замены данных ложна быть очень высокая

Способы замены данных:
    
1) замена каким-то 1 значением 
-- если NaN в таблице заменял значение по умолчанию (например, отсутствие чего-то, то есть 0)

2) замена средним или интерполированным значением 
-- это сложнее + надо разобраться в специфике данных, чтобы это было обосновано 

### Начинаем работать с missing data

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan

nan

In [7]:
pd.NA

<NA>

In [4]:
pd.NaT # not a timestamp 

NaT

Неопределенные значения не поддерживают операции сравнения - надо пользоваться оператором is для выяснения того, является ли переменная неопределенным значением 

In [8]:
var = np.nan
var is np.nan

True

In [9]:
var1 = pd.NA
var1 is pd.NA

True

In [11]:
df = pd.read_csv('movie_scores.csv')
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


### isnull()/notnull()

In [12]:
# проверка на неопределенные значения

df.isnull()

# получим True там, где стоит неопредел значение 

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,False,False,False,False,False,False
1,True,True,True,True,True,True
2,False,False,False,False,True,True
3,False,False,False,False,False,False
4,False,False,False,False,False,False


In [13]:
# метод для того, чтобы посмотреть, где находятся НЕ неопредел значения

df.notnull()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,True,True,True,True,True,True
1,False,False,False,False,False,False
2,True,True,True,True,False,False
3,True,True,True,True,True,True
4,True,True,True,True,True,True


### Задача 1 

Найти актеров, у ктр pre_movie_score содержит НЕ неопределенное значение

In [14]:
df['pre_movie_score'].notnull()

0     True
1    False
2    False
3     True
4     True
Name: pre_movie_score, dtype: bool

In [15]:
# а далее мж сделать conditional filtering 

df[df['pre_movie_score'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


### Задача 2 

Найти актеров, у ктр pre_movie_score содержит неопределенное значение, а first_name - НЕ неопредел 

In [17]:
# conditional filtering 

df[(df['pre_movie_score'].isnull()) & df['first_name'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
2,Hugh,Jackman,51.0,m,,


### Удаление missing data - dporna()

In [18]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [19]:
# удаление всех строк, ктр содержат хотя бы 1 неопредел значение 

df.dropna() 

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [20]:
# при удалении оставляем только те строки, в ктр кол-во нормальных значений
# >= thresh 

df.dropna(thresh = 1)

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [22]:
df.dropna(thresh = 5)

# здесь уже нет Hugh Jackman, так как у него только 4 значимых значения

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [23]:
# по умолчанию axis равно 0, то есть работаем со строками
# когда же axis = 1, то удаление происходит по колонкам 

df.dropna(axis = 1)

# df останется без колонок, так как в каждой колонке было хотя бы 1 NaN

0
1
2
3
4


In [24]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [25]:
# удаляем только те строки, где стоит NaN в наборе subset

df.dropna(subset = ['pre_movie_score'])

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


### Замена missing data - fillna()

In [26]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [27]:
df.fillna('new value')

# здесь видим, что вне зависимости от типа все заполянется строковым типом
# это не очень хорошо 

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63,m,8,10
1,new value,new value,new value,new value,new value,new value
2,Hugh,Jackman,51,m,new value,new value
3,Oprah,Winfrey,66,f,6,8
4,Emma,Stone,31,f,7,9


In [31]:
# поэтому обычно работаем отдельно с каждой колонкой 

df['pre_movie_score'] = df['pre_movie_score'].fillna(0)
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,0.0,
2,Hugh,Jackman,51.0,m,0.0,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [32]:
# заменяем пропуски на среднее значение по колонке 
# при этом среднее вычисляется только по значимым значениям 

mean_post = df['post_movie_score'].mean()

df['post_movie_score'] = df['post_movie_score'].fillna(mean_post)
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,0.0,9.0
2,Hugh,Jackman,51.0,m,0.0,9.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [34]:
df = pd.read_csv('movie_scores.csv')
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [36]:
# эта команда заменит пропуски в каждой числовой колонке! на среднее 

df.fillna(df.mean())

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,52.75,,7.0,9.0
2,Hugh,Jackman,51.0,m,7.0,9.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


#### замена на интерполированное значение 

In [37]:
airline_tix = {'first': 100, 'business': np.nan, 'economy-plus': 50,
              'economy': 30
              }
airline_tix

{'first': 100, 'business': nan, 'economy-plus': 50, 'economy': 30}

In [38]:
# создаем Series-Object на основе этого словаря 

ser = pd.Series(airline_tix)
ser

first           100.0
business          NaN
economy-plus     50.0
economy          30.0
dtype: float64

видим, что для замены NaN в этих данных мж использовать интеполяцию 
(так как все значения плавно убывают)

In [39]:
# используем линейную интерполяцию (то есть среднее из соседних знач в 1 колонке)

ser.interpolate()

# чтобы использовать эту функцию данные дб заранее УПОРЯДОЧЕНЫ!
# но если это сразу не так, то сначала можно сделать сортировку, а потом уже интеполяцию 

first           100.0
business         75.0
economy-plus     50.0
economy          30.0
dtype: float64

## Группировка данных - groupby()

Операция groupby() позволяет изучать данные отдельно по категориям.

Для того, чтобы это использовать надо выбрать категориальную колонку - она мб как с категориальным значением, так и со строковым.

Далее все строки по каждой категории объединяются, и мы можем применять агрегатные функции (sum, mean, count и тд) к этим группировкам.

Далее в качестве результата возвращается столько строк, сколько категорий.

Операция groupby() создает lazy object, то есть работа выполняется не сразу, а только в тот момент, когда произойдет обращение к объекту (то есть данные станут нужны) 

In [58]:
df = pd.read_csv('mpg.csv')

df

# mpg = miles per gallon 
# displacement = объем двигателя 
# model_year = год выпуска 

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86,2790,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52,2130,24.6,82,2,vw pickup
395,32.0,4,135.0,84,2295,11.6,82,1,dodge rampage
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger


### Группировка по 1 колонке 

In [41]:
# чтобы посмотреть, какие у нас есть различные года

df['model_year'].unique()

array([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype=int64)

In [42]:
# также мж посмотреть сколько строк соответствуют тому или иному году

df['model_year'].value_counts()

73    40
78    36
76    34
82    31
75    30
81    29
80    29
79    29
70    29
77    28
72    28
71    28
74    27
Name: model_year, dtype: int64

In [45]:
# перейдем к группировке 

gr_m_year_obj = df.groupby('model_year')

# так как это ленивый объект - мы сможем увидеть результат только
# после вызова агрегирующей функции 

In [46]:
gr_m_year_obj.mean()

# здесь усредняются автоматически все колонки числовые 
# в новых версиях Pandas - obj.mean(numeric_only = True)

# теперь model_year - стало индексом (первичным ключом)

Unnamed: 0_level_0,mpg,cylinders,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,17.689655,6.758621,281.413793,3372.793103,12.948276,1.310345
71,21.25,5.571429,209.75,2995.428571,15.142857,1.428571
72,18.714286,5.821429,218.375,3237.714286,15.125,1.535714
73,17.1,6.375,256.875,3419.025,14.3125,1.375
74,22.703704,5.259259,171.740741,2877.925926,16.203704,1.666667
75,20.266667,5.6,205.533333,3176.8,16.05,1.466667
76,21.573529,5.647059,197.794118,3078.735294,15.941176,1.470588
77,23.375,5.464286,191.392857,2997.357143,15.435714,1.571429
78,24.061111,5.361111,177.805556,2861.805556,15.805556,1.611111
79,25.093103,5.827586,206.689655,3055.344828,15.813793,1.275862


In [49]:
gr_m_year_obj.mean()['mpg']

# получили ответ на вопрос, как менялось mpg с течением лет 

model_year
70    17.689655
71    21.250000
72    18.714286
73    17.100000
74    22.703704
75    20.266667
76    21.573529
77    23.375000
78    24.061111
79    25.093103
80    33.696552
81    30.334483
82    31.709677
Name: mpg, dtype: float64

### Группировка по нескольким колонкам 

In [51]:
df.groupby(['model_year', 'cylinders']).mean()

# здесь появляется МУЛЬТИИНДЕКС - иерархический индекс
# то есть совокупность ('model_year' + 'cylinders') есть ключ 

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


In [52]:
df.groupby(['model_year', 'cylinders']).mean().columns

# видим, что это действительно так, ибо ключи не входят в назв колонок

Index(['mpg', 'displacement', 'weight', 'acceleration', 'origin'], dtype='object')

In [53]:
df.groupby(['model_year', 'cylinders']).mean().index

# мультииндекс 

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

In [60]:
df.groupby('model_year').describe().transpose()

# будут выводиться статистич характеристики для каждой колонки по годам

Unnamed: 0,model_year,70,71,72,73,74,75,76,77,78,79,80,81,82
mpg,count,29.0,28.0,28.0,40.0,27.0,30.0,34.0,28.0,36.0,29.0,29.0,29.0,31.0
mpg,mean,17.689655,21.25,18.714286,17.1,22.703704,20.266667,21.573529,23.375,24.061111,25.093103,33.696552,30.334483,31.709677
mpg,std,5.339231,6.591942,5.435529,4.700245,6.42001,4.940566,5.889297,6.675862,6.898044,6.794217,7.037983,5.591465,5.392548
mpg,min,9.0,12.0,11.0,11.0,13.0,13.0,13.0,15.0,16.2,15.5,19.1,17.6,22.0
mpg,25%,14.0,15.5,13.75,13.0,16.0,16.0,16.75,17.375,19.35,19.2,29.8,26.6,27.0
mpg,50%,16.0,19.0,18.5,16.0,24.0,19.5,21.0,21.75,20.7,23.9,32.7,31.6,32.0
mpg,75%,22.0,27.0,23.0,20.0,27.0,23.0,26.375,30.0,28.0,31.8,38.1,34.4,36.0
mpg,max,27.0,35.0,28.0,29.0,32.0,33.0,33.0,36.0,43.1,37.3,46.6,39.1,44.0
cylinders,count,29.0,28.0,28.0,40.0,27.0,30.0,34.0,28.0,36.0,29.0,29.0,29.0,31.0
cylinders,mean,6.758621,5.571429,5.821429,6.375,5.259259,5.6,5.647059,5.464286,5.361111,5.827586,4.137931,4.62069,4.193548


### Работа с df, содержащими мультииндекс 

In [59]:
ser_obj = df.groupby(['model_year', 'cylinders']).mean()['mpg']

ser_obj

# это будет объект типа Series c мультииндексом 

model_year  cylinders
70          4            25.285714
            6            20.500000
            8            14.111111
71          4            27.461538
            6            18.000000
            8            13.428571
72          3            19.000000
            4            23.428571
            8            13.615385
73          3            18.000000
            4            22.727273
            6            19.000000
            8            13.200000
74          4            27.800000
            6            17.857143
            8            14.200000
75          4            25.250000
            6            17.583333
            8            15.666667
76          4            26.766667
            6            20.000000
            8            14.666667
77          3            21.500000
            4            29.107143
            6            19.500000
            8            16.000000
78          4            29.576471
            5            20.30000

In [107]:
new_df = df.groupby(['model_year', 'cylinders']).mean()

new_df

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


In [64]:
new_df.index.names

# мж узнать имена ключей в мультииндексе 

FrozenList(['model_year', 'cylinders'])

In [65]:
new_df.index.levels

# возврат всех значений всех ключей поочередно 

FrozenList([[70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], [3, 4, 5, 6, 8]])

In [71]:
# получение строк по индексу года 

new_df.loc[70]

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


In [72]:
# получение строк по набору индексов года 

new_df.loc[[70, 78]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
78,4,29.576471,112.117647,2296.764706,16.282353,2.117647
78,5,20.3,131.0,2830.0,15.9,2.0
78,6,19.066667,213.25,3314.166667,16.391667,1.166667
78,8,19.05,300.833333,3563.333333,13.266667,1.0


In [77]:
# получение строки по мультииндексу в виде объекта Series 

new_df.loc[(70,6)]

mpg               20.5
displacement     199.0
weight          2710.5
acceleration      15.5
origin             1.0
Name: (70, 6), dtype: float64

### cross-section() = пересечение 

Параметры метода:
key - конкретное значение ключа
level - уровень в мультиключе, из ктр и выбираем значение

Examples:
-- key = 72, level = 'model_year'
-- key = 8, level = 'cylinders'
(в нашем мультииндексе только 2 уровня, но их мб и больше)

! этот метод НЕ работает со списками значений, то есть передать в парметр key целый список мы не можем 

In [81]:
new_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0


In [85]:
# для ВНЕШНЕГО мультиключа 
new_df.xs(key = 70, level = 'model_year')

# все значения по внешней части мультиключа со значением 70 

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


In [82]:
# для ВНУТРЕННЕГО мультиключа 
new_df.xs(key = 4, level = 'cylinders')

# все значения по внутренней части мультиключа со значением 4

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
70,25.285714,107.0,2292.571429,16.0,2.285714
71,27.461538,101.846154,2056.384615,16.961538,1.923077
72,23.428571,111.535714,2382.642857,17.214286,1.928571
73,22.727273,109.272727,2338.090909,17.136364,2.0
74,27.8,96.533333,2151.466667,16.4,2.2
75,25.25,114.833333,2489.25,15.833333,2.166667
76,26.766667,106.333333,2306.6,16.866667,1.866667
77,29.107143,106.5,2205.071429,16.064286,1.857143
78,29.576471,112.117647,2296.764706,16.282353,2.117647
79,31.525,113.583333,2357.583333,15.991667,1.583333


In [83]:
four_cylinders = new_df.xs(key = 4, level = 'cylinders') 

# эту переменную лучше назвать так, так как мы теряем значение того,что
# мы отобрали данные в новый df по всем цилиндрам со значением 4

In [86]:
# так как этот метод не делает выборку сразу по нескольким значениям 
# ключа из одного уровня, то для ВНЕШНЕГО ключа это мб LOC

new_df.loc[[72, 81]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
81,4,32.814286,108.857143,2275.47619,16.466667,2.095238
81,6,23.428571,184.0,3093.571429,15.442857,1.714286
81,8,26.6,350.0,3725.0,19.0,1.0


А что делать, если хотим получить выборку с несколькими значениями по внутреннему ключу?

(loc работает только для внешнего ключа, a key - только для одного значения)

Сделать фильтрацию данных до применения операции groupby()

In [92]:
# solution

# отбор сначала по нужным значениям внутреннего ключа 
# потом group by 

# 1 шаг 
df['cylinders'].isin([6, 8])


0       True
1       True
2       True
3       True
4       True
       ...  
393    False
394    False
395    False
396    False
397    False
Name: cylinders, Length: 398, dtype: bool

In [93]:
# 2 шаг 
df[df['cylinders'].isin([6, 8])]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
365,20.2,6,200.0,88,3060,17.1,81,1,ford granada gl
366,17.6,6,225.0,85,3465,16.6,81,1,chrysler lebaron salon
386,25.0,6,181.0,110,2945,16.4,82,1,buick century limited
387,38.0,6,262.0,85,3015,17.0,82,1,oldsmobile cutlass ciera (diesel)


In [94]:
# 3 шаг 
df[df['cylinders'].isin([6, 8])].groupby(['model_year', 'cylinders'])


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002F426043630>

In [95]:
# 4 шаг 
df[df['cylinders'].isin([6, 8])].groupby(['model_year', 'cylinders']).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,6,19.0,212.25,2917.125,15.6875,1.25
73,8,13.2,365.25,4279.05,12.25,1.0
74,6,17.857143,230.428571,3320.0,16.857143,1.0
74,8,14.2,315.2,4438.4,14.7,1.0
75,6,17.583333,233.75,3398.333333,17.708333,1.0


### Смена уровней внутри мультиключа 

In [108]:
new_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0


In [109]:
new_df.swaplevel()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
cylinders,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,70,25.285714,107.0,2292.571429,16.0,2.285714
6,70,20.5,199.0,2710.5,15.5,1.0
8,70,14.111111,367.555556,3940.055556,11.194444,1.0
4,71,27.461538,101.846154,2056.384615,16.961538,1.923077
6,71,18.0,243.375,3171.875,14.75,1.0
8,71,13.428571,371.714286,4537.714286,12.214286,1.0
3,72,19.0,70.0,2330.0,13.5,3.0
4,72,23.428571,111.535714,2382.642857,17.214286,1.928571
8,72,13.615385,344.846154,4228.384615,13.0,1.0
3,73,18.0,70.0,2124.0,13.5,3.0


### Сортировка мультииндекса 

In [110]:
new_df.head(9)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0


In [111]:
# если мы хотим, чтобы внешний ключ был в обратном порядке 

new_df.sort_index(level = 'model_year', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
82,6,28.333333,225.0,2931.666667,16.033333,1.0
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
81,8,26.6,350.0,3725.0,19.0,1.0
81,6,23.428571,184.0,3093.571429,15.442857,1.714286
81,4,32.814286,108.857143,2275.47619,16.466667,2.095238
80,6,25.9,196.5,3145.5,15.05,2.0
80,5,36.4,121.0,2950.0,19.9,2.0
80,4,34.612,111.0,2360.08,17.144,2.2
80,3,23.7,70.0,2420.0,12.5,3.0
79,8,18.63,321.4,3862.9,15.4,1.0


In [112]:
# сортировка по внутреннему ключу 

new_df.sort_index(level = 'cylinders', ascending = False)

# но так данные выглядят не очень красиво
# лучше все-таки делать сортировку по внешнему мультиключу 

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
81,8,26.6,350.0,3725.0,19.0,1.0
79,8,18.63,321.4,3862.9,15.4,1.0
78,8,19.05,300.833333,3563.333333,13.266667,1.0
77,8,16.0,335.75,4177.5,13.6625,1.0
76,8,14.666667,324.0,4064.666667,13.222222,1.0
75,8,15.666667,330.5,4108.833333,13.166667,1.0
74,8,14.2,315.2,4438.4,14.7,1.0
73,8,13.2,365.25,4279.05,12.25,1.0
72,8,13.615385,344.846154,4228.384615,13.0,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0


In [114]:
new1_df = new_df.swaplevel()
new1_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
cylinders,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,70,25.285714,107.0,2292.571429,16.0,2.285714
6,70,20.5,199.0,2710.5,15.5,1.0
8,70,14.111111,367.555556,3940.055556,11.194444,1.0
4,71,27.461538,101.846154,2056.384615,16.961538,1.923077
6,71,18.0,243.375,3171.875,14.75,1.0


In [115]:
new1_df.sort_index(level = 'cylinders', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
cylinders,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
8,81,26.6,350.0,3725.0,19.0,1.0
8,79,18.63,321.4,3862.9,15.4,1.0
8,78,19.05,300.833333,3563.333333,13.266667,1.0
8,77,16.0,335.75,4177.5,13.6625,1.0
8,76,14.666667,324.0,4064.666667,13.222222,1.0
8,75,15.666667,330.5,4108.833333,13.166667,1.0
8,74,14.2,315.2,4438.4,14.7,1.0
8,73,13.2,365.25,4279.05,12.25,1.0
8,72,13.615385,344.846154,4228.384615,13.0,1.0
8,71,13.428571,371.714286,4537.714286,12.214286,1.0


### Разные функции агрегации для разных колонок - agg()

In [117]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [118]:
df.agg(['std', 'mean'])

# вычисляем сразу 2 функции агрегации для числовых колонок 

Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,model_year,origin
std,7.815984,1.701004,104.269838,846.841774,2.757689,3.697627,0.802055
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864


In [121]:
df.agg(['std', 'mean'])['mpg']

# теперь только для 1 колонки вычислили 2 функции агрегации 

std      7.815984
mean    23.514573
Name: mpg, dtype: float64

In [122]:
# чтобы для разных колонок сделать свои функции агрегации 
# надо создать словарь

df.agg({'mpg': ['max', 'mean'], 'weight': ['mean', 'std']})

# лишние значения заполянются неопределенными значениями 

Unnamed: 0,mpg,weight
max,46.6,
mean,23.514573,2970.424623
std,,846.841774
