In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../data/fines.csv')
df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year
0,Y163O8161RUS,2,3200.0,Ford,Focus,1989
1,E432XX77RUS,1,6500.0,Toyota,Camry,1995
2,7184TT36RUS,1,2100.0,Ford,Focus,1984
3,X582HE161RUS,2,2000.0,Ford,Focus,2015
4,92918M178RUS,1,5700.0,Ford,Focus,2014
...,...,...,...,...,...,...
925,M0299X197RUS,1,8300.0,Ford,Focus,2000
926,83298C154RUS,2,8594.6,Ford,Focus,1996
927,H957HY161RUS,2,1300.0,Ford,Focus,2002
928,T941CC96RUS,1,2400.0,Ford,Focus,2010


Во всех следующих подзадачах нужно рассчитать штрафы/возврат*год для каждой строкй строки, создать новый столбец с рассчитанными данными и измерить время
с помощью timeit в ячейке

Сначала рассчитаем обычным циклом с методом append()

In [3]:
%%time
new_col = []

for i in range(0, len(df)):
    new_col.append(df.iloc[i]['Fines'] / (df.iloc[i]['Refund'] * df.iloc[i]['Year']))

df['Fines / Refund * Year'] = new_col

CPU times: user 226 ms, sys: 3.73 ms, total: 230 ms
Wall time: 235 ms


In [4]:
df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,Fines / Refund * Year
0,Y163O8161RUS,2,3200.0,Ford,Focus,1989,0.804424
1,E432XX77RUS,1,6500.0,Toyota,Camry,1995,3.258145
2,7184TT36RUS,1,2100.0,Ford,Focus,1984,1.058468
3,X582HE161RUS,2,2000.0,Ford,Focus,2015,0.496278
4,92918M178RUS,1,5700.0,Ford,Focus,2014,2.830189
...,...,...,...,...,...,...,...
925,M0299X197RUS,1,8300.0,Ford,Focus,2000,4.150000
926,83298C154RUS,2,8594.6,Ford,Focus,1996,2.152956
927,H957HY161RUS,2,1300.0,Ford,Focus,2002,0.324675
928,T941CC96RUS,1,2400.0,Ford,Focus,2010,1.194030


## Итерации

Метод iterrows()

Во время каждой итерации мы можем получить доступ и к индексу строки и к содержимому.

In [5]:
%%time
new_col = []

for index, row in df.iterrows():
    new_col.append(row['Fines'] / (row['Refund'] * row['Year']))

df['Fines / Refund * Year'] = new_col

CPU times: user 50.1 ms, sys: 2.34 ms, total: 52.5 ms
Wall time: 52.6 ms


С помощью apply() и лямбда-функции

In [6]:
%%time
df['Fines / Refund * Year'] = df.apply(
    lambda row: row['Fines'] / (row['Refund'] * row['Year']), axis=1
    )

CPU times: user 12.2 ms, sys: 1.46 ms, total: 13.7 ms
Wall time: 12.8 ms


Используя объекты Series из датафрейма

In [7]:
%%time
df['Fines / Refund * Year'] = df['Fines'] / (df['Refund'] * df['Year'])

CPU times: user 872 µs, sys: 154 µs, total: 1.03 ms
Wall time: 924 µs


Используя объекты Series из датафрейма, но методом .values()

In [8]:
%%time
df['Fines / Refund * Year'] = df['Fines'].values / (
    df['Refund'].values * df['Year'].values
    )

CPU times: user 362 µs, sys: 39 µs, total: 401 µs
Wall time: 382 µs


## Индексация

Выведем строку для определенного CarNumber

In [9]:
%%time
df.loc[df['CarNumber'] == 'M0299X197RUS']

CPU times: user 1.06 ms, sys: 99 µs, total: 1.15 ms
Wall time: 1.09 ms


Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year,Fines / Refund * Year
190,M0299X197RUS,2,67200.0,Ford,Focus,1995,16.842105
445,M0299X197RUS,2,19200.0,Ford,Focus,2005,4.78803
473,M0299X197RUS,1,9600.0,Ford,Focus,2007,4.783259
725,M0299X197RUS,1,8300.0,Ford,Focus,1989,4.172951
925,M0299X197RUS,1,8300.0,Ford,Focus,2000,4.15


Установим CarNumber индекс в вашем фрейме данных с помощью CarNumber

In [10]:
df1 = df.set_index('CarNumber')

Снова получим строку для того же CarNumber

In [11]:
%%time
df1.loc['M0299X197RUS']

CPU times: user 1.32 ms, sys: 614 µs, total: 1.93 ms
Wall time: 1.4 ms


Unnamed: 0_level_0,Refund,Fines,Make,Model,Year,Fines / Refund * Year
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
M0299X197RUS,2,67200.0,Ford,Focus,1995,16.842105
M0299X197RUS,2,19200.0,Ford,Focus,2005,4.78803
M0299X197RUS,1,9600.0,Ford,Focus,2007,4.783259
M0299X197RUS,1,8300.0,Ford,Focus,1989,4.172951
M0299X197RUS,1,8300.0,Ford,Focus,2000,4.15


## Понижение разряда числовых переменных

Посмотрим, какие типы данных у нас изначально. Для этого используем "глубокую" информацию.

In [12]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 930 entries, 0 to 929
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   CarNumber              930 non-null    object 
 1   Refund                 930 non-null    int64  
 2   Fines                  930 non-null    float64
 3   Make                   930 non-null    object 
 4   Model                  919 non-null    object 
 5   Year                   930 non-null    int64  
 6   Fines / Refund * Year  930 non-null    float64
dtypes: float64(2), int64(2), object(3)
memory usage: 203.8 KB


Создадим оптимизированный датафрейм из исходного. Для этого:

- понизим от float64 до float32 для всех столбцов

- понизим от int64 до наименьшего числового возможного dtype

In [13]:
df_optimized = df.copy()
df_optimized['Fines'] = pd.to_numeric(df_optimized['Fines'], downcast='float')
df_optimized['Refund'] = pd.to_numeric(df_optimized['Refund'], downcast='integer')
df_optimized['Year'] = pd.to_numeric(df_optimized['Year'], downcast='integer')

Проверим новые типы данных.

In [14]:
df_optimized.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 930 entries, 0 to 929
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   CarNumber              930 non-null    object 
 1   Refund                 930 non-null    int8   
 2   Fines                  930 non-null    float32
 3   Make                   930 non-null    object 
 4   Model                  919 non-null    object 
 5   Year                   930 non-null    int16  
 6   Fines / Refund * Year  930 non-null    float64
dtypes: float32(1), float64(1), int16(1), int8(1), object(3)
memory usage: 188.4 KB


##Категории

◦ Изменим столбцы типа объекта на тип категория

In [15]:
df_optimized['Make'] = df_optimized['Make'].astype('category')
df_optimized['Model'] = df_optimized['Model'].astype('category')

In [16]:
df_optimized.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 930 entries, 0 to 929
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   CarNumber              930 non-null    object  
 1   Refund                 930 non-null    int8    
 2   Fines                  930 non-null    float32 
 3   Make                   930 non-null    category
 4   Model                  919 non-null    category
 5   Year                   930 non-null    int16   
 6   Fines / Refund * Year  930 non-null    float64 
dtypes: category(2), float32(1), float64(1), int16(1), int8(1), object(1)
memory usage: 79.6 KB


Видим, что объем занимаемой памяти уменьшился более, чем в два раза

Очистим память от исходного датасета

In [17]:
%reset_selective -f df

In [18]:
df

NameError: name 'df' is not defined

Видтим, что память очистилась