In [38]:
import pandas as pd
import gc

## Чтение файла fines.csv

In [39]:
df = pd.read_csv('../data/fines.csv')
df

Unnamed: 0,CarNumber,Refund,Fines,Make,Model,Year
0,Y163O8161RUS,2.0,3200.0,Ford,Focus,1985
1,E432XX77RUS,1.0,6500.0,Toyota,Camry,1985
2,7184TT36RUS,1.0,2100.0,Ford,Focus,1987
3,X582HE161RUS,2.0,2000.0,Ford,Focus,1981
4,92918M178RUS,1.0,5700.0,Ford,Focus,2007
...,...,...,...,...,...,...
925,NEW1,0.0,500.0,Lada,Granta,2018
926,NEW2,0.0,1000.0,Toyota,Camry,2019
927,NEW3,1.0,750.0,Chevrolet,Aveo,2020
928,NEW4,1.0,1200.0,Audi,A4,2017


Замена ячеек, где Refund = 0 на очень маленькое число (для дальнецших вычислений)

In [40]:
df["Refund"] = df["Refund"].replace(0, 1e-10) 

## Итерации: во всех следующих подзадачах необходимо рассчитать штрафы/возврат*год для каждой строки и создать новый столбец с рассчитанными данными и измерить время с помощью магической команды %%timeit в ячейке

1. цикл: написать функцию, которая проходит по фрейму данных, используя for i in range(0, len(df)), iloc и append() к списку, присвоить результат функции новому столбцу в фрейме данных

In [41]:
def loop(df):
    res = []
    for i in range(0, len(df)):
        res.append(df.iloc[i]["Fines"] / (df.iloc[i]["Refund"]) * df.iloc[i]["Year"])
    df["Calculation_loop"] = res

In [42]:
%%timeit
loop(df)
df

130 ms ± 12.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


2. с помощью iterrows()


In [43]:
def iterrows(df):
    res = []
    for i, row in df.iterrows():
        res.append(row["Fines"] / (row["Refund"]) * row["Year"])
    df["Calculation_iterrows"] = res

In [44]:
%%timeit
iterrows(df)
df

45.5 ms ± 2.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


3. с помощью apply() и лямбда-функции

In [45]:
def apply_and_lambda(df):
    df["Calculation_apply"] = df.apply(lambda x: x["Fines"] / (x["Refund"]) * x["Year"], axis=1)


In [46]:
%%timeit
apply_and_lambda(df)
df

9.31 ms ± 781 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


4. с помощью объектов Series из фрейма данных

In [47]:
%%timeit
df["Calculation_series"] = df["Fines"] / (df["Refund"]) * df["Year"]
df

242 μs ± 9.25 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


5. с методом .values

In [48]:
%%timeit
df["Calculation_values"] = df["Fines"].values / (df["Refund"].values) * df["Year"].values
df

124 μs ± 3.67 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## индексация: измерьте время с помощью магической команды %%timeit в ячейке

получить строку для определенного номера автомобиля, например, «O136HO197RUS»

In [49]:
%%timeit
df[df["CarNumber"] == 'O136HO197RUS']

480 μs ± 15.9 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


установите индекс в вашем фрейме данных с помощью CarNumber

In [50]:

df.set_index('CarNumber', inplace=True)


In [51]:
%%timeit
df.loc[df.index == 'O136HO197RUS']

311 μs ± 10.7 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


запустите df.info(memory_usage='deep'), обратите внимание на Dtype и использование памяти

In [52]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Index: 930 entries, Y163O8161RUS to NEW5
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Refund                914 non-null    float64
 1   Fines                 930 non-null    float64
 2   Make                  930 non-null    object 
 3   Model                 919 non-null    object 
 4   Year                  930 non-null    int64  
 5   Calculation_loop      914 non-null    float64
 6   Calculation_iterrows  914 non-null    float64
 7   Calculation_apply     914 non-null    float64
 8   Calculation_series    914 non-null    float64
 9   Calculation_values    914 non-null    float64
dtypes: float64(7), int64(1), object(2)
memory usage: 211.0 KB


сделайте копию() вашего исходного фрейма данных в другой оптимизированный фрейм данных

In [53]:
optim = df.copy()
optim


Unnamed: 0_level_0,Refund,Fines,Make,Model,Year,Calculation_loop,Calculation_iterrows,Calculation_apply,Calculation_series,Calculation_values
CarNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Y163O8161RUS,2.000000e+00,3200.0,Ford,Focus,1985,3.176000e+06,3.176000e+06,3.176000e+06,3.176000e+06,3.176000e+06
E432XX77RUS,1.000000e+00,6500.0,Toyota,Camry,1985,1.290250e+07,1.290250e+07,1.290250e+07,1.290250e+07,1.290250e+07
7184TT36RUS,1.000000e+00,2100.0,Ford,Focus,1987,4.172700e+06,4.172700e+06,4.172700e+06,4.172700e+06,4.172700e+06
X582HE161RUS,2.000000e+00,2000.0,Ford,Focus,1981,1.981000e+06,1.981000e+06,1.981000e+06,1.981000e+06,1.981000e+06
92918M178RUS,1.000000e+00,5700.0,Ford,Focus,2007,1.143990e+07,1.143990e+07,1.143990e+07,1.143990e+07,1.143990e+07
...,...,...,...,...,...,...,...,...,...,...
NEW1,1.000000e-10,500.0,Lada,Granta,2018,1.009000e+16,1.009000e+16,1.009000e+16,1.009000e+16,1.009000e+16
NEW2,1.000000e-10,1000.0,Toyota,Camry,2019,2.019000e+16,2.019000e+16,2.019000e+16,2.019000e+16,2.019000e+16
NEW3,1.000000e+00,750.0,Chevrolet,Aveo,2020,1.515000e+06,1.515000e+06,1.515000e+06,1.515000e+06,1.515000e+06
NEW4,1.000000e+00,1200.0,Audi,A4,2017,2.420400e+06,2.420400e+06,2.420400e+06,2.420400e+06,2.420400e+06


In [None]:
optim['Refund'] = pd.to_numeric(optim['Refund'], downcast='unsigned')
optim['Year'] = pd.to_numeric(optim['Year'], downcast='unsigned') 
optim['Fines'] = pd.to_numeric(optim['Fines'], downcast='float')  
optim['Calculation_loop'] = pd.to_numeric(optim['Calculation_loop'], downcast='float') 
optim['Calculation_iterrows'] = pd.to_numeric(optim['Calculation_iterrows'], downcast='float') 
optim['Calculation_apply'] = pd.to_numeric(optim['Calculation_apply'], downcast='float') 
optim['Calculation_values'] = pd.to_numeric(optim['Calculation_values'], downcast='float')
optim['Calculation_series'] = pd.to_numeric(optim['Calculation_series'], downcast='float') 
optim['Make'] = optim['Make'].astype('category')        
optim['Model'] = optim['Model'].astype('category')    
optim.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Index: 930 entries, Y163O8161RUS to NEW5
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype   
---  ------                --------------  -----   
 0   Refund                914 non-null    float64 
 1   Fines                 930 non-null    float32 
 2   Make                  930 non-null    category
 3   Model                 919 non-null    category
 4   Year                  930 non-null    uint16  
 5   Calculation_loop      914 non-null    float64 
 6   Calculation_iterrows  914 non-null    float64 
 7   Calculation_apply     914 non-null    float64 
 8   Calculation_series    914 non-null    float64 
 9   Calculation_values    914 non-null    float64 
dtypes: category(2), float32(1), float64(6), uint16(1)
memory usage: 108.1 KB


In [55]:
gc.collect()

3