In [53]:
import polars as pl
import pandas as pd
import numpy as np
import bottleneck as bn


## Polars

Считаем датасет из файла `train.csv` (это данные о выживаемости на Титанике) с помощью polars

In [54]:
df = pl.read_csv('train.csv')

Выведем информацию согласно заданию

In [55]:
print(df)

print(df["Pclass"].value_counts()) #Посчитаем количество пассажиров каждого класса

print(df.group_by("Sex").agg((pl.col("Survived")).sum())) #Выведем количество выживших мужчин и женщин на корабле

print(df.filter(df["Age"] > 44)) #Выведем часть таблицы с пассажирами, возраст которых больше 44 лет

shape: (891, 12)
┌─────────────┬──────────┬────────┬──────────────────┬───┬────────────┬─────────┬───────┬──────────┐
│ PassengerId ┆ Survived ┆ Pclass ┆ Name             ┆ … ┆ Ticket     ┆ Fare    ┆ Cabin ┆ Embarked │
│ ---         ┆ ---      ┆ ---    ┆ ---              ┆   ┆ ---        ┆ ---     ┆ ---   ┆ ---      │
│ i64         ┆ i64      ┆ i64    ┆ str              ┆   ┆ str        ┆ f64     ┆ str   ┆ str      │
╞═════════════╪══════════╪════════╪══════════════════╪═══╪════════════╪═════════╪═══════╪══════════╡
│ 1           ┆ 0        ┆ 3      ┆ Braund, Mr. Owen ┆ … ┆ A/5 21171  ┆ 7.25    ┆ null  ┆ S        │
│             ┆          ┆        ┆ Harris           ┆   ┆            ┆         ┆       ┆          │
│ 2           ┆ 1        ┆ 1      ┆ Cumings, Mrs.    ┆ … ┆ PC 17599   ┆ 71.2833 ┆ C85   ┆ C        │
│             ┆          ┆        ┆ John Bradley     ┆   ┆            ┆         ┆       ┆          │
│             ┆          ┆        ┆ (Flor…           ┆   ┆            ┆   

## Ускорение работы с pandas

In [56]:
!pip install bottleneck




[notice] A new release of pip is available: 23.3.1 -> 24.0
[notice] To update, run: C:\Users\anuta\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Считаем датасет из файла `train.csv` (это данные о выживаемости на Титанике) с помощью pandas

In [57]:
df = pd.read_csv('train.csv')

Выведем информацию согласно заданию

In [58]:
#Посчитайте средний возраст пассажиров и его стандартное отклонение
print(f'Средний возраст пассажиров\t {bn.nanmean(df.Age)}')
print(f'Стандартное отклонение возраста\t {bn.nanstd(df.Age)}')

#Для каждого пассажира умножьте значение столбца Fare на 1.3, если класс его билета - 1 или 2, и на 1.1, если класс его билета - 3. Сохраните результаты как новый столбец Fare_new. (При реализации расчета используйте любые альтернативы методу iterrows)
np_arr = df[['Fare', 'Pclass']].to_numpy()
new_col = [row[0]*(1.3*(row[1] < 3) + 1.1*(row[1] == 3)) for row in np_arr]
df.insert(10, 'Fare_new', new_col, True)
df

Средний возраст пассажиров	 29.69911764705882
Стандартное отклонение возраста	 14.516321150817317


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Fare_new,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,7.97500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,92.66829,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,8.71750,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,69.03000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,8.85500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,16.90000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,39.00000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,25.79500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,39.00000,C148,C


## Оптимизация типов pandas

Считайте датасет из файла `Housing.csv` (это данные о ценах домов) с помощью pandas

In [59]:
df = pd.read_csv('Housing.csv')

Для каждого столбца определите оптимальный с точки зрения потребления памяти тип данных - напишите свои выводы в комментариях

In [60]:
df

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished
...,...,...,...,...,...,...,...,...,...,...,...,...,...
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545 entries, 0 to 544
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   price             545 non-null    int64 
 1   area              545 non-null    int64 
 2   bedrooms          545 non-null    int64 
 3   bathrooms         545 non-null    int64 
 4   stories           545 non-null    int64 
 5   mainroad          545 non-null    object
 6   guestroom         545 non-null    object
 7   basement          545 non-null    object
 8   hotwaterheating   545 non-null    object
 9   airconditioning   545 non-null    object
 10  parking           545 non-null    int64 
 11  prefarea          545 non-null    object
 12  furnishingstatus  545 non-null    object
dtypes: int64(6), object(7)
memory usage: 55.5+ KB


In [62]:
df.describe()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking
count,545.0,545.0,545.0,545.0,545.0,545.0
mean,4766729.0,5150.541284,2.965138,1.286239,1.805505,0.693578
std,1870440.0,2170.141023,0.738064,0.50247,0.867492,0.861586
min,1750000.0,1650.0,1.0,1.0,1.0,0.0
25%,3430000.0,3600.0,2.0,1.0,1.0,0.0
50%,4340000.0,4600.0,3.0,1.0,2.0,0.0
75%,5740000.0,6360.0,3.0,2.0,2.0,1.0
max,13300000.0,16200.0,6.0,4.0,4.0,3.0


Определение оптимальных с точки зрения потребления памяти типов данных:

1. Строковые параметры для оптимизации следует категорировать.
2. Оставшиеся численные параметры не должны быть отрицательными, а значит для оптимизации нужно использовать unsigned типы.
3. Значения параметров bedrooms, bathrooms, stories, parking целочисленны и не выходят за границы [0;6], поэтому для них следует использовать uint8.
4. Значения параметра area также целочисленны и не выходят за границы [1650;16200], а значит для их хранения нужно использовать uint16.
5. Значения параметра price также целочисленны и не выходят за границы [1.75e+6;1.33e+7], а значит для их хранения ужно использовать uint32.

Поменяйте типы данных столбцов датафрейма на выбранные вами в прошлом пункте и сравните потребление памяти до и после оптимизации

In [63]:
df['price'] = df['price'].astype('uint32')
df['area'] = df['area'].astype('uint16')
df['bedrooms'] = df['bedrooms'].astype('uint8')
df['bathrooms'] = df['bathrooms'].astype('uint8')
df['stories'] = df['stories'].astype('uint8')
df['parking'] = df['parking'].astype('uint8')
df['mainroad'] = df['mainroad'].astype('category')
df['guestroom'] = df['guestroom'].astype('category')
df['basement'] = df['basement'].astype('category')
df['hotwaterheating'] = df['hotwaterheating'].astype('category')
df['airconditioning'] = df['airconditioning'].astype('category')
df['prefarea'] = df['prefarea'].astype('category')
df['furnishingstatus'] = df['furnishingstatus'].astype('category')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545 entries, 0 to 544
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   price             545 non-null    uint32  
 1   area              545 non-null    uint16  
 2   bedrooms          545 non-null    uint8   
 3   bathrooms         545 non-null    uint8   
 4   stories           545 non-null    uint8   
 5   mainroad          545 non-null    category
 6   guestroom         545 non-null    category
 7   basement          545 non-null    category
 8   hotwaterheating   545 non-null    category
 9   airconditioning   545 non-null    category
 10  parking           545 non-null    uint8   
 11  prefarea          545 non-null    category
 12  furnishingstatus  545 non-null    category
dtypes: category(7), uint16(1), uint32(1), uint8(4)
memory usage: 10.0 KB


В результате мы оптимизировали память больше чем в 5 раз.