In [22]:
import polars as pl

# Считываем датасет из файла train.csv
df = pl.read_csv('train.csv')

# Выводим основную информацию о датасете
info = df.describe()
dtypes = df.dtypes
null_counts = df.null_count()
mean_values = df.mean()

print("Основная информация о датасете:")
print(info)
print("\nТипы данных:")
print(dtypes)
print("\nКоличество пропусков:")
print(null_counts)
print("\nСредние значения:")
print(mean_values)

# Подсчитываем количество пассажиров каждого класса (Pclass)
passenger_class_counts = df['Pclass'].value_counts()
print("\nКоличество пассажиров каждого класса:")
print(passenger_class_counts)

# Подсчитываем количество выживших мужчин и женщин без groupby
male_survivors = df.filter(pl.col('Sex') == 'male').select(pl.sum('Survived')).to_series()[0]
female_survivors = df.filter(pl.col('Sex') == 'female').select(pl.sum('Survived')).to_series()[0]

print("\nКоличество выживших мужчин:", male_survivors)
print("Количество выживших женщин:", female_survivors)

# Выводим часть таблицы с пассажирами, возраст которых больше 44 лет
passengers_above_44 = df.filter(pl.col('Age') > 44)
print("\nПассажиры старше 44 лет:")
print(passengers_above_44)


Основная информация о датасете:
shape: (9, 13)
┌────────────┬─────────────┬──────────┬──────────┬───┬───────────┬───────────┬───────┬──────────┐
│ statistic  ┆ PassengerId ┆ Survived ┆ Pclass   ┆ … ┆ Ticket    ┆ Fare      ┆ Cabin ┆ Embarked │
│ ---        ┆ ---         ┆ ---      ┆ ---      ┆   ┆ ---       ┆ ---       ┆ ---   ┆ ---      │
│ str        ┆ f64         ┆ f64      ┆ f64      ┆   ┆ str       ┆ f64       ┆ str   ┆ str      │
╞════════════╪═════════════╪══════════╪══════════╪═══╪═══════════╪═══════════╪═══════╪══════════╡
│ count      ┆ 891.0       ┆ 891.0    ┆ 891.0    ┆ … ┆ 891       ┆ 891.0     ┆ 204   ┆ 889      │
│ null_count ┆ 0.0         ┆ 0.0      ┆ 0.0      ┆ … ┆ 0         ┆ 0.0       ┆ 687   ┆ 2        │
│ mean       ┆ 446.0       ┆ 0.383838 ┆ 2.308642 ┆ … ┆ null      ┆ 32.204208 ┆ null  ┆ null     │
│ std        ┆ 257.353842  ┆ 0.486592 ┆ 0.836071 ┆ … ┆ null      ┆ 49.693429 ┆ null  ┆ null     │
│ min        ┆ 1.0         ┆ 0.0      ┆ 1.0      ┆ … ┆ 110152    ┆ 0.0 

In [23]:
import pandas as pd
import bottleneck as bn

# Считываем датасет из файла train.csv
df = pd.read_csv('train.csv')

# Рассчитываем средний возраст и стандартное отклонение
average_age = bn.nanmean(df['Age'])
std_age = bn.nanstd(df['Age'])

print("Средний возраст пассажиров:", average_age)
print("Стандартное отклонение возраста:", std_age)

# Создаем новый столбец Fare_new
df['Fare_new'] = df['Fare'].apply(lambda x: x * 1.3)

# Выводим первые несколько строк датафрейма с новым столбцом
print("\nПервые 5 строк с новым столбцом Fare_new:")
print(df[['Fare', 'Fare_new']].head())


Средний возраст пассажиров: 29.69911764705882
Стандартное отклонение возраста: 14.516321150817317

Первые 5 строк с новым столбцом Fare_new:
      Fare  Fare_new
0   7.2500   9.42500
1  71.2833  92.66829
2   7.9250  10.30250
3  53.1000  69.03000
4   8.0500  10.46500


In [24]:
import pandas as pd

# Считываем датасет из файла Housing.csv
df = pd.read_csv('Housing.csv')

# 1. Определяем текущее потребление памяти
initial_memory = df.memory_usage(deep=True).sum()
print("Память до оптимизации:", initial_memory, "bytes")

# 2. Определяем оптимальные типы данных для каждого столбца
optimized_types = {
    'price': 'int32',  # Цены могут быть большими, но не выходят за пределы int32
    'area': 'int32',   # Площадь домов в целом не превышает 32-битное значение
    'bedrooms': 'int8',  # Количество спален ограничено (0-10), поэтому int8 достаточно
    'bathrooms': 'int8', # Аналогично для количества ванных
    'stories': 'int8',   # Количество этажей также небольшое
    'mainroad': 'category',  # Два возможных значения ('yes' или 'no')
    'guestroom': 'category', # Аналогично
    'basement': 'category',  # Аналогично
    'hotwaterheating': 'category',  # Аналогично
    'airconditioning': 'category',   # Аналогично
    'parking': 'int8',      # Число парковочных мест ограничено
    'prefarea': 'category',  # Аналогично
    'furnishingstatus': 'category'  # Аналогично
}

# Применяем оптимизацию типов данных
df = df.astype(optimized_types)

# 3. Сравниваем потребление памяти после оптимизации
optimized_memory = df.memory_usage(deep=True).sum()
print("Память после оптимизации:", optimized_memory, "bytes")

# Печатаем снижение потребления памяти
memory_reduction = initial_memory - optimized_memory
print("Снижение потребления памяти:", memory_reduction, "bytes")


Память до оптимизации: 257760 bytes
Память после оптимизации: 12158 bytes
Снижение потребления памяти: 245602 bytes
