In [54]:
import pandas as pd
import random

In [6]:
dataset_url = "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/airquality.csv"
dataset = pd.read_csv(dataset_url)

In [7]:
print('Число строк в таблица:', end=' ')
print(dataset.shape[0])

Число строк в таблица: 153


In [8]:
print('Число столбцов в таблице:', end=' ')
print(dataset.shape[1])

Число столбцов в таблице: 7


In [9]:
print('Число строк, не имеющих пропусков:', end=' ')
print(dataset.dropna().shape[0])

Число строк, не имеющих пропусков: 111


In [11]:
print('Число строк, имеющих пропуски одновременно в столбцах Ozone и Solar.R:', end=' ')
print((dataset['Solar.R'].isnull() & dataset['Ozone'].isnull()).sum())

Число строк, имеющих пропуски одновременно в столбцах Ozone и Solar.R: 2


In [13]:
print('Минимальные значения в столбцах Ozone, Solar.R, Wind, Temp:')
print(dataset[['Ozone', 'Solar.R', 'Wind', 'Temp']].min())

Минимальное значение в столбцах Ozone, Solar.R, Wind, Temp:
Ozone       1.0
Solar.R     7.0
Wind        1.7
Temp       56.0
dtype: float64


In [14]:
print('Максимальные значения в столбцах Ozone, Solar.R, Wind, Temp:')
print(dataset[['Ozone', 'Solar.R', 'Wind', 'Temp']].max())

Максимальные значения в столбцах Ozone, Solar.R, Wind, Temp:
Ozone      168.0
Solar.R    334.0
Wind        20.7
Temp        97.0
dtype: float64


In [15]:
print('Средние значения в столбцах Ozone, Solar.R, Wind, Temp:')
print(dataset[['Ozone', 'Solar.R', 'Wind', 'Temp']].mean())

Средние значения в столбцах Ozone, Solar.R, Wind, Temp:
Ozone       42.129310
Solar.R    185.931507
Wind         9.957516
Temp        77.882353
dtype: float64


In [16]:
print("Среднее значение Solar.R для 5-го месяца:", end=' ')
print(dataset[dataset['Month'] == 5]['Solar.R'].mean())

Среднее значение Solar.R для 5-го месяца: 181.2962962962963


In [43]:
def mean_air(df, factor, t_min = 60, t_max = 80):
    filtered_df = df[(df['Temp'] >= t_min) & (df['Temp'] <= t_max)]
    return filtered_df[factor].dropna().mean()

print('mean_air для Ozone:', mean_air(dataset, 'Ozone'))
print('mean_air для Solar.R:', mean_air(dataset, 'Solar.R'))
print('mean_air для Wind:', mean_air(dataset, 'Wind'))
print()
print('mean_ait для Ozone в пределах температуры [80, 130]:', mean_air(dataset, 'Ozone', t_min = 80, t_max = 130))
print('mean_ait для Solar.R в пределах температуры [60, 100]:', mean_air(dataset, 'Solar.R', t_max = 100))
print('mean_ait для Wind в пределах температуры [40, 100]:', mean_air(dataset, 'Wind', t_min = 40, t_max = 100))

mean_air для Ozone: 23.775862068965516
mean_air для Solar.R: 173.97333333333333
mean_air для Wind: 10.812987012987014

mean_ait для Ozone в пределах температуры [80, 130]: 62.3859649122807
mean_ait для Solar.R в пределах температуры [60, 100]: 189.74285714285713
mean_ait для Wind в пределах температуры [40, 100]: 9.957516339869281


In [45]:
for month in dataset['Month'].dropna().unique():
    print(f"Среднее значение Solar.R для месяца {month}:", dataset[dataset['Month'] == month]['Solar.R'].mean())

Среднее значение Solar.R для месяца 5: 181.2962962962963
Среднее значение Solar.R для месяца 6: 190.16666666666666
Среднее значение Solar.R для месяца 7: 216.48387096774192
Среднее значение Solar.R для месяца 8: 171.85714285714286
Среднее значение Solar.R для месяца 9: 167.43333333333334


In [48]:
def max_temp(df, days = 1):
    result_df = df.sort_values(by='Temp', ascending=False).head(days)[['Month', 'Day']]
    return (result_df['Month'].astype(str) + '/' + result_df['Day'].astype(str)).tolist()

print('max_temp для 1 days:', max_temp(dataset))
print('max_temp для 2 days:', max_temp(dataset, 2))
print('max_temp для 3 days:', max_temp(dataset, 3))

max_temp для 1 days: ['8/28']
max_temp для 2 days: ['8/28', '8/30']
max_temp для 3 days: ['8/28', '8/30', '8/29']


In [55]:
def test_set(df, perc = 20):
    if not 0 <= perc <= 100:
        raise ValueError('Параметр perc должен быть в диапозоне [0; 100]')
    set_rate = perc / 100.0
    return df.sample(frac=set_rate, random_state=random.randint(1, 100))

In [63]:
# Тестовая выборка пример 1
test_set1 = test_set(dataset)
print("Количество строк:", test_set1.shape[0])
print(test_set1.head())

Количество строк: 31
     rownames  Ozone  Solar.R  Wind  Temp  Month  Day
88         89   82.0    213.0   7.4    88      7   28
126       127   91.0    189.0   4.6    93      9    4
45         46    NaN    322.0  11.5    79      6   15
11         12   16.0    256.0   9.7    69      5   12
52         53    NaN     59.0   1.7    76      6   22


In [65]:
# Тестовая выборка пример 2
test_set1 = test_set(dataset, 50)
print("Количество строк:", test_set1.shape[0])
print(test_set1.head())

Количество строк: 76
     rownames  Ozone  Solar.R  Wind  Temp  Month  Day
32         33    NaN    287.0   9.7    74      6    2
11         12   16.0    256.0   9.7    69      5   12
107       108   22.0     71.0  10.3    77      8   16
80         81   63.0    220.0  11.5    85      7   20
95         96   78.0      NaN   6.9    86      8    4


In [66]:
# Проверка ошибки в функции test_set
test_set1 = test_set(dataset, -1)

ValueError: Параметр perc должен быть в диапозоне [0; 100]