# Includes

In [1]:
import numpy as np
import pandas as pd

1. Данные в файле 'wind-data-<year>.csv' имеют следующий формат:

   <year>, 1, 1, 15.04, 14.96, 13.17,  9.29, 13.96, 9.87, 13.67, 10.25, 10.83, 12.58, 18.50, 15.04

   <year>, 1, 2, 14.71, 16.88, 10.83,  6.50, 12.62, 7.67, 11.50, 10.04,  9.79,  9.67, 17.54, 13.83

   <year>, 1, 3, 18.50, 16.88, 12.33, 10.13, 11.17, 6.17, 11.25,  8.04,  8.50,  7.67, 12.75, 12.71

   Первые три колонки - это год, месяц и день. Остальные 12 колонок - скорость   ветра, измеренная в узлах, в 12 реперных точках, разбросанных по всей Ирландии.

   В файле присутствуют комментарии, описывающие датасет. Комментарии начинаются  с символа '%'. При загрузке датасета очистите его от всех комментариев. 

   Используйте функцию 'np.loadtxt' для загрузки датасета в numpy массив.

In [2]:
# Load the dataset from the provided file
file_path = './wind-data-1965.csv'

# Load the data, removing lines starting with '%'
df = np.loadtxt(fname=file_path, comments='%', delimiter=',')

# Check the first few rows to confirm successful loading
df[:5]

array([[65.  ,  1.  ,  1.  ,  9.54, 11.92,  9.  ,  4.38,  6.08,  5.21,
        10.25,  6.08,  5.71,  8.63, 12.04, 17.41],
       [65.  ,  1.  ,  2.  , 11.75,   nan, 10.13,  4.71,  7.62,  4.29,
         7.79,  5.13,   nan,  5.91, 12.12, 14.96],
       [65.  ,  1.  ,  3.  , 13.7 ,  7.04, 15.16,  6.42,  5.91,  0.83,
         8.63,  4.83,  4.38,  6.92,  7.92, 13.7 ],
       [65.  ,  1.  ,  4.  ,  4.04,  4.21,   nan,  1.21,  2.75,  2.08,
         7.71,  3.13,  2.04,  6.  , 12.08, 15.67],
       [65.  ,  1.  ,  5.  ,  8.63, 12.67,  6.34,  0.46,  9.42,  5.96,
         7.62,  6.79,  5.13,  6.54, 17.62, 17.04]])

2. Все измерения были сделаны и записаны вручную, поэтому у нескольких записей  отсутствуют ожидаемые значения. Всего существует два типа ошибок заполнения: 

   * При заполнении не был указан год, тогда значение в первой колонке будет  равно 0. Заполните отсутствующие значения года самостоятельно.

   * Были дни, когда не удавалось снять значение со всех реперных точек.  В этом случае в местах отсутствия измерений стоит NaN.  Заполните недостающие значения средним значением в этой точке. 

 (Подсказка: используйте функции np.nanmean для подсчета среднего, игнорируя np.nan, и np.isnan для создания маски выборки)

     В этом пункте разрешается использования цикла for.

In [3]:
# Step 1: Replace zeros in the year column with the correct year (65 corresponds to 1965).
df[:, 0] = np.where(df[:, 0] == 0, 1965, df[:, 0])

# Step 2: Fill missing values (NaN) with the mean for each reference point
# Calculate the mean for each column (ignoring NaNs)
means = np.nanmean(df[:, 3:], axis=0)

# Replace NaN values with the corresponding column mean
nan_mask = np.isnan(df[:, 3:])
df[:, 3:][nan_mask] = np.take(means, np.where(nan_mask)[1])

# Check the data after filling missing values
df[:5]

array([[65.        ,  1.        ,  1.        ,  9.54      , 11.92      ,
         9.        ,  4.38      ,  6.08      ,  5.21      , 10.25      ,
         6.08      ,  5.71      ,  8.63      , 12.04      , 17.41      ],
       [65.        ,  1.        ,  2.        , 11.75      , 11.05310145,
        10.13      ,  4.71      ,  7.62      ,  4.29      ,  7.79      ,
         5.13      ,  7.9153913 ,  5.91      , 12.12      , 14.96      ],
       [65.        ,  1.        ,  3.        , 13.7       ,  7.04      ,
        15.16      ,  6.42      ,  5.91      ,  0.83      ,  8.63      ,
         4.83      ,  4.38      ,  6.92      ,  7.92      , 13.7       ],
       [65.        ,  1.        ,  4.        ,  4.04      ,  4.21      ,
        11.78456647,  1.21      ,  2.75      ,  2.08      ,  7.71      ,
         3.13      ,  2.04      ,  6.        , 12.08      , 15.67      ],
       [65.        ,  1.        ,  5.        ,  8.63      , 12.67      ,
         6.34      ,  0.46      ,  9.42      , 

3. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, по всем реперным точкам за все дни (каждое значение считается относительно всего сета). Выведите полученные 4 значения.

In [4]:
min_values = np.min(df[:, 3:], axis=0)
max_values = np.max(df[:, 3:], axis=0)
mean_values = np.mean(df[:, 3:], axis=0)
std_devs = np.std(df[:, 3:], axis=0)

4. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, каждой реперной точки по всем дням. Для каждой точки должен получиться свой набор значений. Выведите полученные значения.

In [5]:
results = np.column_stack((min_values, max_values, mean_values, std_devs))
print(results)

[[ 2.79       32.17       12.45136986  5.46435957]
 [ 0.75       33.04       11.05310145  5.34118031]
 [ 1.83       33.25       11.78456647  4.60244402]
 [ 0.46       22.63        6.85942029  3.42349428]
 [ 1.25       27.58       10.91066667  5.01229495]
 [ 0.         26.16        7.54689855  4.0050975 ]
 [ 0.42       29.17       10.64089855  4.95629762]
 [ 0.13       30.63        8.94875362  4.42126225]
 [ 0.87       25.88        7.9153913   4.11621484]
 [ 1.17       27.29        9.91585507  4.17272953]
 [ 2.04       39.04       12.92768116  5.56016471]
 [ 2.04       41.25       15.74962319  6.14954095]]


5. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, всех реперных точек для каждого дня. Должен получиться свой набор значений для каждого дня.  

Добавьте в датасет новую колонку с максимальными значениями по дням.    

(Подсказка: используйте функции np.hstack и np.reshape)

Выведите полученные значения

In [6]:
min_values_by_day = np.min(df[:, 3:], axis=1)
max_values_by_day = np.max(df[:, 3:], axis=1)
mean_values_by_day = np.mean(df[:, 3:], axis=1)
std_devs_by_day = np.std(df[:, 3:], axis=1)

# Добавляем колонку с максимальными значениями по дням
new_data = np.hstack((df, max_values_by_day.reshape(-1, 1)))

# Выводим минимальные, максимальные, средние значения и стандартные отклонения по дням
results_by_day = np.column_stack((min_values_by_day, max_values_by_day, mean_values_by_day, std_devs_by_day))
print("Минимум, Максимум, Среднее, СКО для каждого дня:")
print(results_by_day)

# Выводим новую таблицу с добавленной колонкой максимальных значений
print("Данные с добавленной колонкой максимальных значений по дням:")
print(new_data)

Минимум, Максимум, Среднее, СКО для каждого дня:
[[ 4.38       17.41        8.85416667  3.58023849]
 [ 4.29       14.96        8.6148744   3.24279767]
 [ 0.83       15.16        7.95333333  4.08388568]
 ...
 [11.04       20.12       15.51333333  3.19321242]
 [10.29       22.63       15.53833333  3.82807574]
 [ 6.08       16.75       11.45833333  3.22651472]]
Данные с добавленной колонкой максимальных значений по дням:
[[6.500e+01 1.000e+00 1.000e+00 ... 1.204e+01 1.741e+01 1.741e+01]
 [6.500e+01 1.000e+00 2.000e+00 ... 1.212e+01 1.496e+01 1.496e+01]
 [6.500e+01 1.000e+00 3.000e+00 ... 7.920e+00 1.370e+01 1.516e+01]
 ...
 [1.965e+03 1.200e+01 2.900e+01 ... 1.946e+01 1.908e+01 2.012e+01]
 [6.500e+01 1.200e+01 3.000e+01 ... 2.263e+01 1.917e+01 2.263e+01]
 [6.500e+01 1.200e+01 3.100e+01 ... 1.571e+01 1.675e+01 1.675e+01]]


6. Для каждого дня найдите точку с наибольшем значением скорости ветра. Выведите массив найденных номеров реперных точек (массив целых чисел).

In [7]:
# Найдите индекс реперной точки с наибольшей скоростью ветра для каждого дня
max_wind_point_indices = np.argmax(df[:, 3:], axis=1) + 1  # Переход к 1-based индексации

# Вывод массива индексов точек с максимальной скоростью ветра
print(max_wind_point_indices)

[12 12  3 12 11 11 12 12  5  1 12 11 11 12 12 11 11 11  1 12 12 12  1 12
  3 12 12  3  3  3  3  1  1  3 12 12  3 12  3 12 12 12 12 12 12 12  2  3
  3  3 12  3  3 12 12  1 12 12 12 12 12 12  3  3  7 12  2  2  2  3 12  3
 12 11 12 12  7 12 12 12 12 12 11  1  2 11 11  2  1  2 11 11 11 11  2 11
 11 12 11 12 12 12 11 12 12 12  7 12 12  3 12 12 12  1  1  1 12 12 12 12
 12 12  3  1 12  3 11 12 12  2 11  2 12 10  2 12 12  1 12 11 12  1 12 12
  3 12  1  3  3 12  3  3 12 12 11 11 11 11  1  3  2  1 12 11 11  5 12 11
  7 11 11 11 11 12  3 12 12 12 12 12 12 12 12 12 12 12 12 12 12  5 11 12
 12 12 12  3 12 11 12 12  8 12 12 12  2 12 12  1  5  5 12 12 12 12  7  1
 12 12 12  3 12 12 12 12 12 12 12  8 11 12 12 12  1 12 12 12 12 12 11 12
 12 12 12  3  8 12 12  1  2  7 12 12 12 12  3 12 12 11 12  1 12 11 11 11
 11 12 12 12 11 12 12 12  3 12 12  1 12 10 12 12  1  3  1 11 12 11 12 12
 11 12  3  1  1 12 12 12  2 12 11 11 12 12 12  1 12 12 12  3  3  3 12  1
  1  3 12 12 12  1  1 12 12 12 12 12  3 12 12 12  1

7. Найдите год, месяц и день, который была зафиксирована самая большая  скорость ветра. Выведите найденную дату.

In [8]:
wind_speeds = df[:, 3:]

max_speed_idx = np.nanargmax(wind_speeds)
year_idx = max_speed_idx // (df.shape[0] * 12)
rest_idx = max_speed_idx % (df.shape[0] * 12)
day_idx = rest_idx // 12
point_idx = rest_idx % 12

date_with_max_speed = df[max_speed_idx // 12, :3]
print(f"Year: {int(date_with_max_speed[0])}, Month: {int(date_with_max_speed[1])}, Day: {int(date_with_max_speed[2])}")

Year: 65, Month: 11, Day: 17


8. Найдите среднюю скорость в январе для каждой реперной точки.  Выведите полученные значения.

In [9]:
january_speeds = df[df[:, 1] == 1, 3:]
mean_january_speeds = np.nanmean(january_speeds, axis=0)
print(mean_january_speeds)

[15.7416129  15.43858719 15.44595376  7.72770453 12.61455914  9.24473866
 13.6294418  11.29024217  9.82536045 11.33231323 16.19612903 18.13482655]


9. Сохраните получившийся датасет в csv файл. Проследите, чтобы целые числа  были сохранены в целочисленном формате, без нулей в дробной части.  Каждое число с плавающей точкой сохраните с точностью ровно в 4 знака   после точки

In [10]:
df_with_max_df = pd.DataFrame(results_by_day)
df_with_max_df.to_csv('cleaned_wind_data.csv', index=False, float_format='%.4f')

10. Посчитайте среднюю скорость ветра для каждого месяца в датасете.  Выведите полученные значения.

In [11]:
months = df[:, 1].astype(int)
unique_months = np.unique(months)

monthly_means = []
for month in unique_months:
    month_speeds = df[months == month, 3:]
    mean_month_speed = np.nanmean(month_speeds)
    monthly_means.append(mean_month_speed)

print(monthly_means)

[np.float64(13.051789118229124), np.float64(7.850185739018737), np.float64(11.956011538624372), np.float64(11.646954025764897), np.float64(10.034965998913652), np.float64(9.643339049919485), np.float64(8.584922159887798), np.float64(10.379456096567914), np.float64(9.632671870375026), np.float64(9.75840833957128), np.float64(12.32490013124459), np.float64(11.611190629838914)]
