# Includes

In [None]:
import numpy as np
import pandas as pd

1. Данные в файле 'wind-data-<year>.csv' имеют следующий формат:

   <year>, 1, 1, 15.04, 14.96, 13.17,  9.29, 13.96, 9.87, 13.67, 10.25, 10.83, 12.58, 18.50, 15.04

   <year>, 1, 2, 14.71, 16.88, 10.83,  6.50, 12.62, 7.67, 11.50, 10.04,  9.79,  9.67, 17.54, 13.83

   <year>, 1, 3, 18.50, 16.88, 12.33, 10.13, 11.17, 6.17, 11.25,  8.04,  8.50,  7.67, 12.75, 12.71

   Первые три колонки - это год, месяц и день. Остальные 12 колонок - скорость   ветра, измеренная в узлах, в 12 реперных точках, разбросанных по всей Ирландии.

   В файле присутствуют комментарии, описывающие датасет. Комментарии начинаются  с символа '%'. При загрузке датасета очистите его от всех комментариев. 

   Используйте функцию 'np.loadtxt' для загрузки датасета в numpy массив.

In [None]:
# Load the dataset from the provided file
file_path = './wind-data-1965.csv'

# Load the data, removing lines starting with '%'
df = np.loadtxt(fname=file_path, comments='%', delimiter=',')

# Check the first few rows to confirm successful loading
df[:5]

2. Все измерения были сделаны и записаны вручную, поэтому у нескольких записей  отсутствуют ожидаемые значения. Всего существует два типа ошибок заполнения: 

   * При заполнении не был указан год, тогда значение в первой колонке будет  равно 0. Заполните отсутствующие значения года самостоятельно.

   * Были дни, когда не удавалось снять значение со всех реперных точек.  В этом случае в местах отсутствия измерений стоит NaN.  Заполните недостающие значения средним значением в этой точке. 

 (Подсказка: используйте функции np.nanmean для подсчета среднего, игнорируя np.nan, и np.isnan для создания маски выборки)

     В этом пункте разрешается использования цикла for.

In [None]:
# Step 1: Replace zeros in the year column with the correct year (65 corresponds to 1965).
df[:, 0] = np.where(df[:, 0] == 0, 1965, df[:, 0])

# Step 2: Fill missing values (NaN) with the mean for each reference point
# Calculate the mean for each column (ignoring NaNs)
means = np.nanmean(df[:, 3:], axis=0)

# Replace NaN values with the corresponding column mean
nan_mask = np.isnan(df[:, 3:])
df[:, 3:][nan_mask] = np.take(means, np.where(nan_mask)[1])

# Check the data after filling missing values
df[:5]

3. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, по всем реперным точкам за все дни (каждое значение считается относительно всего сета). Выведите полученные 4 значения.

In [None]:
min_values = np.min(df[:, 3:], axis=0)
max_values = np.max(df[:, 3:], axis=0)
mean_values = np.mean(df[:, 3:], axis=0)
std_devs = np.std(df[:, 3:], axis=0)

4. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, каждой реперной точки по всем дням. Для каждой точки должен получиться свой набор значений. Выведите полученные значения.

In [None]:
results = np.column_stack((min_values, max_values, mean_values, std_devs))
print(results)

5. Посчитайте минимальное, максимальное и среднее значение скорости ветра, а также среднее квадратическое отклонение скорости ветра, всех реперных точек для каждого дня. Должен получиться свой набор значений для каждого дня.  

Добавьте в датасет новую колонку с максимальными значениями по дням.    

(Подсказка: используйте функции np.hstack и np.reshape)

Выведите полученные значения

In [None]:
min_values_by_day = np.min(df[:, 3:], axis=1)
max_values_by_day = np.max(df[:, 3:], axis=1)
mean_values_by_day = np.mean(df[:, 3:], axis=1)
std_devs_by_day = np.std(df[:, 3:], axis=1)

# Добавляем колонку с максимальными значениями по дням
new_data = np.hstack((df, max_values_by_day.reshape(-1, 1)))

# Выводим минимальные, максимальные, средние значения и стандартные отклонения по дням
results_by_day = np.column_stack((min_values_by_day, max_values_by_day, mean_values_by_day, std_devs_by_day))
print("Минимум, Максимум, Среднее, СКО для каждого дня:")
print(results_by_day)

# Выводим новую таблицу с добавленной колонкой максимальных значений
print("Данные с добавленной колонкой максимальных значений по дням:")
print(new_data)

6. Для каждого дня найдите точку с наибольшем значением скорости ветра. Выведите массив найденных номеров реперных точек (массив целых чисел).

In [None]:
# Найдите индекс реперной точки с наибольшей скоростью ветра для каждого дня
max_wind_point_indices = np.argmax(df[:, 3:], axis=1) + 1  # Переход к 1-based индексации

# Вывод массива индексов точек с максимальной скоростью ветра
print(max_wind_point_indices)

7. Найдите год, месяц и день, который была зафиксирована самая большая  скорость ветра. Выведите найденную дату.

In [None]:
wind_speeds = df[:, 3:]

max_speed_idx = np.nanargmax(wind_speeds)
year_idx = max_speed_idx // (df.shape[0] * 12)
rest_idx = max_speed_idx % (df.shape[0] * 12)
day_idx = rest_idx // 12
point_idx = rest_idx % 12

date_with_max_speed = df[max_speed_idx // 12, :3]
print(f"Year: {int(date_with_max_speed[0])}, Month: {int(date_with_max_speed[1])}, Day: {int(date_with_max_speed[2])}")

8. Найдите среднюю скорость в январе для каждой реперной точки.  Выведите полученные значения.

In [None]:
january_speeds = df[df[:, 1] == 1, 3:]
mean_january_speeds = np.nanmean(january_speeds, axis=0)
print(mean_january_speeds)

9. Сохраните получившийся датасет в csv файл. Проследите, чтобы целые числа  были сохранены в целочисленном формате, без нулей в дробной части.  Каждое число с плавающей точкой сохраните с точностью ровно в 4 знака   после точки

In [None]:
df_with_max_df = pd.DataFrame(results_by_day)
df_with_max_df.to_csv('cleaned_wind_data.csv', index=False, float_format='%.4f')

10. Посчитайте среднюю скорость ветра для каждого месяца в датасете.  Выведите полученные значения.

In [None]:
months = df[:, 1].astype(int)
unique_months = np.unique(months)

monthly_means = []
for month in unique_months:
    month_speeds = df[months == month, 3:]
    mean_month_speed = np.nanmean(month_speeds)
    monthly_means.append(mean_month_speed)

print(monthly_means)