In [151]:
import os

directory_name = "dataset2"

# Перевіряємо, чи директорія не існує, і створюємо її
if not os.path.exists(directory_name):
    os.makedirs(directory_name)

In [185]:
import pandas as pd
from datetime import datetime
from urllib.request import urlopen

# Використовую бібліотеку urllib.request для отримання даних з веб-сторінки.
def download():
    date_time = datetime.now()
    separated_date_time = date_time.strftime('%Y_%m_%d__%H_%M_%S')
    
#Звертаємося до 27 різних URL-адрес з даними VHI для різних областей. 
#Для кожного URL використовуємо urlopen для завантаження сторінки та обробки отриманих даних
    for index_s in range(1, 28):
        url = f'https://www.star.nesdis.noaa.gov/smcd/emb/vci/VH/get_TS_admin.php?country=UKR&provinceID={index_s}&year1=1981&year2=2023&type=Mean'
        vhi_url = urlopen(url)
        
#Далі зберігаємо ці дані в окремому CSV-файлі з унікальною назвою, яка включає поточну дату та час.        
        with open(f'dataset2/_{separated_date_time}_vhi_id_{index_s}.csv', 'w') as out:
            dataset_s = vhi_url.read().decode('utf-8').replace('<br>', '').replace('<tt><pre>', '').replace(' ', '').split('\n')
            dataset_s.pop(-1)
            a = dataset_s.pop(0)
            a = a.split(':')[1].split(',')[0]
            out.write(f'{a}\n'+'\n'.join(dataset_s))
download()


#Читання даних з CSV-файлів
def read_csv_file():
    tuple_NNAA_to_LW = {1: 22, 2: 24,  3: 23, 4: 25,  5: 3, 6: 4, 7: 8, 8: 19, 9: 20, 10: 21, 11: 9, 12: 0, 13: 10, 14: 11, 15: 12, 16: 13, 17: 14, 18: 15, 19: 16, 20: 0, 21: 17, 22: 18, 23: 6,  24: 1, 25: 2, 26: 7, 27: 5}
    frames = []  # Створюємо список з DataFrame даних Pandas.
    
#Для кожного з 27 CSV-файлів зчитуємо дані, розділяємо їх, створюємо DataFrame Pandas, 
#додаємо стовпець 'index_region', і додаємо цей DataFrame до списку frames.
    for index_f in range(1, 28):
        with open(f'dataset2/_2023_10_27__12_38_18_vhi_id_{index_f}.csv', "r") as dataset:
            df = dataset.readlines()
            df = [line.strip().split(',') for line in df]

            # Створюємо DataFrame з даних з кожного файлу
            df = pd.DataFrame(df[2:], columns=['year', 'Week', 'SMN', 'SMT', 'VCI', 'TCI', 'VHI', 'empty'])
            df['index_region'] = tuple_NNAA_to_LW[index_f]

            frames.append(df)

    # Об'єднуємо всі DataFrame в один DataFrame result_df
    result_df = pd.concat(frames, ignore_index=True)

    return result_df

#Аналіз даних:
#Ряд VHI для області за рік, пошук екстремумів (min та max);
def min_max_VHI(year, index):
    max_VHI = read_csv_file()[(read_csv_file()["year"] == f'{year}') & (read_csv_file()["index_region"] == index) & (read_csv_file()['VHI'] != '-1.00')]
    min_VHI = read_csv_file()[(read_csv_file()["year"] == f'{year}') & (read_csv_file()["index_region"] == index) & (read_csv_file()['VHI'] != '-1.00')]
    return max_VHI['VHI'].max(), (min_VHI['VHI']).min()
print("max_min: ",min_max_VHI(1982, 2))


#Ряд VHI за всі роки для області, виявити роки з екстремальними посухами, які торкнулися більше вказаного відсотка області;
def extreme_drought(index):
    data_year = read_csv_file()[(read_csv_file()["index_region"] == index) & (read_csv_file()['VHI'] != '-1.00')]
    year = data_year[(data_year['VHI'] < '15.00') & data_year['year']]
    return year['year']
print("max_min: ", extreme_drought(2))


# Аналогічно для помірних посух
def moderate_drought(index):
    data_year = read_csv_file()[(read_csv_file()["index_region"] == index) & (read_csv_file()['VHI'] != '-1.00')]
    year = data_year[(data_year['VHI'] < '35.00') & data_year['year']]
    year = year[(year['VHI'] > '15.00') & year['year']]
    return year['year'].head()
print("max_min: ", moderate_drought(2))

max_min:  ('53.88', '23.55')
max_min:  53069    1994
53070    1994
53071    1994
Name: year, dtype: object
max_min:  52422    1982
52423    1982
52424    1982
52448    1982
52449    1982
Name: year, dtype: object


In [157]:
#download()

In [186]:
read_csv_file()

Unnamed: 0,year,Week,SMN,SMT,VCI,TCI,VHI,empty,index_region
0,1982,1,0.053,260.31,45.01,39.46,42.23,,22
1,1982,2,0.054,262.29,46.83,31.75,39.29,,22
2,1982,3,0.055,263.82,48.13,27.24,37.68,,22
3,1982,4,0.053,265.33,46.09,23.91,35.00,,22
4,1982,5,0.050,265.66,41.46,26.65,34.06,,22
...,...,...,...,...,...,...,...,...,...
58963,2023,48,-1.000,-1.00,-1.00,-1.00,-1.00,,5
58964,2023,49,-1.000,-1.00,-1.00,-1.00,-1.00,,5
58965,2023,50,-1.000,-1.00,-1.00,-1.00,-1.00,,5
58966,2023,51,-1.000,-1.00,-1.00,-1.00,-1.00,,5


In [187]:
min_max_VHI(1982, 1)

('59.42', '19.92')

In [189]:
# Зчитайте CSV файли та створіть result_df
result_df = read_csv_file()

# Функція для вибору перших 20 рядків
def select_first_20_rows(dataset2):
    return dataset2.head(20)

# Виберіть перші 20 рядків із result_df
    first_20_rows = select_first_20_rows(result_df)

# Виведіть перші 20 рядків
print("Перші 20 рядків датафрейму:")
print(перші_20_рядків)

Перші 20 рядків датафрейму:
    year Week    SMN     SMT    VCI    TCI    VHI empty  index_region
0   1982    1  0.053  260.31  45.01  39.46  42.23                  22
1   1982    2  0.054  262.29  46.83  31.75  39.29                  22
2   1982    3  0.055  263.82  48.13  27.24  37.68                  22
3   1982    4  0.053  265.33  46.09  23.91  35.00                  22
4   1982    5  0.050  265.66  41.46  26.65  34.06                  22
5   1982    6  0.048  266.55  36.56  29.46  33.01                  22
6   1982    7  0.048  267.84  32.17  31.14  31.65                  22
7   1982    8  0.050  269.30  30.30  32.50  31.40                  22
8   1982    9  0.052  270.75  28.23  35.22  31.73                  22
9   1982   10  0.056  272.73  25.25  37.63  31.44                  22
10  1982   11  0.069  275.46  26.81  34.79  30.80                  22
11  1982   12  0.085  278.05  27.87  35.91  31.89                  22
12  1982   13  0.096  279.89  26.45  40.30  33.37             