# **Lab1**

## Download data

In [1]:
from bs4 import BeautifulSoup
import requests
import datetime
import os

data_folder = "./data/"
mask = "https://www.star.nesdis.noaa.gov/smcd/emb/vci/VH/get_TS_admin.php?country=UKR&provinceID={}&year1=1981&year2=2020&type=Mean"

if not os.path.exists(data_folder):
  os.makedirs(data_folder)
  print("data folder created")

files = []
for n in range(1, 28):
  url = mask.format(n)
  response = requests.get(url)
  soup = BeautifulSoup(response.content, "html.parser")
  timestamp = datetime.datetime.now().strftime("%m-%d-%Y_%H:%M:%S")
  filename = 'vhi_id_{}_{}.csv'.format(str(n).zfill(3), timestamp)
  path = os.path.join(data_folder, filename)
  with open(path, 'w') as file:
    file.write(soup.find("pre").text)
  files.append(path)
  print("{} downloaded".format(filename))

data folder created
vhi_id_001_09-07-2020_16:08:20.csv downloaded
vhi_id_002_09-07-2020_16:08:22.csv downloaded
vhi_id_003_09-07-2020_16:08:23.csv downloaded
vhi_id_004_09-07-2020_16:08:25.csv downloaded
vhi_id_005_09-07-2020_16:08:26.csv downloaded
vhi_id_006_09-07-2020_16:08:27.csv downloaded
vhi_id_007_09-07-2020_16:08:29.csv downloaded
vhi_id_008_09-07-2020_16:08:30.csv downloaded
vhi_id_009_09-07-2020_16:08:31.csv downloaded
vhi_id_010_09-07-2020_16:08:32.csv downloaded
vhi_id_011_09-07-2020_16:08:34.csv downloaded
vhi_id_012_09-07-2020_16:08:35.csv downloaded
vhi_id_013_09-07-2020_16:08:36.csv downloaded
vhi_id_014_09-07-2020_16:08:38.csv downloaded
vhi_id_015_09-07-2020_16:08:39.csv downloaded
vhi_id_016_09-07-2020_16:08:40.csv downloaded
vhi_id_017_09-07-2020_16:08:41.csv downloaded
vhi_id_018_09-07-2020_16:08:42.csv downloaded
vhi_id_019_09-07-2020_16:08:44.csv downloaded
vhi_id_020_09-07-2020_16:08:45.csv downloaded
vhi_id_021_09-07-2020_16:08:46.csv downloaded
vhi_id_022_09-

## Create dataframe

In [2]:
import pandas as pd

def create_frame(data_folder):
  if os.path.exists(data_folder) and files:
    data = []
    for path in files:
      df = pd.read_csv(path, index_col=False, header=0, skip_blank_lines=True, names=['year', 'week', 'NDVI', 'BT', 'VCI', 'TCI', 'VHI'])
      data.append(df)
    print('dataframe with {} frames created'.format(len(data)))
    return data
  print('folder does not exist')
  return -1

data = create_frame(data_folder)

dataframe with 27 frames created


## Change names

In [3]:
def change_name(name):
  provinces = ['Черкаська', 'Чернігівська', 'Чернівецька', 'Республіка Крим', 'Дніпропетровська', 'Донецька', 'Івано-Франківська', 'Харківська', 'Херсонська', 'Хмельницька', 'Київська', 'місто Київ', 'Кіровоградська', 'Луганська', 'Львівська', 'Миколаївська', 'Одеська', 'Полтавська', 'Рівенська', 'Севастопольська', 'Сумська', 'Тернопільська', 'Закарпатська', 'Вінницька', 'Волинська', 'Запорізька', 'Житомирська']
  if name in provinces:
    return provinces.index(name) + 1
  return provinces[name - 1]

print(change_name(2))
print(change_name('Чернігівська'))


Чернігівська
2


## Show results

In [4]:
#@title Search for Extremes
province = "\u041A\u0438\u0457\u0432\u0441\u044C\u043A\u0430" #@param ['Черкаська', 'Чернігівська', 'Чернівецька', 'Республіка Крим', 'Дніпропетровська', 'Донецька', 'Івано-Франківська', 'Харківська', 'Херсонська', 'Хмельницька', 'Київська', 'місто Київ', 'Кіровоградська', 'Луганська', 'Львівська', 'Миколаївська', 'Одеська', 'Полтавська', 'Рівенська', 'Севастопольська', 'Сумська', 'Тернопільська', 'Закарпатська', 'Вінницька', 'Волинська', 'Запорізька', 'Житомирська']
year = 2019 #@param {type:"integer"}

df = data[change_name(province) - 1]
selection = df[df['year'] == year][['year', 'week', 'VHI']]

vhi_col = list(selection['VHI'])
try:
  minimum, maximum = min(vhi_col), max(vhi_col)
except:
  del min, max
  minimum, maximum = min(vhi_col), max(vhi_col)
print(f'Min VHI: {minimum}\nMax VHI: {maximum}\n')
print(selection.to_string(index=False))

Min VHI: 20.91
Max VHI: 61.61

 year  week    VHI
 2019     1  47.17
 2019     2  48.07
 2019     3  50.89
 2019     4  51.80
 2019     5  50.13
 2019     6  48.92
 2019     7  46.90
 2019     8  44.75
 2019     9  43.93
 2019    10  43.25
 2019    11  41.62
 2019    12  41.19
 2019    13  40.60
 2019    14  39.20
 2019    15  39.30
 2019    16  41.79
 2019    17  45.23
 2019    18  48.26
 2019    19  50.07
 2019    20  52.67
 2019    21  53.58
 2019    22  54.82
 2019    23  56.75
 2019    24  58.34
 2019    25  60.26
 2019    26  60.62
 2019    27  59.88
 2019    28  60.08
 2019    29  61.26
 2019    30  61.61
 2019    31  57.77
 2019    32  52.81
 2019    33  47.32
 2019    34  40.80
 2019    35  35.86
 2019    36  33.06
 2019    37  32.20
 2019    38  32.12
 2019    39  30.20
 2019    40  27.28
 2019    41  26.04
 2019    42  24.12
 2019    43  21.95
 2019    44  20.91
 2019    45  22.56
 2019    46  26.39
 2019    47  31.11
 2019    48  34.62
 2019    49  35.83
 2019    50  37.27


In [5]:
#@title Search for Extreme and moderate droughts
province = "\u041A\u0438\u0457\u0432\u0441\u044C\u043A\u0430" #@param ['Черкаська', 'Чернігівська', 'Чернівецька', 'Республіка Крим', 'Дніпропетровська', 'Донецька', 'Івано-Франківська', 'Харківська', 'Херсонська', 'Хмельницька', 'Київська', 'місто Київ', 'Кіровоградська', 'Луганська', 'Львівська', 'Миколаївська', 'Одеська', 'Полтавська', 'Рівенська', 'Севастопольська', 'Сумська', 'Тернопільська', 'Закарпатська', 'Вінницька', 'Волинська', 'Запорізька', 'Житомирська']

df = data[change_name(province) - 1]
extreme_selection = list(set(df[(df.VHI <= 15) & (df.VHI != -1.0)]['year']))
moderate_selection = list(set(df[(df.VHI <= 35) & (df.VHI > 15)]['year']))

print(f'Extreme droughts years (VHI < 15):', extreme_selection)
print(f'Moderate droughts years (VHI < 35):', moderate_selection)

Extreme droughts years (VHI < 15): [2000]
Moderate droughts years (VHI < 35): [1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1995, 1996, 1997, 1999, 2000, 2008, 2009, 2010, 2011, 2013, 2015, 2019, 2020]
