In [4]:
# source: https://www.eufic.org/en/explore-seasonal-fruit-and-vegetables-in-europe

In [1]:
import sys
!{sys.executable} -m pip install googletrans==3.1.0a0 beautifulsoup4



In [2]:
from bs4 import BeautifulSoup
import pandas as pd

In [3]:
from googletrans import Translator

In [4]:
with open("./fruit_and_veggies.html") as f:
    soup = BeautifulSoup(f, 'html.parser')

In [6]:
obj = {
    "id": [],
    "month": [],
    "type": []
}

elements = soup.find('div', {"id": "Fruit"}).find_all('div', class_="czechrepublic")
for el in elements:
    classnames = el.get('class')
    el_id = el.get('id')
    if "stored" not in el_id:
        months = [item for item in classnames if "czechrepublic" in item and item != "czechrepublic"]
        monthnames = [item.split("-")[0] for item in months]
        obj["id"].append(el_id)
        obj["month"].append(monthnames)
        obj['type'].append(0) # fruit
        
elements = soup.find('div', {"id": "Vegetable"}).find_all('div', class_="czechrepublic")
for el in elements:
    classnames = el.get('class')
    el_id = el.get('id')
    if "stored" not in el_id:
        months = [item for item in classnames if "czechrepublic" in item and item != "czechrepublic"]
        monthnames = [item.split("-")[0] for item in months]
        obj["id"].append(el_id)
        obj["month"].append(monthnames)
        obj['type'].append(1) # vegetable

df = pd.DataFrame(obj).explode("month")

In [7]:
df.head()

Unnamed: 0,id,month,type
0,apple,july,0
0,apple,august,0
0,apple,september,0
0,apple,october,0
1,apricot,july,0


In [8]:
unique_ids = list(df['id'].unique())
unique_months = list(df['month'].unique())

In [9]:
translator = Translator()

In [10]:
def translate(item):
    translated_text = translator.translate(item, dest='sk')
    return translated_text.text

In [11]:
unique_ids_translated = [translate(item) for item in unique_ids]

In [12]:
unique_months_translated = [translate(item) for item in unique_months]

In [13]:
unique_ids_map = {}
for i, item in enumerate(unique_ids):
    unique_ids_map[item] = unique_ids_translated[i]
unique_ids_map

{'apple': 'jablko',
 'apricot': 'marhuľový',
 'blackberry': 'ostružina',
 'blackcurrant': 'čierna ríbezľa',
 'cherry': 'čerešňa',
 'grape': 'hrozno',
 'pear': 'hruška',
 'plum': 'slivka',
 'strawberry': 'jahodový',
 'watermelon': 'vodný melón',
 'asparagus': 'špargľa',
 'aubergine': 'baklažán',
 'beetroot': 'cvikla',
 'bellpepper': 'bellpepper',
 'broccoli': 'brokolica',
 'brusselssprout': 'ružičkový kel',
 'cabbage': 'kapusta',
 'carrot': 'mrkva',
 'cauliflower': 'karfiol',
 'celery': 'zeler',
 'chard': 'mangold',
 'chicory': 'čakanka',
 'chili': 'čili',
 'chinesecabbage': 'čínska kapusta',
 'courgette': 'cuketa',
 'cress': 'žerucha',
 'cucumber': 'uhorka',
 'garlic': 'cesnak',
 'greenbean': 'zelená fazuľa',
 'iceberglettuce': 'ľadový šalát',
 'kohlrabi': 'kaleráb',
 'lambslettuce': 'jahňacie šaláty',
 'leek': 'zdalo sa',
 'lettuce': 'šalát',
 'onion': 'Cibuľa',
 'parsleyroot': 'petržlenová vňať',
 'pea': 'možno',
 'potato': 'zemiak',
 'pumpkin': 'tekvica',
 'radish': 'reďkovka',
 're

In [14]:
unique_months_map = {}
for i, item in enumerate(unique_months):
    unique_months_map[item] = unique_months_translated[i]
unique_months_map

{'july': 'júla',
 'august': 'august',
 'september': 'september',
 'october': 'október',
 'june': 'júna',
 'may': 'smieť',
 'november': 'novembra',
 'december': 'December',
 'january': 'januára',
 'february': 'február',
 'march': 'pochod',
 'april': 'apríl'}

In [15]:
def apply_map(item, map_to_apply):
    return map_to_apply[item]

In [16]:
df2 = df.copy()

In [17]:
df2['id'] = df['id'].apply(lambda x: apply_map(x, unique_ids_map))

In [18]:
df2['month'] = df['month'].apply(lambda x: apply_map(x, unique_months_map))

In [19]:
df2.head()

Unnamed: 0,id,month,type
0,jablko,júla,0
0,jablko,august,0
0,jablko,september,0
0,jablko,október,0
1,marhuľový,júla,0


In [20]:
df2 = df2.replace('marhuľový','marhuľa')
df2 = df2.replace('jahodový','jahoda')
df2 = df2.replace('bellpepper','paprika')
df2 = df2.replace('jahňacie šaláty','jahňací šalát')
df2 = df2.replace('Cibuľa','cibuľa')
df2 = df2.replace('zdalo sa','pór')
df2 = df2.replace('možno','hrach')
df2 = df2.replace('prefarbiť','reďkovka')

df2['id'].unique()

array(['jablko', 'marhuľa', 'ostružina', 'čierna ríbezľa', 'čerešňa',
       'hrozno', 'hruška', 'slivka', 'jahoda', 'vodný melón', 'špargľa',
       'baklažán', 'cvikla', 'paprika', 'brokolica', 'ružičkový kel',
       'kapusta', 'mrkva', 'karfiol', 'zeler', 'mangold', 'čakanka',
       'čili', 'čínska kapusta', 'cuketa', 'žerucha', 'uhorka', 'cesnak',
       'zelená fazuľa', 'ľadový šalát', 'kaleráb', 'jahňací šalát', 'pór',
       'šalát', 'cibuľa', 'petržlenová vňať', 'hrach', 'zemiak',
       'tekvica', 'reďkovka', 'špenát', 'squash', 'paradajka',
       'biela reďkovka'], dtype=object)

In [21]:
df2 = df2.replace('júla','júl')
df2 = df2.replace('júna','jún')
df2 = df2.replace('novembra','november')
df2 = df2.replace('December','december')
df2 = df2.replace('januára','január')
df2 = df2.replace('smieť','máj')
df2 = df2.replace('pochod','marec')
df2 = df2.replace('augusta','august')
df2['month'].unique()

array(['júl', 'august', 'september', 'október', 'jún', 'máj', 'november',
       'december', 'január', 'február', 'marec', 'apríl'], dtype=object)

In [22]:
# df['id'].unique()

In [23]:
# nazov, start, end (cisla mesiacov 1 indexed)
month_index_map = {}
for idx, item in enumerate(['január', 'február', 'marec', 'apríl', 'máj', 'jún', 'júl', 'august', 'september', 'október', 'november', 'december']):
    month_index_map[item] = idx + 1
month_index_map

{'január': 1,
 'február': 2,
 'marec': 3,
 'apríl': 4,
 'máj': 5,
 'jún': 6,
 'júl': 7,
 'august': 8,
 'september': 9,
 'október': 10,
 'november': 11,
 'december': 12}

In [24]:
df2['month_index'] = df2['month'].apply(lambda x: month_index_map[x])
df2.head()

Unnamed: 0,id,month,type,month_index
0,jablko,júl,0,7
0,jablko,august,0,8
0,jablko,september,0,9
0,jablko,október,0,10
1,marhuľa,júl,0,7


In [29]:
aggregated = df2[['id', 'month_index', 'type']].groupby(['id', 'type']).agg({'month_index': ['min', 'max']}).reset_index()
aggregated.columns = ['id', 'type', 'start', 'end']
aggregated['edible'] = 1
aggregated = aggregated[['id', 'start', 'end', 'edible', 'type']]
aggregated

Unnamed: 0,id,start,end,edible,type
0,baklažán,7,10,1,1
1,biela reďkovka,8,10,1,1
2,brokolica,6,9,1,1
3,cesnak,7,8,1,1
4,cibuľa,4,9,1,1
5,cuketa,6,10,1,1
6,cvikla,6,10,1,1
7,hrach,6,8,1,1
8,hrozno,8,10,1,0
9,hruška,7,10,1,0


In [30]:
aggregated.drop_duplicates().to_csv("./fruit_and_veggies.csv")