In [23]:
import pandas as pd
import json
import re

# Function to parse JSON-like data from a block
def parse_extracted_data(block):
    # Look for the JSON part in the block
    match = re.search(r'\{.*\}', block, re.DOTALL)  # Match everything between {}
    if match:
        try:
            # Convert the JSON string to a Python dictionary
            return json.loads(match.group(0))
        except json.JSONDecodeError:
            print(f"Failed to decode JSON: {match.group(0)}")
            return {}
    return {}

# Read the txt file
file_path = 'data/batch1.txt'  # Path to your txt file

# Initialize a list to store data for each row
rows = []

# Open the file and read its contents
with open(file_path, 'r', encoding='utf-8') as file:
    content = file.read()

# Split the content into blocks between "Row" markers
blocks = re.split(r'(?=Row \d+)', content)

for block in blocks:
    if block.strip():  # Ignore empty blocks
        # Extract the row number
        row_match = re.match(r'Row (\d+)', block)
        row_data = {'Row': int(row_match.group(1))} if row_match else {}

        # Add the entire block as text (optional, for debugging or analysis)
        row_data['Full Block'] = block.strip()

        # Parse the JSON data from the block
        extracted_data = parse_extracted_data(block)
        row_data.update(extracted_data)  # Add the parsed JSON data to the row

        # Append the processed row to the list
        rows.append(row_data)

# Convert the list of rows into a pandas DataFrame
df = pd.DataFrame(rows)

df


Failed to decode JSON: {
"Maalaji": "HtMr",
"Multavuus": m,
"PH": null,
"Nurmen ikä": "2v",
"Mitä viljellään": "Valio Carbo 3.niiton seos.",
"Lannoite": "YaraMila Y3",
"Lannoitemäärä": "450 kg/ha"
}
Failed to decode JSON: {
"Maalaji": "He",
"Multavuus": rm,
"pH": null,
"Nurmen ikä": "2v",
"Mitä viljellään": "TT 55% + NN 25% + PA 15%, AA 5%",
"Lannoite": "Liete, Axan",
"Lannoitemäärä": "30 tn/ha, 150 kg/ha"
}
Failed to decode JSON: {
"Maalaji": "HsH",
"Multavuus": rm,
"pH": null,
"Nurmen ikä": "2 v",
"Mitä viljellään": "TT Nuutti, Grindstad, NN, RuokoN Karoliina, KoirH, Rehukatt, ItalRH",
"Lannoite": null,
"Lannoitemäärä": null
}
Failed to decode JSON: {
"Maalaji": "HtS",
"Multavuus": rm,
"pH": null,
"Nurmen ikä": "2v",
"Mitä viljellään": "TT uula 30% + Rubinia 30% + NN Kasper 15% + RN Karolina 15% + ERH Birger 10%",
"Lannoite": "YaraMila Y2",
"Lannoitemäärä": "380 kg/ha"
}
Failed to decode JSON: {
"Maalaji": "Hiue",
"Multavuus": "rm",
"pH": null,
"Nurmen ikä": null,
"Mitä viljellään": 

Unnamed: 0,Row,Full Block,Maalaji,Multavuus,pH,Nurmen ikä,Mitä viljellään,Lannoite,Lannoitemäärä,P,...,PHe,P:H,PHanderus,PHE,PHanda,PX,PHT,Nurmen_ikä,Mitä_viljellään,MaaLaji
0,1,Row 1\nInput text: 3 v. nurmi. 70 kg N/ha. E...,,,,3 v,Valio Carbo nurmiseos,,,,...,,,,,,,,,,
1,2,"Row 2\nInput text: Koulutila. TT 80%, NN 20%....",HHt,,6.2,3v,"TT 80%, NN 20%",YaraMila Y3,400 kg/ha,,...,,,,,,,,,,
2,3,Row 3\nInput text: 2 v. nurmi. HiueS. Ei liet...,HiueS,,,2v,"Carbo 3 niiton seos TT Rubinia 35%+ Uula 15%, ...",,,,...,,,,,,,,,,
3,4,"Row 4\nInput text: TT Nuutti 60 %, NN Kasper ...",Ct,,,2v,"TT Nuutti 60 %, NN Kasper 17 %, engl.rh. Riikk...",Yara Y3,430 kg/ha,,...,,,,,,,,,,
4,5,"Row 5\nInput text: TT Nuutti 60 %, NN Kasper ...",HtMr,rm,,1v,"TT Nuutti 60 %, NN Kasper 17 %, engl.rh. Riikk...",Yara Y4,470 kg/ha,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1041,1042,Row 1042\nInput text: 2 v nurmi. HeS. Lajikke...,,,,2 v,"Grindstad 10 kg, Rhonia 12 kg, Klaara 8 kg, Ri...",Se-salpietari,350 kg/ha,,...,,,,,,,,,,
1042,1043,"Row 1043\nInput text: Grindstad-timotei, Mint...",Grindstad-timotei,,,,Minto-nurminata,,,,...,,,,,,,,,,
1043,1044,"Row 1044\nInput text: Timotei Tryggve, nurmin...",,,,,"Timotei Tryggve, nurminata SW Minto",,,,...,,,,,,,,,,
1044,1045,Row 1045\nInput text: LUOMU.\n\nExtracted Dat...,,,,,,,,,...,,,,,,,,,,


In [24]:
originaldf = pd.read_excel('data/Korjuuaikanäytteiden_lisätiedot_16082024.xlsx')
originaldf.columns

Index(['VUOSI', 'KUNTA', 'NAYTTEENOTTOPAIKAN NUMERO', 'LISATIETO_URL',
       'INFOTEKSTI', 'AIKALEIMA'],
      dtype='object')

In [26]:
df.columns

Index(['Row', 'Full Block', 'Maalaji', 'Multavuus', 'pH', 'Nurmen ikä',
       'Mitä viljellään', 'Lannoite', 'Lannoitemäärä', 'P', 'PH', 'P_H', 'P H',
       'PHandNurmen ikä', 'PHe', 'P:H', 'PHanderus', 'PHE', 'PHanda', 'PX',
       'PHT', 'Nurmen_ikä', 'Mitä_viljellään', 'MaaLaji'],
      dtype='object')

In [29]:
df_combined = pd.concat([originaldf, df], axis=1, ignore_index=True)
df_combined.columns = ['VUOSI', 'KUNTA', 'NAYTTEENOTTOPAIKAN NUMERO', 'LISATIETO_URL',
       'INFOTEKSTI', 'AIKALEIMA', 'Row', 'Full Block', 'Maalaji', 'Multavuus', 'pH', 'Nurmen ikä',
       'Mitä viljellään', 'Lannoite', 'Lannoitemäärä', 'P', 'PH', 'P_H', 'P H',
       'PHandNurmen ikä', 'PHe', 'P:H', 'PHanderus', 'PHE', 'PHanda', 'PX',
       'PHT', 'Nurmen_ikä', 'Mitä_viljellään', 'MaaLaji']
df_combined.drop('Row', axis=1, inplace=True)
df_combined

Unnamed: 0,VUOSI,KUNTA,NAYTTEENOTTOPAIKAN NUMERO,LISATIETO_URL,INFOTEKSTI,AIKALEIMA,Full Block,Maalaji,Multavuus,pH,...,PHe,P:H,PHanderus,PHE,PHanda,PX,PHT,Nurmen_ikä,Mitä_viljellään,MaaLaji
0,2024,AKAA,1,,3 v. nurmi. 70 kg N/ha. Ei lietettä eikä täyd...,10.06.2024 13:07:28,Row 1\nInput text: 3 v. nurmi. 70 kg N/ha. E...,,,,...,,,,,,,,,,
1,2024,ALAJÄRVI,1,,"Koulutila. TT 80%, NN 20%. Lannoitus 14.5. Yar...",31.05.2024 14:36:55,"Row 2\nInput text: Koulutila. TT 80%, NN 20%....",HHt,,6.2,...,,,,,,,,,,
2,2024,AURA,1,,2 v. nurmi. HiueS. Ei lietetttä keväällä. Salp...,05.06.2024 12:08:44,Row 3\nInput text: 2 v. nurmi. HiueS. Ei liet...,HiueS,,,...,,,,,,,,,,
3,2024,EVIJÄRVI,2,,"TT Nuutti 60 %, NN Kasper 17 %, engl.rh. Riikk...",31.05.2024 13:46:27,"Row 4\nInput text: TT Nuutti 60 %, NN Kasper ...",Ct,,,...,,,,,,,,,,
4,2024,EVIJÄRVI,1,,"TT Nuutti 60 %, NN Kasper 17 %, engl.rh. Riikk...",31.05.2024 13:54:18,"Row 5\nInput text: TT Nuutti 60 %, NN Kasper ...",HtMr,rm,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1041,2017,VIHTI,3,,"2 v nurmi. HeS. Lajikkeet: Grindstad 10 kg, Rh...",30.05.2017 15:08:45,Row 1042\nInput text: 2 v nurmi. HeS. Lajikke...,,,,...,,,,,,,,,,
1042,2017,VIROLAHTI,1,,"Grindstad-timotei, Minto-nurminata",08.06.2017 10:52:06,"Row 1043\nInput text: Grindstad-timotei, Mint...",Grindstad-timotei,,,...,,,,,,,,,,
1043,2017,VIRRAT,1,,"Timotei Tryggve, nurminata SW Minto",14.06.2017 13:28:16,"Row 1044\nInput text: Timotei Tryggve, nurmin...",,,,...,,,,,,,,,,
1044,2017,ÄHTÄRI,1,,LUOMU.,14.06.2017 18:15:08,Row 1045\nInput text: LUOMU.\n\nExtracted Dat...,,,,...,,,,,,,,,,


In [31]:
pd.set_option('display.max_columns', None)
df_combined.columns.to_frame()
df_combined.columns

Index(['VUOSI', 'KUNTA', 'NAYTTEENOTTOPAIKAN NUMERO', 'LISATIETO_URL',
       'INFOTEKSTI', 'AIKALEIMA', 'Full Block', 'Maalaji', 'Multavuus', 'pH',
       'Nurmen ikä', 'Mitä viljellään', 'Lannoite', 'Lannoitemäärä', 'P', 'PH',
       'P_H', 'P H', 'PHandNurmen ikä', 'PHe', 'P:H', 'PHanderus', 'PHE',
       'PHanda', 'PX', 'PHT', 'Nurmen_ikä', 'Mitä_viljellään', 'MaaLaji'],
      dtype='object')

In [36]:
columns = df_combined.columns.tolist()

P PH
25 PHT
27 Mitä_viljellään
28 MaaLaji

In [60]:
import numpy as np
not_na = df_combined[columns[25]].dropna().unique()
print(not_na)

[7.]
