In [143]:
import json
 
with open('./data/krishitantra/20230830_all_data_42793_recs.json') as f:
    data = json.load(f)

# il dataset contiene 42793 campioni, ognuno dei quali è sempre descritto da quattro chiavi
#   la prima (computedID) è sempre una stringa (42432 possibili valori)
#   la seconda (crop) è sempre una stringa (1176 possibili valori)
#   la terza (results) è sempre un dizionario (che ha da 1 a 17 chiavi)
#       i valori in questo dizionario possono essere int o float e ci sono 4 valori nulli sulla chiave Ca_Mg_Ratio
#   la quarta (plot) è sempre un dizionario (che ha sempre 16 chiavi)
#       la prima (id) è sempre una stringa (40565 possibili valori)
#       la seconda (location) è sempre un dizionario (che ha sempre due chiavi)
#           la prima (type) è sempre una stringa (2 possibili valori Poligon/Point)
#           la seconda (coordinates) è sempre una lista
#               ha due elementi se type == Point 
#               ha un elemento se type == Polygon che è una lista con liste di due elementi all'interno
#       la terza (soilType) è una stringa o nulla (56 possibili valori)
#       la quarta (soilColor) è una stringa o nulla (18 possibili valori)
#       la quinta (soilTexure) è una stringa o nulla (28 possibili valori)
#       la sesta (soilDensity) è un float o un int o nulla
#       la settima (area) è un float o un int
#       l ottava (resultUnits) è una stringa o nulla (5 possibili valori)
#       la nona (stoniness) è una stringa o nulla (9 possibili valori)
#       la decima (landSloping) è una stringa o nulla (6 possibili valori)
#       l undicesima (drainage) è una stringa p nulla (14 possibili valori)
#       la dodicesima (waterSource) è una stringa o nulla (14 possibili valori)
#       la tredicesima (waterSourceCapacity) è una stringa o nulla (16 possibili valori)
#       la quattordicesima (irrigationMethod) è una stringa o nulla (19 possibili valori)
#       la quindicesima (createdAt) è una stringa o nulla (32664 possibili valori)
#       la sedicesima (updatedAt) è una stringa o nulla (32671 possibili valori)

In [144]:
components = {}
for sample in data:
    for key in sample['results']:
        if key in components:
            components[key] += 1
        else:
            components[key] = 1
for key in components:
    print(key, components[key])

n 37252
p 37551
k 37079
EC 34478
pH 35438
S 35465
Fe 33214
Cu 34071
Zn 34230
OC 37182
B 33171
soil moisture 4666
mbc 1784
f2b 1784
pfungal 1784
pbaterial 1784
Ca 1453
Mg 1453
 1
N 5
Ec 1
CEC 932
Ca_Sat 932
Mg_Sat 932
Ca_Mg_Ratio 932


In [145]:
components = [key for key in components if components[key] > 5000]

print(components)

['n', 'p', 'k', 'EC', 'pH', 'S', 'Fe', 'Cu', 'Zn', 'OC', 'B']


In [146]:
results = {}
for component in components:
    results[component] = []

for sample in data:
    for component in components:
        if component in sample['results']:
            results[component].append(sample['results'][component])
        else:
            results[component].append(None)

In [147]:
import pandas as pd

df = pd.DataFrame()

for component in results:
    df[component] = results[component]

df

Unnamed: 0,n,p,k,EC,pH,S,Fe,Cu,Zn,OC,B
0,260.91,85.47,445.22,0.22,6.36,10.80,4.90,2.55,4.00,0.70,
1,945.00,56.25,382.95,1.72,9.50,,26.44,,,,1.01
2,,,,,,84.38,,4.32,0.85,0.67,
3,945.00,56.25,337.50,1.01,9.50,,27.29,,,,1.02
4,0.00,0.00,0.00,0.00,6.58,,0.00,,,,0.00
...,...,...,...,...,...,...,...,...,...,...,...
42788,189.60,32.80,322.00,,4.80,3.30,,,0.43,,0.22
42789,299.18,30.21,266.65,,4.58,28.71,,,0.30,,0.11
42790,165.68,31.25,126.00,,4.61,,1.85,,0.33,,0.18
42791,223.15,36.27,264.11,,5.93,27.26,,,0.45,0.38,0.23


In [148]:
for column in df:
    df[column].fillna(df[column].median(), inplace=True)
df

Unnamed: 0,n,p,k,EC,pH,S,Fe,Cu,Zn,OC,B
0,260.91,85.47,445.22,0.22,6.36,10.80,4.90,2.55,4.00,0.70,0.34
1,945.00,56.25,382.95,1.72,9.50,13.00,26.44,0.32,0.70,0.64,1.01
2,244.07,26.91,273.00,0.30,7.15,84.38,4.44,4.32,0.85,0.67,0.34
3,945.00,56.25,337.50,1.01,9.50,13.00,27.29,0.32,0.70,0.64,1.02
4,0.00,0.00,0.00,0.00,6.58,13.00,0.00,0.32,0.70,0.64,0.00
...,...,...,...,...,...,...,...,...,...,...,...
42788,189.60,32.80,322.00,0.30,4.80,3.30,4.44,0.32,0.43,0.64,0.22
42789,299.18,30.21,266.65,0.30,4.58,28.71,4.44,0.32,0.30,0.64,0.11
42790,165.68,31.25,126.00,0.30,4.61,13.00,1.85,0.32,0.33,0.64,0.18
42791,223.15,36.27,264.11,0.30,5.93,27.26,4.44,0.32,0.45,0.38,0.23


In [149]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

labels = np.array(df['OC'])
features = np.array(df.drop('OC', axis = 1))

train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size = 0.25, random_state = 42)

rf = RandomForestRegressor(n_estimators = 1000, random_state = 42)
rf.fit(train_features, train_labels)

In [150]:
from sklearn.metrics import mean_absolute_error, r2_score

predictions = rf.predict(test_features)

score = mean_absolute_error(test_labels, predictions)
print("The Mean Absolute Error of our Model is {}".format(round(score, 2)))

score = r2_score(test_labels, predictions)
print("The accuracy of our model is {}%".format(round(score, 2) *100))

The Mean Absolute Error of our Model is 0.13
The accuracy of our model is 51.0%


In [153]:
importances = list(rf.feature_importances_)

feature_list = list(df.columns)
feature_list.remove('OC')

feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(feature_list, importances)]
feature_importances = sorted(feature_importances, key = lambda x: x[1], reverse = True)

for pair in feature_importances:
    print('Variable: {:20} Importance: {}'.format(*pair)) 

Variable: n                    Importance: 0.26
Variable: k                    Importance: 0.11
Variable: p                    Importance: 0.09
Variable: S                    Importance: 0.09
Variable: Fe                   Importance: 0.08
Variable: Cu                   Importance: 0.08
Variable: Zn                   Importance: 0.08
Variable: pH                   Importance: 0.07
Variable: B                    Importance: 0.07
Variable: EC                   Importance: 0.06
