In [2]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestNeighbors

In [3]:
blind = pd.read_csv("../Data/Data_submission/test_blind.csv", sep=";") #fichier csv qui sera merge pas les prédiction et soumis sur Kaggle
presences = pd.read_excel("../Data/Data_train/Presences_Absences_train.xlsx") #fichier csv presences/absences

In [18]:
def k_voisins(k, data, test):
    """
    données:
        k: nombre de voisins considérés 
        data: dataFrame contenant entre autre les patch_ID et les espèces associées du train-PA
        test: dataFrame provenant du CSV Kaggle contenant les informations sur les lieux où la prédiction
        doit être faite
    fonction: 
        Liste les espèces présentes dans les k-voisins les plus proches de chaque coordonnées du dataFrame
        test à partir des information de data. 
    résultat:
        resultat: Un fichier CSV contenant les prédicitions d'especes dans la colonne Predicted 
    """
    # data frame contenant les espèces_id selon la lat,lon où l'espèce est recensées (sans doublons)
    data_sans_doublons = data.groupby(['lat', 'lon'])['speciesId'].apply(set).reset_index()
    
    # Données utilisées par l'algo 
    X1 = test[['lat', 'lon']].values
    X2 = data_sans_doublons[['lat', 'lon']].values
    
    # Création du modèle
    nn = NearestNeighbors(n_neighbors=k)
    nn.fit(X2)
    # le modèle retourne l'indice des k-voisins ainsi que leurs distances du point
    distances, indices = nn.kneighbors(X1)
    
    # Récupération des espèces selon les indices des coordonnées des voisins
    result = []
    for i in range(len(test)):
        nearest_species = set()
        for j in range(len(indices[i])):
            index = indices[i][j]
            nearest_species.update(data_sans_doublons.loc[index]['speciesId'])
        result.append(list(nearest_species))
    
    #traitement pour l'export du CSV au format acceptable par Kaggle
    test['nearest_species'] = result
    test = test[['Id', 'nearest_species']]
    test = test.rename(columns={'nearest_species': 'Predicted'})    
    test['Predicted'] = test['Predicted'].apply(lambda x: str(x).replace('[', '').replace(']', '').replace(',', ''))
    test.to_csv('30-voisins.csv', index=False, sep=',')

    return test


In [19]:
%%time
test1 = k_voisins(30, presences, blind)

Wall time: 1min 36s


In [89]:
def k_voisins_proba(k,proba, data, test):
    # data frame contenant les espèces_id selon la lat,lon où l'espèce est recensées (sans doublons)
    data_sans_doublons = presences.groupby(['lat', 'lon'])['speciesId'].apply(set).reset_index()

     # Données utilisées par l'algo 
    X1 = blind[['lat', 'lon']].values
    X2 = data_sans_doublons[['lat', 'lon']].values

        # Création du modèle
    nn = NearestNeighbors(n_neighbors= k)
    nn.fit(X2)
    # le modèle retourne l'indice des k-voisins ainsi que leurs distances du point
    distances, indices = nn.kneighbors(X1)

    result = []
    for i in range(len(test)):
        nearest_species = {}
        for j in range(len(indices[i])):
            index = indices[i][j]
            species_list = data_sans_doublons.loc[index]['speciesId']
            for species in species_list:
                if species in nearest_species:
                    nearest_species[species] += 1
                else:
                    nearest_species[species] = 1
        selected_species = [species for species, count in nearest_species.items() if count > proba * k]
        result.append(list(selected_species))

    # Traitement pour l'export du CSV au format acceptable par Kaggle
    test['nearest_species'] = result
    test = test[['Id', 'nearest_species']]
    test = test.rename(columns={'nearest_species': 'Predicted'})    
    test['Predicted'] = test['Predicted'].apply(lambda x: str(x).replace('[', '').replace(']', '').replace(',', ''))
    test.to_csv('2-voisins-proba-03.csv', index=False, sep=',')

    return True 

In [90]:
%%time
test = k_voisins_proba(2, presences, blind)

Wall time: 6.82 s


In [58]:
blind

Unnamed: 0,Id,datasetName,date,dayOfYear,year,patchID,timeSerieID,lon,lat,x_EPSG3035,y_EPSG3035,geoUncertaintyInM,nearest_species
0,1,CBNMed,1629064800,228,2021,10125,3988380,1.729607,42.52171,3.640762e+06,2.194746e+06,5.0,"[3589, 11, 5644, 6159, 1554, 6166, 5143, 536, ..."
1,2,CBNMed,1629064800,228,2021,10126,3997090,1.729624,42.52177,3.640764e+06,2.194753e+06,4.0,"[3589, 11, 5644, 6159, 1554, 6166, 5143, 536, ..."
2,3,CBNMed,1629064800,228,2021,10127,4001106,1.729652,42.52197,3.640769e+06,2.194775e+06,5.0,"[3589, 11, 5644, 6159, 1554, 6166, 5143, 536, ..."
3,4,CBNMed,1629064800,228,2021,10129,4004605,1.729671,42.52192,3.640770e+06,2.194769e+06,6.0,"[3589, 11, 5644, 6159, 1554, 6166, 5143, 536, ..."
4,5,CBNMed,1531346400,193,2018,10154,3987660,1.826847,42.57452,3.649316e+06,2.199695e+06,0.0,"[3589, 11, 5644, 6159, 1554, 6166, 5143, 8226,..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...
22399,22400,Inventaire forestier IGN,2018-03-14,73,2018,3018864,3990152,9.421020,42.38755,4.273164e+06,2.142680e+06,1.0,"[6159, 9747, 1559, 3097, 8741, 6705, 3633, 466..."
22400,22401,Inventaire forestier IGN,2018-03-22,81,2018,3018865,3986840,9.429860,42.26077,4.273796e+06,2.128639e+06,1.0,"[7689, 6159, 9747, 1559, 8728, 3097, 9753, 874..."
22401,22402,Inventaire forestier IGN,2017-03-13,72,2017,3018866,3993669,9.462680,42.92578,4.277004e+06,2.202255e+06,1.0,"[7426, 5763, 7430, 4743, 265, 7689, 8079, 783,..."
22402,22403,Inventaire forestier IGN,2017-03-15,74,2017,3018867,3993567,9.497790,42.41844,4.279528e+06,2.146054e+06,1.0,"[7689, 6159, 9747, 1559, 3097, 9753, 8741, 516..."


In [42]:
test.loc[55]['Predicted']

'9730 5644 1554 5143 24 3097 8226 3107 1059 5154 4649 6705 2098 3638 3136 4681 9803 5707 4182 8284 3166 5727 99 615 7787 8301 9329 9330 4723 1657 4218 1662 5763 6278 8841 5263 3218 6819 9906 6837 4284 8897 5314 6361 8419 8935 1769 233 2802 7415 3833 6906 4861 1282 7426 268 9212 1812 792 795 801 3874 4388 1317 2854 4906 9520 2867 1333 1849 4413 5959 6473 9547 2382 3408 5989 4967 5481 7021 9075 6005 890 1404 3968 1921 386 9118 5535 6049 7085 6574 4526 9145 8124 9174 9687 6107 1005 1520 3061 7164 3069'