# Qui sont les bénéficiaires de la Politique agricole commune en Pologne ? Données 2019

Cette analyse de données reprend le canevas utilisé en 2019 pour l'[analyse des bénéficiaires de la Politique agricole commune en Pologne pour l'année 2018](https://github.com/echapelier/eu-agri-subsidies/blob/master/cap-2018-poland.ipynb). Les données pour l'année 2019 ont été publiées au début du mois de mai 2020 par le [ministère polonais de l'Agriculture et du Développement rural](http://beneficjenciwpr.minrol.gov.pl/), conformément à la législation européenne applicable.

In [1]:
import numpy as np
import pandas as pd

In [2]:
titres_colonnes = ['annee', 'prenom', 'nomfamille', 'nom', 'commune', 'codepostal', 
                   'm1_1', 'm1_2', 'm1_3', 'm1_4', 'm1_5', 'm1_6', 'm1_7', 
                   'm2_1', 'm2_2', 'm2_3', 'm2_4', 'm2_5', 'm2_6', 'm2_7', 'm2_8', 'm2_9', 'm2_10', 
                   'm3_1', 'm3_2', 'm3_3', 'm3_4', 'm3_5', 'm3_6', 'm3_7', 'm3_8', 'm3_9', 'm3_10', 
                   'm4a_1', 'm4a_2', 'm4a_3', 'm4a_4', 'm4a_5', 'm4a_6', 'm4a_7', 'm4a_8', 'm4a_9', 'm4a_10', 'm4a_11', 'm4a_12', 'm4a_13', 'm4a_14', 'm4a_15', 'm4a_16', 'm4a_17', 'm4a_18', 'm4a_19', 'm4a_20', 'm4a_21', 'm4a_22', 'm4a_23', 'm4a_24', 'm4a_25', 
                   'm5b1_1', 'm5b1_2', 'm5b1_3', 'm5b1_4', 'm5b1_5', 'm5b1_6', 'm5b1_7', 'm5b1_8', 'm5b1_9', 'm5b1_10', 'm5b1_11', 'm5b1_12', 'm5b1_13', 'm5b1_14', 'm5b1_15', 'm5b1_16', 'm5b1_17', 'm5b1_18', 
                   'm5b2_1', 'm5b2_2', 'm5b2_3', 'm5b2_4', 'm5b2_5', 'm5b2_6', 'm5b2_7', 'm5b2_8', 'm5b2_9', 'm5b2_10', 'm5b2_11', 'm5b2_12', 'm5b2_13', 
                   'm5b3_1', 'm5b3_2', 'm5b3_3', 'm5b3_4', 'm5b3_5', 'm5b3_6', 'm5b3_7', 'm5b3_8', 
                   'm5b4_1', 'm5b4_2', 'm5b4_3', 'm5b4_4', 'm5b4_5', 'm5b4_6', 'm5b4_7', 
                   'm6_a1', 'm6_b1', 'm6_c1', 'm6_d1', 
                   'total']
dtypes_colonnes = {
    'annee': 'int64', 'prenom': 'object', 'nomfamille': 'object', 'nom': 'object', 'commune': 'object', 'codepostal': 'object', 
    'm1_1': 'float64', 'm1_2': 'float64', 'm1_3': 'float64', 'm1_4': 'float64', 'm1_5': 'float64', 'm1_6': 'float64', 'm1_7': 'float64', 
    'm2_1': 'float64', 'm2_2': 'float64', 'm2_3': 'float64', 'm2_4': 'float64', 'm2_5': 'float64', 'm2_6': 'float64', 'm2_7': 'float64', 'm2_8': 'float64', 'm2_9': 'float64', 'm2_10': 'float64', 
    'm3_1': 'float64', 'm3_2': 'float64', 'm3_3': 'float64', 'm3_4': 'float64', 'm3_5': 'float64', 'm3_6': 'float64', 'm3_7': 'float64', 'm3_8': 'float64', 'm3_9': 'float64', 'm3_10': 'float64', 
    'm4a_1': 'float64', 'm4a_2': 'float64', 'm4a_3': 'float64', 'm4a_4': 'float64', 'm4a_5': 'float64', 'm4a_6': 'float64', 'm4a_7': 'float64', 'm4a_8': 'float64', 'm4a_9': 'float64', 'm4a_10': 'float64', 'm4a_11': 'float64', 'm4a_12': 'float64', 'm4a_13': 'float64', 
    'm4a_14': 'float64', 'm4a_15': 'float64', 'm4a_16': 'float64', 'm4a_17': 'float64', 'm4a_18': 'float64', 'm4a_19': 'float64', 'm4a_20': 'float64', 'm4a_21': 'float64', 'm4a_22': 'float64', 'm4a_23': 'float64', 'm4a_24': 'float64', 'm4a_25': 'float64', 
    'm5b1_1': 'float64', 'm5b1_2': 'float64', 'm5b1_3': 'float64', 'm5b1_4': 'float64', 'm5b1_5': 'float64', 'm5b1_6': 'float64', 'm5b1_7': 'float64', 'm5b1_8': 'float64', 'm5b1_9': 'float64', 
    'm5b1_10': 'float64', 'm5b1_11': 'float64', 'm5b1_12': 'float64', 'm5b1_13': 'float64', 'm5b1_14': 'float64', 'm5b1_15': 'float64', 'm5b1_16': 'float64', 'm5b1_17': 'float64', 'm5b1_18': 'float64', 
    'm5b2_1': 'float64', 'm5b2_2': 'float64', 'm5b2_3': 'float64', 'm5b2_4': 'float64', 'm5b2_5': 'float64', 'm5b2_6': 'float64', 'm5b2_7': 'float64', 'm5b2_8': 'float64', 'm5b2_9': 'float64', 'm5b2_10': 'float64', 'm5b2_11': 'float64', 'm5b2_12': 'float64', 'm5b2_13': 'float64', 
    'm5b3_1': 'float64', 'm5b3_2': 'float64', 'm5b3_3': 'float64', 'm5b3_4': 'float64', 'm5b3_5': 'float64', 'm5b3_6': 'float64', 'm5b3_7': 'float64', 'm5b3_8': 'float64', 
    'm5b4_1': 'float64', 'm5b4_2': 'float64', 'm5b4_3': 'float64', 'm5b4_4': 'float64', 'm5b4_5': 'float64', 'm5b4_6': 'float64', 'm5b4_7': 'float64', 
    'm6_a1': 'float64', 'm6_b1': 'float64', 'm6_c1': 'float64', 'm6_d1': 'float64', 
    'total': 'float64'
}

dataset = pd.read_csv('cap-2019-poland.csv', 
                      sep=';', 
                      encoding='utf-8', 
                      header=0, 
                      names=titres_colonnes, 
                      dtype=dtypes_colonnes,
                      decimal=','
                     )

In [3]:
dataset.info(verbose=True, null_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1339628 entries, 0 to 1339627
Data columns (total 109 columns):
 #   Column      Non-Null Count    Dtype  
---  ------      --------------    -----  
 0   annee       1339628 non-null  int64  
 1   prenom      1329426 non-null  object 
 2   nomfamille  1329426 non-null  object 
 3   nom         10202 non-null    object 
 4   commune     1339592 non-null  object 
 5   codepostal  1339592 non-null  object 
 6   m1_1        0 non-null        float64
 7   m1_2        34 non-null       float64
 8   m1_3        0 non-null        float64
 9   m1_4        0 non-null        float64
 10  m1_5        0 non-null        float64
 11  m1_6        0 non-null        float64
 12  m1_7        25 non-null       float64
 13  m2_1        0 non-null        float64
 14  m2_2        698009 non-null   float64
 15  m2_3        631257 non-null   float64
 16  m2_4        698154 non-null   float64
 17  m2_5        0 non-null        float64
 18  m2_6        121707 no

In [4]:
# Dans les colonnes contenant des montants (type float), on remplace les valeurs NaN par des zéros
# (l'argument inplace ne fonctionne pas sur des slices de dataframe)
dataset.iloc[:, 6:108] = dataset.iloc[:, 6:108].fillna(0)
# Dans la colonne nom, on supprime les valeurs NaN
dataset['nom'].fillna('', inplace=True)

In [5]:
pd.set_option('float_format', '{:.2f}'.format) # Affiche les nombres avec deux décimales maximum
dataset.describe(include='all')

Unnamed: 0,annee,prenom,nomfamille,nom,commune,codepostal,m1_1,m1_2,m1_3,m1_4,...,m5b4_3,m5b4_4,m5b4_5,m5b4_6,m5b4_7,m6_a1,m6_b1,m6_c1,m6_d1,total
count,1339628.0,1329426,1329426,1339628.0,1339592,1339592,1339628.0,1339628.0,1339628.0,1339628.0,...,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0,1339628.0
unique,,1812,707330,9832.0,2238,14416,,,,,...,,,,,,,,,,
top,,Małe gospodarstwo,NOWAK,,WARSZAWA,22-400,,,,,...,,,,,,,,,,
freq,,620933,3347,1329426.0,6363,3649,,,,,...,,,,,,,,,,
mean,2019.0,,,,,,0.0,0.09,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,12.66,0.0,0.0,16356.4
std,0.0,,,,,,0.0,43.69,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,6454.04,0.0,0.0,94784.03
min,2019.0,,,,,,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01
25%,2019.0,,,,,,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2176.19
50%,2019.0,,,,,,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5076.63
75%,2019.0,,,,,,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,13274.49


## Nettoyage, vérification et tri des données

In [6]:
# Toutes les lignes se réfèrent à l'année 2019, on peut supprimer la colonne annee
del dataset['annee']

In [7]:
dataset[dataset['commune'].isna()]

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,m1_1,m1_2,m1_3,m1_4,m1_5,...,m5b4_3,m5b4_4,m5b4_5,m5b4_6,m5b4_7,m6_a1,m6_b1,m6_c1,m6_d1,total
27158,MARIA,JANKOWIAK,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,782.71
27781,ANNA,KOSTECKA,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,790.4
40632,Małe gospodarstwo,26162,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1012.93
48720,Małe gospodarstwo,411331,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,920.85
66556,DOROTA,ZANIEWICZ,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,940.1
125644,Małe gospodarstwo,369112,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1227.79
171100,Małe gospodarstwo,47444,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1485.8
223838,EWA,WASCHL-RADECKA,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1534.74
446659,JOHANN,KLOS,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2793.71
502629,Małe gospodarstwo,365686,,,,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3255.13


Il y a 36 lignes, correspondant toutes à des bénéficiaires individuels, pour lesquelles la commune et le code postals sont manquants.

In [8]:
# On vérifie que pour chaque bénéficiaire, la somme des versements par mesure est égale au contenu de la colonne total
dataset[dataset.loc[:, 'm1_1':'m6_d1'].sum(axis=1).round(2) != dataset['total']]

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,m1_1,m1_2,m1_3,m1_4,m1_5,...,m5b4_3,m5b4_4,m5b4_5,m5b4_6,m5b4_7,m6_a1,m6_b1,m6_c1,m6_d1,total


In [9]:
# On crée un nouveau dataframe plus léger et dépourvu des colonnes indiquant les versements par mesure
dataset_light = dataset[['prenom', 'nomfamille', 'nom', 'commune', 'codepostal', 'total']].copy()

In [10]:
print('Nombre total de bénéficiaires :', f'{dataset_light.shape[0]:,}')
print("Somme des paiements versés à l'ensemble des bénéficiaires :", f"{dataset_light['total'].sum().round(2):,}", "PLN")

Nombre total de bénéficiaires : 1,339,628
Somme des paiements versés à l'ensemble des bénéficiaires : 21,911,486,391.12 PLN


## Classification des bénéficiaires

In [11]:
dataset_light['categorie'] = 'aclasser'
dataset_light.sort_values(by='total', ascending=False).head(10)

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,total,categorie
1339137,,,BANK GOSPODARSTWA KRAJOWEGO,WARSZAWA,00-955,51875000.0,aclasser
1339138,,,MINISTERSTWO ROLNICTWA I ROZWOJU WSI,WARSZAWA,00-930,37040511.36,aclasser
1339139,,,SAMORZĄD WOJEWÓDZTWA MAZOWIECKIEGO,WARSZAWA,03-719,18935736.02,aclasser
1337197,,,SAMORZĄD WOJEWÓDZTWA ŁÓDZKIEGO,ŁÓDŹ,90-051,10873959.68,aclasser
1338759,,,POWIAT SULĘCIŃSKI,SULĘCIN,69-200,8078668.88,aclasser
1335291,,,URZĄD MARSZAŁKOWSKI WOJEWÓDZTWA PODLASKIEGO,BIAŁYSTOK,15-888,7928779.74,aclasser
1337973,,,SAMORZĄD WOJEWÓDZTWA WIELKOPOLSKIEGO,POZNAŃ,61-714,7738682.04,aclasser
1339393,,,SAMORZĄD WOJEWÓDZTWA DOLNOŚLĄSKIEGO,WROCŁAW,50-411,7712675.64,aclasser
1337402,,,POWIAT MONIECKI,MOŃKI,19-100,7698230.41,aclasser
1339140,,,"SEBEX SP, Z O,O, SP, K,",WARSZAWA,02-281,7434031.79,aclasser


In [12]:
masque_individuels = dataset_light['nom'] == ''
masque_servicesetat = dataset_light['nom'].str.contains('MINISTERSTWO|KRAJOWY OŚRODEK WSPARCIA ROLNICTWA|OŚRODEK DORADZTWA|DORADZTWA ROLNICZEGO|BANK GOSPODARSTWA KRAJOWEGO|AGENCJA REZERW MATERIAŁOWYCH|PREZES URZĘDU ZAMÓWIEŃ PUBLICZNYCH|ZAKŁAD KARNY|ARESZT ŚLEDCZY|GOSPODARKI BUDŻETOWEJ')
masque_collectivlocales = dataset_light['nom'].str.match(r'POWIAT\b|URZĄD|SAMORZĄD WOJEWÓDZTWA|GMINA|MIASTO|STAROSTWO')
masque_foretsetat = dataset_light['nom'].str.contains('NADLEŚNICTWO|LASY PAŃSTWOWE')
masque_chasseurs = (dataset_light['nom'].str.contains(r'\bŁOWIEC|ŁOWICKIE|MYŚLIWSK|PZŁ', regex=True) == True) & (dataset_light['nom'].str.contains('EXPORTOWA|PRZEDSIĘBIORSTWO') == False)
masque_apiculteurs = (dataset_light['nom'].str.contains('PSZCZEL') == True) & (dataset_light['nom'].str.contains('GOSPODARSTWO ROLNE|SPÓŁDZIELNIA') == False)
masque_pompiers = dataset_light['nom'].str.contains('POŻARN|POGOTOWIE')
masque_eglisecatholique = (dataset_light['nom'].str.contains(r'KOŚCIÓŁ|OPACTWO|CARITAS|PARAFIA\b', regex=True) == True) & (dataset_light['nom'].str.contains('PRAWOS|EWANGELICKO|EWANGIELICKO|GRECKO|BAPTYSTÓW|ZIELONOŚWIĄT') == False)
masque_nonprofit = (dataset_light['nom'].str.contains('FUNDACJA|STOWARZYSZENIE|GRUPA DZIAŁANIA|GRUPA DZIALANIA|LGD|MUZEUM|PARK NARODOWY|AEROKLUB|PTTK|WĘDKAR|MONAR') == True) & (dataset_light['nom'].str.contains('POŻARN|PSZCZEL|ZGROMADZENIA|SAMARYTA|MISJON|MYŚLIW|IZBA|PRODUCENT') == False)
masque_agricoop = (dataset_light['nom'].str.contains('SPÓŁDZIELNIA|SPÓLDZIELNIA|SPOLDZIELNIA|KÓŁKO ROLNICZE|SPÓŁDZIELCZA GRUPA|KOMBINAT SPÓŁDZIELCZY|SPÓŁDZIELCZY KOMBINAT') == True) & (dataset_light['nom'].str.contains('MIESZK|SOCJALN') == False)
masque_entreprises = (dataset_light['nom'].str.contains('SPÓŁKA|SPÓLKA|SPOŁKA|PRZEDSIĘBIORSTWO|PRZEDSIEBIORSTWO|FIRMA|PPH|FHU') == True) & (dataset_light['nom'].str.contains('SPÓŁDZIELNIA|GMIN|KOMUNALN|MIEJSK|WODOCIĄG') == False)
masque_entreprisescommunales = (dataset_light['nom'].str.contains('SPÓŁKA|PRZEDSIĘBIORSTWO|ZAKŁAD') == True) & (dataset_light['nom'].str.contains(r'GMINN|KOMUNALN|\bMIEJSK|WODOCIĄG|USŁUG WODNYCH', regex=True) == True) & (dataset_light['nom'].str.contains('ROLNO') == False)

In [13]:
dataset_light.loc[masque_individuels, 'categorie'] = 'individuels'
dataset_light.loc[masque_servicesetat, 'categorie'] = 'servicesetat'
dataset_light.loc[masque_collectivlocales, 'categorie'] = 'collectivlocales'
dataset_light.loc[masque_entreprisescommunales, 'categorie'] = 'collectivlocales'
dataset_light.loc[masque_foretsetat, 'categorie'] = 'foretsetat'
dataset_light.loc[masque_chasseurs, 'categorie'] = 'chasseurs'
dataset_light.loc[masque_apiculteurs, 'categorie'] = 'apiculteurs'
dataset_light.loc[masque_pompiers, 'categorie'] = 'pompiers'
dataset_light.loc[masque_eglisecatholique, 'categorie'] = 'eglisecatholique'
dataset_light.loc[masque_nonprofit, 'categorie'] = 'nonprofit'
dataset_light.loc[masque_agricoop, 'categorie'] = 'agricoop'
dataset_light.loc[masque_entreprises, 'categorie'] = 'entreprises'

In [14]:
masque_entreprises2 = (dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains(r'SP,|S,A|SP Z|SP,Z|S,C|\bSC\b|\bS, C\b|JAWNA|S, J|\bSP J\b|\bSA\b|\bSAS\b|SKLEP|P, H', regex=True) == True)
dataset_light.loc[masque_entreprises2, 'categorie'] = 'entreprises'

In [15]:
# Reclassement des bénéficiaires entreprises faussement identifiés comme invididuels en raison d'erreurs de saisie
dataset_light.loc[(dataset_light['categorie'] == 'individuels') & (dataset_light['nomfamille'].str.contains('GOSPODARSTWO')), 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'GOSPODARSTWO ROLNE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'FIRMA HANDLOWO-USŁUGOWA JAROSŁAW DZIEŁAK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'STUDIO "ŻANETA"', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'STAJNIA "GOSTAR"', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'PRACOWNIA RĘKODZIEŁA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'JOLANTA KRZYSZKOWSKA FIRMA LOBO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'PHP EXPOL', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'FFHU MINOCO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'WĘDZARNIA BAJKI BEATA KOSTUCH', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'LESZEK MUL', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'MARTA PACHOLCZYK - SANFILIPPO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'FIRMA "WOJNIK"', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'FIRMA HANDLOWO-USŁUGOWA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'PPHU ANJAR', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'PRZEDSIĘBIORSTWO ROLNE GRZEGORZA WĘGLEWSKIEGO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'P, U, HUBERT NIEDZIAŁEK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'FHU MICHALINKA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'USŁUGI GASTRONOMICZNE ANNA CZARKOWSKA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'M&J HYDRAULIK MAŁGORZATA BALASA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'GOSPODARSTWO ROLNE MŚCISZEWO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'GOSPODARSTWO ROLNE MICHALCZA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'INDYWIDUALNA SPECJALISTYCZNA PRAKTYKA LEKARSKA KATARZYNA DULNY', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'PHP KAREX J, ROMAŃCZUK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'DAR ZIEMI G,R,', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'IN-STUDIO PAWEŁ PYTEL', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['prenom'] == 'GT MICHAŁ STANKIEWICZ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'URBANEK SKUP I SPRZEDAŻ ZWIERZĄT RZEŹNYCH JAROSŁAW TOMASZ URBAŃSKI', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'PIECZARKARNIA DANCHAMP GINDA MARIA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'ZAKŁAD PRODUKCYJNO - HANDLOWY PRZETWÓRSTWO MIĘSNE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'AKADEMIA SUKCESU BEST CHOICE ANNA KOSEDA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'ZAKŁAD HANDLOWO-USŁUGOWY "MODRZEW"', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'CZAPLIŃSKA PRZEDSIĘBIORSTWO HANDLOWO - USŁUGOWE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'JAJE ALINA, UBÓJ I PRZETWÓRSTWO MIĘSNE"MARTIKA"', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'OGRODNICTWO SZKÓŁKA DRZEW I KRZEWÓW OZDOBNYCH', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'MARCINKOWSKI UBÓJ ZWIERZĄT RZEŹNYCH', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'ZAKŁAD USŁUG RZEŹNICKICH KALMA MARIA KALETA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'OSIEJUK WALDEMAR FERMA DROBIU', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'INS-BUD KAROL KACZMAREK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'MI-KA WOJCIECH ITRYCH', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'PAWILON GASTRONOMICZNY MONIKA JUSZKIEWICZ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'POLROL S,C, POLESKA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'BEND REALITY AGENCY MARCIN MURAWSKI', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'F,P,U, RADSTAL RADOSŁAW KISIELEWSKI', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'JERZY HAŁAS PPHU JUMAR', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'P,P,U,H EXPORT-IMPORT "CEDR" HNATCZAK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'PRZEDSIĘBIORSTWO HANDLOWE "AGRO-MAX" HURT - DETAL', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'PRZEDSIĘBIORSTWO WIELOBRANŻOWE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'UBÓJ ZWIERZĄT ROMAN KONKOL', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'VITROFLORA K, A, PAWLAK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nomfamille'] == 'P,P,H, REWA TOMASZ RESZKA', 'categorie'] = 'entreprises'

In [16]:
# Reclassements divers
dataset_light.loc[dataset_light['nom'] == 'STOWARZYSZENIE RYBACKIE ŻABI KRAJ', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'BONI FRATRES CALVARIENSIS SP Z O,O,', 'categorie'] = 'eglisecatholique'

In [17]:
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('DOM POMOCY|DOM KULTURY|SPÓŁEK WODNYCH|OŚRODEK KULTURY|GMINNY OŚRODEK|OŚRODEK SPORTU|CENTRUM KULTURY|CENTRUM KULTURALNE|BIBLIOTEKA|SAMORZĄDOW|CENTRUM INTEGRACJI SPOŁECZNEJ|SZKOLNO-WYCHOWAWCZY|POWIAT|PUBLICZNY ZAKŁAD')) & (dataset_light['nom'].str.contains('ZGROMADZENIE') == False), 'categorie'] = 'collectivlocales'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('WSPÓLNOTA GRUNT|WSPÓLNOTY GRUNT|WSPÓŁNOTA GRUNTOWA|PASTWISKOWA|WSPÓLNOTA LEŚN|WSPÓLNOTA WSI|WSPÓLNOTA WIEJSKA|WSPÓLNOT WIEJSKICH|WSPÓLNOTA ROLNO|BANK SPÓŁDZIELCZY')), 'categorie'] = 'entreprises'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('ZESPÓŁ SZKÓŁ ROLNICZ|KSZTAŁCENIA|HUFC|LEŚNY ZAKŁAD')), 'categorie'] = 'enseignementrech'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('ZESPÓŁ SZKÓŁ')), 'categorie'] = 'collectivlocales'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('PRAWOS|EWANGEL|EWANGIELICKO|GRECKO|DYMITR|ZIELONOŚWIĄT|BAPTYST|WYZNANIOWA')), 'categorie'] = 'autrescultes'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('ZGROMADZ|DIECEZ|KLASZTOR|KONWENT|SEMINARIUM|ZAKON|MISJA|PROWINCJA|FILIPA NERI')) & (dataset_light['nom'].str.contains('RYCER') == False), 'categorie'] = 'eglisecatholique'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('UNIWERSYTET|INSTYTUT|STACJA|AKADEMIA|SZKOŁA GŁÓWNA|POLITECHNIKA KOSZALIŃSKA')), 'categorie'] = 'enseignementrech'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains(r'SPÓŁDZIELNIA|TOWARZYSTWO|SPORT|KS\b|LZS|PODHALAN\b|KLUB|PARK|KOŁO GOSPODYŃ|RYCER|ORGANIZACJA TURYSTYCZNA|ORKIESTRA|RAZEM', regex=True)), 'categorie'] = 'nonprofit'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('SPÓŁDZIELCZ|RSP')) & (dataset_light['nom'].str.contains('BANK') == False), 'categorie'] = 'agricoop'
dataset_light.loc[(dataset_light['categorie'] == 'aclasser') & (dataset_light['nom'].str.contains('PROD|GOSPODARSTWO ROLNE|USŁUG')), 'categorie'] = 'entreprises'

In [18]:
# Entreprises
dataset_light.loc[dataset_light['nom'] == 'EDAM EDWARD GROMIAK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'PRYWATNA WYŻSZA SZKOŁA NAUK SPOŁECZNYCH KOMPUTEROWYCH I MEDYCZNYCH', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'TADEX POL PARK TECHNOLOGICZNY', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'XERO FLOR W POLSCE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'AGMAR DORADZTWO WPR MAŁGORZATA JAWORSKA-DUSZYK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'ABTVISION BARTOSZ TUNIA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'PAŁAC MORAWA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'BRZOSTOWO-KRAINA SZCZĘŚLIWYCH KRÓW', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'AD REM DARIUSZ JURECKI', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'MECHANIKA SAMOCHODOWA AUTO TOMEK TOMASZ LEMIESZKIEWICZ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'BAR RESTAURACJA U CHŁOPA LUCYNA GNIECKA I PRZEMYSŁAW GNIECKI', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'HODOWLA ZWIERZĄT ZARODOWYCH OSOWA SIEŃ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'ZAKŁAD OGÓLNO-ROLNY WIBAROLZ,LECH, K, ŻUK', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'ZARZĄD GRUNTÓW I LASÓW WSPÓLNYCH WŁAŚCICIELI NIERUCHOMOŚCI MIASTA MOGIELNICA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'SPÓŁDZIELCZA AGROFIRMA WITKOWO', 'categorie'] = 'agricoop'
# Institutions publiques
dataset_light.loc[dataset_light['nom'] == 'PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA', 'categorie'] = 'enseignementrech'
dataset_light.loc[dataset_light['nom'] == 'ZAKŁAD DOSKONALENIA ZAWODOWEGO W WARSZAWIE', 'categorie'] = 'enseignementrech'
dataset_light.loc[dataset_light['nom'] == 'PUBLICZNA SZKOŁA PODSTAWOWA W BORKACH WIELKICH', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'SZKOŁA PODSTAWOWA W SARBICACH', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'MIEJSKI ZARZĄD DRÓG', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'ZARZĄD ZIELENI MIEJSKIEJ WE WROCŁAWIU', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'UZDROWISKOWA GMINA MIEJSKA SZCZAWNO-ZDRÓJ', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'LUBICKIE WODOCIĄGI SP, Z O, O,', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'GMINNY SYSTEM WODOCIĄGÓW I KANALIZACJI KAMIENICA SP, Z O,O,', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'ZAKŁAD GOSPODARKI NIERUCHOMOŚCIAMI W DĄBROWIE', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'PAŁAC LUBOSTROŃ', 'categorie'] = 'collectivlocales'
dataset_light.loc[dataset_light['nom'] == 'ZAKŁAD OBSŁUGI GMINY SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ W CIESZANOWIE', 'categorie'] = 'collectivlocales'
# Associations et autres organisations à but non lucratif 
dataset_light.loc[dataset_light['nom'] == 'AKADEMIA PIŁKARSKA FREE KIDS', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'GÓRSKA SZKOŁA SZYBOWCOWA AP ŻAR', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'SUWALSKA SZKOŁA LOTNICZA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ARBORETUM I ZAKŁAD FIZJOGRAFII', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'MULTIS MULTUM', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'RAZEM JEST ŁATWIEJ', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'GRUPA HISTORYCZNA GUTTSTADT', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'NATURA INTERNATIONAL POLSKA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'FORUM KOBIET GMINY MILEJÓW', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'RZESZOWSKI OKRĘGOWY ZWIĄZEK ŻEGLARSKI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'PRO ANIMALE DLA ZWIERZĄT W POTRZEBIE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'FEDERACJA ZIELONYCH GAJA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CHORĄGIEW ZACHODNIOPOMORSKA ZHP', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'KRÓLEWSKIE PONIDZIE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'PTAKI POLSKIE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'NYSKIE KSIĘSTWO JEZIOR I GÓR', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'BANK ŻYWNOŚCI W ELBLĄGU', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'GMINNY ZWIĄZEK ROLNIKÓW, KÓŁEK I ORGANIZACJI ROLNICZYCH', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'DOM WCZASÓW DZIECIĘCYCH TPD W GŁAZIE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'LIGA OCHRONY PRZYRODY OKRĘG W TARNOBRZEGU', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'YACHT CLUB REWA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZJEDNOCZENIE ŁEMKÓW ZARZĄD GŁÓWNY', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'GRUPA EKOLOGICZNA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'PRZYJACIELE GRODZISKA OWIDZ', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZRZESZENIE KASZUBSKO-POMORSKIE ZARZĄD GŁÓWNY', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'IZBA- FUNDACJA ROZWOJU WSI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CENTRUM OCHRONY MOKRADEŁ', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'MIĘDZY WISŁĄ A KAMPINOSEM', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'MIĘDZY LUDŹMI I JEZIORAMI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'WSPÓLNIE DLA GMINY', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'NASZE JANOWICE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZWIĄZEK POLSKIEGO SPISZA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'PARTNERSTWO BORÓW NIEMODLIŃSKICH', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZIELONE MOSTY NARWI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZIELONY PIERŚCIEŃ TARNOWA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'GOŚCINIEC 4 ŻYWIOŁÓW', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'LIDER ZIELONEJ WIELKOPOLSKI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'TURKOWSKA UNIA ROZWOJU - T,U,R,', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ODDZIAŁ POLSKIEGO TOWARZYSTWA TURYSTYCZNO-KRAJOZNAWCZEGO IM, ZYGMUNTA KWIATKOWSKIEGO W GOLUBIU-DOBRZYNIU', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ZAGÓRZAŃSKI ZESPÓŁ FOLKLORYSTYCZNY DOLINA MSZANKI', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'RADŁOWSKIE FORUM ROZWOJU', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'SŁOWIŃSKA GRUPA RYBACKA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'POLSKI ZWIĄZEK EMERYTÓW RENCISTÓW I INWALIDÓW ODDZIAŁ REJONOWY W MICHAŁOWICACH', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'ŚLĄSKI OGRÓD BOTANICZNY', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CHRZEŚCIJAŃSKA SŁUŻBA CHARYTATYWNA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CENTRUM INICJATYW LOKALNYCH TILIA W LIPCE', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'MIĘDZYGMINNY ZWIĄZEK TURYSTYCZNY WIELKOPOLSKA GOŚCINNA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CENTRUM WSPIERANIA AKTYWNOŚCI SPOŁECZNEJ INICJATYWA', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'DOLNOODRZAŃSKA INICJATYWA ROZWOJU OBSZARÓW WIEJSKICH', 'categorie'] = 'nonprofit'
dataset_light.loc[dataset_light['nom'] == 'CENTRUM INICJATYW WIEJSKICH', 'categorie'] = 'nonprofit'
# Organisations liées à l'Église catholique romaine
dataset_light.loc[dataset_light['nom'] == 'TOWARZYSTWO SALEZJAŃSKIE', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'TOWARZYSTWO BOSKIEGO ZBAWICIELA PROWINCJA POLSKA KS, SALWATORIANIE', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'SIOSTRY FRANCISZKANKI MISJONARKI MARYI', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'KSIĘŻA SALWATORIANIE', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'FUNDACJA SAMARYTAŃSKI RUCH MARYI - JEDNOŚĆ', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'KOŁO GRUDZIĄDZKIE TOWARZYSTWA POMOCY IM, ŚW, BRATA ALBERTA', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'STOWARZYSZENIE PUBLICZNE WIERNYCH MISJONARKI KRWI CHRYSTUSA', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'PUCKIE HOSPICJUM PW, ŚW, OJCA PIO', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'DOM FORMACYJNY ŚWIĘTEGO WOJCIECHA W MIKOSZEWIE', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'DOM MACIERZYSTY ŚW, MICHAŁA ARCHANIOŁA', 'categorie'] = 'eglisecatholique'
dataset_light.loc[dataset_light['nom'] == 'OŚRODEK DLA OSÓB NIEPEŁNOSPRAWNYCH MIŁOSIERDZIE BOŻE ZAKŁAD AKTYWNOŚCI ZAWODOWEJ', 'categorie'] = 'eglisecatholique'
# Autres cultes
dataset_light.loc[dataset_light['nom'] == 'CHRZEŚCIJAŃSKA FUNDACJA DE`IGNIS - POLSKA', 'categorie'] = 'autrescultes'
dataset_light.loc[dataset_light['nom'] == 'CHRZEŚCIJAŃSKI ZWIĄZEK WYZNANIOWY ŹRÓDŁO', 'categorie'] = 'autrescultes'
dataset_light.loc[dataset_light['nom'] == 'ŚWIĄTYNIA MIĘDZYNARODOWEGO TOWARZYSTWA ŚWIADOMOŚCI KRYSZNY', 'categorie'] = 'autrescultes'
# Organisations professionnelles sectorielles
dataset_light.loc[dataset_light['nom'] == 'KRAJOWA RADA DROBIARSTWA-IZBA GOSPODARCZA', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'ZWIĄZEK POLSKIE MIĘSO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'STOWARZYSZENIE RZEŹNIKÓW I WĘDLINIARZY RZECZYPOSPOLITEJ POLSKIEJ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'ZWIĄZEK SADOWNIKÓW RZECZPOSPOLITEJ POLSKIEJ', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'UNIA PRODUCENTÓW I PRACODAWCÓW PRZEMYSŁU MIĘSNEGO', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'POLSKIE STOWARZYSZENIE PRODUCENTÓW OLEJU', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'POLSKA IZBA MAKARONU', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'MAŁOPOLSKI ZWIĄZEK HODOWCÓW KONI W KRAKOWIE', 'categorie'] = 'entreprises'
dataset_light.loc[dataset_light['nom'] == 'FUNDACJA FAPA POLSKA IZBA BANKOWOŚCI SPÓŁDZIELCZEJ', 'categorie'] = 'entreprises'

In [19]:
dataset_light[dataset_light['categorie'] == 'aclasser'].shape

(0, 7)

Tous les bénéficiaires ont été catégorisés.

## Identification des bénéficiaires
Dans cette partie, on ignorera les bénéficiaires appartenant aux catégories institutions publiques (services de l'État ou collectivités locales) qui reçoivent le plus souvent des fonds au titre de l'assistance technique ou du développement rural.

In [20]:
dataset_light['categorie'].value_counts()

individuels         1329330
entreprises            3880
collectivlocales       1715
nonprofit              1045
chasseurs               973
agricoop                954
eglisecatholique        876
foretsetat              256
pompiers                252
enseignementrech        154
apiculteurs              87
autrescultes             79
servicesetat             27
Name: categorie, dtype: int64

In [21]:
print('Top 20 des bénéficiaires par entité juridique')
dataset_light[(dataset_light['categorie'].str.contains('servicesetat|collectivlocales') == False)].sort_values(by='total', ascending=False).head(20)

Top 20 des bénéficiaires par entité juridique


Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,total,categorie
1339140,,,"SEBEX SP, Z O,O, SP, K,",WARSZAWA,02-281,7434031.79,entreprises
1335996,,,"TOP FARMS GŁUBCZYCE SPÓŁKA Z O,O,",GŁUBCZYCE,48-100,6021823.37,entreprises
1336558,,,"KOMBINAT ROLNY KIETRZ SP, Z O,O,",KIETRZ,48-130,5715123.94,entreprises
1335683,,,"TOP FARMS WIELKOPOLSKA SP, Z O, O,",CZEMPIŃ,64-020,5506604.91,entreprises
1338627,,,SPÓŁDZIELCZA AGROFIRMA WITKOWO,STARGARD,73-102,5239728.16,agricoop
1335065,,,AWRA INWESTYCJE SZYMKOWIAK I WSPÓLNICY SPÓŁKA ...,ODOLANÓW,63-430,5000000.0,entreprises
1337783,,,ANDERSEN POLAND SPÓŁKA Z OGRANICZONĄ ODPOWIEDZ...,OŚWIĘCIM,32-600,4719998.55,entreprises
1336215,,,WALDI ZAKŁADY MIĘSNE SPÓŁKA Z OGRANICZONĄ ODPO...,GRODZISK WIELKOPOLSKI,62-065,4696864.0,entreprises
1339141,,,UNIA PRODUCENTÓW I PRACODAWCÓW PRZEMYSŁU MIĘSNEGO,WARSZAWA,00-478,4598056.06,entreprises
1338037,,,GOODVALLEY AGRO SPÓLKA AKCYJNA,PRZECHLEWO,77-320,4547583.01,entreprises


In [22]:
print('Distribution des fonds par catégorie')
distrib_cat = dataset_light.groupby(['categorie']).sum()
distrib_cat['pourcentage'] = distrib_cat['total'] / distrib_cat['total'].sum() * 100
distrib_cat.sort_values(by='total', ascending=False)

Distribution des fonds par catégorie


Unnamed: 0_level_0,total,pourcentage
categorie,Unnamed: 1_level_1,Unnamed: 2_level_1
individuels,18125939890.61,82.72
collectivlocales,1730434285.18,7.9
entreprises,1242406278.83,5.67
nonprofit,272623308.41,1.24
agricoop,260392039.8,1.19
servicesetat,134019517.92,0.61
enseignementrech,36886889.16,0.17
chasseurs,28125361.27,0.13
foretsetat,22846628.91,0.1
eglisecatholique,22622874.98,0.1


L'entreprise [Sebex](https://www.mleczarze.pl), qui se plaçait déjà en première position du classement pour l'année 2018 avec un montant similaire de subventions, tire avant tout profit des programmes de promotion de la consommation de lait, de fruits et de légumes dans les écoles.

On remarque en revanche que le nom TOP FARMS apparaît deux fois, respectivement en deuxième et quatrième position. Ceci invite à rechercher l'existence d'éventuels liens entre entités juridiques a priori distinctes.

Cette [page web](https://www.spearheadinternational.com/s,157,group-structure.html) affiche la liste des filiales de la holding Top Farms Sp. z o.o., elle-même détenue à 100% par la holding de droit britannique [Farmwealth Limited](https://beta.companieshouse.gov.uk/company/01356861). On ne retiendra pas la société Masfrost qui a été [cédée au début de l'année 2020](http://masfrost.pl/wp-content/uploads/2020/01/Pismo_inform_zarzad_PL.pdf).

In [23]:
topfarms = dataset_light[dataset_light['nom'].str.contains('TOP FARMS|JAGROL|AGRO-FUNDUSZ MAZURY|KSIĄŻ-ROL|ROLIMPEX') == True]
display(topfarms)
print('Total des subventions perçues en 2019 par les différentes entités polonaises de la holding Top Farms :', f"{topfarms['total'].sum().round(2):,}", 'PLN')

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,total,categorie
1335205,,,"AGRO-FUNDUSZ MAZURY SP, Z O,O,",BARCIANY,11-410,2038708.83,entreprises
1335683,,,"TOP FARMS WIELKOPOLSKA SP, Z O, O,",CZEMPIŃ,64-020,5506604.91,entreprises
1335996,,,"TOP FARMS GŁUBCZYCE SPÓŁKA Z O,O,",GŁUBCZYCE,48-100,6021823.37,entreprises
1336786,,,JAGROL SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ,KÓRNIK,62-035,1100251.51,entreprises
1336827,,,"TOP FARMS POMORSKIE SP, Z O,O,",KROKOWA,84-113,854295.03,entreprises
1336887,,,KSIĄŻ-ROL SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ,KSIĄŻ WIELKOPOLSKI,63-130,1343106.49,entreprises
1337976,,,TOP FARMS SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ,POZNAŃ,60-408,1435539.08,entreprises


Total des subventions perçues en 2019 par les différentes entités polonaises de la holding Top Farms : 18,300,329.22 PLN


In [24]:
awra = dataset_light[dataset_light['nom'].str.contains(r'\bAWRA\b', regex=True) == True]
display(awra)
print('Total des subventions perçues en 2019 par les différentes entités du groupe AWRA :', f"{awra['total'].sum().round(2):,}", 'PLN')

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,total,categorie
1335065,,,AWRA INWESTYCJE SZYMKOWIAK I WSPÓLNICY SPÓŁKA ...,ODOLANÓW,63-430,5000000.0,entreprises
1337626,,,AWRA GROUP SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNO...,ODOLANÓW,63-430,1424196.75,entreprises


Total des subventions perçues en 2019 par les différentes entités du groupe AWRA : 6,424,196.75 PLN


Ce document contient la liste des différentes entités du groupe Goodvalley : https://www.goodvalley.com/media/1698/ar19.pdf.

In [25]:
goodvalley = dataset_light[dataset_light['nom'].str.match('GOODVALLEY AGRO SPÓLKA AKCYJNA|AGRO GĘBARZEWO SP, Z,O,O|ZEGROL SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ|OŚRODEK HODOWLI ZARODOWEJ SP, Z O,O, KŁANINO') == True]
display(goodvalley)
print('Total des subventions perçues en 2019 par les différentes entités du groupe Goodvalley :', f"{goodvalley['total'].sum().round(2):,}", 'PLN')

Unnamed: 0,prenom,nomfamille,nom,commune,codepostal,total,categorie
998627,,,ZEGROL SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ,ŚWIESZYNO,76-024,12132.4,entreprises
1335365,,,"OŚRODEK HODOWLI ZARODOWEJ SP, Z O,O, KŁANINO",BOBOLICE,76-020,391901.12,entreprises
1338037,,,GOODVALLEY AGRO SPÓLKA AKCYJNA,PRZECHLEWO,77-320,4547583.01,entreprises
1338041,,,"AGRO GĘBARZEWO SP, Z,O,O",PRZECHLEWO,77-320,407338.96,entreprises


Total des subventions perçues en 2019 par les différentes entités du groupe Goodvalley : 5,358,955.49 PLN


In [26]:
print("Détail des types de subventions perçues par les Forêts d'État")
foretsetat_index = dataset_light[dataset_light['categorie'] == 'foretsetat'].index
foretsetat_details = dataset.iloc[foretsetat_index, :].sum(numeric_only=True)
foretsetat_details = foretsetat_details[foretsetat_details != 0]
foretsetat_details = pd.DataFrame(foretsetat_details, columns=['total_mesure'])
foretsetat_details['pourcentage'] = foretsetat_details['total_mesure'] / foretsetat_details.loc['total', 'total_mesure'] * 100
foretsetat_details

Détail des types de subventions perçues par les Forêts d'État


Unnamed: 0,total_mesure,pourcentage
m2_2,8506509.55,37.23
m2_3,954418.69,4.18
m2_4,5716759.7,25.02
m2_7,177047.38,0.77
m2_10,180306.21,0.79
m4a_15,5865125.91,25.67
m4a_16,67281.94,0.29
m4a_18,1379179.53,6.04
total,22846628.91,100.0


In [27]:
print('Détail des types de subventions perçues par les organisations de chasseurs')
chasseurs_index = dataset_light[dataset_light['categorie'] == 'chasseurs'].index
chasseurs_details = dataset.iloc[chasseurs_index, :].sum(numeric_only=True)
chasseurs_details = chasseurs_details[chasseurs_details != 0]
chasseurs_details = pd.DataFrame(chasseurs_details, columns=['total_mesure'])
chasseurs_details['pourcentage'] = chasseurs_details['total_mesure'] / chasseurs_details.loc['total', 'total_mesure'] * 100
chasseurs_details

Détail des types de subventions perçues par les organisations de chasseurs


Unnamed: 0,total_mesure,pourcentage
m2_2,9829199.57,34.95
m2_3,2153795.05,7.66
m2_4,6607258.41,23.49
m2_6,9473.8,0.03
m2_7,473319.02,1.68
m2_10,159396.9,0.57
m4a_3,2317.48,0.01
m4a_4,94200.0,0.33
m4a_9,12623.8,0.04
m4a_15,5299024.64,18.84


## Distribution des paiements

In [28]:
dataset_distrib = dataset_light[(dataset_light['categorie'].str.contains('servicesetat|collectivlocales') == False)]

In [29]:
dataset_distrib['total'].describe(percentiles=[.25, .5, .75])

count   1337886.00
mean      14984.11
std       49816.69
min           0.01
25%        2171.66
50%        5065.39
75%       13215.57
max     7434031.79
Name: total, dtype: float64

In [30]:
print('Nombre de bénéficiaires percevant moins de 13215,57 PLN :', f"{dataset_distrib[dataset_distrib['total'] < 13215.57].shape[0]:,}")

Nombre de bénéficiaires percevant moins de 13215,57 PLN : 1,003,410


In [31]:
million = dataset_distrib[dataset_distrib['total'] < 13215.57]
print('Somme des subventions inférieures au troisième quartile :', f"{million['total'].sum().round(2):,}", 'PLN')
print('En proportion du total :', f"{(million['total'].sum() / dataset_distrib['total'].sum()).round(2):,}")

Somme des subventions inférieures au troisième quartile : 4,390,133,504.41 PLN
En proportion du total : 0.22


In [32]:
plafond = dataset_distrib[dataset_distrib['total'] > 437820]
print('Nombre de bénéficiaires percevant plus de 100 000 euros :', f"{plafond.shape[0]:,}")
print('Somme des subventions supérieures à 100 000 euros :', f"{plafond['total'].sum().round(2):,}", 'PLN')
print('En proportion du total :', f"{(plafond['total'].sum() / dataset_distrib['total'].sum()).round(2):,}")

Nombre de bénéficiaires percevant plus de 100 000 euros : 2,469
Somme des subventions supérieures à 100 000 euros : 1,968,035,119.44 PLN
En proportion du total : 0.1
