1/ Importation des données TC et TITMC 

2/ Import et traitement du fichier des prénoms 

3/ Ajouter le genre des personnes 

4/ Codification des adresses 

5/ Ajout et traitement du code commune

6/ Retraiter et simplifier les qualités 

In [None]:
# Lecture de la base inpi
import os
import s3fs
import pandas as pd
# Create filesystem object
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})
BUCKET = "radjerad/inpi"
FILE_KEY_S3 = "data_rep_pm_2017.csv"
FILE_PATH_S3 = BUCKET + "/" + FILE_KEY_S3

with fs.open(FILE_PATH_S3, mode="rb") as file_in:
    df_rep_pm = pd.read_csv(file_in, sep=";", encoding="utf-8")

In [None]:
df_rep_pm.shape # 9 751 833

In [None]:
df_rep_pm = df_rep_pm.rename({"code greffe": "code_greffe"}, axis=1)

In [None]:
df_rep_pm = df_rep_pm.loc[:, ["code_greffe", "siren", "denomination", "forme_juridique_x", "qualité",
"nom_patronymique", "nom_usage", "prénoms", "type", "date_naissance", "ville_naissance", "adresse_ligne1", "adresse_ligne2",
"adresse_ligne3", "code_postal", "ville", "code_commune", "pays", "id_représentant"]]

In [None]:
df_rep_pm = df_rep_pm.rename({"forme_juridique_x": "forme_juridique", "prénoms": "prenoms", "qualité": "qualite", "id_représentant": "id_representant"}, axis=1)

In [None]:
df_rep_pm.head(10)

In [None]:
df_rep_pm["qualite"].isna().sum() # 246 926

In [None]:
# Traitement des cas où le nom et les prénoms sont manquants

re2 = "(\sNEE\s[A-Za-z\-]+)\s([A-Za-z\-\.\s]+)"


In [None]:
df_rep_pm.loc[df_rep_pm["prenoms"] == "-", "prenoms"] = ""

In [None]:
df_rep_pm.loc[df_rep_pm["prenoms"] == "", :].shape # 4 448

In [None]:
df_rep_pm.loc[(df_rep_pm["prenoms"] == "") & (df_rep_pm["type"] == "P.Physique"), :].shape # 4 448

In [None]:
re1 = "(INDIVISION SUCCESSORALE DE M\.\s|\sM\.\s|^M\.\s|MME\.\s|MR\.\s|MELLE\.\s|MONSIEUR\.?\s|MADAME\.?\s|MLLE\.\s|REPRESENTEE\sPAR\sMONSIEUR\.?\s|REPRESENTEE\sPAR\s)"
df_rep_pm["top_civilite"] = df_rep_pm["nom_patronymique"].str.contains(re1, regex=True)

In [None]:
df_rep_pm.loc[df_rep_pm["top_civilite"] == True, "nom_patronymique"].head()

In [None]:
df_rep_pm["contenu_civilite"] = df_rep_pm["nom_patronymique"].str.extract(re1)

In [None]:
df_rep_pm.loc[df_rep_pm["top_civilite"] == True, "contenu_civilite"].head()

In [None]:
df_rep_pm["nom_patronymique2"] = df_rep_pm["nom_patronymique"]

In [None]:
df_rep_pm["nom_patronymique2"] = df_rep_pm["nom_patronymique2"].str.replace(re1,"")

In [None]:
from pandas import option_context
with option_context('display.max_colwidth', 400):
    print(df_rep_pm.loc[df_rep_pm["top_civilite"] == True, "nom_patronymique2"].head(10))

In [None]:
# on repartit les noms et les prénoms dans les bonnes variables
# on a modifié un peu le code de l'insee pour enlever les representee par, ici aussi car on va essayer de prendre en compte les particules
particule = "(DU\s[A-Za-z]+|DE\sLA\s[A-Za-z]+|[A-Za-z]+\sDU\s[A-Za-z]+|[A-Za-z]+\sDE\sLA\s[A-Za-z]+|DE\s[A-Za-z]+|[A-Za-z]+\sDE\s[A-Za-z]+)"
#particule = "(DU\s|DE\sLA\s|\sDU\s|\sDE\sLA\s|DE\s|\sDE\s)"
df_rep_pm["top_particule"] = df_rep_pm["nom_patronymique"].str.contains(particule, regex=True)

In [None]:
df_rep_pm.loc[(df_rep_pm["prenoms"] == "") | (df_rep_pm["prenoms"].isna()),:].shape # 1093022

In [None]:
df_rep_pm.loc[(df_rep_pm["prenoms"] == ""),:].shape # 4448, mais ce sont tous des cas différents, donc on n'a pas envie de séparer nom et prénoms comme le fait l'insee

In [None]:
df_rep_pm.loc[(df_rep_pm["top_particule"] == True) & (df_rep_pm["prenoms"] == ""), "nom_patronymique2"].head(10)

In [None]:
df_rep_pm.loc[df_rep_pm["nom_usage"].isna(), :].head() # pas d'info parfois quand il y a l'info nom patronymique et prénoms 

In [99]:
# nettoyage de la variable qualite 
df_rep_pm["qualite"].value_counts()

Gérant                                  2413218
Associé                                 2174834
Gérant                                  1112522
Associé indéfiniment responsable        1089112
gérant                                   633900
                                         ...   
Adhérent                                      1
Directeur technique et administratif          1
Comptable                                     1
Contrôleur des comptes adjoint                1
Mandataire général                            1
Name: qualite, Length: 371, dtype: int64

In [100]:
df_rep_pm["qualite2"] = df_rep_pm["qualite"]

In [104]:
df_rep_pm["qualite2"] = df_rep_pm["qualite2"].str.lower()
df_rep_pm["qualite2"] = df_rep_pm["qualite2"].str.strip()

In [105]:
df_rep_pm["qualite2"].value_counts()

gérant                                                                                                              4159640
associé                                                                                                             2174857
associé indéfiniment responsable                                                                                    1089112
président                                                                                                            578505
commissaire aux comptes titulaire                                                                                    249159
                                                                                                                     ...   
adhérent                                                                                                                  1
directeur technique et administratif                                                                                      1
membre t

In [106]:
# nettoyage de la dénomination
df_rep_pm["denomination2"] = df_rep_pm["denomination"]

In [108]:
df_rep_pm["denomination2"] = df_rep_pm["denomination2"].str.lower()

In [109]:
df_rep_pm["denomination2"].head(10)

0                                    agir technologies
1                                                doras
2    societe immobiliere financiere d etudes et de ...
3    societe immobiliere financiere d etudes et de ...
4    societe immobiliere financiere d etudes et de ...
5    societe immobiliere financiere d etudes et de ...
6       societe nationale des etablissements piot pneu
7                                           richardson
8                                                samse
9                                                 bmra
Name: denomination2, dtype: object

In [110]:
# codification des adresses
df_rep_pm.columns

Index(['code_greffe', 'siren', 'denomination', 'forme_juridique', 'qualite', 'nom_patronymique', 'nom_usage', 'prenoms', 'type', 'date_naissance', 'ville_naissance', 'adresse_ligne1', 'adresse_ligne2', 'adresse_ligne3', 'code_postal', 'ville', 'code_commune', 'pays', 'id_representant', 'top_civilite', 'contenu_civilite', 'nom_patronymique2', 'top_particule', 'qualite2', 'denomination2'], dtype='object')

In [112]:
df_rep_pm["ville"].head(10)

0           NaN
1           NaN
2    Carpentras
3         Paris
4    Carpentras
5    Strasbourg
6           NaN
7           NaN
8           NaN
9           NaN
Name: ville, dtype: object

In [113]:
df_rep_pm.loc[df_rep_pm["ville"] == "", :].shape

(0, 25)

In [116]:
df_rep_pm.loc[(df_rep_pm["ville"].isna()) & (df_rep_pm["adresse_ligne3"].isna() == False), :].head(10) #90740

Unnamed: 0,code_greffe,siren,denomination,forme_juridique,qualite,nom_patronymique,nom_usage,prenoms,type,date_naissance,ville_naissance,adresse_ligne1,adresse_ligne2,adresse_ligne3,code_postal,ville,code_commune,pays,id_representant,top_civilite,contenu_civilite,nom_patronymique2,top_particule,qualite2,denomination2
27,101,73500050,SARL DUMAN,Société à responsabilité limitée,Gérant,BORODAGE,,Vilem Pierre,P.Physique,1945-12-27,TRNOVANY TCHECOSLOVAQUIE,,AV. HOFF,BELLEY,1300.0,,,FRANCE,1.0,False,,BORODAGE,False,gérant,sarl duman
78,101,300434446,TRANCHAND,Société par actions simplifiée,Directeur général,TRANCHAND,,Claude,P.Physique,1937-11-12,Belley 01,,rue Grammont,Belley,1300.0,,,FRANCE,1.0,False,,TRANCHAND,False,directeur général,tranchand
239,101,301296075,SOCIETE JURASSIENNE DE CONSTRUCTION,Société à responsabilité limitée,Gérant,DAVID,SCHAPOSCHNIKOFF,Alice Henriette,P.Physique,1930-01-28,LA TRONCHE 38,,45B BD. CDT CHARCOT,NEUILLY SUR SEINE,,,,FRANCE,1.0,False,,DAVID,False,gérant,societe jurassienne de construction
256,101,301524302,ENTREPRISE PETETIN,Société à responsabilité limitée,Gérant,PETETIN,,Jean-Yves Raoul,P.Physique,1965-05-01,Bourg-en-Bresse - 01,,1515 chemin des Rippes,01000 Saint-Denis-Les-Bourg,,,,FRANCE,1.0,False,,PETETIN,False,gérant,entreprise petetin
278,101,301899522,ANDRE NEYRET IMMOBILIER,Société à responsabilité limitée,Gérant,NEYRET,,André,P.Physique,1946-11-26,Crans 01,,Crans,Chalamont,,,,FRANCE,1.0,False,,NEYRET,False,gérant,andre neyret immobilier
303,101,302329420,MACDERMID FRANCE,Société par actions simplifiée à associé unique,Président,TORNE SANCHO,,Javier,P.Physique,1975-05-18,Barcelone,,C/valencia 87-89 Atico 1a,Barcelone,,,,ESPAGNE,26.0,False,,TORNE SANCHO,False,président,macdermid france
314,101,302458344,STYL MONDE SA,Société anonyme à directoire et conseil de sur...,Membre du directoire,MOREAU,,Bernard Jean-Paul,P.Physique,1961-11-20,38516 La tronche 38,,le Rampot,Chazey-sur-Ain 01,,,,FRANCE,8.0,False,,MOREAU,False,membre du directoire,styl monde sa
394,101,302725197,SCI DU BALZAC,Société civile immobilière,Associé indéfiniment responsable,TURRETTINI,,Benedict Francois,P.Physique,1944-10-16,Zurich (suisse),le Coin Perdu,Ch des Champs de Chaux Sa,Vesenaz CH 1222,,,,SUISSE,1.0,False,,TURRETTINI,False,associé indéfiniment responsable,sci du balzac
395,101,302725197,SCI DU BALZAC,Société civile immobilière,Gérant,TURRETTINI,,Benedict Francois,P.Physique,1944-10-16,Zurich (suisse),le Coin Perdu,Ch des Champs de Chaux Sa,Vesenaz CH 1222,,,,SUISSE,1.0,False,,TURRETTINI,False,gérant,sci du balzac
400,101,303242408,CEDEC SA,Société de droit étranger,Président du conseil d'administration,NICLAUS,,Jean Émile,P.Physique,1930-01-26,Gent (Belgique),le prince de galle,10 avenue de Grande-Bretagne,98000 Monaco,,,,MONACO,2.0,False,,NICLAUS,False,président du conseil d'administration,cedec sa


In [117]:
df_rep_pm.loc[(df_rep_pm["ville"].isna()) & (df_rep_pm["adresse_ligne3"].isna() == False), "ville"] = \
    df_rep_pm.loc[(df_rep_pm["ville"].isna()) & (df_rep_pm["adresse_ligne3"].isna() == False), "adresse_ligne3"]

In [118]:
df_rep_pm["ville2"] = df_rep_pm["ville"]

In [119]:
df_rep_pm["ville2"] = df_rep_pm["ville2"].str.lower()

In [120]:
df_rep_pm["ville2"].head(10)

0           NaN
1           NaN
2    carpentras
3         paris
4    carpentras
5    strasbourg
6           NaN
7           NaN
8           NaN
9           NaN
Name: ville2, dtype: object

In [127]:
df_rep_pm["ville2"] = (df_rep_pm["ville2"].str.replace("à", "a")
                                            .str.replace("è", "e")
                                            .str.replace("é", "e")
                                            .str.replace("ç", "c")
                                            .str.replace("ù", "u")
                                            .str.replace("ô", "o"))

In [129]:
df_rep_pm["ville2"].value_counts()

paris                                 720512
marseille                             134835
lyon                                  104458
toulouse                               75744
nice                                   73523
                                       ...  
marseille 4eme                             1
ambatondrazaka (madagascar)                1
london w 13 9 be (grande bretagne)         1
42441 angered (suede)                      1
56283 beulich                              1
Name: ville2, Length: 134995, dtype: int64