## Necessary imports

In [1]:
import numpy as np
import pandas as pd

In [2]:
def remove_space_at_the_end(x: str):
    if x is not None:
        return x.strip()

def replace_double_quote(x: str):
    if x is not None:
        return x.replace("\"\"", "'")

def normalize(data: pd.DataFrame, text_columns):
    data[text_columns] = data[text_columns].apply(
        lambda x: x.apply(remove_space_at_the_end)
    )

    data[text_columns] = data[text_columns].apply(
        lambda x: x.apply(replace_double_quote)
    )

    data["titre"] = data["titre"].apply(lambda x: x.upper())
    data["objet"] = data["objet"].apply(lambda x: x.lower())

    return data



## Load and viz data

In [3]:
data = pd.read_csv("../ref-rna-real-mars-2022-enriched-not-qualified.csv", index_col=0)
data = data[data.columns[1:]] # ignore first column it is index not correctly saved

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1071 entries, 0 to 1070
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      1071 non-null   object 
 1   titre                   1071 non-null   object 
 2   objet                   1071 non-null   object 
 3   adrs_numvoie            978 non-null    object 
 4   adrs_typevoie           989 non-null    object 
 5   adrs_libvoie            1015 non-null   object 
 6   adrs_codepostal         1070 non-null   float64
 7   adrs_libcommune         1071 non-null   object 
 8   siteweb                 32 non-null     object 
 9   adrs                    1071 non-null   object 
 10  dept                    1071 non-null   object 
 11  region                  1071 non-null   object 
 12  social_object1_libelle  1071 non-null   object 
 13  social_object2_libelle  1071 non-null   object 
 14  longitude               1071 non-null   

In [5]:
text_columns = [
    "titre", "objet", "social_object1_libelle", "social_object2_libelle"
]

data = normalize(data, text_columns)
data.sample(5)

Unnamed: 0,id,titre,objet,adrs_numvoie,adrs_typevoie,adrs_libvoie,adrs_codepostal,adrs_libcommune,siteweb,adrs,dept,region,social_object1_libelle,social_object2_libelle,longitude,latitude,facebook_url,helloasso_url
53,W751218914,ASSOCIATION 347 BIS SOLIDARITE LGBT CAMEROUN,défense des droits humains tels que définis pa...,51.0,AV,Gambetta,75020.0,Paris,,51 AV Gambetta 75020 Paris,Paris,Île-de-France,AMICALES/ GROUPEMENTS AFFINITAIRES/ GROUPEMENT...,AUTRES,2.394138,48.864734,https://www.facebook.com/347Bis,https://www.helloasso.com/associations/stop-ho...
424,W771001914,STEPH'SON ET LUMIERE,permettre le développement et l'encadrement d'...,3.0,ALL,des Moissonneurs,77500.0,Chelles,,3 ALL des Moissonneurs 77500 Chelles,Seine-et-Marne,Île-de-France,CULTURE/ PRATIQUES D'ACTIVITÉS ARTISTIQUES/ PR...,AUTRES,2.611912,48.88742,https://www.facebook.com/STEPHSON-LUMIERES-180...,https://www.helloasso.com/associations/associa...
1032,W531001378,MA MAISON EST TA MAISON,permettre â des personnes habitant au cameroun...,,,,53290.0,Bouère,,53290 Bouère,Mayenne,Pays de la Loire,AMICALES/ GROUPEMENTS AFFINITAIRES/ GROUPEMENT...,AUTRES,-0.479571,47.863856,https://www.facebook.com/locksjacky/videos/ma-...,https://www.helloasso.com/associations/la-maso...
27,W751203402,FORUM CAMEROUNAIS ET AMIS DU CAMEROUN (FOCAC),promouvoir avec les jeunes issus de l'immigrat...,33.0,RUE,Polonceau,75018.0,Paris,,33 RUE Polonceau 75018 Paris,Paris,Île-de-France,AIDE À L'EMPLOI/ DÉVELOPPEMENT LOCAL/ PROMOTIO...,AUTRES,2.352095,48.885868,https://www.facebook.com/Mes-amis-du-Cameroun-...,https://www.helloasso.com/associations/feiac-f...
370,W931013378,FEMMES DYNAMIQUES DU NOUN FDN,mettre en place des parrainages pour aider les...,52.0,RUE,Jean Jaurès,92230.0,Gennevilliers,,52 RUE Jean Jaurès 92230 Gennevilliers,Hauts-de-Seine,Île-de-France,CULTURE/ PRATIQUES D'ACTIVITÉS ARTISTIQUES/ PR...,AUTRES,2.294842,48.928173,https://fr-fr.facebook.com/dynamiques.femmes,https://www.helloasso.com/associations/associa...


## Save without index

In [6]:
filename = '../ref-rna-real-mars-2022-enriched-not-qualified-process'
data.to_csv(f'./{filename}.csv', index=False)