In [2]:
import pandas as pd
import re
import unicodedata

In [3]:
article = pd.read_csv("articles.csv")

In [4]:
article.head()

Unnamed: 0,Titre,Lien,Date,Texte
0,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - Le Gabon a mené plusieurs ac...
1,,https://www.agenceecofin.com/actualites-infras...,25/01/2025,(Agence Ecofin) - L'année 2025 s'annonce comme...
2,,https://www.agenceecofin.com/actualites-cultur...,25/01/2025,(Agence Ecofin) - Interrogé en 1920 par un cri...
3,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,"(Agence Ecofin) - Au menu, le retrait des Etat..."
4,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - La population de Madagascar ...


In [5]:
len(article)

203

In [6]:
article.isnull().sum()

Titre    203
Lien       0
Date       0
Texte      0
dtype: int64

In [7]:
article.Texte[0]

'(Agence Ecofin) - Le Gabon a mené plusieurs actions ces dernières années pour valoriser la transformation industrielle de son bois, volet porteur d’une économie jusqu’ici dominée par le pétrole.\nL’indice composite des activités industrielles du domaine du bois au Gabon a grimpé de 4% en glissement trimestriel au 3etrimestre 2024, selon la dernière note conjoncturelle du ministère de l’Economie. Cette appréciation s’explique,relaieLe Nouveau Gabon, par la stabilité de la demande chinoise, le géant asiatique étant le principal client pour le bois gabonais, notamment celui de placage et le contreplaqué.\nL’indice de production du contreplaqué a ainsi augmenté de 19% par rapport au 2etrimestre 2024, poussé selon le ministère par la demande en Asie, en UE et sur le marché local. L’indice pour le bois de placage a quant à lui grimpé de 11% par rapport au trimestre précédent, soutenu par la demande en provenance de Chine.\nIl n’y a néanmoins pas eu d’embellie sur le segment du sciage, qui a

In [8]:
def nettoyer(texte):
    # Extraire la partie avant le tiret comme source
    match = re.match(r'^(.*?) - (.*)', texte)
    if match:
        source = match.group(1).strip()  # Partie avant le tiret
        contenu = match.group(2).strip()  # Texte après le tiret
        
        # Supprimer les parenthèses et leur contenu de la source
        source = re.sub(r'^\((.*?)\)$', r'\1', source).strip()
    else:
        source = None
        contenu = texte.strip()  # Si aucun tiret n'est trouvé, tout le texte est mis dans contenu

    # Nettoyer le contenu
    contenu = re.sub(r'(\d+)e([a-zA-ZéèêëÉÈÊË])', r'\1e \2', contenu)  # Corrige "3etrimestre" -> "3e trimestre"
    contenu = re.sub(r'\n+', ' ', contenu)  # Remplace les sauts de ligne par des espaces
    contenu = re.sub(r'\s{2,}', ' ', contenu)  # Supprime les espaces multiples
    contenu = contenu.strip() # Supprimer les espaces en debut et en fin
    
    return source, contenu




In [9]:
def extraire_source_et_contenu(texte):
    """Extrait la source et le contenu à partir du texte."""
    # Utiliser re.split pour diviser le texte en deux parties
    parties = re.split(r' - ', texte, 1)  # Limite à 1 pour ne diviser qu'une fois
    if len(parties) == 2:
        source = parties[0].strip()  # Partie avant le tiret
        contenu = parties[1].strip()  # Texte après le tiret
        
        # Supprimer les parenthèses et leur contenu de la source
        #source = re.sub(r'\(.*?\)', '', source).strip()
        source = re.sub(r'^\((.*?)\)$', r'\1', source).strip()
    else:
        source = None
        contenu = texte.strip()  # Si aucun tiret n'est trouvé, tout le texte est mis dans contenu

    return source, contenu

In [10]:
def nettoyer_contenu1(contenu):
    """Nettoie le contenu en supprimant les espaces inutiles, en corrigeant le format et en supprimant le texte après le dernier point."""
    
    # Trouver l'index du dernier point
    dernier_point = contenu.rfind('.')
    if dernier_point != -1:
        contenu = contenu[:dernier_point + 1].strip()  # Conserver le texte jusqu'au dernier point inclus

    # Correction des formats spécifiques
    contenu = re.sub(r'(\d+)e([a-zA-ZéèêëÉÈÊË])', r'\1e \2', contenu)  
    
    # Remplacer les sauts de ligne par des espaces
    contenu = re.sub(r'\n+', ' ', contenu)
    
    # Supprimer les espaces multiples
    contenu = re.sub(r'\s{2,}', ' ', contenu)
    
    # Supprimer les espaces en début et en fin
    contenu = contenu.strip()
    
    return contenu


In [11]:
import re

def nettoyer_contenu(contenu):
    """Nettoie le contenu en supprimant les espaces inutiles, en corrigeant le format, et en supprimant le texte après la dernière occurrence de '.\n'."""
    
    # Trouver l'index de la dernière occurrence de '.\n'
    index_sequence = contenu.rfind('.\n')
    if index_sequence != -1:
        # Conserver le texte jusqu'à la dernière occurrence de '.\n'
        contenu = contenu[:index_sequence + 1].strip()  

    # Correction des formats spécifiques
    contenu = re.sub(r'(\d+)e([a-zA-ZéèêëÉÈÊË])', r'\1e \2', contenu)
    
    # Remplacer les sauts de ligne par des espaces
    contenu = re.sub(r'\n+', ' ', contenu)
    
    # Supprimer les espaces multiples
    contenu = re.sub(r'\s{2,}', ' ', contenu)
    
    # Supprimer les espaces en début et en fin
    contenu = contenu.strip()
    
    return contenu

In [12]:
article[['Source', 'Contenu']] = article['Texte'].apply(lambda x: pd.Series(extraire_source_et_contenu(x)))
article['Contenu'] = article['Contenu'].apply(nettoyer_contenu)

# Afficher les premières lignes 
article.head()


Unnamed: 0,Titre,Lien,Date,Texte,Source,Contenu
0,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - Le Gabon a mené plusieurs ac...,Agence Ecofin,Le Gabon a mené plusieurs actions ces dernière...
1,,https://www.agenceecofin.com/actualites-infras...,25/01/2025,(Agence Ecofin) - L'année 2025 s'annonce comme...,Agence Ecofin,L'année 2025 s'annonce comme charnière pour le...
2,,https://www.agenceecofin.com/actualites-cultur...,25/01/2025,(Agence Ecofin) - Interrogé en 1920 par un cri...,Agence Ecofin,Interrogé en 1920 par un critique sur son rapp...
3,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,"(Agence Ecofin) - Au menu, le retrait des Etat...",Agence Ecofin,"Au menu, le retrait des Etats-Unis de l’OMS, l..."
4,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - La population de Madagascar ...,Agence Ecofin,La population de Madagascar est majoritairemen...


In [13]:
article.Lien[0:3]

0    https://www.agenceecofin.com/actualites/2501-1...
1    https://www.agenceecofin.com/actualites-infras...
2    https://www.agenceecofin.com/actualites-cultur...
Name: Lien, dtype: object

In [14]:
# Fonction pour extraire le titre
def extraire_titre(url):
    # Vérifier le format avec des nombres suivis de tirets
    match_nombres = re.search(r'actualites/\d+-\d+-(.*)', url)
    # Vérifier le format avec un titre simple
    #match_simple = re.search(r'actualites-(.*)', url)
    match_simple = re.search(r'actualites-[a-z]+/\d+-\d+-(.*)', url)
    
    if match_nombres:
        return match_nombres.group(1).replace('-', ' ').capitalize()  # Remplacer les tirets par des espaces
    elif match_simple:
        return match_simple.group(1).replace('-', ' ').capitalize()  # Titre simple
    return "Titre non trouvé."

In [15]:
article['titre'] = article['Lien'].apply(lambda x: extraire_titre(x))

In [16]:
article.head()

Unnamed: 0,Titre,Lien,Date,Texte,Source,Contenu,titre
0,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - Le Gabon a mené plusieurs ac...,Agence Ecofin,Le Gabon a mené plusieurs actions ces dernière...,Gabon la production industrielle de bois en ha...
1,,https://www.agenceecofin.com/actualites-infras...,25/01/2025,(Agence Ecofin) - L'année 2025 s'annonce comme...,Agence Ecofin,L'année 2025 s'annonce comme charnière pour le...,Energies trump dramani mahama et labonne parmi...
2,,https://www.agenceecofin.com/actualites-cultur...,25/01/2025,(Agence Ecofin) - Interrogé en 1920 par un cri...,Agence Ecofin,Interrogé en 1920 par un critique sur son rapp...,L art negre connais pas l hommage incompris de...
3,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,"(Agence Ecofin) - Au menu, le retrait des Etat...",Agence Ecofin,"Au menu, le retrait des Etats-Unis de l’OMS, l...",Gestion publique africaine top 5 des infos mar...
4,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - La population de Madagascar ...,Agence Ecofin,La population de Madagascar est majoritairemen...,Le fida debloque 145 millions pour developpeme...


In [17]:
article['Texte'][1]

"(Agence Ecofin) - L'année 2025 s'annonce comme charnière pour le secteur énergétique africain. De nombreux acteurs clés seront au cœur des attentes pour définir et façonner son avenir.\nLa Chambre africaine de l'Énergie (AEC) a récemment publié sa liste des 40 personnalités à suivre dans le secteur énergétique en Afrique. Intitulée «\xa0AEC - 40 Movers and Shakers to Watch in Africa in 2025\xa0», elle met en lumière des figures influentes issues de divers milieux professionnels.\nLa liste inclut notamment 8 ministres, ainsi que 3 chefs d’État à savoir John Dramani Mahama (Ghana), Daniel Francisco Chapo (Mozambique) et Donald Trump (États-Unis), ce dernier étant connu pour son intérêt marqué pour le secteur pétrogazier. John Dramani Mahama est attendu sur le front de la relance du secteur pétrolier ghanéen et de l’attraction des investissements nécessaires. De son côté, Ruth Nankabirwa Ssentamu, ministre ougandaise de l'Énergie et du Développement minéral, a pour mission de piloter le 

In [18]:
article['Contenu'][1]

"L'année 2025 s'annonce comme charnière pour le secteur énergétique africain. De nombreux acteurs clés seront au cœur des attentes pour définir et façonner son avenir. La Chambre africaine de l'Énergie (AEC) a récemment publié sa liste des 40 personnalités à suivre dans le secteur énergétique en Afrique. Intitulée «\xa0AEC - 40 Movers and Shakers to Watch in Africa in 2025\xa0», elle met en lumière des figures influentes issues de divers milieux professionnels. La liste inclut notamment 8 ministres, ainsi que 3 chefs d’État à savoir John Dramani Mahama (Ghana), Daniel Francisco Chapo (Mozambique) et Donald Trump (États-Unis), ce dernier étant connu pour son intérêt marqué pour le secteur pétrogazier. John Dramani Mahama est attendu sur le front de la relance du secteur pétrolier ghanéen et de l’attraction des investissements nécessaires. De son côté, Ruth Nankabirwa Ssentamu, ministre ougandaise de l'Énergie et du Développement minéral, a pour mission de piloter le développement des ch

In [19]:
article['Texte'][10]

"(Agence Ecofin) - Annoncée début janvier par le gouvernement, la hausse des tarifs télécoms a fait protester le Congrès syndical nigérian (NLC), l'Association nationale des abonnés aux télécommunications (NATCOMS), le Congrès syndical des travailleurs (CST) ou encore la Coalition des groupes du Nord (CNG).\nPlusieurs associations de consommateurs ainsi que des syndicats sont montés au créneau pour contester la hausse de 50% des tarifs télécoms approuvée le lundi 20 janvier par la Commission nigériane des communications (NCC). Ils estiment que cette mesure est insensible et malvenue dans un contexte où les travailleurs et la population font face à des difficultés économiques.\nSelon Joe Ajaero, président du Congrès syndical nigérian (NLC),«\xa0un travailleur nigérian moyen dépense déjà environ 10% de son salaire en frais de télécommunication.[...]Pour un travailleur gagnant le salaire minimum actuel de 70\xa0000 nairas (environ 45 USD), cela signifie une hausse de 7000 à 10\xa0500 nair

In [20]:
article['Contenu'][10]

"Annoncée début janvier par le gouvernement, la hausse des tarifs télécoms a fait protester le Congrès syndical nigérian (NLC), l'Association nationale des abonnés aux télécommunications (NATCOMS), le Congrès syndical des travailleurs (CST) ou encore la Coalition des groupes du Nord (CNG). Plusieurs associations de consommateurs ainsi que des syndicats sont montés au créneau pour contester la hausse de 50% des tarifs télécoms approuvée le lundi 20 janvier par la Commission nigériane des communications (NCC). Ils estiment que cette mesure est insensible et malvenue dans un contexte où les travailleurs et la population font face à des difficultés économiques. Selon Joe Ajaero, président du Congrès syndical nigérian (NLC),«\xa0un travailleur nigérian moyen dépense déjà environ 10% de son salaire en frais de télécommunication.[...]Pour un travailleur gagnant le salaire minimum actuel de 70\xa0000 nairas (environ 45 USD), cela signifie une hausse de 7000 à 10\xa0500 nairas par mois, soit 15

In [21]:
def preprocess(text):
    # Convertir en minuscules
    text = text.lower()
    # Supprimer les espaces inutiles
    text = text.strip()
    return text

In [22]:
article['Texte_index'] = article['Contenu'].apply(lambda x: preprocess(x))

In [23]:
article.head()

Unnamed: 0,Titre,Lien,Date,Texte,Source,Contenu,titre,Texte_index
0,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - Le Gabon a mené plusieurs ac...,Agence Ecofin,Le Gabon a mené plusieurs actions ces dernière...,Gabon la production industrielle de bois en ha...,le gabon a mené plusieurs actions ces dernière...
1,,https://www.agenceecofin.com/actualites-infras...,25/01/2025,(Agence Ecofin) - L'année 2025 s'annonce comme...,Agence Ecofin,L'année 2025 s'annonce comme charnière pour le...,Energies trump dramani mahama et labonne parmi...,l'année 2025 s'annonce comme charnière pour le...
2,,https://www.agenceecofin.com/actualites-cultur...,25/01/2025,(Agence Ecofin) - Interrogé en 1920 par un cri...,Agence Ecofin,Interrogé en 1920 par un critique sur son rapp...,L art negre connais pas l hommage incompris de...,interrogé en 1920 par un critique sur son rapp...
3,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,"(Agence Ecofin) - Au menu, le retrait des Etat...",Agence Ecofin,"Au menu, le retrait des Etats-Unis de l’OMS, l...",Gestion publique africaine top 5 des infos mar...,"au menu, le retrait des etats-unis de l’oms, l..."
4,,https://www.agenceecofin.com/actualites/2501-1...,25/01/2025,(Agence Ecofin) - La population de Madagascar ...,Agence Ecofin,La population de Madagascar est majoritairemen...,Le fida debloque 145 millions pour developpeme...,la population de madagascar est majoritairemen...


In [25]:
data = article[["Source", "titre", "Contenu", "Texte_index", "Date", "Lien"]]

In [26]:
data.head()

Unnamed: 0,Source,titre,Contenu,Texte_index,Date,Lien
0,Agence Ecofin,Gabon la production industrielle de bois en ha...,Le Gabon a mené plusieurs actions ces dernière...,le gabon a mené plusieurs actions ces dernière...,25/01/2025,https://www.agenceecofin.com/actualites/2501-1...
1,Agence Ecofin,Energies trump dramani mahama et labonne parmi...,L'année 2025 s'annonce comme charnière pour le...,l'année 2025 s'annonce comme charnière pour le...,25/01/2025,https://www.agenceecofin.com/actualites-infras...
2,Agence Ecofin,L art negre connais pas l hommage incompris de...,Interrogé en 1920 par un critique sur son rapp...,interrogé en 1920 par un critique sur son rapp...,25/01/2025,https://www.agenceecofin.com/actualites-cultur...
3,Agence Ecofin,Gestion publique africaine top 5 des infos mar...,"Au menu, le retrait des Etats-Unis de l’OMS, l...","au menu, le retrait des etats-unis de l’oms, l...",25/01/2025,https://www.agenceecofin.com/actualites/2501-1...
4,Agence Ecofin,Le fida debloque 145 millions pour developpeme...,La population de Madagascar est majoritairemen...,la population de madagascar est majoritairemen...,25/01/2025,https://www.agenceecofin.com/actualites/2501-1...


In [27]:
data.isnull().sum()

Source         0
titre          0
Contenu        0
Texte_index    0
Date           0
Lien           0
dtype: int64

In [28]:
data.to_csv("data.csv", index=False, encoding="utf-8")
