# NLP sitemap

Afin de mesurer la couverture des sujets climats/environmentaux, voici différentes thématiques qu’on aimerait résoudre :
1. [**Binary classification**] Classifier les titres d’articles informant l’appartenance ou non au sujet climat.
2. [**Topic modelling**] Classifier le topic des articles afin de pouvoir comparer par example, la couverture du traitement de la reforme des retraites à la couverture de la sortie du rapport du GIEC.
3. Detecter les articles climato-sceptique et/ou anti-environnment (par example ventant les mérites de l’avion ou des températures douces en hiver).
4. [**Sentiment analysis**] Comprendre le ton des articles: par example: “Climat : nous avons encore les moyens d’agir” est positif et subjectif tandis que “Limiter le réchauffement à 1,5 °C ? Trop tard, affirment mille scientifiques” est négatif et objectif(?).


**Table of contents**

0. [Imports & EDA](#0-imports--eda)
1. [Binary classification](#1-binary-classification)


In [1]:
%load_ext autoreload
%autoreload 2

## 0. Imports & EDA

In [2]:
# Standard imports
import sys
sys.path.append('..')

# Third-party imports
import pandas as pd
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from wordcloud import WordCloud
from nltk.stem import WordNetLemmatizer, SnowballStemmer
import gensim
import datetime

# Local imports
from quotaclimat.data_ingestion.config_sitmap import MEDIA_CONFIG, SITEMAP_CONFIG
from quotaclimat.data_processing.sitemap.sitemap_processing import load_all

In [3]:
# Load sitemap data
df = load_all("../data_public/sitemap_dumps/")

**EDA**

In [6]:
print(f"Number of scraped news: {df.shape[0]}")
print(f"Number of features: {df.shape[1]}")

Number of scraped news: 243015
Number of features: 26


In [5]:
df.head()

Unnamed: 0,url,news,news_publication,publication_name,publication_language,news_publication_date,news_title,news_keywords,image,image_loc,...,media,section,changefreq,news_access,image_title,lastmod,news_genres,priority,download_date_last,media_type
32967,https://www.francetvinfo.fr/faits-divers/dispa...,\n,\n,Franceinfo,fr,2022-11-29 23:08:36,Disparitions en Isère : Yves Chatain a-t-il to...,"Faits-divers, France",\n,https://www.francetvinfo.fr/image/761gi5vt8-97...,...,francetvinfo,[faits-divers],,,,,,,2022-11-30 23:25:43,tv
32968,https://www.francetvinfo.fr/economie/emploi/ca...,\n,\n,Franceinfo,fr,2022-11-29 23:13:06,Réforme des retraites : vers un départ à la re...,"Retraite, Vie-professionnelle, Carrière, Emplo...",\n,https://www.francetvinfo.fr/image/761gi62g7-81...,...,francetvinfo,"[economie, emploi, carriere, vie-professionnel...",,,,,,,2022-11-30 23:25:43,tv
32969,https://www.francetvinfo.fr/politique/gouverne...,\n,\n,Franceinfo,fr,2022-11-29 23:25:38,Justice : Caroline Cayeux soupçonnée de fraude...,"Gouvernement d'Elisabeth Borne, Politique",\n,https://www.francetvinfo.fr/image/761gi693v-a0...,...,francetvinfo,"[politique, gouvernement-d-elisabeth-borne]",,,,,,,2022-11-30 23:25:43,tv
32970,https://www.francetvinfo.fr/france/hauts-de-fr...,\n,\n,Franceinfo,fr,2022-11-29 23:19:12,Effondrement d'immeubles à Lille : de nouveaux...,France,\n,https://www.francetvinfo.fr/image/761gi68c5-9c...,...,francetvinfo,"[france, hauts-de-france, nord, lille]",,,,,,,2022-11-30 23:25:43,tv
32971,https://www.francetvinfo.fr/economie/emploi/ca...,\n,\n,Franceinfo,fr,2022-11-29 23:22:22,Réforme des retraites : le gouvernement envisa...,"Retraite, Vie-professionnelle, Carrière, Emplo...",\n,https://www.francetvinfo.fr/image/761gi68q6-0d...,...,francetvinfo,"[economie, emploi, carriere, vie-professionnel...",,,,,,,2022-11-30 23:25:43,tv


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 243015 entries, 32967 to 107595
Data columns (total 26 columns):
 #   Column                 Non-Null Count   Dtype              
---  ------                 --------------   -----              
 0   url                    243015 non-null  object             
 1   news                   148607 non-null  object             
 2   news_publication       148607 non-null  object             
 3   publication_name       243015 non-null  object             
 4   publication_language   243015 non-null  object             
 5   news_publication_date  243015 non-null  datetime64[ns]     
 6   news_title             243015 non-null  object             
 7   news_keywords          120285 non-null  object             
 8   image                  146717 non-null  object             
 9   image_loc              239839 non-null  object             
 10  image_caption          158030 non-null  object             
 11  sitemap                243015 non-n

2 medias types: `tv` and `webpress`.

In [10]:
tv_medias = df[df["media_type"] == "tv"]["media"].unique()
tv_medias

array(['francetvinfo', 'bfmtv'], dtype=object)

In [9]:
webpress_medias = df[df["media_type"] == "webpress"]["media"].unique()
webpress_medias

array(['lefigaro', '20_minutes', 'investir.lesechos', 'liberation',
       'lesechos', 'lamarseillaise', 'lexpress', 'letelegramme',
       'le_point', 'lequipe', 'nouvel_obs', 'lemonde', 'lopinion'],
      dtype=object)

## 1. Binary classification

- `section`: numpy.ndarray


Questions :

- Dataset labelisé ? Comment l'obtenir ?
- Quel modèle entrainer ?
- Metric ?
- Pourcentage de sujets climats ?

### 1.1 Get the labels in `section` column

In [22]:
import itertools
import numpy as np

In [17]:
df["section"].head()

32967                                       [faits-divers]
32968    [economie, emploi, carriere, vie-professionnel...
32969          [politique, gouvernement-d-elisabeth-borne]
32970               [france, hauts-de-france, nord, lille]
32971    [economie, emploi, carriere, vie-professionnel...
Name: section, dtype: object

In [48]:
# Get unique values from "section" column
section_names = sorted(set(itertools.chain.from_iterable(df["section"])))
print(f"There are {len(section_names)} identified sections.")

There are 2948 identified sections.


In [50]:
with open("../data_public/sitemap_dumps/section_names.txt", "w") as fp:
    fp.write('\n'.join(section_names))

Sections regarding climate news: 'climat', 'cop', 'crise-climatique', 'ecologie', 'eelv', 'ecosysteme', 'empreinte-carbone', 'energie', 'energie-environnement', 'energie-petrole-nucleaire-renouvelables-geopolitique', 'energies', 'environnement', 'environnement-et-sante', 'europe-ecologie-les-verts' ... 


l 983