# Pulling news articles in English and French
Generating DF which includes article title, publication year, article decription, article content,& image url.

In [1]:
import requests
import os
import pandas as pd

In [2]:
api_key = os.getenv("News_API_Key")

In [3]:
url_everything = "https://newsapi.org/v2/everything"

In [4]:
headers = {"X-Api-Key": api_key}

In [5]:
# pulling in french, keyword "velo"
parameters = {"language": "fr", "q": "vélo", "from":"2024-03-19","sortBy":"relevancy"}

In [6]:
#Function to fetch articles that handles pagination

def fetch_articles(parameters, url, headers):
    articles = []
    page = 1
    while True:
        parameters['page'] = page
        response = requests.get(url, params=parameters, headers=headers)
        data_dict = response.json()
        articles.extend(data_dict.get('articles', []))
        if len(articles) >= data_dict.get('totalResults', 0):
            break
        page += 1
    return articles

In [7]:
fr_velo_data = fetch_articles(parameters, url_everything, headers)

In [8]:
fr_velo_data

[{'source': {'id': 'le-monde', 'name': 'Le Monde'},
  'author': 'Le Monde',
  'title': 'Paris à vélo\xa0: dix\xa0haltes arborées, de l’Opéra aux Buttes-Chaumont',
  'description': 'Pins noirs, paulownias, palmiers-dattiers et sophoras du Japon\xa0sont autant d’arbres remarquables qui ponctuent cette virée à bicyclette du 9ᵉ au 19ᵉ\xa0arrondissement de la capitale. Des étapes vertes aussi savantes que rafraîchissantes.',
  'url': 'https://www.lemonde.fr/m-styles/article/2024/04/14/paris-a-velo-dix-haltes-arborees-de-l-opera-aux-buttes-chaumont_6227759_4497319.html',
  'urlToImage': 'https://img.lemde.fr/2024/04/10/0/287/1717/1145/1440/960/60/0/d84e5c6_1712745900388-p1000887-copie.jpg',
  'publishedAt': '2024-04-14T04:00:15Z',
  'content': 'LA LISTE DE LA MATINALE\r\nUne autoroute cyclable\xa0! La double voie pour vélo aménagée rue Lafayette permet de traverser comme un bolide les très minéraux 9e et 10e\xa0arrondissements de Paris. De quoi se … [+3136 chars]'},
 {'source': {'id': None, 

In [9]:
# pulling in french, keyword "cyclisme"
parameters = {"language": "fr", "q": "cyclisme", "from":"2024-03-19","sortBy":"relevancy"}

In [10]:
fr_cyclisme_data = fetch_articles(parameters, url_everything, headers)

In [11]:
fr_cyclisme_data

[{'source': {'id': 'le-monde', 'name': 'Le Monde'},
  'author': 'Pierre Carrey',
  'title': 'Paris-Roubaix 2024\xa0: la tranchée d’Arenberg, ce secteur pavé qui a brisé des dizaines de coureurs',
  'description': 'En prévision de l’épreuve, qui se tient ce dimanche, le célèbre secteur pavé a été réaménagé avec une chicane pour que le peloton l’aborde moins vite. Car il est le lieu le plus accidentogène du cyclisme, avec ses victimes stars et de nombreux oubliés.',
  'url': 'https://www.lemonde.fr/sport/article/2024/04/07/paris-roubaix-2024-la-tranchee-d-arenberg-ce-secteur-pave-qui-a-brise-des-dizaines-de-coureurs_6226402_3242.html',
  'urlToImage': 'https://img.lemde.fr/2015/04/12/36/0/3682/2455/1440/960/60/0/ill_4614540_d887_763686.jpg',
  'publishedAt': '2024-04-07T03:15:15Z',
  'content': "Les coureurs passent dans la tranchée d'Arenberg, lors de Paris-Roubaix 2015. AFP/FRANCOIS LO PRESTI\r\nLa tranchée dArenberg est lendroit au monde où les cyclistes chutent le plus. Ce nest pas u

In [12]:
# pulling in french, keyword "bicyclette"
parameters = {"language": "fr", "q": "bicyclette", "from":"2024-03-19","sortBy":"relevancy"}

In [13]:
fr_bicyclette_data = fetch_articles(parameters, url_everything, headers)

In [14]:
fr_bicyclette_data

[{'source': {'id': 'le-monde', 'name': 'Le Monde'},
  'author': 'Le Monde',
  'title': 'Paris à vélo\xa0: dix\xa0haltes arborées, de l’Opéra aux Buttes-Chaumont',
  'description': 'Pins noirs, paulownias, palmiers-dattiers et sophoras du Japon\xa0sont autant d’arbres remarquables qui ponctuent cette virée à bicyclette du 9ᵉ au 19ᵉ\xa0arrondissement de la capitale. Des étapes vertes aussi savantes que rafraîchissantes.',
  'url': 'https://www.lemonde.fr/m-styles/article/2024/04/14/paris-a-velo-dix-haltes-arborees-de-l-opera-aux-buttes-chaumont_6227759_4497319.html',
  'urlToImage': 'https://img.lemde.fr/2024/04/10/0/287/1717/1145/1440/960/60/0/d84e5c6_1712745900388-p1000887-copie.jpg',
  'publishedAt': '2024-04-14T04:00:15Z',
  'content': 'LA LISTE DE LA MATINALE\r\nUne autoroute cyclable\xa0! La double voie pour vélo aménagée rue Lafayette permet de traverser comme un bolide les très minéraux 9e et 10e\xa0arrondissements de Paris. De quoi se … [+3136 chars]'},
 {'source': {'id': 'liber

In [15]:
# Extracting article title, publication year, & image url from all 3 lists and saving as a df
# Initialize an empty list to store extracted data
data = []

# Iterate through articles in each list
for data_list in [fr_bicyclette_data, fr_cyclisme_data, fr_velo_data]:
    for article in data_list:
        # Extract required information
        title = article.get('title', '')
        publication_year = pd.to_datetime(article.get('publishedAt', '')).year
        image_url = article.get('urlToImage', '')
        article_content = article.get('content','')
        article_description = article.get('description','')

        # Append data to the list
        data.append({'Title': title, 'Publication Year': publication_year, 'Image URL': image_url,'Article Content':article_content,'Article Description':article_description})

# Create a DataFrame from the list
news_data_fr_df = pd.DataFrame(data)

In [16]:
display(news_data_fr_df)


Unnamed: 0,Title,Publication Year,Image URL,Article Content,Article Description
0,"Paris à vélo : dix haltes arborées, de l’Opéra...",2024,https://img.lemde.fr/2024/04/10/0/287/1717/114...,LA LISTE DE LA MATINALE\r\nUne autoroute cycla...,"Pins noirs, paulownias, palmiers-dattiers et s..."
1,Paris-Roubaix 2024 : pour Mathieu van der Poel...,2024,https://www.liberation.fr/resizer/SXWUMSuaWBkM...,Trois sur trois pour léquipe Alpecin-Deceunick...,Une semaine après son succès sur le Tour des F...
2,Gonflez vos pneus sans effort avec cette pompe...,2024,https://www.numerama.com/wp-content/uploads/20...,[Deal du jour] AliExpress casse le prix de la ...,[Deal du jour] AliExpress casse le prix de la ...
3,Vous vous déplacez à vélo en famille. Racontez...,2024,https://img.lemde.fr/2024/03/28/625/0/5619/280...,La Société éditrice du Monde souhaite présente...,"En ville comme à la campagne, vous vous êtes d..."
4,À quand un vrai coup de pédale dans la campagn...,2024,https://focus.courrierinternational.com/2024/0...,Un cycliste tente de faire avancer sa bicyclet...,Les débuts poussifs de la campagne de réélecti...
...,...,...,...,...,...
1036,Grischa Niermann donne des nouvelles de Wout v...,2024,https://www.dhnet.be/resizer/6ug0NgjqtdP2orz0I...,"""J'ai rendu visite à Wout aujourd'hui à l'hôpi...",Le directeur sportif de la formation Visma-Lea...
1037,Un nouveau projet d’ampleur à l’horizon pour l...,2024,https://www.dhnet.be/resizer/gSMmNpxaRdNztTBtS...,À Cureghem le projet Key West au bord du canal...,"6 bâtiments, une voirie publique et 40 000 nou..."
1038,Affaire du cycliste des Fagnes: le papa de la ...,2024,https://www.dhnet.be/resizer/9831BKlUzdMK7HhKz...,"Dans ce dossier, le cycliste avait d'abord été...","Désormais, l'affaire sera donc traitée par la ..."
1039,Visite d'Etat luxembourgeoise et sommet europé...,2024,https://www.dhnet.be/resizer/v2/T5EYVTV6ZBHBDM...,"Lors de cette visite, nombre de cérémonies off...",Il va être compliqué de circuler dans la capit...


In [17]:
# Export to csv
news_data_fr_df.to_csv('news_data_fr.csv', index=False)

In [18]:
# pulling in english, keyword "bike"
parameters = {"language": "en", "q": "bike", "from":"2024-03-18","sortBy":"relevancy"}

In [19]:
en_bike_data = fetch_articles(parameters, url_everything, headers)

In [20]:
# pulling in english, keyword "bicycle"
parameters = {"language": "en", "q": "bicycle", "from":"2024-03-18","sortBy":"relevancy"}

In [21]:
en_bicycle_data = fetch_articles(parameters, url_everything, headers)

In [22]:
# pulling in english, keyword "cycling"
parameters = {"language": "en", "q": "cycling", "from":"2024-03-18","sortBy":"relevancy"}

In [23]:
en_cycling_data = fetch_articles(parameters, url_everything, headers)

In [24]:
# Extracting article title, publication year, & image url from all 3 lists and saving as a df
# Initialize an empty list to store extracted data
data = []

# Iterate through articles in each list
for data_list in [en_bike_data, en_bicycle_data, en_cycling_data]:
    for article in data_list:
        # Extract required information
        title = article.get('title', '')
        publication_year = pd.to_datetime(article.get('publishedAt', '')).year
        image_url = article.get('urlToImage', '')
        article_content = article.get('content','')
        article_description = article.get('description','')

        # Append data to the list
        data.append({'Title': title, 'Publication Year': publication_year, 'Image URL': image_url,'Article Content':article_content,'Article Description':article_description})

# Create a DataFrame from the list
news_data_en_df = pd.DataFrame(data)

In [25]:
display(news_data_en_df)

Unnamed: 0,Title,Publication Year,Image URL,Article Content,Article Description
0,Trek's FX+ 2 Electric Bike Is $500 off Right Now,2024,https://media.wired.com/photos/637bf1c75f19e0a...,"Here in the Pacific Northwest, spring has spru...","Welcome to TrekFest, Trek's yearly sale on ele..."
1,Cowboy’s new all-road e-bike adds suspension a...,2024,,"Si vous cliquez sur « Tout accepter », nos par...","Like many premium electric rides, Cowboy's e-b..."
2,Police officer borrows passer-by's bike to cha...,2024,https://ichef.bbci.co.uk/news/1024/branded_new...,"A man has been arrested after a ""strange"" purs...",A police officer gives chase in Rotherham - af...
3,"Girl, 5, dies after bike collides with lorry",2024,https://ichef.bbci.co.uk/news/1024/branded_new...,A five-year-old girl has died after colliding ...,Humberside Police were called to Hopewell Road...
4,Kickstart Your Fitness Journey With Amazon Spr...,2024,https://www.cnet.com/a/img/resize/60be8a2d743e...,"Kicking things off, we have the bike that star...",Amazon's Big Spring Sale is taking up to $395 ...
...,...,...,...,...,...
1495,Bianchi blames pro cycling team mechanics igno...,2024,https://cdn.road.cc/sites/default/files/styles...,Bianchi has hit back in the fallout to Paris-R...,"Italian bike brand reacted with ""surprise and ..."
1496,3 Activities to Beneficially Release Dopamine,2024,https://cdn2.psychologytoday.com/assets/styles...,"By Mac E. Lancaster, BS, and Ran D. Anbar, MD....",Understanding the mechanisms of dopamine relea...
1497,Cyclist finds he’s been fined €400 for riding ...,2024,https://cdn.road.cc/sites/default/files/styles...,A 23-year-old student in France has found out ...,“They weren’t able to find my address [to send...
1498,Contraflow cycling confusion as council paints...,2024,https://cdn.road.cc/sites/default/files/styles...,The introduction of contraflow cycling marking...,Opening up the route to cyclists travelling in...


In [26]:
# Export to csv
news_data_fr_df.to_csv('news_data_fr.csv', index=False)

In [27]:
# Export to csv
news_data_en_df.to_csv('news_data_en.csv', index=False)

# Cleaning - removing results with no keywords associated to biking

In [28]:
#cleaning the news_data_fr_df

# List of keywords
keywords = ['vélo', 'cyclisme','bicyclette']

# Function to check if any keyword appears in the text
def contains_keyword(row):
    for keyword in keywords:
        if keyword in row['Title'] or keyword in row['Article Content'] or keyword in row['Article Description']:
            return True
    return False

# Filter the DataFrame
news_data_fr_df_cleaned = news_data_fr_df[news_data_fr_df.apply(contains_keyword, axis=1)]

# Print the filtered DataFrame
print(news_data_fr_df_cleaned)

                                                  Title  Publication Year  \
0     Paris à vélo : dix haltes arborées, de l’Opéra...              2024   
2     Gonflez vos pneus sans effort avec cette pompe...              2024   
3     Vous vous déplacez à vélo en famille. Racontez...              2024   
4     À quand un vrai coup de pédale dans la campagn...              2024   
5     REPORTAGE. "Sans aménagement, les gens sont co...              2024   
...                                                 ...               ...   
1026  On a roulé Paris-Roubaix avec Tom Boonen : “Je...              2024   
1028  On a roulé Paris-Roubaix avec Tom Boonen : “Je...              2024   
1030  Vous avez un vélo en bon état mais vous ne vou...              2024   
1031  Vous avez un vélo en bon état mais vous ne vou...              2024   
1033  Tous les fonctionnaires fédéraux pourront béné...              2024   

                                              Image URL  \
0     https://im

In [32]:
# Export to csv
news_data_fr_df_cleaned.to_csv('news_data_fr_cleaned.csv', index=False)

In [31]:
#cleaning the news_data_en_df

# List of keywords
keywords = ['bike', 'bicycle','cycling']

# Function to check if any keyword appears in the text
def contains_keyword(row):
    if pd.notna(row['Title']) and pd.notna(row['Article Content']) and pd.notna(row['Article Description']):
        for keyword in keywords:
            if keyword in row['Title'] or keyword in row['Article Content'] or keyword in row['Article Description']:
                return True
    return False

# Filter the DataFrame
news_data_en_df_cleaned = news_data_en_df[news_data_en_df.apply(contains_keyword, axis=1)]

# Print the filtered DataFrame
print(news_data_en_df_cleaned)

                                                  Title  Publication Year  \
0      Trek's FX+ 2 Electric Bike Is $500 off Right Now              2024   
1     Cowboy’s new all-road e-bike adds suspension a...              2024   
2     Police officer borrows passer-by's bike to cha...              2024   
3          Girl, 5, dies after bike collides with lorry              2024   
4     Kickstart Your Fitness Journey With Amazon Spr...              2024   
...                                                 ...               ...   
1489         Sonder Launches New Evol All-Mountain Bike              2024   
1491  Hundreds of cyclists pay respects to man who d...              2024   
1495  Bianchi blames pro cycling team mechanics igno...              2024   
1497  Cyclist finds he’s been fined €400 for riding ...              2024   
1498  Contraflow cycling confusion as council paints...              2024   

                                              Image URL  \
0     https://me

In [33]:
# Export to csv
news_data_en_df_cleaned.to_csv('news_data_en_cleaned.csv', index=False)