# **Scraping με το newspaper3k**

Scraping, είναι η διαδικασία με την οποία συλλέγουμε περιεχόμενο από ιστοσελίδες στο διαδίκτυο.

Με όρους προγραμματισμού, η διαδικασία είναι η εξής:
- κάνουμε ένα αίτημα στο server της ιστοσελίδας: ορίζουμε το url της ιστοσελίδας και ζητάμε το περιεχόμενό της (δηλαδή τον html κώδικά της)
- κατεβάζουμε τον html κώδικα (στον οποίο το περιεχόμενο είναι οργανωμένο μέσα σε html tags)
- παίρνουμε το περιεχόμενο από τα tags που μας ενδιαφέρουν και το αποθηκεύουμε σε αντίστοιχες μεταβλητές (π.χ. αν πρόκειται για δημοσιογραφικό άρθρο, παίρνουμε τον τίτλο του, το κείμενο, τον συγγραφέα, την ημερομηνία δημοσίευσής του κλπ.)

Στη συνέχεια, μπορούμε να οργανώσουμε όλες τις πληροφορίες που συλλέξαμε σε ένα dataframe για να τις επεξεργαστούμε και να τις αναλύσουμε.

Το **newspaper** είναι ένα πακέτο για την python, με το οποίο μπορούμε με εύκολο τρόπο να συλλέξουμε περιεχόμενο από ειδησεογραφικές ιστοσελίδες.



---


Sources:
- Documentation: https://newspaper.readthedocs.io/en/latest/
- Scraping websites with Newspaper3k in Python: https://www.geeksforgeeks.org/scraping-websites-with-newspaper3k-in-python/
- Scrape and Summarize News Articles in 5 Lines of Python Code: https://towardsdatascience.com/scrape-and-summarize-news-articles-in-5-lines-of-python-code-175f0e5c7dfc

### **Εγκατάσταση πακέτου**

Ξέρουμε ότι για να μπορούμε να χρησιμοποιήσουμε τις συναρτήσεις ενός πακέτου πρέπει πρώτα να το εισάγουμε. 

In [None]:
import newspaper

Η εκτέλεση του παραπάνω import επέστρεψε ModuleNotFoundError, που σημαίνει ότι δεν βρέθηκε το πακέτο newspaper. Άρα πρέπει πρώτα να το εγκαταστήσουμε.

Εκτελούμε την παρακάτω εντολή εγκατάστασης και **αφού εγκατασταθεί το μετατρέπουμε σε σχόλιο** (βάζοντας στην αρχή της εντολής #).

In [None]:
#!pip install newspaper3k

Τώρα μπορούμε να εισάγουμε το newspaper.

### **Χρήση του newspaper και συλλογή άρθρων**

In [None]:
import newspaper

Όπως είπαμε παραπάνω, στην περιγραφή των βημάτων για το scraping, το πρώτο πράγμα που πρέπει να κάνουμε είναι να ορίσουμε το url της ειδησεογραφικής σελίδας από την οποία θα αντλήσουμε τα περιεχόμενα. 

Εδώ, θα συλλέξουμε άρθρα από την κατηγορία news του bbc.

In [None]:
site_url = "https://www.bbc.com/news"

In [None]:
# get the content of the site
site = newspaper.build(site_url, memoize_articles=False)

In [None]:
# get list of article URLs
urlsL = site.article_urls()

print(len(urlsL))
# print the first 10 articles urls
urlsL[:10]

Έχουμε λοιπόν urls από το bbc.com/news.

Τώρα, ας φέρουμε κάποια από τα άρθρα που υπάρχουν σε αυτά τα urls.

In [None]:
# import libraries
from newspaper import Article
import pandas as pd
import numpy as np

Για αρχή, ας φέρουμε το περιεχόμενο μόνο ενός άρθρου από το πρώτο url

In [None]:
article = Article(urlsL[0])
article.download()
article.parse()

Με τις παραπάνω εντολές, έχουμε κατεβάσει το πρώτο άρθρο και τώρα μπορούμε να δούμε το περιεχόμενό του. Ας δούμε τι έχουμε:

In [None]:
article.title

In [None]:
article.text

In [None]:
article.authors

In [None]:
article.top_image

In [None]:
article.images

In [None]:
article.movies

In [None]:
article.publish_date

Αφού είδαμε ποιες πληροφορίες μπορούμε να πάρουμε για ένα url, ας φέρουμε αυτές τις πληροφορίες για τα 10 πρώτα urls κι ας τις οργανώσουμε σε ένα dataframe.

In [None]:
articlesL = []
for url in urlsL[:10]:
  articleD = {}
  article = Article(url)
  article.download()
  article.parse()
  articleD['url'] = url
  if article.publish_date is not None:
    articleD['date'] = article.publish_date
  else:
    articleD['date'] = np.nan
  if article.title is not None:
    articleD['title'] = article.title
  else:
    articleD['title'] = np.nan
  if article.top_image is not None:
    articleD['top image'] = article.top_image
  else:
    articleD['top image'] = np.nan
  if article.text is not None:
    articleD['text'] = article.text
  else:
    articleD['text'] = np.nan
  if article.authors is not None:
    articleD['authors'] = article.authors
  else:
    articleD['authors'] = np.nan
  if article.images is not None:
    articleD['images'] = article.images
  else:
    articleD['images'] = np.nan
  if article.movies is not None:
    articleD['movies'] = article.movies
  else:
    articleD['movies'] = np.nan
  articlesL.append(articleD)

news_df = pd.DataFrame(articlesL)

In [None]:
news_df

Ολόκληρος ο κώδικας για να φέρουμε το περιεχόμενο των άρθρων από ένα site

In [None]:
# define site url
site_url = "https://www.bbc.com/news"
# get the content of the site
site = newspaper.build(site_url, memoize_articles=False)
# get list of article URLs
urlsL = site.article_urls()

# get articles content (first 10)
articlesL = []
for url in urlsL[:10]:
  articleD = {}
  article = Article(url)
  article.download()
  article.parse()
  articleD['url'] = url
  if article.publish_date is not None:
    articleD['date'] = article.publish_date
  else:
    articleD['date'] = np.nan
  if article.title is not None:
    articleD['title'] = article.title
  else:
    articleD['title'] = np.nan
  if article.top_image is not None:
    articleD['top image'] = article.top_image
  else:
    articleD['top image'] = np.nan
  if article.text is not None:
    articleD['text'] = article.text
  else:
    articleD['text'] = np.nan
  if article.authors is not None:
    articleD['authors'] = article.authors
  else:
    articleD['authors'] = np.nan
  if article.images is not None:
    articleD['images'] = article.images
  else:
    articleD['images'] = np.nan
  if article.movies is not None:
    articleD['movies'] = article.movies
  else:
    articleD['movies'] = np.nan
  articlesL.append(articleD)

news_df = pd.DataFrame(articlesL)

## **Άσκηση:** χρησιμοποιήστε τον παραπάνω κώδικα για να φτιάξετε ένα dataframe με άρθρα από το news247 και την efsyn.

**news247**

**efsyn**