# Extract Keywords from a website: counting words

In [4]:
from langdetect import detect
from newspaper import Article
import string
import unidecode
from collections import Counter
import cleantext

In [5]:
## remove accents
def remove_accents(s:str)->str:
    s = unidecode.unidecode(s.lower())
    return s

In [6]:
# url
url = 'https://es.wikipedia.org/wiki/Distancia_euclidiana'
# build article object
article = Article(url)
# download
article.download()
# parse
article.parse()
# get text
text = article.text.replace('\n',' ').replace('\t',' ')
# language detection
lang = detect(text)
# language name conversion
dconverter = {'es':'spanish', 'en':'english'}
language = dconverter[lang]
# text cleaning
text_cleaned = cleantext.clean(text, 
                all= False, # Execute all cleaning operations
                extra_spaces=True ,  # Remove extra white spaces 
                stemming=False , # Stem the words
                stopwords=True ,# Remove stop words
                lowercase=True ,# Convert to lowercase
                numbers=True ,# Remove all digits 
                punct=True ,# Remove all punctuations
                stp_lang=language)  # Language for stop words
text_cleaned

'distancia sistema coordenadas cartesianas matemáticas distancia euclidiana euclídea distancia ordinaria dos puntos espacio euclídeo deduce partir teorema pitágoras ejemplo espacio bidimensional distancia euclidiana dos puntos p  p   coordenadas cartesianas x     x     respectivamente d  p   p     x  − x       −    displaystyle deppsqrt xxyy definición  editar  general distancia euclidiana puntos p   p   p   …  p n  displaystyle pppdots pn q   q   q   …  q n  displaystyle qqqdots qn  espacio euclídeo ndimensional define d  p  q    p  − q      p  − q     ⋯   p n − q n    ∑ i   n  p i − q i    displaystyle depqsqrt pqpqcdots pnqnsqrt sum inpiqi nótese definición depende existencia coordenadas cartesianas variedad diferenciable  r n  ⋅  displaystyle mathbb r ncdot   aunque espacio euclídeo pueden definirse sistemas coordenadas generales siempre posible definir conjunto global coordenadas cartesianas diferencia superficie curva sólo existen localmente distancia euclidiana dos conjuntos  ed

### get most frequent words

In [7]:
# final text cleaning       
clean_text=[] 
#remove punctuations 
for word in text_cleaned.split(' '): 
    if word not in string.punctuation and len(word)>1 and detect(word) == lang: 
        clean_text.append(remove_accents(word)) 

In [8]:
count_each_word = Counter(clean_text)
count_each_word.most_common(30)

[('cartesianas', 4),
 ('espacio', 4),
 ('subvariedades', 3),
 ('recuerda', 3),
 ('definicion', 2),
 ('conjunto', 2),
 ('conjuntos', 2),
 ('matematicas', 1),
 ('deduce', 1),
 ('respectivamente', 1),
 ('existencia', 1),
 ('diferenciable', 1),
 ('pueden', 1),
 ('posible', 1),
 ('superficie', 1),
 ('localmente', 1),
 ('calculo', 1),
 ('explica', 1),
 ('continuacion', 1),
 ('cuyas', 1),
 ('directores', 1),
 ('ultimo', 1),
 ('eliminacion', 1),
 ('cuadrada', 1),
 ('puede', 1),
 ('cualquier', 1),
 ('referencias', 1),
 ('bibliografia', 1)]

### get keywords with newspaper

In [9]:
# build article object
article = Article(url, language = lang)
# download
article.download()
# parse
article.parse()
# nlp
article.nlp()
# keywords
print('keywords:', article.keywords)
# summary
print(article.summary.replace('\n',''))

keywords: ['q', 's', 'r', 'displaystyle', '0', 'wikipedia', '1', 'distancia', 'n', 'enciclopedia', 'libre', 'p', '2']
Distancia en un sistema de coordenadas cartesianas.En matemáticas, la distancia euclidiana o euclídea, es la distancia "ordinaria" entre dos puntos de un espacio euclídeo, la cual se deduce a partir del teorema de Pitágoras.Por ejemplo, en un espacio bidimensional, la distancia euclidiana entre dos puntos P 1 y P 2 , de coordenadas cartesianas (x 1 , y 1 ) y (x 2 , y 2 ) respectivamente, es:d E ( P 1 , P 2 ) = ( x 2 − x 1 ) 2 + ( y 2 − y 1 ) 2 {\displaystyle d_{E}(P_{1},P_{2})={\sqrt {(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}}}Definición [ editar ]En general, la distancia euclidiana entre los puntos P = ( p 1 , p 2 , … , p n ) {\displaystyle P=(p_{1},p_{2},\dots ,p_{n})\,} y Q = ( q 1 , q 2 , … , q n ) {\displaystyle Q=(q_{1},q_{2},\dots ,q_{n})\,} , del espacio euclídeo n-dimensional, se define como:d E ( P , Q ) = ( p 1 − q 1 ) 2 + ( p 2 − q 2 ) 2 + ⋯ + ( p n − q n ) 2 = ∑