### Instalando pacotes

In [1]:
# !pip install -U spacy
# python -m spacy download en_core_web_sm
# python -m spacy download pt_core_news_sm

### Importando dependências

In [2]:
from collections import Counter
from heapq import nlargest
from string import punctuation

import spacy
from spacy.lang.en.stop_words import STOP_WORDS

## Em inglês

In [3]:
nlp = spacy.load('en_core_web_sm')

### Definindo a string

In [4]:
doc = """
Machine learning (ML) is the study of computer algorithms that can improve automatically through 
experience and by the use of data. It is seen as a part of artificial intelligence. Machine learning
algorithms build a model based on sample data, known as "training data", in order to make predictions or
decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide
variety of applications, such as in medicine, email filtering, speech recognition, and computer vision, where
it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.
"""

In [5]:
doc = nlp(doc)

In [6]:
len(list(doc.sents))

5

### Filtrando os tokens

In [7]:
keyword = []
stopwords = list(STOP_WORDS)
pos_tag = ['PROPN', 'ADJ', 'NOUN', 'VERB']

for token in doc:
    if (token.text in stopwords or token.text in punctuation):
        continue
    if (token.pos_ in pos_tag):
        keyword.append(token.text)

### Calculando a frequência

In [8]:
freq_word = Counter(keyword)
freq_word.most_common(5)

[('algorithms', 4),
 ('Machine', 3),
 ('learning', 3),
 ('data', 3),
 ('computer', 2)]

### Normalização

In [9]:
max_freq = Counter(keyword).most_common(1)[0][1]

for word in freq_word.keys():
    freq_word[word] = (freq_word[word]/max_freq)
freq_word.most_common(5)    

[('algorithms', 1.0),
 ('Machine', 0.75),
 ('learning', 0.75),
 ('data', 0.75),
 ('computer', 0.5)]

### Definindo o peso das sentenças

In [10]:
sent_strength = {}

for sent in doc.sents:
    for word in sent:
        if word.text in freq_word.keys():
            if sent in sent_strength.keys():
                sent_strength[sent] += freq_word[word.text]
            else:
                sent_strength[sent] = freq_word[word.text]
                
print(sent_strength)                

{
Machine learning (ML) is the study of computer algorithms that can improve automatically through 
experience and by the use of data.: 5.0, It is seen as a part of artificial intelligence.: 0.75, Machine learning
algorithms build a model based on sample data, known as "training data", in order to make predictions or
decisions without being explicitly programmed to do so.: 6.5, Machine learning algorithms are used in a wide
variety of applications, such as in medicine, email filtering, speech recognition, and computer vision, where
it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.: 8.0}


### Sumarizando a string

In [11]:
summarized_sentences = nlargest(3, sent_strength, key=sent_strength.get)
print(summarized_sentences)

[Machine learning algorithms are used in a wide
variety of applications, such as in medicine, email filtering, speech recognition, and computer vision, where
it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks., Machine learning
algorithms build a model based on sample data, known as "training data", in order to make predictions or
decisions without being explicitly programmed to do so., 
Machine learning (ML) is the study of computer algorithms that can improve automatically through 
experience and by the use of data.]


In [12]:
print(type(summarized_sentences[0]))

<class 'spacy.tokens.span.Span'>


### Texto sumarizado :) 

In [13]:
final_sentences = [w.text for w in summarized_sentences]
summary = ' '.join(final_sentences)
print(summary)

Machine learning algorithms are used in a wide
variety of applications, such as in medicine, email filtering, speech recognition, and computer vision, where
it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks. Machine learning
algorithms build a model based on sample data, known as "training data", in order to make predictions or
decisions without being explicitly programmed to do so. 
Machine learning (ML) is the study of computer algorithms that can improve automatically through 
experience and by the use of data.


# 

## Em português

In [14]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [15]:
nlp_pt = spacy.load('pt_core_news_sm')

In [16]:
doc_pt = """"
O aprendizado de máquina é um subcampo da Engenharia e da ciência da computação que evoluiu do estudo
de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial.
Em 1959, Arthur Samuel definiu aprendizado de máquina como o "campo de estudo que dá aos computadores
a habilidade de aprender sem serem explicitamente programados". O aprendizado automático explora o
estudo e construção de algoritmos que podem aprender de seus erros e fazer previsões sobre dados.
Tais algoritmos operam construindo um modelo a partir de inputs amostrais a fim de fazer previsões 
ou decisões guiadas pelos dados ao invés de simplesmente seguindo inflexíveis e estáticas instruções
programadas. Enquanto que na inteligência artificial existem dois tipos de raciocínio (o indutivo, que
extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só se
preocupa com o indutivo.
"""

In [17]:
doc_pt = nlp(doc_pt)

In [18]:
len(list(doc_pt.sents))

8

In [19]:
keyword_pt = []
stopwords = list(STOP_WORDS)
pos_tag = ['PROPN', 'ADJ', 'NOUN', 'VERB']

for token in doc_pt:
    if (token.text in stopwords or token.text in punctuation):
        continue
    if (token.pos_ in pos_tag):
        keyword_pt.append(token.text)

In [20]:
freq_word_pt = Counter(keyword_pt)
freq_word_pt.most_common(5)

[('aprendizado', 5),
 ('máquina', 3),
 ('estudo', 3),
 ('dados', 3),
 ('inteligência', 2)]

In [21]:
max_freq_pt = Counter(keyword_pt).most_common(1)[0][1]

for word in freq_word_pt.keys():
    freq_word_pt[word] = (freq_word_pt[word]/max_freq_pt)
freq_word_pt.most_common(5)    

[('aprendizado', 1.0),
 ('máquina', 0.6),
 ('estudo', 0.6),
 ('dados', 0.6),
 ('inteligência', 0.4)]

In [22]:
sent_strength_pt = {}

for sent in doc_pt.sents:
    for word in sent:
        if word.text in freq_word_pt.keys():
            if sent in sent_strength_pt.keys():
                sent_strength_pt[sent] += freq_word_pt[word.text]
            else:
                sent_strength_pt[sent] = freq_word_pt[word.text]
                
print(sent_strength_pt)                

{"
O aprendizado de máquina é um subcampo da Engenharia e da ciência da computação que evoluiu do estudo
de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial.: 5.600000000000002, Em 1959, Arthur Samuel definiu aprendizado de máquina como o "campo de estudo que dá aos computadores
a habilidade de aprender sem serem explicitamente programados".: 4.4, O aprendizado automático explora o
estudo e construção de algoritmos que podem aprender de seus erros e fazer previsões sobre dados.: 3.8000000000000003, Tais algoritmos operam construindo um modelo a partir de inputs amostrais a fim de fazer previsões 
ou decisões guiadas pelos dados ao invés de simplesmente seguindo inflexíveis e estáticas instruções
programadas.: 4.200000000000001, Enquanto que na inteligência artificial existem dois tipos de raciocínio (o indutivo, que
extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só se
preocupa com o indutivo.: 

In [23]:
summarized_sentences_pt = nlargest(3, sent_strength_pt, key=sent_strength_pt.get)
print(summarized_sentences_pt)

["
O aprendizado de máquina é um subcampo da Engenharia e da ciência da computação que evoluiu do estudo
de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial., Enquanto que na inteligência artificial existem dois tipos de raciocínio (o indutivo, que
extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só se
preocupa com o indutivo., Em 1959, Arthur Samuel definiu aprendizado de máquina como o "campo de estudo que dá aos computadores
a habilidade de aprender sem serem explicitamente programados".]


In [24]:
final_sentences_pt = [w.text for w in summarized_sentences_pt]
summary_pt = ' '.join(final_sentences_pt)
print(summary_pt)

"
O aprendizado de máquina é um subcampo da Engenharia e da ciência da computação que evoluiu do estudo
de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial. Enquanto que na inteligência artificial existem dois tipos de raciocínio (o indutivo, que
extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só se
preocupa com o indutivo. Em 1959, Arthur Samuel definiu aprendizado de máquina como o "campo de estudo que dá aos computadores
a habilidade de aprender sem serem explicitamente programados".
