# Wikipedia

**[Wikipedia](https://www.wikipedia.org/)** é uma enciclopédia online gratuita, criada e editada por voluntários em todo o mundo e hospedada pela Fundação Wikimedia.

A **Wikipedia** é sem dúvida a maior e mais popular obra de referência geral na internet, e um dos sites mais populares. Possui conteúdo exclusivamente gratuito. Como resultado, ser capaz de acessar essa grande quantidade de informações em Python é um trabalho útil. Neste tutorial, você será capaz de extrair informações da Wikipedia facilmente, sem nenhum trabalho complicado.

Devo mencionar que não vamos fazer o *scraping* das páginas da Wikipedia manualmente, o módulo da **[wikipedia](https://pypi.org/project/wikipedia/)** já fez este trabalho difícil para nós. Precisamos apenas instalar ele com o seguinte comando:

```
pip install wikipedia
```

E agora vamos fazer alguns experimentos. **Observação**: inicialmente vamos trabalhar em inglês e depois veremos como trocar de idioma.

Vamos começar obtendo um resumo do que é a linguagem de programação Python:

In [1]:
import wikipedia

print(wikipedia.summary("Python Programming Language").strip())

Python is an interpreted high-level general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant indentation. Its language constructs as well as its object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.Python is dynamically-typed and garbage-collected. It supports multiple programming paradigms, including structured (particularly, procedural), object-oriented and functional programming. Python is often described as a "batteries included" language due to its comprehensive standard library.Guido van Rossum began working on Python in the late 1980s, as a successor to the ABC programming language, and first released it in 1991 as Python 0.9.0. Python 2.0 was released in 2000 and introduced new features, such as list comprehensions and a garbage collection system using reference counting. Python 3.0 was released in 2008 and was a major revision of the language that is

O código acima irá extrair o resumo [página Python](https://en.wikipedia.org/wiki/Python_(programming_language)) da Wikipedia. 

Mais especificamente, ele irá imprimir algumas primeiras frases, podemos especificar o número de frases a extrair:

In [2]:
wikipedia.summary("Python prog lang", sentences=3)

"Python is an interpreted high-level general-purpose programming language. Python's design philosophy emphasizes code readability with its notable use of significant indentation. Its language constructs as well as its object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.Python is dynamically-typed and garbage-collected."

Observe que eu digitei incorretamente a consulta intencionalmente, mas ainda assim obtive um resultado preciso.

Podemos também buscar um termo na pesquisa da Wikipedia, por exemplo:

In [3]:
resultado = wikipedia.search("Neural networks")
print(resultado)

['Neural network', 'Artificial neural network', 'Convolutional neural network', 'Recurrent neural network', 'Feedforward neural network', 'Rectifier (neural networks)', 'Spiking neural network', 'Neural circuit', 'Siamese neural network', 'Residual neural network']


O comando acima nos retornou uma lista de títulos de página relacionados ao termo pesquisado. 

Vamos obter a página inteira para "**Neural Networks**" da seguinte forma:

In [4]:
página = wikipedia.page(resultado[0])

Agora podemos extrair o título da página:

In [5]:
title = página.title
print(title)

Neural network


Obtendo todas as categorias dessa página da Wikipedia:

In [6]:
categories = página.categories
print(categories)

['All articles with incomplete citations', 'Articles with hAudio microformats', 'Articles with incomplete citations from April 2019', 'Articles with short description', 'Artificial intelligence', 'CS1 errors: dates', 'Computational neuroscience', 'Econometrics', 'Emerging technologies', 'Network architecture', 'Networks', 'Neural networks', 'Short description matches Wikidata', 'Spoken articles', 'Use mdy dates from January 2019', 'Wikipedia articles with LCCN identifiers']


Extrair o texto depois de remover todas as tags HTML (isso é feito automaticamente):

In [7]:
content = página.content
print(content[:1051])

A neural network is a network or circuit of neurons, or in a modern sense, an artificial neural network, composed of artificial neurons or nodes. Thus a neural network is either a biological neural network, made up of biological neurons, or an artificial neural network, for solving artificial intelligence (AI) problems. The connections of the biological neuron are modeled as weights. A positive weight reflects an excitatory connection, while negative values mean inhibitory connections. All inputs are modified by a weight and summed. This activity is referred to as a linear combination. Finally, an activation function controls the amplitude of the output. For example, an acceptable range of output is usually between 0 and 1, or it could be −1 and 1.
These artificial networks may be used for predictive modeling, adaptive control and applications where they can be trained via a dataset. Self-learning resulting from experience can occur within networks, which can derive conclusions from a 

Todos os links:

In [8]:
links = página.links
print(links)

['3Blue1Brown', 'A. K. Dewdney', 'ADALINE', 'Acetylcholine', 'Adaptive control', 'Adaptive resonance theory', 'Adaptive system', 'Alan Turing', 'Alexander Bain', 'Amplitude', 'Analog signal', 'Artificial intelligence', 'Artificial neural network', 'Artificial neuron', 'Autonomous robot', 'Axon', 'BCM theory', 'Back-propagation', 'Backpropagation', 'Bibcode (identifier)', 'Biological cybernetics', 'Biological neural network', 'Biological neuron models', 'Biologically inspired computing', 'Biophysics', 'Blind signal separation', 'Boltzmann machine', 'Brain connectivity estimators', 'CPU', 'Cerebellar model articulation controller', 'Cerebral cortex', 'Charles Scott Sherrington', 'CiteSeerX (identifier)', 'Cognitive architecture', 'Cognitive modeling', 'Cognitive science', 'Computation', 'Computational neuroscience', 'Computer simulation', 'Connectionism', 'Connectomics', 'Convolution', 'Cultured neuronal networks', 'Data compression', 'Data mining', 'Data modeling', 'Data processing', 'D

Também podemos obter a URL da página:

In [9]:
url = página.url
print(url)

https://en.wikipedia.org/wiki/Neural_network


E todas as suas imagens:

In [10]:
imagens = página.images
print(imagens)

['https://upload.wikimedia.org/wikipedia/commons/1/16/CC-BY_icon.svg', 'https://upload.wikimedia.org/wikipedia/commons/a/a3/En-Neural_network.ogg', 'https://upload.wikimedia.org/wikipedia/commons/b/be/Forest_of_synthetic_pyramidal_dendrites_grown_using_Cajal%27s_laws_of_neuronal_branching.png', 'https://upload.wikimedia.org/wikipedia/commons/9/99/Neural_network_example.svg', 'https://upload.wikimedia.org/wikipedia/commons/4/47/Sound-icon.svg', 'https://upload.wikimedia.org/wikipedia/en/8/8a/OOjs_UI_icon_edit-ltr-progressive.svg']


Assim como as referências:

In [11]:
referências = página.references
print(referências)

['http://www.iro.umontreal.ca/~lisa/publications2/index.php/publications/show/4', 'http://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-networks', 'http://www.dkriesel.com/en/science/neural_networks', 'http://members.fortunecity.com/templarseries/popper.html', 'http://uhaweb.hartford.edu/compsci/neural-networks-definition.html', 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.139.4502', 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.588.3775', 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.76.1541', 'http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf', 'http://www.nasa.gov/centers/dryden/news/NewsReleases/2003/03-49.html', 'http://pubmed.ncbi.nlm.nih.gov/10526343', 'http://pubmed.ncbi.nlm.nih.gov/13602029', 'http://pubmed.ncbi.nlm.nih.gov/16764513', 'http://pubmed.ncbi.nlm.nih.gov/18451858', 'http://pubmed.ncbi.nlm.nih.gov/18654568', 'http://pubmed.ncbi.nlm.nih.gov/19299860', 'http://pubmed.ncbi.nlm.nih.gov

E finalmente o sumário:

In [12]:
summary = página.summary
print(summary)

A neural network is a network or circuit of neurons, or in a modern sense, an artificial neural network, composed of artificial neurons or nodes. Thus a neural network is either a biological neural network, made up of biological neurons, or an artificial neural network, for solving artificial intelligence (AI) problems. The connections of the biological neuron are modeled as weights. A positive weight reflects an excitatory connection, while negative values mean inhibitory connections. All inputs are modified by a weight and summed. This activity is referred to as a linear combination. Finally, an activation function controls the amplitude of the output. For example, an acceptable range of output is usually between 0 and 1, or it could be −1 and 1.
These artificial networks may be used for predictive modeling, adaptive control and applications where they can be trained via a dataset. Self-learning resulting from experience can occur within networks, which can derive conclusions from a 

Até então estávamos trabalhando com inglês, mas sabemos que o Wikipedia está disponível em diversas linguagens.

Podemos ver quais linguagens a biblioteca wikipedia nos disponibiliza através do seguinte comando:

In [13]:
linguagens = list(wikipedia.languages())
print(linguagens)

['aa', 'ab', 'abs', 'ace', 'ady', 'ady-cyrl', 'aeb', 'aeb-arab', 'aeb-latn', 'af', 'ak', 'aln', 'als', 'alt', 'am', 'ami', 'an', 'ang', 'anp', 'ar', 'arc', 'arn', 'arq', 'ary', 'arz', 'as', 'ase', 'ast', 'atj', 'av', 'avk', 'awa', 'ay', 'az', 'azb', 'ba', 'ban', 'ban-bali', 'bar', 'bat-smg', 'bbc', 'bbc-latn', 'bcc', 'bcl', 'be', 'be-tarask', 'be-x-old', 'bg', 'bgn', 'bh', 'bho', 'bi', 'bjn', 'bm', 'bn', 'bo', 'bpy', 'bqi', 'br', 'brh', 'bs', 'btm', 'bto', 'bug', 'bxr', 'ca', 'cbk-zam', 'cdo', 'ce', 'ceb', 'ch', 'cho', 'chr', 'chy', 'ckb', 'co', 'cps', 'cr', 'crh', 'crh-cyrl', 'crh-latn', 'cs', 'csb', 'cu', 'cv', 'cy', 'da', 'dag', 'de', 'de-at', 'de-ch', 'de-formal', 'din', 'diq', 'dsb', 'dtp', 'dty', 'dv', 'dz', 'ee', 'egl', 'el', 'eml', 'en', 'en-ca', 'en-gb', 'eo', 'es', 'es-419', 'es-formal', 'et', 'eu', 'ext', 'fa', 'ff', 'fi', 'fit', 'fiu-vro', 'fj', 'fo', 'fr', 'frc', 'frp', 'frr', 'fur', 'fy', 'ga', 'gag', 'gan', 'gan-hans', 'gan-hant', 'gcr', 'gd', 'gl', 'glk', 'gn', 'gom', '

Vejamos se temos Português disponível:

In [19]:
"pt" in linguagens

True

Podemos então alterar as nossas buscas para português:

In [17]:
wikipedia.set_lang('pt')

In [18]:
print(wikipedia.summary("ubuntu", sentences=2))  

Ubuntu é um sistema operacional (pt-BR) ou sistema operativo (pt-PT)  de código aberto, construído a partir do núcleo Linux, baseado no Debian e utiliza GNOME como ambiente de desktop de sua mais recente versão com suporte de longo prazo (LTS). É desenvolvido pela Canonical Ltd.Geralmente é executado em computadores pessoais e também é popular em servidores de rede, geralmente executando a versão Ubuntu Server, com recursos de classe empresarial.


A lista **linguagens** anterior nos traz apenas o prefixo dos idiomas, se quisermos confirmar de qual idioma se trata, podemos acessá-los individualmente:

In [24]:
print(wikipedia.languages()['es'])

español


In [25]:
print(wikipedia.languages()['pt-br'])

português do Brasil


Se eventualmente você quiser obter a página completa da wikipedia em formato HTML, você pode usar o seguinte comando:

In [34]:
print(wikipedia.page("Ubuntu").html()[:665])

<div class="mw-parser-output"><div class="hatnote"><img alt="Disambig grey.svg" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/20px-Disambig_grey.svg.png" decoding="async" width="20" height="15" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/30px-Disambig_grey.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/40px-Disambig_grey.svg.png 2x" data-file-width="260" data-file-height="200" />&#160;<b>Nota:</b> Para outros significados, veja <a href="/wiki/Ubuntu_(desambigua%C3%A7%C3%A3o)" class="mw-disambig" title="Ubuntu (desambiguação)">Ubuntu (desambiguação)</a>.</div>


**Atenção**: **wikipedia.summary** irá gerar um **DisambiguationError** se a página for uma página de desambiguação ou um **PageError** se a página não existir (embora por padrão, ele tenta encontrar a página que você quis dizer com sugestão e pesquisa).

Por exemplo, vamos buscar por **Mercury**, que é um planeta, elemento, Deus mitológico, etc:

In [36]:
import warnings
warnings.filterwarnings('ignore')

wikipedia.set_lang('en')

try:
    mercury = wikipedia.summary("Mercury")
except wikipedia.exceptions.DisambiguationError as e:
    print(e.options)

['Mercury (planet)', 'Mercury (element)', 'Mercury (mythology)', 'Mercury (toy manufacturer)', 'Mercury Communications', 'Mercury Drug', 'Mercury Energy', 'Mercury Insurance Group', 'Mercury Interactive', 'Mercury Marine', 'Mercury Systems', 'Mercury (programming language)', 'Mercury (metadata search system)', 'Ferranti Mercury', 'Mercury Browser', 'Mercury Mail Transport System', 'Mercury (film)', 'Mercury (TV series)', 'Young Adult', 'character in the RWBY web series', 'Mercury (Marvel Comics)', 'Makkari (comics)', 'Metal Men', "Cerebro's X-Men", 'Amalgam Comics character', 'Mercury (magazine)', 'The American Mercury', 'The Mercury (Hobart)', 'The Mercury (South Africa)', 'The Mercury (Pennsylvania)', 'Mercury (Newport)', 'List of newspapers named Mercury', 'Mercury (2005 novel)', 'Mercury (2016 novel)', 'Anna Kavan', 'Mercury Nashville', 'Mercury Records', 'Mercury Prize', 'The Planets', 'Mercury (American Music Club album)', 'Mercury (Longview album)', 'Mercury (Madder Mortem album

E assim concluímos, esta foi uma breve introdução sobre como você pode extrair informações da Wikipedia em Python. Isso pode ser útil se você deseja coletar dados automaticamente para modelos de linguagem, fazer um chatbot de resposta a perguntas, fazer um aplicativo em torno desses dados e muito mais, bons estudos!