## Web Scraping

In [1]:
# Biblioteca para requisitar página de web site
import urllib.request

In [2]:
# Definição de url
with urllib.request.urlopen("https://www.python.org") as url:
    page = url.read()

In [3]:
# Imprime o conteúdo
print(page)



In [4]:
# fazer html parser: quebrar pelas tags e extrair o texto do seu intererss
from bs4 import BeautifulSoup

In [5]:
# Analisar o html na variável 'page' e armazenar no formato Beautiful Soup
soup = BeautifulSoup(page, "html.parser")

In [6]:
# extraindo tag title
soup.title

<title>Welcome to Python.org</title>

In [7]:
# extraindo somente o texto da tag title
soup.title.string

'Welcome to Python.org'

In [8]:
# extraindo a tag 'a', utilizada para hiperlinks
soup.a 

<a href="#content" title="Skip to content">Skip to content</a>

In [9]:
# extraindo todos os hiperlinks da página
soup.find_all("a")

[<a href="#content" title="Skip to content">Skip to content</a>,
 <a aria-hidden="true" class="jump-link" href="#python-network" id="close-python-network">
 <span aria-hidden="true" class="icon-arrow-down"><span>▼</span></span> Close
                 </a>,
 <a class="current_item selectedcurrent_branch selected" href="/" title="The Python Programming Language">Python</a>,
 <a href="/psf-landing/" title="The Python Software Foundation">PSF</a>,
 <a href="https://docs.python.org" title="Python Documentation">Docs</a>,
 <a href="https://pypi.python.org/" title="Python Package Index">PyPI</a>,
 <a href="/jobs/" title="Python Job Board">Jobs</a>,
 <a href="/community/" title="Python Community">Community</a>,
 <a aria-hidden="true" class="jump-link" href="#top" id="python-network">
 <span aria-hidden="true" class="icon-arrow-up"><span>▲</span></span> The Python Network
                 </a>,
 <a href="/"><img alt="python™" class="python-logo" src="/static/img/python-logo.png"/></a>,
 <a clas

In [10]:
# extrair tag 'table'
tables = soup.find('table')

In [11]:
print(tables)

<table border="0" cellpadding="0" cellspacing="0" class="quote-from" width="100%">
<tbody>
<tr>
<td><p><a href="/success-stories/saving-the-world-with-open-data-and-python/">Saving the world with Open Data and Python</a> <em>by James Baster</em></p></td>
</tr>
</tbody>
</table>


## Expressões regulares

In [12]:
# Importando o módulo re (regular expression)
import re

In [13]:
# Lista de termos para busca
lista_pesquisa = ['informações', 'Negócios']

In [14]:
# Texto para o parse
texto = 'Existem muitos desafios para o Big Data. O primeiro deles é a coleta dos dados, pois fala-se aqui de '\
'enormes quantidades sendo geradas em uma taxa maior do que um servidor comum seria capaz de processar e armazenar. '\
'O segundo desafio é justamente o de processar essas informações. Com elas então distribuídas, a aplicação deve ser '\
'capaz de consumir partes das informações e gerar pequenas quantidades de dados processados, que serão calculados em '\
'conjunto depois para criar o resultado final. Outro desafio é a exibição dos resultados, de forma que as informações '\
'estejam disponíveis de forma clara para os tomadores de decisão.'


In [15]:
# criar loop for de Data Mining para encontrar cada item da lista 'pesquisa'
for item in lista_pesquisa:
    print ('Buscando por "%s" em: \n\n"%s"' % (item, texto))
    
    # Verificando se o termo de pesquisa existe no texto com a função search
    if re.search(item,  texto):
        print ('\n')
        print ('Palavra encontrada. \n')
        print ('\n')
    else:
        print ('\n')
        print ('Palavra não encontrada.')
        print ('\n')

Buscando por "informações" em: 

"Existem muitos desafios para o Big Data. O primeiro deles é a coleta dos dados, pois fala-se aqui de enormes quantidades sendo geradas em uma taxa maior do que um servidor comum seria capaz de processar e armazenar. O segundo desafio é justamente o de processar essas informações. Com elas então distribuídas, a aplicação deve ser capaz de consumir partes das informações e gerar pequenas quantidades de dados processados, que serão calculados em conjunto depois para criar o resultado final. Outro desafio é a exibição dos resultados, de forma que as informações estejam disponíveis de forma clara para os tomadores de decisão."


Palavra encontrada. 



Buscando por "Negócios" em: 

"Existem muitos desafios para o Big Data. O primeiro deles é a coleta dos dados, pois fala-se aqui de enormes quantidades sendo geradas em uma taxa maior do que um servidor comum seria capaz de processar e armazenar. O segundo desafio é justamente o de processar essas informações

In [16]:
# Termo usado para dividir uma string
split_term = '@'

In [17]:
frase = 'Qual o domínio de alguém com o e-mail: aluno@gmail.com'

In [18]:
# quebrando a fase pelo elemento 'split_term'
re.split(split_term, frase)

['Qual o domínio de alguém com o e-mail: aluno', 'gmail.com']

In [19]:
# criar funcao que encontra padrão
def encontra_padrao(lista, frase):
    
    for item in lista:
        print ('Pesquisando na frase: %r' %item)
        print (re.findall(item, frase))
        print ('\n')

In [20]:
# criando lista de padrões a partir do pacote re
frase_padrao = 'zLzL..zzzLLL...zLLLzLLL...LzLz...dzzzzz...zLLLL'

lista_padroes = [ 'zL*',       # z seguido de zero ou mais L
                  'zL+',       # z seguido por um ou mais L
                  'zL?',       # z seguido por zero ou um L
                  'zL{3}',     # z seguido por três L
                  'zL{2,3}',   # z seguido por dois a três L
                ]


In [21]:
encontra_padrao(lista_padroes, frase_padrao)

Pesquisando na frase: 'zL*'
['zL', 'zL', 'z', 'z', 'zLLL', 'zLLL', 'zLLL', 'zL', 'z', 'z', 'z', 'z', 'z', 'z', 'zLLLL']


Pesquisando na frase: 'zL+'
['zL', 'zL', 'zLLL', 'zLLL', 'zLLL', 'zL', 'zLLLL']


Pesquisando na frase: 'zL?'
['zL', 'zL', 'z', 'z', 'zL', 'zL', 'zL', 'zL', 'z', 'z', 'z', 'z', 'z', 'z', 'zL']


Pesquisando na frase: 'zL{3}'
['zLLL', 'zLLL', 'zLLL', 'zLLL']


Pesquisando na frase: 'zL{2,3}'
['zLLL', 'zLLL', 'zLLL', 'zLLL']




In [22]:
frase = 'Esta é uma string com pontuação. Isso pode ser um problema quando fazemos mineração de dados em busca '\
        'de padrões! Não seria melhor retirar os sinais ao fim de cada frase?'

In [23]:
# trazendo apenas as pavras na frase (sem potnuação)
re.findall('[^!.? ]+', frase)

['Esta',
 'é',
 'uma',
 'string',
 'com',
 'pontuação',
 'Isso',
 'pode',
 'ser',
 'um',
 'problema',
 'quando',
 'fazemos',
 'mineração',
 'de',
 'dados',
 'em',
 'busca',
 'de',
 'padrões',
 'Não',
 'seria',
 'melhor',
 'retirar',
 'os',
 'sinais',
 'ao',
 'fim',
 'de',
 'cada',
 'frase']

In [24]:
frase = 'Esta é uma frase de exemplo. Verificar quais padrões serão encontrados.'

lista_padroes = [ '[a-z]+',      # sequência de letras minúsculas
                  '[A-Z]+',      # sequência de letras maiúsculas
                  '[a-zA-Z]+',   # sequência de letras minúsculas e maiúsculas
                  '[A-Z][a-z]+'] # uma letra maiúscula, seguida de uma letra minúscula

In [25]:
encontra_padrao(lista_padroes, frase)

Pesquisando na frase: '[a-z]+'
['sta', 'uma', 'frase', 'de', 'exemplo', 'erificar', 'quais', 'padr', 'es', 'ser', 'o', 'encontrados']


Pesquisando na frase: '[A-Z]+'
['E', 'V']


Pesquisando na frase: '[a-zA-Z]+'
['Esta', 'uma', 'frase', 'de', 'exemplo', 'Verificar', 'quais', 'padr', 'es', 'ser', 'o', 'encontrados']


Pesquisando na frase: '[A-Z][a-z]+'
['Esta', 'Verificar']




## Escape codes

In [26]:
# O prefixo r antes da expressão regular evita o pré-processamento da ER 
# colcoar o modificador r (raw)
r'\b'

'\\b'

In [27]:
'\b'

'\x08'

In [28]:
frase = 'Esta é uma string com alguns números, como 1287 e um símbolo #hashtag'

lista_padroes = [ r'\d+', # sequência de dígitos
                  r'\D+', # sequência de não-dígitos
                  r'\s+', # sequência de espaços
                  r'\S+', # sequência de não-espaços
                  r'\w+', # caracteres alfanuméricos
                  r'\W+', # não-alfanumérico
                ]

In [29]:
encontra_padrao(lista_padroes, frase)

Pesquisando na frase: '\\d+'
['1287']


Pesquisando na frase: '\\D+'
['Esta é uma string com alguns números, como ', ' e um símbolo #hashtag']


Pesquisando na frase: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


Pesquisando na frase: '\\S+'
['Esta', 'é', 'uma', 'string', 'com', 'alguns', 'números,', 'como', '1287', 'e', 'um', 'símbolo', '#hashtag']


Pesquisando na frase: '\\w+'
['Esta', 'é', 'uma', 'string', 'com', 'alguns', 'números', 'como', '1287', 'e', 'um', 'símbolo', 'hashtag']


Pesquisando na frase: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ', ', ' ', ' ', ' ', ' ', ' #']




## Pandas + web crapping

In [30]:
!pip install -q tabulate

In [31]:
import pandas as pd
import requests
from bs4 import BeautifulSoup 
from tabulate import tabulate

In [32]:
# URL
res = requests.get("http://www.nationmaster.com/country-info/stats/Media/Internet-users")

In [33]:
# Parser com o beautiful soup
soup = BeautifulSoup(res.content,'lxml')

In [34]:
# Extrai a tabela do código HTML
table = soup.find_all('table')[0] 

In [35]:
print(table)

<table class="table table-active table-main table-paginated table-sortable resptable">
<thead>
<tr>
<th class="thno" scope="col">#</th>
<th scope="col"><span class="countrycol">COUNTRY</span></th>
<th class="sorter-formatted-float amount" scope="col">AMOUNT</th>
<th class="date" scope="col">DATE</th>
<th class="sorter-formatted-float" scope="col">GRAPH</th>
<th scope="col">HISTORY</th>
</tr>
</thead>
<tbody>
<tr>
<td class="tblno" data-row="1">1</td>
<td>
<a data-event-action="Click country" href="/country-info/profiles/China/Media"><i class="flag flag-cn"></i><span class="full">China</span></a>
</td>
<td class="amount" data-raw="389000000.0">
                                389 million
                            </td>
<td class="date">2009</td>
<td data-raw="389000000.0">
<span class="graph">
<span class="bar" style="width: 100.0000%"></span>
</span>
</td>
<td>
<span class="spark" values="2009:389000000.0"></span>
</td>
</tr>
<tr>
<td class="tblno" data-row="2">2</td>
<td>
<a data-ev

In [36]:
# Conversão da tabela HTML em dataframe Pandas
df = pd.read_html(str(table))

In [37]:
print(df)

[        #                                        COUNTRY         AMOUNT  DATE  \
0       1                                          China    389 million  2009   
1       2                                  United States    245 million  2009   
2       3                                          Japan  99.18 million  2009   
3     NaN    Group of 7 countries (G7) average (profile)  80.32 million  2009   
4       4                                         Brazil  75.98 million  2009   
..    ...                                            ...            ...   ...   
244   214                                           Niue           1100  2009   
245  =215  Saint Helena, Ascension, and Tristan da Cunha            900  2009   
246  =215                                   Saint Helena            900  2009   
247   217                                        Tokelau            800  2008   
248   218                               Christmas Island            464  2001   

     GRAPH  HISTORY  
0   

In [38]:
# Conversão do dataframe para o formato JSON pra levar a tabela a outra página web
print(df[0].to_json(orient='records'))

[{"#":"1","COUNTRY":"China","AMOUNT":"389 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"2","COUNTRY":"United States","AMOUNT":"245 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"3","COUNTRY":"Japan","AMOUNT":"99.18 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":null,"COUNTRY":"Group of 7 countries (G7) average (profile)","AMOUNT":"80.32 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"4","COUNTRY":"Brazil","AMOUNT":"75.98 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"5","COUNTRY":"Germany","AMOUNT":"65.12 million","DATE":2010,"GRAPH":null,"HISTORY":null},{"#":"6","COUNTRY":"India","AMOUNT":"61.34 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"7","COUNTRY":"Russia","AMOUNT":"59.7 million","DATE":2010,"GRAPH":null,"HISTORY":null},{"#":null,"COUNTRY":"Non-religious countries average (profile)","AMOUNT":"51.56 million","DATE":2009,"GRAPH":null,"HISTORY":null},{"#":"8","COUNTRY":"United Kingdom","AMOUNT":"51.44 million","DATE":2009,"GRAPH

In [39]:
res = requests.get("http://www.nationmaster.com/country-info/stats/Media/Internet-users")
soup = BeautifulSoup(res.content,'lxml')
table = soup.find_all('table')[0] 
df = pd.read_html(str(table))
print( tabulate(df[0], headers='keys', tablefmt='psql') )

+-----+------+---------------------------------------------------+---------------+--------+---------+-----------+
|     | #    | COUNTRY                                           | AMOUNT        |   DATE |   GRAPH |   HISTORY |
|-----+------+---------------------------------------------------+---------------+--------+---------+-----------|
|   0 | 1    | China                                             | 389 million   |   2009 |     nan |       nan |
|   1 | 2    | United States                                     | 245 million   |   2009 |     nan |       nan |
|   2 | 3    | Japan                                             | 99.18 million |   2009 |     nan |       nan |
|   3 | nan  | Group of 7 countries (G7) average (profile)       | 80.32 million |   2009 |     nan |       nan |
|   4 | 4    | Brazil                                            | 75.98 million |   2009 |     nan |       nan |
|   5 | 5    | Germany                                           | 65.12 million |   201