# Miscellaneous Uses of Web Scraping and API


Este trabalho √© uma pequena amostra do que podemos fazer atrav√©s de APIs e Web Scraping na √°rea de dados.

Ele surgiu de uma proposta muito livre: fazer o m√°ximo poss√≠vel de usos de API e Web Scrapings, com a maior diversidade poss√≠vel em um curto per√≠odo de tempo. N√£o nos importavam as fontes nem o tratamento dado √†s informa√ß√µes coletadas. Quer√≠amos apenas exercitar uma habilidade e verificar as dificuldades pr√°ticas que diferentes APIs ou sites ofereciam.

Detalhe importante: por precau√ß√£o e respeito, para subir este trabalho no github retirei todas as chaves das APIs utilizadas.

- [API](#API)
    - [API do app de buscas ZenSerp](##API-do-app-de-buscas-ZenSerp.)
    - [API - Open Weather Map](#API-do-Open-Weather-Map-(Get-weather-and-weather-forecasts-for-multiple-cities.))
- [Web Scraping](#Web-Scraping)
    - [Web Scraping do YouTube](#Web-Scraping-do-YouTube)
    - [Web Scraping do site grimmstories](#Web-Scraping-do-site-https://www.grimmstories.com/pt/grimm_contos)

Bibliotecas que ser√£o utilizadas:

In [1]:
# Importando pandas e request
import pandas as pd
import requests

from bs4 import BeautifulSoup
    

# API

## API do app de buscas ZenSerp.

Documenta√ß√£o: https://zenserp.docs.apiary.io/#

In [2]:
# Configurando a API

# Inserindo a chave para uso da API
headers = {
    'apikey': '-----------------------------------', # por precau√ß√£o e respeito, para subir este trabalho no github retirei todas as chaves das APIs utilizadas
}

# Par√¢metros de busca:
# q √© referente √† palavra a ser buscada, no caso, procuramos por gatinhos: kittens

params = (
    ('q', 'kittens'),
    ('location', 'United States'),
    ('search_engine', 'google.com'),
    ('gl', 'US'),
    ('hl', 'en')
)

response = requests.get('https://app.zenserp.com/api/v2/search', headers=headers, params=params)

print(response.json())

result = response.json()


{'query': {'q': 'kittens', 'location': 'United States', 'search_engine': 'google.com', 'gl': 'US', 'hl': 'en', 'url': 'https://google.com/search?q=kittens&uule=w+CAIQICINVW5pdGVkIFN0YXRlcw&hl=en&gl=US&sourceid=chrome&ie=UTF-8'}, 'organic': [{'position': 1, 'videos': [{'title': 'Kittens meowing (too much cuteness) - All talking at the same ...', 'url': 'https://www.youtube.com/watch?v=BgIgKcqPd4k', 'parsed': {'source': 'YouTube', 'date': 'Jun 16, 2017', 'channel': 'walter santi'}}, {'title': 'Kittens Do Things For The First Time', 'url': 'https://www.youtube.com/watch?v=c1c0a4fo1zo', 'parsed': {'source': 'YouTube', 'date': 'Feb 26, 2015', 'channel': 'BuzzFeedVideo'}}, {'title': 'What Kittens Do At Night...', 'url': 'https://www.youtube.com/watch?v=obFdo3IQcR8', 'parsed': {'source': 'YouTube', 'date': 'Jun 22, 2017', 'channel': 'Cole and Marmalade'}}]}, {'position': 2, 'questions': [{'question': 'Can a kitten be left alone during the day?'}, {'question': 'Why do kittens die after birth?'

In [3]:
# Para conseguir todas as informa√ß√µes obtidas
print("keys: {}".format(result.keys()))

keys: dict_keys(['query', 'organic', 'related_searches', 'number_of_results'])


In [4]:
# para verificar o formato de cada grupo de informa√ß√µes
print("query: {}".format(type(result['query'])))
print("organic: {}".format(type(result['organic'])))
print("related_searches: {}".format(type(result['related_searches'])))
print("number_of_results: {}".format(type(result['number_of_results'])))

query: <class 'dict'>
organic: <class 'list'>
related_searches: <class 'list'>
number_of_results: <class 'int'>


In [5]:
# esta √© a parte que devolve os par√¢metros de busca que realizamos
print("query: {}".format(result['query'].keys()))

query: dict_keys(['q', 'location', 'search_engine', 'gl', 'hl', 'url'])


In [6]:
print(result['query'])


{'q': 'kittens', 'location': 'United States', 'search_engine': 'google.com', 'gl': 'US', 'hl': 'en', 'url': 'https://google.com/search?q=kittens&uule=w+CAIQICINVW5pdGVkIFN0YXRlcw&hl=en&gl=US&sourceid=chrome&ie=UTF-8'}


In [7]:
# Data Frame de buscas org√¢nicas relacionadas aos nossos termos de busca

df_organic = pd.DataFrame.from_records(result['organic'])
df_organic

Unnamed: 0,description,destination,isAmp,position,questions,title,url,videos
0,,,,1,,,,[{'title': 'Kittens meowing (too much cuteness...
1,,,,2,[{'question': 'Can a kitten be left alone duri...,,,
2,Kitten Care. Your new kitten deserves the best...,https://pets.webmd.com ‚Ä∫ Healthy Cats ‚Ä∫ Guide,False,3,,Healthy Cats Guide: Caring for Your Kitten - P...,https://pets.webmd.com/cats/guide/kitten-care,
3,"A kitten is a juvenile cat. After being born, ...",https://en.wikipedia.org ‚Ä∫ wiki ‚Ä∫ Kitten,False,4,,Kitten - Wikipedia,https://en.wikipedia.org/wiki/Kitten,
4,Cat Checkups & Preventive Care ¬∑ What is Kitte...,www.pethealthnetwork.com ‚Ä∫ tags ‚Ä∫ kittens,False,5,,Kittens - Pet Health Network,http://www.pethealthnetwork.com/tags/kittens,
5,"At about seven days old, kittens' ears will un...",https://www.alleycat.org ‚Ä∫ Alley Cat Allies Re...,False,6,,How Old Is That Kitten? Kitten Guide: One Week...,https://www.alleycat.org/resources/how-old-is-...,
6,Kittens news and opinion. ... Woman Finds Out ...,https://www.huffpost.com ‚Ä∫ impact ‚Ä∫ topic ‚Ä∫ ki...,False,7,,Kittens - HuffPost,https://www.huffpost.com/impact/topic/kittens,
7,Find cats and kittens for adoption at the Mich...,https://www.michiganhumane.org ‚Ä∫ cats-and-kittens,False,8,,Cats & Kittens For Adoption - Adopt A Cat/Kitt...,https://www.michiganhumane.org/cats-and-kittens/,
8,PAWS frequently has kittens and puppies availa...,https://www.paws.org ‚Ä∫ cats-and-dogs ‚Ä∫ adopt ‚Ä∫...,False,9,,Puppies & Kittens ¬ª PAWS,https://www.paws.org/cats-and-dogs/adopt/puppi...,


In [8]:
# Data Frame de buscas org√¢nicas relacionadas aos nossos termos de busca

df_related = pd.DataFrame.from_records(result['related_searches'])
df_related

Unnamed: 0,title,url
0,kittens video,https://google.com/search?hl=en&gl=US&q=kitten...
1,newborn kittens,https://google.com/search?hl=en&gl=US&q=newbor...
2,cute kittens,https://google.com/search?hl=en&gl=US&q=cute+k...
3,kittens for sale,https://google.com/search?hl=en&gl=US&q=kitten...
4,kittens for adoption,https://google.com/search?hl=en&gl=US&q=kitten...
5,kittens and puppies,https://google.com/search?hl=en&gl=US&q=kitten...
6,black kittens,https://google.com/search?hl=en&gl=US&q=black+...
7,free kittens,https://google.com/search?hl=en&gl=US&q=free+k...


In [9]:
# como as tabelas de buscas org√¢nicas e relacionadas dizem respeito a coisas diferentes, n√£o faz sentido concaten√°-las.

-------------------------------------------------------------------------------------------------------------

# API do Open Weather Map (Get weather and weather forecasts for multiple cities.)

Documenta√ß√£o: https://openweathermap.org/guide

In [10]:
import requests

url = "https://community-open-weather-map.p.rapidapi.com/weather"

querystring = {"id":"2172797","lang":"Portuguese - pt","units":"metric","q":"Sao Paulo, br"}

headers = {
    'x-rapidapi-host': "community-open-weather-map.p.rapidapi.com",
    'x-rapidapi-key': "------------------------------------------" #por precau√ß√£o e respeito, para subir este trabalho no github retirei todas as chaves das APIs utilizadas
    }

response = requests.request("GET", url, headers=headers, params=querystring)

print(response.text)


{"coord":{"lon":-46.64,"lat":-23.55},"weather":[{"id":804,"main":"Clouds","description":"overcast clouds","icon":"04n"}],"base":"stations","main":{"temp":19.67,"pressure":1020,"humidity":88,"temp_min":19,"temp_max":20},"visibility":10000,"wind":{"speed":3.6,"deg":130},"clouds":{"all":90},"dt":1574211129,"sys":{"type":1,"id":8446,"country":"BR","sunrise":1574151168,"sunset":1574199078},"timezone":-10800,"id":3448439,"name":"Sao Paulo","cod":200}


In [11]:
results = response.json()
results

{'coord': {'lon': -46.64, 'lat': -23.55},
 'weather': [{'id': 804,
   'main': 'Clouds',
   'description': 'overcast clouds',
   'icon': '04n'}],
 'base': 'stations',
 'main': {'temp': 19.67,
  'pressure': 1020,
  'humidity': 88,
  'temp_min': 19,
  'temp_max': 20},
 'visibility': 10000,
 'wind': {'speed': 3.6, 'deg': 130},
 'clouds': {'all': 90},
 'dt': 1574211129,
 'sys': {'type': 1,
  'id': 8446,
  'country': 'BR',
  'sunrise': 1574151168,
  'sunset': 1574199078},
 'timezone': -10800,
 'id': 3448439,
 'name': 'Sao Paulo',
 'cod': 200}

In [12]:
results.keys()


dict_keys(['coord', 'weather', 'base', 'main', 'visibility', 'wind', 'clouds', 'dt', 'sys', 'timezone', 'id', 'name', 'cod'])

In [13]:
for item in results.keys():
    
    print("{} : {}".format(item, type(results[item])))

coord : <class 'dict'>
weather : <class 'list'>
base : <class 'str'>
main : <class 'dict'>
visibility : <class 'int'>
wind : <class 'dict'>
clouds : <class 'dict'>
dt : <class 'int'>
sys : <class 'dict'>
timezone : <class 'int'>
id : <class 'int'>
name : <class 'str'>
cod : <class 'int'>


In [14]:
# Vamos selecionar apenas as informa√ß√µes que s√£o interessantes: descri√ß√£o, temperatura, temperatura m√≠nima e temperatura m√°xima 
# para v√°rias cidades.

In [15]:
description = results['weather'][0]["description"]
temp = results['main']['temp']
temp_min = results['main']['temp_min']
temp_max = results['main']['temp_max']

infos = [description, temp, temp_min, temp_max]
infos

['overcast clouds', 19.67, 19, 20]

In [16]:
cities = ["S√£o Paulo, br", "Rio de Janeiro, br", "Bras√≠lia, br", "Belo Horizonte, br"]

In [17]:
def encontra_tempo(cidade):
    import requests

    url = "https://community-open-weather-map.p.rapidapi.com/weather"

    querystring = {"id":"2172797","lang":"Portuguese - pt","units":"metric","q": cidade}

    headers = {
        'x-rapidapi-host': "community-open-weather-map.p.rapidapi.com",
        'x-rapidapi-key': "0c43f24cdfmsh646de878c41b449p1afa99jsncf5340e96b66"
        }

    response = requests.request("GET", url, headers=headers, params=querystring)

    results = response.json()
    
    description = results['weather'][0]["description"]
    temp = results['main']['temp']
    temp_min = results['main']['temp_min']
    temp_max = results['main']['temp_max']
    infos = [description, temp, temp_min, temp_max]
    
    return infos

In [18]:
tempo = pd.DataFrame(columns = cities, index = ['descri√ß√£o', 'temperatura', "temp_min", "temp_max"])

for city in cities:
    tempo[city] = encontra_tempo(city)

In [19]:
tempo.head()

Unnamed: 0,"S√£o Paulo, br","Rio de Janeiro, br","Bras√≠lia, br","Belo Horizonte, br"
descri√ß√£o,overcast clouds,overcast clouds,thunderstorm,thunderstorm
temperatura,19.67,22.24,20.67,21.46
temp_min,19,22,19.44,21
temp_max,20,23,22,22


In [20]:
# que tal ampliarmos para todas as capitais?

In [21]:
url = 'https://www.estadosecapitaisdobrasil.com'

In [22]:
data = requests.get(url)
data.status_code

200

In [23]:
soup = BeautifulSoup(data.content, 'html.parser')

In [24]:
links = soup.find_all('a')
links

[<a href="https://www.estadosecapitaisdobrasil.com"><img alt="Estados e Capitais do Brasil" height="97" src="https://www.estadosecapitaisdobrasil.com/wp-content/themes/estadosecapitais/res/img/logo.png?x64851" width="276"/></a>,
 <a class="navbar-brand" href="https://www.estadosecapitaisdobrasil.com">Estados e Capitais</a>,
 <a class="dropdown-toggle" data-toggle="dropdown" href="#">Regi√µes do Brasil<span class="caret"></span></a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regioes-do-brasil/">Regi√µes do Brasil</a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regiao/centro-oeste/">Regi√£o Centro-Oeste</a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regiao/nordeste/">Regi√£o Nordeste</a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regiao/norte/">Regi√£o Norte</a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regiao/sudeste/">Regi√£o Sudeste</a>,
 <a href="https://www.estadosecapitaisdobrasil.com/regiao/sul/">Regi√£o Sul</a>,
 <a class="dropdown-tog

In [25]:
cidades_brasileiras = [cid.get_text() for cid in links if 'capital' in str(cid)]

#Agora vamos transformar para o formato adequado de nossa API:
    
cities = [city + ', br' for city in cidades_brasileiras]
cities

['Rio Branco, br',
 'Macei√≥, br',
 'Macap√°, br',
 'Manaus, br',
 'Salvador, br',
 'Fortaleza, br',
 'Bras√≠lia, br',
 'Vit√≥ria, br',
 'Goi√¢nia, br',
 'S√£o Lu√≠s, br',
 'Cuiab√°, br',
 'Campo Grande, br',
 'Belo Horizonte, br',
 'Bel√©m, br',
 'Jo√£o Pessoa, br',
 'Curitiba, br',
 'Recife, br',
 'Teresina, br',
 'Rio de Janeiro, br',
 'Natal, br',
 'Porto Alegre, br',
 'Porto Velho, br',
 'Boa Vista, br',
 'Florian√≥polis, br',
 'S√£o Paulo, br',
 'Aracaju, br',
 'Palmas, br']

In [26]:
tempo = pd.DataFrame(columns = cities, index = ['descri√ß√£o', 'temperatura', "temp_min", "temp_max"])

for city in cities:
    tempo[city] = encontra_tempo(city)

In [27]:
tempo.transpose()

Unnamed: 0,descri√ß√£o,temperatura,temp_min,temp_max
"Rio Branco, br",scattered clouds,25.0,25.0,25.0
"Macei√≥, br",overcast clouds,23.0,23.0,23.0
"Macap√°, br",scattered clouds,29.0,29.0,29.0
"Manaus, br",thunderstorm,23.49,23.0,24.0
"Salvador, br",few clouds,26.0,26.0,26.0
"Fortaleza, br",scattered clouds,28.08,27.0,30.0
"Bras√≠lia, br",thunderstorm,20.67,19.44,22.0
"Vit√≥ria, br",overcast clouds,23.39,22.78,24.0
"Goi√¢nia, br",overcast clouds,21.42,21.0,22.0
"S√£o Lu√≠s, br",broken clouds,21.44,19.44,23.33


# Web Scraping

# Web Scraping do YouTube

#### Para capturar os 10 t√≠tulos mais bem posicionados relacionados a determinados termos de busca no Youtube

In [28]:
# definindo fun√ß√£o para capturar os 10 t√≠tulos mais bem posicionados relacionados a determinado termo de busca

def youtube_title_scraper(word):
    url = 'https://www.youtube.com/results?search_query=' + str(word)
    data = requests.get(url)
    soup = BeautifulSoup(data.content, 'html.parser')
    titles = soup.find_all('a')
    # determinamos que "rel="spf-prefetch" aparece apenas nos t√≠tulos buscados:
    titles2 = [title.get_text() for title in titles if 'rel="spf-prefetch"' in str(title)]
    return titles2[0:10]

#### Vamos criar os exemplos, inserindo termos de buscas: 'kittens', "cat", "dog" e "lions".


In [29]:
search_list = ['kittens', "cat", "dog", "lions"]

buscas = pd.DataFrame(columns = search_list)

for item in search_list: 
    buscas[item]= youtube_title_scraper(item)


In [30]:
#
buscas.head()

Unnamed: 0,kittens,cat,dog,lions
0,So many cute kittens videos compilation 2018,Cat Dealers - Your Body (Remix),ü§£ Funniest üê∂ Dogs and üòª Cats - Awesome Funny P...,"Skillet - ""Lions"" [Official Lyric Video]"
1,Learn How Baby Kittens Grow: 0-8 Weeks!,CATS will make you LAUGH YOUR HEAD OFF - Funny...,"O BRUTTO, TINHO DO COQUE E TH CDM Feat. KEVIN ...",Cowboys vs. Lions Week 11 Highlights | NFL 2019
2,Kittens Playing and Making a Mess,Pescamos um PEIXE GIGANTE! üêü - Cat Goes Fishing,Abandoned Puppies Rescued And Build Castle Mud...,Lion King: 23-Year-Old Is Best Friends With Bi...
3,LIVE: Tiny orphan kittens in quarantine - We'r...,MISSING CAT COLOUR SPECIAL - FULL FILM!,PANDO FIGHTS BACK MUSCULAR DOG - LIVE Stop Mot...,Skip Marley - Lions (Official Video)
4,31 Funny Kittens | Cat Video Compilation 2017,HEEY CAT E THA√çS ESCLARECERAM O MUNDO DAS SAPAT√ÉO,Try Not To Laugh Challenge - Funny Cat & Dog V...,GoPro: Lions - The New Endangered Species?


-----------------------------------------------------------------------------------------

# Web Scraping do site https://www.grimmstories.com/pt/grimm_contos

### Definindo uma fun√ß√£o para capturar o t√≠tulo e in√≠cio de contos de Grimm no site: https://www.grimmstories.com/pt/grimm_contos

In [31]:
def Grimm_Crowler(num):
    import re
    url = 'https://www.grimmstories.com/pt/grimm_contos/index?page=' + str(num)
    data = requests.get(url)
    soup = BeautifulSoup(data.content, 'html.parser')
    hist = soup.find_all('a')
    hist2 = [title.get_text() for title in hist]
    hist3 = [title for title in hist2 if re.match('\d{3} .*', title)]
    return hist3

In [32]:
hist = []

# Vamos fazer o scrape de apenas 5 p√°ginas 
for i in range(5):
    hist.append(Grimm_Crowler(i))

In [33]:
#Conseguimos uma cole√ß√£o de listas. Quero transform√°-las em uma lista de strings
hist = [item for lista in hist for item in lista]

In [34]:
hist

['001 O Rei Sapo ou Henrique de FerroEm muitos tempos remotos, quando ainda os desejos podiam ser realizados, houve um Rei cujas filhas eram muito bonitas. A ca√ßula, sobretudo, era t√£o linda que at√© o sol, que j√° vira tantas e tantas coisas, extasiava-se quando projetava os raios naquele semblante encantador.Ler o conto ‚Üí',
 '002 Gato e rato em companhiaUm gato tinha feito o conhecimento de um rato, e tinha dito que ele fez amor e amizade, enfim o mouse concordou em casar com ele e viver juntos. Mas temos que pensar sobre o inverno, porque sen√£o passam fome, disse o gato. Tu, ratinho, n√£o pode se aventurar em todos os lugares, finalmente pego em uma armadilha. Seguindo, ent√£o, esse conselho pr√≥-ativa, comprei um pote de manteiga.Ler o conto ‚Üí',
 '003 A protegida de MariaNa orla de uma extensa floresta morava um lenhador e sua esposa. Eles tinham apenas uma filha, que era uma menina de tr√™s anos. Mas eles eram t√£o pobres que n√£o tinham mais o p√£o de cada dia e j√° n√£o s

In [35]:
#interessante notar que o t√≠tulo do conto e o texto n√£o est√£o separados. 
#Entretanto, na transi√ß√£o entre t√≠tulo e texto notamos sempre o mesmo padr√£o: letra min√∫scula seguida imediatamente de letra mai√∫scula
# ou ")" seguido imediatamente de letra mai√∫scula. Por falta de tempo, abrimos m√£o da primeira letra do texto e √∫ltima letra do t√≠tulo
# para separar tais informa√ß√µes em uma tabela.

# Separaremos o n√∫mero referente ao cat√°logo de contos, o t√≠tulo do conto e o in√≠cio de cada texto

import re
num = [re.findall('(\d{3}) .*', title) for title in hist]
num = [item for lista in num for item in lista]

titulo = [re.split('(\d{3}) ', title)[2] for title in hist]
titulo2 = [re.split('[a-z][A-Z]|\)[A-Z]', title)[0] for title in titulo]

inicio_hist = [re.split('[a-z][A-Z]|\)[A-Z]', title)[1] for title in hist]
#inicio_hist



pd.DataFrame({"item":num, "titulo": titulo2, "In√≠cio da hist√≥ria": inicio_hist})

Unnamed: 0,item,titulo,In√≠cio da hist√≥ria
0,001,O Rei Sapo ou Henrique de Ferr,"m muitos tempos remotos, quando ainda os desej..."
1,002,Gato e rato em companhi,"m gato tinha feito o conhecimento de um rato, ..."
2,003,A protegida de Mari,a orla de uma extensa floresta morava um lenha...
3,004,A hist√≥ria do jovem em busca de saber o que √© ...,"m pai tinha dois filhos, o mais velho deles er..."
4,005,O lobo e as sete crian√ßa,ra uma vez uma velha cabra que tinha sete cabr...
5,006,O fiel Jo√£,"ouve, uma vez, um velho rei que, sentindo-se m..."
6,007,O bom neg√≥ci,ra uma vez um campon√™s que tinha levado a sua ...
7,008,O m√∫sico maravilhos,um pa√≠s distante havia um m√∫sico que tocava mu...
8,009,Os doze irm√£o,"ouve, uma vez, um rei e uma rainha, cuja vida ..."
9,010,Gentalh,ranguinho disse √† Franguinha: - Agora √© a √©poc...
