![](https://anymarket.com.br/wp-content/uploads/2018/07/images.png)

# WebScraping Mercado Livre -

## Olá a todos =D
### Esse é um projeto de WebScraping do site mercado livre, basicamente, os itens mais vendidos.

## Vou comentar com algum detalhe cada passo desse projeto, então, **vamos lá!!!**

### Vamos primeiro importar as bibliotecas necessárias;
### Os mais fundamentais aqui são a BeutifulSoup e a nossa queridinha Pandas; 

In [36]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

### Vamos considerar nesse projeto apenas a URL da página principal, depois vamos tratar com as demais páginas;

In [37]:
#Página principal 
url = 'https://www.mercadolivre.com.br/ofertas#nav-header'

### Utilizamos o métodos 'requests.get()' para pegar todo o script da URL;
### Basicamente, queremos toda a informação (tecnicamente falamos a resposta da URL) em HTML dessa página;

In [38]:
html = requests.get(url)

### Aqui, usamos o método BeautifulSoup para transformar as informações dessa URL para um formato mais compreensível;


In [53]:
soup = BeautifulSoup(html.text)

### Agora vem a parte mais interessante (e talvez mais complicada) de nosso projeto;
### Precisamos buscar no script da página, as classes que agregam as informações que desejamos;
### Geralmente usando a tecla F12 você terá acesso à essa ferramenta, o uso dela é bem simples e vale estudar um pouco mais sobre isso ;D

In [40]:
soup.find_all(class_='promotion-item__price');

In [41]:
soup.find_all(class_='promotion-item__title');

In [42]:
soup.find_all(class_='promotion-item__oldprice');

In [43]:
soup.find_all(class_='promotion-item__price-additional-info');

### Iniciamos algumas listas vazias que receberão as informações dentro das classes;

In [44]:
title = []
price = []
oldprice = []
desconto = []

### Usamos o atributo '.text' para retirarmos apenas a informação de dentro dessa classe;

In [45]:
for row in soup.find_all(class_='promotion-item__title'):
    title.append(row.text)


In [46]:
for row in soup.find_all(class_='promotion-item__price'):
    price.append(row.text)

In [47]:
for row in soup.find_all(class_='promotion-item__oldprice'):
    oldprice.append(row.text)

In [48]:
for row in soup.find_all(class_='promotion-item__price-additional-info'):
    desconto.append(str(row.text))

### Após adicionarmos todos as informações nas listas vazias, vamos criar um dicionário e então um DataFrame a partir desses dados;

### Caso você ainda não saiba a como criar um dataframe a partir de um dicionário, revise esse tópico com bastante rigor, pois é um ponto fundamental ;)

In [49]:
df = pd.DataFrame({'Descrição':title, 'Preço':price, 'Preço antigo':oldprice, 'Desconto':desconto})

In [54]:
df

Unnamed: 0,Descrição,Preço,Preço antigo,Desconto
0,LG K41s Dual Sim 32 Gb Preto 3 Gb Ram,R$ 714,R$ 829,13% OFF
1,Smartphone Galaxy M32 6.4'' 128gb 6gb Ram Azul...,R$ 1.449,R$ 1.699,14% OFF
2,Moto G9 Play Dual Sim 64 Gb Verde-turquesa 4 ...,R$ 1.049,R$ 1.143,8% OFF
3,Apple iPhone 11 (128 Gb) - Preto,R$ 4.399,R$ 4.503,
4,Moto E6i Dual Sim 32 Gb Pink 2 Gb Ram,R$ 649,R$ 686,5% OFF
5,Chivas Regal Blended 12 Reino Unido 1 L,R$ 10499,R$ 149,30% OFF
6,Cerveja Mexicana Corona Garrafa 330ml,R$ 434,R$ 5,25% OFF
7,Notebook Gamer Acer Nitro 5 An515-54 Preta E V...,R$ 4.799,R$ 5.599,14% OFF
8,Smart Tv Led 32'' Hd Ptv32d10n5skh Com Dolby A...,R$ 1.399,R$ 1.599,12% OFF
9,Patinete Infantil 3 Rodas Musical Luzes Cesta ...,R$ 15291,R$ 169,10% OFF


### Eita, algumas informações estão vazias =/
### Vamos resolver isso usando a função 'loc', que serve para localizarmos linhas e colunas de acordo com as condições impostas;

In [72]:
df.loc[df['Preço antigo']=='', 'Preço antigo'] = 0

In [77]:
df.loc[df['Desconto']=='', 'Desconto'] = 'Sem Desconto'

In [78]:
df

Unnamed: 0,Descrição,Preço,Preço antigo,Desconto
0,LG K41s Dual Sim 32 Gb Preto 3 Gb Ram,R$ 714,R$ 829,13% OFF
1,Smartphone Galaxy M32 6.4'' 128gb 6gb Ram Azul...,R$ 1.449,R$ 1.699,14% OFF
2,Moto G9 Play Dual Sim 64 Gb Verde-turquesa 4 ...,R$ 1.049,R$ 1.143,8% OFF
3,Apple iPhone 11 (128 Gb) - Preto,R$ 4.399,R$ 4.503,Sem Desconto
4,Moto E6i Dual Sim 32 Gb Pink 2 Gb Ram,R$ 649,R$ 686,5% OFF
5,Chivas Regal Blended 12 Reino Unido 1 L,R$ 10499,R$ 149,30% OFF
6,Cerveja Mexicana Corona Garrafa 330ml,R$ 434,R$ 5,25% OFF
7,Notebook Gamer Acer Nitro 5 An515-54 Preta E V...,R$ 4.799,R$ 5.599,14% OFF
8,Smart Tv Led 32'' Hd Ptv32d10n5skh Com Dolby A...,R$ 1.399,R$ 1.599,12% OFF
9,Patinete Infantil 3 Rodas Musical Luzes Cesta ...,R$ 15291,R$ 169,10% OFF


### Nosso dataset ficou muito legal!!! Mas podemos melhorar algumas coisinhas...

### Seria legal também se tirassemos esse 'R$' das colunas. Vamos fazer isso;

In [104]:
for i in range(len(df)):
    df['Preço'][i] = df['Preço'][i].replace('R$ ', '')

In [106]:
for i in range(len(df)):
    df['Preço antigo'][i] = df['Preço antigo'][i].replace('R$ ', '')

### Podemos também remover esse 'OFF' da coluna desconto!


In [108]:
for i in range(len(df)):
    df['Desconto'][i] = df['Desconto'][i].replace(' OFF', '')

In [109]:
df

Unnamed: 0,Descrição,Preço,Preço antigo,Desconto
0,LG K41s Dual Sim 32 Gb Preto 3 Gb Ram,714.0,829.0,13%
1,Smartphone Galaxy M32 6.4'' 128gb 6gb Ram Azul...,1.449,1.699,14%
2,Moto G9 Play Dual Sim 64 Gb Verde-turquesa 4 ...,1.049,1.143,8%
3,Apple iPhone 11 (128 Gb) - Preto,4.399,4.503,Sem Desconto
4,Moto E6i Dual Sim 32 Gb Pink 2 Gb Ram,649.0,686.0,5%
5,Chivas Regal Blended 12 Reino Unido 1 L,10499.0,149.0,30%
6,Cerveja Mexicana Corona Garrafa 330ml,434.0,5.0,25%
7,Notebook Gamer Acer Nitro 5 An515-54 Preta E V...,4.799,5.599,14%
8,Smart Tv Led 32'' Hd Ptv32d10n5skh Com Dolby A...,1.399,1.599,12%
9,Patinete Infantil 3 Rodas Musical Luzes Cesta ...,15291.0,169.0,10%


## Vamos parar por aqui, nosso DataFrame ficou muito legal!
### Num próximo projeto vamos trabalhar com um modelo mais complexo...
### Até lá :)