# Web Scraping
Automatizar la extraccion datos de una pagina web.

## Librerias
Las librerias que se necesitan para scrapear una pagina web estatica son:

In [1]:
from requests import get
from bs4 import BeautifulSoup

## Get Url

Vamos a utilizar la pagina de [Voguebags](https://www.voguebags.cn/handbags-c-1/) como ejemplo de scrapping. La url a esta pagina es:

In [2]:
url_carteras = 'https://www.voguebags.cn/handbags-c-1/'

Con esta url podemos pedir la pagina web:

In [3]:
url_leido = get(url_carteras)

### Respuesta
La respuesta del get indica si ha sido exitosa (200) o no (404). Y en su propiedad `content` esta el html del sitio

In [4]:
url_leido

<Response [200]>

In [7]:
# Veamos los primeros 500 caracteres que contiene la respuesta
url_leido.content[:1000]

b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="en">\r\n<head>\r\n<title>Handbags : voguebag.net</title>\r\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\r\n<meta name="keywords" content="Handbags Wallets Shoes Scarves Sunglasses Men Watches Apparel  Handbags" />\r\n<meta name="description" content="voguebag.net : Handbags - Handbags Wallets Shoes Scarves Sunglasses Men Watches Apparel " />\r\n<meta http-equiv="imagetoolbar" content="no" />\r\n<meta name="author" content="The Zen Cart&trade; Team and others" />\r\n<meta name="generator" content="shopping cart program by Zen Cart&trade;, http://www.zen-cart.com eCommerce" />\r\n\r\n<base href="https://www.voguebags.cn/" />\r\n\r\n<link rel="stylesheet" type="text/css" media="print" href="includes/templates/musheji/css/print_stylesheet.css" />\n<link rel="stylesheet" type="text/

In [8]:
# Que tipo de datos son?
type(url_leido.content)

bytes

## Parseo
El parseo con BeautifulSoup crea un objeto que facilita las busquedas de elementos y la extraccion del contenido.

In [9]:
html = BeautifulSoup(url_leido.content, 'html.parser')

In [10]:
# Que tipo de objeto es?
type(html)

bs4.BeautifulSoup

In [11]:
# Que contiene?
html

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html dir="ltr" lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Handbags : voguebag.net</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Handbags Wallets Shoes Scarves Sunglasses Men Watches Apparel  Handbags" name="keywords"/>
<meta content="voguebag.net : Handbags - Handbags Wallets Shoes Scarves Sunglasses Men Watches Apparel " name="description"/>
<meta content="no" http-equiv="imagetoolbar"/>
<meta content="The Zen Cart™ Team and others" name="author"/>
<meta content="shopping cart program by Zen Cart™, http://www.zen-cart.com eCommerce" name="generator"/>
<base href="https://www.voguebags.cn/"/>
<link href="includes/templates/musheji/css/print_stylesheet.css" media="print" rel="stylesheet" type="text/css"/>
<link href="/includes/templates/musheji/css/style.css" rel="stylesheet" type="text/css"/>
<link h

## Buscar elementos
Ahora empieza la tarea de buscar aquellos elementos que contienen los datos que nos interesan.

Utilizar:
- **find** si solo se busca el primero (ej. un *id*)
- **find_all** si se buscan varios elementos (ej. una clase o un tag)

### Find

In [15]:
logo = html.find(class_='logo')
logo

<div class="logo fleft">
<a href="https://www.voguebags.cn/"><img alt="Replica Handbags, designer handbags wholesale, replica gucci handbags" src="includes/templates/musheji/images/logo.png" title="Designer Replica Handbags • Gucci® Prada | Hermes Online"/></a> </div>

El primer elemento que tiene la clase 'logo' es un `div` que a su vez contiene un link (`a`) y ese, a su vez, una imagen (`img`)

Como se obtiene el link al que apunta?

Usando find nuevamente para recuperar el link y de este el valor del atributo `href`

In [16]:
logo.find('a')

<a href="https://www.voguebags.cn/"><img alt="Replica Handbags, designer handbags wholesale, replica gucci handbags" src="includes/templates/musheji/images/logo.png" title="Designer Replica Handbags • Gucci® Prada | Hermes Online"/></a>

In [18]:
link_a_pagina_principal = logo.find('a')['href']
link_a_pagina_principal

'https://www.voguebags.cn/'

Y si nos interesa la imagen, podemos obtener su texto alternativo () o el link a la imagen (`src`)

In [19]:
logo.find('img')

<img alt="Replica Handbags, designer handbags wholesale, replica gucci handbags" src="includes/templates/musheji/images/logo.png" title="Designer Replica Handbags • Gucci® Prada | Hermes Online"/>

In [20]:
logo.find('img')['src']

'includes/templates/musheji/images/logo.png'

In [21]:
logo.find('img')['alt']

'Replica Handbags, designer handbags wholesale, replica gucci handbags'

In [22]:
logo.find('img')['title']

'Designer Replica Handbags • Gucci® Prada | Hermes Online'

Tambien podriamos obtener el link primero y luego con un segundo find, la imagen.

In [23]:
logo.find('a').find('img')['src']

'includes/templates/musheji/images/logo.png'

In [24]:
logo.find('img')['src']

'includes/templates/musheji/images/logo.png'

De la forma que esta estructurado el html, ambos casos dan lo mismo.

### Find All

Si deseo encontrar todos los elementos de la pagina, sea por tag o por clase, se usa `find_all`.

Para buscar por clase se puede usar el parametro `class_`

Para buscar por nombre de tag no hace falta usar la etiqueta del parametro `name` porque este es el parametro principal.

Obtengamos todos los elementos que sean de la clase 'mu_category_name'

In [25]:
categorias = html.find_all(class_= 'mu_category_name')

In [26]:
categorias

[<span class="mu_category_name">3.1 Phillip Lim</span>,
 <span class="mu_category_name">Alexander Wang</span>,
 <span class="mu_category_name">Balenciaga</span>,
 <span class="mu_category_name">Bottega Veneta</span>,
 <span class="mu_category_name">Burberry</span>,
 <span class="mu_category_name">Bvlgari</span>,
 <span class="mu_category_name">Celine</span>,
 <span class="mu_category_name">Chloe</span>,
 <span class="mu_category_name">Christian Dior</span>,
 <span class="mu_category_name">Dolce &amp; Gabbana</span>,
 <span class="mu_category_name">Fendi</span>,
 <span class="mu_category_name">Givenchy</span>,
 <span class="mu_category_name">Goyard</span>,
 <span class="mu_category_name">Gucci</span>,
 <span class="mu_category_name">Hermes</span>,
 <span class="mu_category_name">Miu Miu</span>,
 <span class="mu_category_name">Prada</span>,
 <span class="mu_category_name">Saint Laurent</span>,
 <span class="mu_category_name">Valentino</span>]

En este caso, el resultado es una lista. Puedo a su vez procesar cada uno de los elementos por separado, pero para eso hay que armar un loop.

### Extraccion de Texto (getText)
El metodo `getText()` nos permite extraer el texto contenido en el elemento encontrado con *find* o *findall*

In [34]:
categorias[1].getText()

'Alexander Wang'

Para extraer todos los diseñadores, aplico un for-loop

In [35]:
diseñadores = []
for cat in categorias:
    diseñadores.append(cat.getText())
diseñadores

['3.1 Phillip Lim',
 'Alexander Wang',
 'Balenciaga',
 'Bottega Veneta',
 'Burberry',
 'Bvlgari',
 'Celine',
 'Chloe',
 'Christian Dior',
 'Dolce & Gabbana',
 'Fendi',
 'Givenchy',
 'Goyard',
 'Gucci',
 'Hermes',
 'Miu Miu',
 'Prada',
 'Saint Laurent',
 'Valentino']

O de manera mas compacta

In [36]:
guardar = [diseñador.getText() for diseñador in categorias]

In [37]:
guardar

['3.1 Phillip Lim',
 'Alexander Wang',
 'Balenciaga',
 'Bottega Veneta',
 'Burberry',
 'Bvlgari',
 'Celine',
 'Chloe',
 'Christian Dior',
 'Dolce & Gabbana',
 'Fendi',
 'Givenchy',
 'Goyard',
 'Gucci',
 'Hermes',
 'Miu Miu',
 'Prada',
 'Saint Laurent',
 'Valentino']

## Ejemplos

### Todos los links
Si quiero extraer todos los links de la pagina hago:

In [38]:
html.find_all('a')

[<a alt="My Account" class="link-account" href="https://www.voguebags.cn/account.html" rel="nofollow">My Account</a>,
 <a href="https://www.voguebags.cn/faqs-ezp-15.html" rel="nofollow">FAQs</a>,
 <a class="curr_text" href="" rel="nofollow"><span>$</span> USD</a>,
 <a href="https://www.voguebags.cn/handbags-c-1/?currency=USD" rel="nofollow"><em>$</em>USD</a>,
 <a href="https://www.voguebags.cn/handbags-c-1/?currency=EUR" rel="nofollow"><em>€</em>EUR</a>,
 <a href="https://www.voguebags.cn/handbags-c-1/?currency=GBP" rel="nofollow"><em>£</em>GBP</a>,
 <a href="https://www.voguebags.cn/handbags-c-1/?currency=CAD" rel="nofollow"><em>$</em>CAD</a>,
 <a href="https://www.voguebags.cn/handbags-c-1/?currency=AUD" rel="nofollow"><em>$</em>AUD</a>,
 <a class="mu_login_s" href="https://www.voguebags.cn/login.html" rel="nofollow">Sign in</a>,
 <a class="mu_login_r" href="https://www.voguebags.cn/index.php?main_page=create_account" rel="nofollow">Join</a>,
 <a href="https://www.voguebags.cn/"><img

In [39]:
todos_links = html.find_all('a')

In [40]:
todos_links_texto = [ lnk['href']  for lnk in todos_links]

In [41]:
todos_links_texto

['https://www.voguebags.cn/account.html',
 'https://www.voguebags.cn/faqs-ezp-15.html',
 '',
 'https://www.voguebags.cn/handbags-c-1/?currency=USD',
 'https://www.voguebags.cn/handbags-c-1/?currency=EUR',
 'https://www.voguebags.cn/handbags-c-1/?currency=GBP',
 'https://www.voguebags.cn/handbags-c-1/?currency=CAD',
 'https://www.voguebags.cn/handbags-c-1/?currency=AUD',
 'https://www.voguebags.cn/login.html',
 'https://www.voguebags.cn/index.php?main_page=create_account',
 'https://www.voguebags.cn/',
 'https://www.voguebags.cn/shopping_cart.html',
 '#',
 'https://www.voguebags.cn/',
 'https://www.voguebags.cn/apparel-c-93/',
 'https://www.voguebags.cn/fendi-c-93_95/',
 'https://www.voguebags.cn/gucci-c-93_94/',
 'https://www.voguebags.cn/handbags-c-1/',
 'https://www.voguebags.cn/31-phillip-lim-c-1_2/',
 'https://www.voguebags.cn/alexander-wang-c-1_3/',
 'https://www.voguebags.cn/balenciaga-c-1_13/',
 'https://www.voguebags.cn/bottega-veneta-c-1_4/',
 'https://www.voguebags.cn/burberr

### Obtener el listado de links a las paginas de los diseñadores
Esta claro que obtener todos los links de la pagina no es muy util. Si solo nos interesan los links a los diseñadores entonces tenemos que encontrar el elemento que contiene solamente estos links (podria no existir).

In [42]:
items_menu = html.find_all(class_='categoryListBoxContents')

In [49]:
items_menu[0].find('a')

<a alt="3.1 Phillip Lim" href="https://www.voguebags.cn/31-phillip-lim-c-1_2/" title="3.1 Phillip Lim"><span class="mu_category_img"><img alt="3.1 Phillip Lim" height="172" src="images/3.1.jpg" title=" 3.1 Phillip Lim " width="172"/></span><span class="mu_category_name">3.1 Phillip Lim</span></a>

In [58]:
items_menu[0].find('a')['href']

'https://www.voguebags.cn/31-phillip-lim-c-1_2/'

In [43]:
items_menu

[<div class="categoryListBoxContents mu_category0"><a alt="3.1 Phillip Lim" href="https://www.voguebags.cn/31-phillip-lim-c-1_2/" title="3.1 Phillip Lim"><span class="mu_category_img"><img alt="3.1 Phillip Lim" height="172" src="images/3.1.jpg" title=" 3.1 Phillip Lim " width="172"/></span><span class="mu_category_name">3.1 Phillip Lim</span></a></div>,
 <div class="categoryListBoxContents mu_category1"><a alt="Alexander Wang" href="https://www.voguebags.cn/alexander-wang-c-1_3/" title="Alexander Wang"><span class="mu_category_img"><img alt="Alexander Wang" height="172" src="images/alexander.jpg" title=" Alexander Wang " width="172"/></span><span class="mu_category_name">Alexander Wang</span></a></div>,
 <div class="categoryListBoxContents mu_category2"><a alt="Balenciaga" href="https://www.voguebags.cn/balenciaga-c-1_13/" title="Balenciaga"><span class="mu_category_img"><img alt="Balenciaga" height="172" src="images/balenciaga.jpg" title=" Balenciaga " width="172"/></span><span class=

Veamos a que link apunta alguno de ellos:

In [59]:
items_menu[2].find('a')

<a alt="Balenciaga" href="https://www.voguebags.cn/balenciaga-c-1_13/" title="Balenciaga"><span class="mu_category_img"><img alt="Balenciaga" height="172" src="images/balenciaga.jpg" title=" Balenciaga " width="172"/></span><span class="mu_category_name">Balenciaga</span></a>

In [60]:
items_menu[2].find('a')['href']

'https://www.voguebags.cn/balenciaga-c-1_13/'

Si generalizamos esto con un for-loop o con una lista comprensiva (comprehension list):

In [61]:
links = [item.find('a')['href'] for item in items_menu]
links

['https://www.voguebags.cn/31-phillip-lim-c-1_2/',
 'https://www.voguebags.cn/alexander-wang-c-1_3/',
 'https://www.voguebags.cn/balenciaga-c-1_13/',
 'https://www.voguebags.cn/bottega-veneta-c-1_4/',
 'https://www.voguebags.cn/burberry-c-1_32/',
 'https://www.voguebags.cn/bvlgari-c-1_18/',
 'https://www.voguebags.cn/celine-c-1_14/',
 'https://www.voguebags.cn/chloe-c-1_6/',
 'https://www.voguebags.cn/christian-dior-c-1_17/',
 'https://www.voguebags.cn/dolce-gabbana-c-1_5/',
 'https://www.voguebags.cn/fendi-c-1_9/',
 'https://www.voguebags.cn/givenchy-c-1_11/',
 'https://www.voguebags.cn/goyard-c-1_91/',
 'https://www.voguebags.cn/gucci-c-1_10/',
 'https://www.voguebags.cn/hermes-c-1_15/',
 'https://www.voguebags.cn/miu-miu-c-1_8/',
 'https://www.voguebags.cn/prada-c-1_12/',
 'https://www.voguebags.cn/saint-laurent-c-1_7/',
 'https://www.voguebags.cn/valentino-c-1_65/']

Otra forma de obtener lo mismo es buscando los elementos con clase 'category-products'

In [62]:
links_diseñadores = html.find_all(class_='category-products')

In [63]:
links_todos = [link.find('a')['href'] for link in links_diseñadores]

In [64]:
links_todos

['https://www.voguebags.cn/31-phillip-lim-c-1_2/',
 'https://www.voguebags.cn/alexander-wang-c-1_3/',
 'https://www.voguebags.cn/balenciaga-c-1_13/',
 'https://www.voguebags.cn/bottega-veneta-c-1_4/',
 'https://www.voguebags.cn/burberry-c-1_32/',
 'https://www.voguebags.cn/bvlgari-c-1_18/',
 'https://www.voguebags.cn/celine-c-1_14/',
 'https://www.voguebags.cn/chloe-c-1_6/',
 'https://www.voguebags.cn/christian-dior-c-1_17/',
 'https://www.voguebags.cn/dolce-gabbana-c-1_5/',
 'https://www.voguebags.cn/fendi-c-1_9/',
 'https://www.voguebags.cn/givenchy-c-1_11/',
 'https://www.voguebags.cn/goyard-c-1_91/',
 'https://www.voguebags.cn/gucci-c-1_10/',
 'https://www.voguebags.cn/hermes-c-1_15/',
 'https://www.voguebags.cn/miu-miu-c-1_8/',
 'https://www.voguebags.cn/prada-c-1_12/',
 'https://www.voguebags.cn/saint-laurent-c-1_7/',
 'https://www.voguebags.cn/valentino-c-1_65/']

In [65]:
arte = html.find_all(class_ = 'mu_nav_ico')

In [68]:
arte[2].find_all('a')

[<a href="https://www.voguebags.cn/handbags-c-1/"><span>Handbags</span></a>,
 <a href="https://www.voguebags.cn/31-phillip-lim-c-1_2/">3.1 Phillip Lim</a>,
 <a href="https://www.voguebags.cn/alexander-wang-c-1_3/">Alexander Wang</a>,
 <a href="https://www.voguebags.cn/balenciaga-c-1_13/">Balenciaga</a>,
 <a href="https://www.voguebags.cn/bottega-veneta-c-1_4/">Bottega Veneta</a>,
 <a href="https://www.voguebags.cn/burberry-c-1_32/">Burberry</a>,
 <a href="https://www.voguebags.cn/bvlgari-c-1_18/">Bvlgari</a>,
 <a href="https://www.voguebags.cn/celine-c-1_14/">Celine</a>,
 <a href="https://www.voguebags.cn/chloe-c-1_6/">Chloe</a>,
 <a href="https://www.voguebags.cn/christian-dior-c-1_17/">Christian Dior</a>,
 <a href="https://www.voguebags.cn/dolce-gabbana-c-1_5/">Dolce &amp; Gabbana</a>,
 <a href="https://www.voguebags.cn/fendi-c-1_9/">Fendi</a>,
 <a href="https://www.voguebags.cn/givenchy-c-1_11/">Givenchy</a>,
 <a href="https://www.voguebags.cn/goyard-c-1_91/">Goyard</a>,
 <a href="h

# Ejemplo 2:

**Objetivo:** obtener todas las carteras de Bottega

* Determinar los links a escrapear
* Escrapear todas las paginas de carteras
* Juntar todos los resultados en un DataFrame

## Cuantas carteras?
Si nos metemos en la pagina de un diseñador vamos a ver que los resultados abarcan mas de una pagina

In [69]:
links_todos[3]

'https://www.voguebags.cn/bottega-veneta-c-1_4/'

In [75]:
bottega_pagina = get(links_todos[3])
bottega = BeautifulSoup(bottega_pagina.content)

Y si buscamos todos los 'musheji_box' vemos que solo hay 30 por pagina.

In [76]:
len(bottega.find_all(class_='centerBoxContentsProducts'))

30

#### Buscando por *id*

Hay un elemento de la pagina que tiene la cantidad total de carteras.  Este elemento se lo puede identificar por un `id`.

In [77]:
bottega.find(id='productsListingTopNumber')

<div class="navSplitPagesResult back" id="productsListingTopNumber">Displaying <strong>1</strong> to <strong>30</strong> (of <strong>212</strong> products)</div>

Y los numeros que estan dentro de este `div` estan a su vez dentro de elementos `strong`

In [78]:
bottega.find(id='productsListingTopNumber').find_all('strong')

[<strong>1</strong>, <strong>30</strong>, <strong>212</strong>]

La cantidad de anteojos de un diseñador son el tercer elemento (indice 2). Ademas usamos `getText()` para extraer el dato

In [81]:
total = bottega.find(id='productsListingTopNumber').find_all('strong')[2].getText()
total

'212'

In [83]:
int(total)

212

In [82]:
int(total)/30

7.066666666666666

Hay un total de 8 paginas (hay redondear hacia arriba)

In [85]:
import math
math.ceil(int(total)/30)

8

### Paginas individuales
Ahora que ya tenemos los links a las paginas individuales podemos scrappearlas.

Empecemos por la primera (de manera manual, despues automatizaremos)

In [86]:
links

['https://www.voguebags.cn/31-phillip-lim-c-1_2/',
 'https://www.voguebags.cn/alexander-wang-c-1_3/',
 'https://www.voguebags.cn/balenciaga-c-1_13/',
 'https://www.voguebags.cn/bottega-veneta-c-1_4/',
 'https://www.voguebags.cn/burberry-c-1_32/',
 'https://www.voguebags.cn/bvlgari-c-1_18/',
 'https://www.voguebags.cn/celine-c-1_14/',
 'https://www.voguebags.cn/chloe-c-1_6/',
 'https://www.voguebags.cn/christian-dior-c-1_17/',
 'https://www.voguebags.cn/dolce-gabbana-c-1_5/',
 'https://www.voguebags.cn/fendi-c-1_9/',
 'https://www.voguebags.cn/givenchy-c-1_11/',
 'https://www.voguebags.cn/goyard-c-1_91/',
 'https://www.voguebags.cn/gucci-c-1_10/',
 'https://www.voguebags.cn/hermes-c-1_15/',
 'https://www.voguebags.cn/miu-miu-c-1_8/',
 'https://www.voguebags.cn/prada-c-1_12/',
 'https://www.voguebags.cn/saint-laurent-c-1_7/',
 'https://www.voguebags.cn/valentino-c-1_65/']

Ejemplo:

Para acceder a la 3a pagina de resultados de Bottega le sumo el texto `'?page=3&sort=20a'` al link

In [88]:
links[3] + '?page=2&sort=20a'

'https://www.voguebags.cn/bottega-veneta-c-1_4/?page=2&sort=20a'

In [89]:
links[3] + '?page=3&sort=20a'

'https://www.voguebags.cn/bottega-veneta-c-1_4/?page=3&sort=20a'

In [90]:
pag = get(links[3]+'?page=3&sort=20a')

In [91]:
pag = BeautifulSoup(pag.content)

### Precios de los carteras
Busco los elementos con clase `musheji_price`

In [92]:
precios = pag.find_all(class_='musheji_price')
precios

[<li class="musheji_price">$259.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$259.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$259.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$245.00<!-- end musheji_price--><div class="clear"></div></li>,
 <li class="musheji_price">$259.00<!-- end musheji_price--><div class="clear"></div></li>,

In [93]:
precios = [p.getText() for p in precios]
precios

['$259.00',
 '$259.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$259.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00']

In [94]:
carteras = pag.find_all(class_='musheji_name')
carteras

[<li class="musheji_name"><a alt="Bottega Veneta Baby Olimpia Intrecciato Shoulder Bag Slate" href="https://www.voguebags.cn/bottega-veneta-baby-olimpia-intrecciato-shoulder-bag-slate-p-9822.html" title="Bottega Veneta Baby Olimpia Intrecciato Shoulder Bag Slate">Bottega Veneta Baby Olimpia Intrecciato Shoulder Bag Slate</a></li>,
 <li class="musheji_name"><a alt="Bottega Veneta Olimpia Small Shoulder Bag Black" href="https://www.voguebags.cn/bottega-veneta-olimpia-small-shoulder-bag-black-p-9821.html" title="Bottega Veneta Olimpia Small Shoulder Bag Black">Bottega Veneta Olimpia Small Shoulder Bag Black</a></li>,
 <li class="musheji_name"><a alt="Bottega Veneta Olimpia Small Shoulder Bag, Light Gray" href="https://www.voguebags.cn/bottega-veneta-olimpia-small-shoulder-bag-light-gray-p-9820.html" title="Bottega Veneta Olimpia Small Shoulder Bag, Light Gray">Bottega Veneta Olimpia Small Shoulder Bag, Light Gray</a></li>,
 <li class="musheji_name"><a alt="Bottega Veneta Olimpia Intreccia

In [96]:
carteras_texto = [c.getText() for c in carteras]
carteras_texto

['Bottega Veneta Baby Olimpia Intrecciato Shoulder Bag Slate',
 'Bottega Veneta Olimpia Small Shoulder Bag Black',
 'Bottega Veneta Olimpia Small Shoulder Bag, Light Gray',
 'Bottega Veneta Olimpia Intrecciato Quilted Velvet Shoulder Bag, Black',
 'Bottega Veneta Olimpia velvet and snakeskin shoulder bag Black',
 'Bottega Veneta Olimpia quilted velvet and snakeskin shoulder bag Glicine',
 'Bottega Veneta Snakeskin-trimmed velvet shoulder bag Artichoke',
 'Bottega Veneta Intrecciato Leather Double-Zip Pillow Bag Steel',
 'Bottega Veneta Lambskin Messenger Bag Silver',
 'Bottega Veneta Intrecciato Small Zip Crossbody Bag, Red',
 'Bottega Veneta Intrecciato leather shoulder bag Purple',
 "Bottega Veneta Intrecciato leather shoulder bag Fume'N-Steel",
 'Bottega Veneta Intrecciato metallic leather shoulder bag gunmetal grey',
 'Bottega Veneta Intrecciato metallic leather shoulder bag Gold',
 'Bottega Veneta Intrecciato Small Zip Crossbody Bag Barolo',
 'Bottega Veneta Intrecciato Small Zip 

In [97]:
precios

['$259.00',
 '$259.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$259.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$259.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00',
 '$245.00']

In [98]:
import pandas as pd
carteras_scrap = pd.DataFrame({'Carteras':carteras_texto, 'Precio':precios})

In [99]:
carteras_scrap

Unnamed: 0,Carteras,Precio
0,Bottega Veneta Baby Olimpia Intrecciato Should...,$259.00
1,Bottega Veneta Olimpia Small Shoulder Bag Black,$259.00
2,"Bottega Veneta Olimpia Small Shoulder Bag, Lig...",$259.00
3,Bottega Veneta Olimpia Intrecciato Quilted Vel...,$245.00
4,Bottega Veneta Olimpia velvet and snakeskin sh...,$245.00
5,Bottega Veneta Olimpia quilted velvet and snak...,$245.00
6,Bottega Veneta Snakeskin-trimmed velvet should...,$245.00
7,Bottega Veneta Intrecciato Leather Double-Zip ...,$245.00
8,Bottega Veneta Lambskin Messenger Bag Silver,$245.00
9,Bottega Veneta Intrecciato Small Zip Crossbody...,$245.00


## Tooooodas las de Bottega

In [100]:
link_B = links[3]
link_B

'https://www.voguebags.cn/bottega-veneta-c-1_4/'

Traigo la pagina

In [101]:
pagina_0 = get(link_B)

Parseo content

In [102]:
pagina_0 = BeautifulSoup(pagina_0.content)

Ahora puedo buscar elementos

Paginas totales de resultados:
- obtener cuantas carteras hay
- extraer el dato
- convertirlo a numero / 30 y redondearlo hacia arriba

Resultado: cantidad de paginas a scrapear

In [103]:
carteras_totales = pagina_0.find(id='productsListingTopNumber').find_all('strong')[2].getText()
carteras_totales

'212'

In [104]:
paginas_totales = math.ceil(int(carteras_totales)/30)
paginas_totales

8

Hay que scrapear 8 paginas para Bottega (`links[3]`)

Cuales son esos links?

In [105]:
for p in range(paginas_totales):
    print(links[3] + '?page='+ str(p+1) +'&sort=20a')

https://www.voguebags.cn/bottega-veneta-c-1_4/?page=1&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=2&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=3&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=4&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=5&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=6&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=7&sort=20a
https://www.voguebags.cn/bottega-veneta-c-1_4/?page=8&sort=20a


Para cada uno de estos hay que extraer el precio y el nombre

In [106]:
precios_totales = []
carteras_totales = []

for p in range(paginas_totales):
    pagina_individual = links[3] + '?page='+ str(p+1) +'&sort=20a'
    pagina_0 = get(pagina_individual)
    pagina_0 = BeautifulSoup(pagina_0.content)
    
    #Precios
    precios = pagina_0.find_all(class_='musheji_price')
    precios = [p.getText() for p in precios]
    precios_totales = precios_totales + precios

    #Nombres
    carteras = pagina_0.find_all(class_='musheji_name')
    carteras = [c.getText() for c in carteras]
    carteras_totales = carteras_totales + carteras

In [107]:
carteras_totales

['Bottega Veneta Medium Convertible Intrecciato Leather Tote Brown',
 'Bottega Veneta Convertible Intrecciato Leather Tote Black',
 'Bottega Veneta Veneta Maxi Convertible Tote Bag Light Gray',
 'Bottega Veneta Intrecciato leather tote Bag Black',
 'Bottega Veneta Intrecciato leather tote Denim',
 'Bottega Veneta Medium Top Handle leather tote Blue',
 'Bottega Veneta Medium Top Handle leather tote Purple',
 'Bottega Veneta Intrecciato leather tote light pink',
 'Bottega Veneta Intrecciato leather tote Bag Brunito',
 'Bottega Veneta Intrecciato leather handbag Black',
 'Bottega Veneta Intrecciato Large Accordion Tote Bag, Black',
 'Bottega Veneta Intrecciato Medium Accordion Tote Bag, Light Gray',
 'Bottega Veneta Intrecciato Medium Accordion Tote Bag, Black',
 'Bottega Veneta Intrecciato Medium Accordion Tote Bag Blue',
 'Bottega Veneta Intrecciato leather shopper Purple',
 'Bottega Veneta Intrecciato leather shopper Multi',
 'Bottega Veneta Intrecciato Medium A-Shaped Tote Bag, Red',


In [108]:
len(carteras_totales)

212

In [109]:
len(precios_totales)

212

In [110]:
Bottega = pd.DataFrame({'Cartera': carteras_totales, 'Precio':precios_totales})

In [111]:
Bottega

Unnamed: 0,Cartera,Precio
0,Bottega Veneta Medium Convertible Intrecciato ...,$339.00
1,Bottega Veneta Convertible Intrecciato Leather...,$339.00
2,Bottega Veneta Veneta Maxi Convertible Tote Ba...,$339.00
3,Bottega Veneta Intrecciato leather tote Bag Black,$299.00
4,Bottega Veneta Intrecciato leather tote Denim,$299.00
5,Bottega Veneta Medium Top Handle leather tote ...,$289.00
6,Bottega Veneta Medium Top Handle leather tote ...,$289.00
7,Bottega Veneta Intrecciato leather tote light ...,$289.00
8,Bottega Veneta Intrecciato leather tote Bag Br...,$289.00
9,Bottega Veneta Intrecciato leather handbag Black,$339.00


In [112]:
Bottega.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 2 columns):
Cartera    212 non-null object
Precio     212 non-null object
dtypes: object(2)
memory usage: 3.4+ KB


Elimino el signo $ para luego pasarlo a numerico

In [113]:
Bottega['Precio'] = Bottega['Precio'].str.replace('$','')

In [114]:
Bottega['Precio'] = pd.to_numeric(Bottega.Precio)

In [115]:
Bottega.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 2 columns):
Cartera    212 non-null object
Precio     212 non-null float64
dtypes: float64(1), object(1)
memory usage: 3.4+ KB


In [116]:
Bottega.Precio.mean()

268.58490566037733

In [117]:
Bottega.Precio.max()

339.0

In [118]:
Bottega.Precio.min()

189.0

In [119]:
Bottega.describe()

Unnamed: 0,Precio
count,212.0
mean,268.584906
std,27.9942
min,189.0
25%,245.0
50%,259.0
75%,289.0
max,339.0


In [134]:
for url in links:
    print(url)

https://www.voguebags.cn/31-phillip-lim-c-1_2/
https://www.voguebags.cn/alexander-wang-c-1_3/
https://www.voguebags.cn/balenciaga-c-1_13/
https://www.voguebags.cn/bottega-veneta-c-1_4/
https://www.voguebags.cn/burberry-c-1_32/
https://www.voguebags.cn/bvlgari-c-1_18/
https://www.voguebags.cn/celine-c-1_14/
https://www.voguebags.cn/chloe-c-1_6/
https://www.voguebags.cn/christian-dior-c-1_17/
https://www.voguebags.cn/dolce-gabbana-c-1_5/
https://www.voguebags.cn/fendi-c-1_9/
https://www.voguebags.cn/givenchy-c-1_11/
https://www.voguebags.cn/goyard-c-1_91/
https://www.voguebags.cn/gucci-c-1_10/
https://www.voguebags.cn/hermes-c-1_15/
https://www.voguebags.cn/miu-miu-c-1_8/
https://www.voguebags.cn/prada-c-1_12/
https://www.voguebags.cn/saint-laurent-c-1_7/
https://www.voguebags.cn/valentino-c-1_65/


In [130]:
url = links[1]
pagina_0 = get(url)
pagina_0 = BeautifulSoup(pagina_0.content)
carteras_totales = pagina_0.find(id='productsListingTopNumber').find_all('strong')[2].getText()
paginas_totales = math.ceil(int(carteras_totales)/30)

precios_totales = []
carteras_totales = []

for p in range(paginas_totales):
    pagina_individual = url + '?page='+ str(p+1) +'&sort=20a'
    pagina_0 = get(pagina_individual)
    pagina_0 = BeautifulSoup(pagina_0.content)
    
    #Precios
    precios = pagina_0.find_all(class_='musheji_price')
    precios = [p.getText() for p in precios]
    precios_totales = precios_totales + precios

    #Nombres
    carteras = pagina_0.find_all(class_='musheji_name')
    carteras = [c.getText() for c in carteras]
    carteras_totales = carteras_totales + carteras

Nuevo_scrap = pd.DataFrame({'Cartera': carteras_totales, 'Precio':precios_totales})

In [131]:
Nuevo_scrap['Precio'] = Nuevo_scrap['Precio'].str.replace('$','')
Nuevo_scrap['Precio'] = pd.to_numeric(Nuevo_scrap['Precio'])

In [133]:
Nuevo_scrap

Unnamed: 0,Cartera,Precio
0,Alexander Wang Rockie Mini Pebbled Leather Sho...,250.0
1,Alexander Wang Studded Nylon-Trimmed Leather D...,250.0
2,Alexander Wang Rockie Mini Pebbled Leather Duf...,250.0
3,Alexander Wang Rockie Mini Pebbled Leather Duf...,250.0
4,Alexander Wang Rockie Mini Pebbled Leather Duf...,250.0
5,Alexander Wang Rockie Pebbled Leather Duffel Bag,250.0
6,Alexander Wang Rocco Pebbled Leather Duffel Bag,250.0
7,Alexander Wang Rockie Leather Duffel Bag,250.0
8,Alexander Wang Rocco Metallic Pebbled Leather ...,250.0
9,Alexander Wang Rocco Lambskin Satchel,250.0


## Listado de titulares de Infobae

In [135]:
link = 'http://www.infobae.com'
pag = get(link)
pag = BeautifulSoup(pag.content)

titulos = pag.find_all(class_='headline')

In [136]:
[t.getText() for t in titulos]

['  EEUU se prepara para la llegada del huracán Dorian: el aeropuerto de Orlando anunció que cerrará el martes ante la amenaza del ciclón  ',
 '  Un bodeguero uruguayo-argentino fue imputado por el envío de USD 200 millones de cocaína a Europa  ',
 '  La historia detrás de las últimas dos fotos de Freddie Mercury en su jardín antes de morir  ',
 '  Asciende a cinco el número de muertos tras el devastador paso del huracán Dorian en Bahamas  ',
 '  Minuto a minuto del huracán Dorian: avanza hacia Florida y se espera una marejada ciclónica "amenazante para la vida"  ',
 '  Fotos y videos: las escalofriantes imágenes del paso del huracán Dorian por Bahamas  ',
 '  El huracán Dorian acecha ya a Florida: este es el pronóstico de su trayectoria  ',
 '  Lograron captar el monstruoso ojo del huracán Dorian desde adentro  ',
 '  Alerta en Florida: dónde están los refugios y cuáles son las medidas de seguridad recomendadas  ',
 '  Todas las sorpresas que dejó el día del cierre del mercado de pase