![](https://api.brandy.run/core/core-logo-wide)

# Web Scraping

## HTTP requests

Así como al utilizar una API, vamos realizar las diferentes peticiones http a una URL, pero en ese caso la respuesta que recibiremos no es un JSON, es el código HTML que representa esa página.

In [2]:
import requests

In [5]:
url = "https://www.google.es"

In [6]:
res = requests.get(url)

In [8]:
res

<Response [200]>

In [10]:
with open("test.html", "w") as file:
    file.write(res.text)

In [11]:
res.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="UwTeXHMlcYT9bsQVbeABxw">(function(){window.google={kEI:\'-j55YpaXF9CsaafyhJAN\',kEXPI:\'0,1302536,56873,6058,207,4804,2316,383,246,5,1354,4013,1238,1122515,1197720,681,380090,16114,17444,11240,17572,4859,1361,12316,17583,4020,978,13228,3847,4192,6430,22741,6674,1279,2742,149,1103,840,1983,4314,3514,606,2023,1777,520,6343,8327,3227,2845,7,17450,16320,4465,13142,3,346,230,6608,13975,4,1528,2304,6463,576,25073,2658,7357,13658,21223,5806,2551,4094,4052,3,3541,1,39042,2,3110,2,14022,1931,4318,7867,11623,5679,3401,28742,4568,6255,20803,2619,1

In [16]:
type(res.text)

str

## Decoding the HTML

Como vemos arriba, el código html que recibimos como respuesta es una cadena de texto muy largo. No seria muy eficiente tener que buscar la información que queremos en medio a todo ese texto. Pero, para nuestra suerte, el codigo html tiene una estructura que y podemos hacer uso de eso con una libreria llamada `bs4`.

In [12]:
from bs4 import BeautifulSoup

In [14]:
html = BeautifulSoup(res.text)

In [15]:
html

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"/><meta content="noodp" name="robots"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="UwTeXHMlcYT9bsQVbeABxw">(function(){window.google={kEI:'-j55YpaXF9CsaafyhJAN',kEXPI:'0,1302536,56873,6058,207,4804,2316,383,246,5,1354,4013,1238,1122515,1197720,681,380090,16114,17444,11240,17572,4859,1361,12316,17583,4020,978,13228,3847,4192,6430,22741,6674,1279,2742,149,1103,840,1983,4314,3514,606,2023,1777,520,6343,8327,3227,2845,7,17450,16320,4465,13142,3,346,230,6608,13975,4,1528,2304,6463,576,25073,2658,7357,13658,21223,5806,2551,4094,4052,3,3541,1,39042,2,3110,2,14022,1931,4318,7867,11623,5679,3401,28742,4568,6255,20803,2619,

In [17]:
type(html)

bs4.BeautifulSoup

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

## HTML structure

BeautifulSoup interpreta el código html según su estructura, pero para que podamos acceder a esa información, necesitaremos nosotros saber a que parte de la estructura queremos.

### HTML tags

En html cada elemento, i.e.: cada parte de la página, está contenido en una etiqueta representada por los caracteres `<>`. El tipo de elemento estará representado por su nombre en las etiquetas al principio y final del elemento. 

Por ejemplo, un header con la frase `HTML tags`, se representaria como:

```html
<h1>HTML tags</h1>
```

Devido a la estrutura jerarquica de HTM, una etiqueta puede estar contenida dentro de otra. Para hacer la palabra `HTML` en negrito, se puede usar la etiqueta `<b>`.

```html
<h1><b>HTML</b> tags</h1>
```

Abajo, poderíamos construir una tabla, usando las etiquetas `<table>, <th>, <tr> y <td>` que representan respectivamente tablas, table headers, filas y celdas.

```html
<h1><b>HTML</b> tags</h1>
<table>
    <tr>
        <th>Tag</th>
        <th>Meaning</th>
    </tr>
    <tr>
        <td>&lt;a&gt;</td>
        <td>Hyperlink</td>
    </tr>
    <tr>
        <td>&lt;p&gt;</td>
        <td>Paragraph</td>
    </tr>
    <tr>
        <td>&lt;img&gt;</td>
        <td>Image</td>
    </tr>
</table>
```

Además de su nombre, las etiquetas también pueden contener otros valores, como un nombre para su clase, un id, y muchas otras cosas más. Por ejemplo, si añadimos el atributo `align` a la etiqueta table, podemos hacer que no se centralice, sino que esté a la izquierda: `<table align="left">`

Como en las celdas de Markdown en jupyter se pude ejecutar código html, puedes probar el codigo arriba en una nueva celda.

<style>
.meaning {
    background-color: #108899;
}
#image_row {
    color: #28C0D5;
}
th { 
    color: #CC4400;
}
</style>
<h1><b>HTML</b> tags</h1>
<table align="left">
    <tr>
        <th>Tag</th>
        <th class="meaning">Meaning</th>
    </tr>
    <tr>
        <td>&lt;a&gt;</td>
        <td class="meaning">Hyperlink</td>
    </tr>
    <tr>
        <td>&lt;p&gt;</td>
        <td class="meaning">Paragraph</td>
    </tr>
    <tr id="image_row">
        <td>&lt;img&gt;</td>
        <td class="meaning"><b>Image</b></td>
    </tr>
</table>

## CSS and CSS selector

El CSS o `Cascading Style Sheets`, es la herramienta que se utiliza para dar estilo a los diferente elementos de una página web. La manera como se relaciona un estilo a los elemenos correspsondientes son los selectores css, una forma particular de se referir a cada elemento por sus características. Serán esas mismas reglas que utilizaremos nosotros para hacer Web Scraping.

Usaremos el ejemplo sencillo arriba para ver como los selectores funcionan.

In [29]:
html = """
<style>
.meaning {
    background-color: #108899;
}
#image_row {
    color: #28C0D5;
}
th { 
    color: #CC4400;
}
</style>
<h1><b>HTML</b> tags</h1>
<table align="left">
    <tr>
        <th>Tag</th>
        <th class="meaning">Meaning</th>
    </tr>
    <tr>
        <td>&lt;a&gt;</td>
        <td class="meaning">Hyperlink</td>
    </tr>
    <tr>
        <td>&lt;p&gt;</td>
        <td class="meaning">Paragraph</td>
    </tr>
    <tr id="image_row">
        <td>&lt;img&gt;</td>
        <td class="meaning"><b>Image</b></td>
    </tr>
</table>

<table align="left">
    <tr>
        <td>&lt;p&gt;</td>
        <td class="meaning">Paragraph</td>
    </tr>
    <tr id="image_row">
        <td>&lt;img&gt;</td>
        <td class="meaning"><b>Image</b></td>
    </tr>
</table>
"""
html = BeautifulSoup(html)

### Find Tag by element type

Si queremos buscar un tipo de elemento, usamos su nombre

In [28]:
html.find("table")

<table align="left">
<tr>
<th>Tag</th>
<th class="meaning">Meaning</th>
</tr>
<tr>
<td>&lt;a&gt;</td>
<td class="meaning">Hyperlink</td>
</tr>
<tr>
<td>&lt;p&gt;</td>
<td class="meaning">Paragraph</td>
</tr>
<tr id="image_row">
<td>&lt;img&gt;</td>
<td class="meaning"><b>Image</b></td>
</tr>
</table>

In [33]:
len(html.find_all("table"))

2

### Find element by id

El id es un identificador de un elemento, usamos el signo `#` para identificar los id.

Los métodos `find` y `find_all` solo funcionan para nombres de tags. Para los selectores, debemos usar `select`

In [36]:
html.select("#image_row")

[<tr id="image_row">
 <td>&lt;img&gt;</td>
 <td class="meaning"><b>Image</b></td>
 </tr>,
 <tr id="image_row">
 <td>&lt;img&gt;</td>
 <td class="meaning"><b>Image</b></td>
 </tr>]

In [37]:
html.select(".meaning")

[<th class="meaning">Meaning</th>,
 <td class="meaning">Hyperlink</td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>]

### Find descendant

Si buscamos dos tags `A` y `B` con el selector `A B`, buscamos un elemento `B` contenido en un elemento `A`.

In [38]:
html.select("table td")

[<td>&lt;a&gt;</td>,
 <td class="meaning">Hyperlink</td>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>]

Los elementos buscados de esa manera pueden ser tanto nombres de tags como ids, clases, etc.

In [40]:
html.select("table .meaning")

[<th class="meaning">Meaning</th>,
 <td class="meaning">Hyperlink</td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>]

### Find by Class name

Similar a los `id`, los `class` también requieren un signo identificador `.`

In [41]:
html.select(".meaning")

[<th class="meaning">Meaning</th>,
 <td class="meaning">Hyperlink</td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>,
 <td class="meaning">Paragraph</td>,
 <td class="meaning"><b>Image</b></td>]

Si buscaramos un elemento de tipo `A`, con clase `b`, buscariamos `A.b`.

In [44]:
html.select("th.meaning")

[<th class="meaning">Meaning</th>]

### Finding more than one tag

Para buscar más de un tag, simplesmente les separamos por comas.

In [46]:
html.select("th,td")

[<th>Tag</th>,
 <th class="meaning">Meaning</th>,
 <td>&lt;a&gt;</td>,
 <td class="meaning">Hyperlink</td>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>]

### Finding *

Podemos utilizar el `*` como un comodin, que significa cualquier cosa.

In [51]:
html.select("table *")

[<tr>
 <th>Tag</th>
 <th class="meaning">Meaning</th>
 </tr>,
 <th>Tag</th>,
 <th class="meaning">Meaning</th>,
 <tr>
 <td>&lt;a&gt;</td>
 <td class="meaning">Hyperlink</td>
 </tr>,
 <td>&lt;a&gt;</td>,
 <td class="meaning">Hyperlink</td>,
 <tr>
 <td>&lt;p&gt;</td>
 <td class="meaning">Paragraph</td>
 </tr>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <tr id="image_row">
 <td>&lt;img&gt;</td>
 <td class="meaning"><b>Image</b></td>
 </tr>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>,
 <b>Image</b>,
 <tr>
 <td>&lt;p&gt;</td>
 <td class="meaning">Paragraph</td>
 </tr>,
 <td>&lt;p&gt;</td>,
 <td class="meaning">Paragraph</td>,
 <tr id="image_row">
 <td>&lt;img&gt;</td>
 <td class="meaning"><b>Image</b></td>
 </tr>,
 <td>&lt;img&gt;</td>,
 <td class="meaning"><b>Image</b></td>,
 <b>Image</b>]

### More selectors

Hay otras herramientas más de selección que podemos utilizar:

#### Adjacency

`A + B` encuentra el elemento del tipo `B` que venga luego en seguida de un elemento del tipo `A`.

#### General Sibling

Parecido al selector anterior, `A ~ B` también busca elementos `B` que vienen después de elementos `A`, pero no se limita a un único, sino que a todos los elementos del tipo `B` que haya en seguida.

#### Child Selector

Hemos visto como buscar elementos contenidos por otros, pero pueden haber otros elementos intermediarios. Si quisieramos buscar un elemento `B` inmediatamente contenido por un elemento `A`, debemos hacer `A > B`.

#### nth-child elements

Esos selectores buscan los elementos segun su posición dentro de su padre.

- `:first-child`

- `:only-child`

- `:last-child`

- `:nth-child(n)`

Busca el `nth` hijo, eso es, el hijo de posición `n`. (Se empieza a contar en 1)

- `:nth-last-child(n)`

Lo mismo que el anterior, pero se cuenta hacia atrás.

`NOTE: Un hijo único se considera también como first y last`

Ejemplo:


In [70]:
html = """
<div>
    <p>Paragraph 1</p>
    <a>
        <p>Paragraph 2</p>
    </a>
    
</div>
<div>
    <p>Paragraph 3</p>
</div>
"""
html = BeautifulSoup(html)

In [71]:
html.select("div + p")

[]

In [72]:
html.select("div ~ p")

[]

In [73]:
html.select("div > p")

[<p>Paragraph 1</p>, <p>Paragraph 3</p>]

In [74]:
html.select("div:last-child")

[<div>
 <p>Paragraph 3</p>
 </div>]

#### nth-of-type elements

Similarmente podemos buscar no por la posición del elemento en relación a sus parents, sino que en relación al orden de los elementos de su tipo.

- `:first-of-type`

- `:nth-of-type(n)`

- `:only-of-type`

- `:last-of-type`

#### Other

- `:empty`

Busca un elemento que no contiene hijos

- `:not(X)`

La negación de cualquier condición `X`

- `A[attribute]`

Elemento del tipo `A` que tenga el atributo citado.

- `A[attribute=value]`

O que el elemento `A` tenga determinado valor en ese atributo.

## Identifying elements in webpages

Obviamente, cuando vemos una página web, no sabemos exactamente que es cada elemento, sus ids, clases, etc. En ese caso, debemos investigar. Pero por suerte tenemos una herramienta muy útil para eso en la mayoría de los navegadores, como el `Chrome Dev Tools` (F12).

Veamos la página en Wikipedia del [Medallero de las Olimpiadas de 2016](https://en.wikipedia.org/wiki/2016_Summer_Olympics_medal_table).

In [75]:
url = "https://en.wikipedia.org/wiki/2016_Summer_Olympics_medal_table"

In [76]:
res = requests.get(url)

In [77]:
res

<Response [200]>

In [79]:
html = BeautifulSoup(res.text)

In [81]:
type(html)

bs4.BeautifulSoup

In [90]:
table = html.select(".wikitable.sortable.plainrowheaders.jquery-tablesorter")[0]

In [91]:
table

<table class="wikitable sortable plainrowheaders jquery-tablesorter" style="text-align:center"><caption>2016 Summer Olympics medal table</caption><tbody><tr><th scope="col">Rank</th><th scope="col">NOC</th><th class="headerSort" scope="col" style="width:4em;background-color:gold">Gold</th><th class="headerSort" scope="col" style="width:4em;background-color:silver">Silver</th><th class="headerSort" scope="col" style="width:4em;background-color:#c96">Bronze</th><th scope="col" style="width:4em">Total</th></tr><tr><td>1</td><th scope="row" style="background-color:#f8f9fa;text-align:left"><img alt="" class="thumbborder" data-file-height="650" data-file-width="1235" decoding="async" height="12" src="//upload.wikimedia.org/wikipedia/en/thumb/a/a4/Flag_of_the_United_States.svg/22px-Flag_of_the_United_States.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/a/a4/Flag_of_the_United_States.svg/33px-Flag_of_the_United_States.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/a/a4/Fl

In [102]:
col_name = [columna.get_text() for columna in table.select("[scope='col']")]

In [103]:
col_name

['Rank', 'NOC', 'Gold', 'Silver', 'Bronze', 'Total']

In [120]:
data = []
for entrada in table.select("tr")[1:]:
    aux = []
    for datos in entrada.select("th,td"):
        aux.append(datos.get_text(strip=True))
    data.append(aux)

In [121]:
data

[['1', 'United States', '46', '37', '38', '121'],
 ['2', 'Great Britain', '27', '23', '17', '67'],
 ['3', 'China', '26', '18', '26', '70'],
 ['4', 'Russia', '19', '17', '20', '56'],
 ['5', 'Germany', '17', '10', '15', '42'],
 ['6', 'Japan', '12', '8', '21', '41'],
 ['7', 'France', '10', '18', '14', '42'],
 ['8', 'South Korea', '9', '3', '9', '21'],
 ['9', 'Italy', '8', '12', '8', '28'],
 ['10', 'Australia', '8', '11', '10', '29'],
 ['11', 'Netherlands', '8', '7', '4', '19'],
 ['12', 'Hungary', '8', '3', '4', '15'],
 ['13', 'Brazil*', '7', '6', '6', '19'],
 ['14', 'Spain', '7', '4', '6', '17'],
 ['15', 'Kenya', '6', '6', '1', '13'],
 ['16', 'Jamaica', '6', '3', '2', '11'],
 ['17', 'Croatia', '5', '3', '2', '10'],
 ['18', 'Cuba', '5', '2', '4', '11'],
 ['19', 'New Zealand', '4', '9', '5', '18'],
 ['20', 'Canada', '4', '3', '15', '22'],
 ['21', 'Uzbekistan', '4', '2', '7', '13'],
 ['22', 'Colombia', '3', '2', '3', '8'],
 ['23', 'Switzerland', '3', '2', '2', '7'],
 ['24', 'Iran', '3', '1',

In [138]:
for i in range(1, len(data)):
    if not data[i][0].isnumeric():
        data[i].insert(0, str(data[i-1][0]))

In [139]:
data

[['1', 'United States', '46', '37', '38', '121'],
 ['2', 'Great Britain', '27', '23', '17', '67'],
 ['3', 'China', '26', '18', '26', '70'],
 ['4', 'Russia', '19', '17', '20', '56'],
 ['5', 'Germany', '17', '10', '15', '42'],
 ['6', 'Japan', '12', '8', '21', '41'],
 ['7', 'France', '10', '18', '14', '42'],
 ['8', 'South Korea', '9', '3', '9', '21'],
 ['9', 'Italy', '8', '12', '8', '28'],
 ['10', 'Australia', '8', '11', '10', '29'],
 ['11', 'Netherlands', '8', '7', '4', '19'],
 ['12', 'Hungary', '8', '3', '4', '15'],
 ['13', 'Brazil*', '7', '6', '6', '19'],
 ['14', 'Spain', '7', '4', '6', '17'],
 ['15', 'Kenya', '6', '6', '1', '13'],
 ['16', 'Jamaica', '6', '3', '2', '11'],
 ['17', 'Croatia', '5', '3', '2', '10'],
 ['18', 'Cuba', '5', '2', '4', '11'],
 ['19', 'New Zealand', '4', '9', '5', '18'],
 ['20', 'Canada', '4', '3', '15', '22'],
 ['21', 'Uzbekistan', '4', '2', '7', '13'],
 ['22', 'Colombia', '3', '2', '3', '8'],
 ['23', 'Switzerland', '3', '2', '2', '7'],
 ['24', 'Iran', '3', '1',

In [122]:
import pandas as pd

In [142]:
df = pd.DataFrame(data[:-1], columns=col_name)

In [143]:
df

Unnamed: 0,Rank,NOC,Gold,Silver,Bronze,Total
0,1,United States,46,37,38,121
1,2,Great Britain,27,23,17,67
2,3,China,26,18,26,70
3,4,Russia,19,17,20,56
4,5,Germany,17,10,15,42
...,...,...,...,...,...,...
81,78,Morocco,0,0,1,1
82,78,Nigeria,0,0,1,1
83,78,Portugal,0,0,1,1
84,78,Trinidad and Tobago,0,0,1,1


In [145]:
df.dtypes

Rank      object
NOC       object
Gold      object
Silver    object
Bronze    object
Total     object
dtype: object

In [146]:
for column in ["Rank", "Gold", "Silver", "Bronze", "Total"]:
    df[column] = df[column].astype(int)

In [149]:
df

Unnamed: 0,Rank,NOC,Gold,Silver,Bronze,Total
0,1,United States,46,37,38,121
1,2,Great Britain,27,23,17,67
2,3,China,26,18,26,70
3,4,Russia,19,17,20,56
4,5,Germany,17,10,15,42
...,...,...,...,...,...,...
81,78,Morocco,0,0,1,1
82,78,Nigeria,0,0,1,1
83,78,Portugal,0,0,1,1
84,78,Trinidad and Tobago,0,0,1,1


## Generalizing

In [156]:
def get_medals_olympics(year):
    url = f"https://en.wikipedia.org/wiki/{year}_Summer_Olympics_medal_table"
    res = requests.get(url)
    html = BeautifulSoup(res.text)
    table = html.select(".wikitable.sortable.plainrowheaders.jquery-tablesorter")[0]
    col_name = [columna.get_text() for columna in table.select("[scope='col']")]

    data = []
    for entrada in table.select("tr")[1:]:
        aux = []
        for datos in entrada.select("th,td"):
            aux.append(datos.get_text(strip=True))
        data.append(aux)

    for i in range(1, len(data)):
        if not data[i][0].isnumeric():
            data[i].insert(0, str(data[i-1][0]))

    df = pd.DataFrame(data[:-1], columns=col_name)

    for column in ["Rank", "Gold", "Silver", "Bronze", "Total"]:
        df[column] = df[column].astype(int)

    return df

In [161]:
get_medals_olympics(2012)

Unnamed: 0,Rank,NOC,Gold,Silver,Bronze,Total
0,1,United States,47,27,30,104
1,2,China,38,31,22,91
2,3,Great Britain*,29,18,18,65
3,4,Russia,19,21,27,67
4,5,South Korea,13,9,8,30
...,...,...,...,...,...,...
81,79,Kuwait,0,0,1,1
82,79,Morocco,0,0,1,1
83,79,Saudi Arabia,0,0,1,1
84,79,Tajikistan,0,0,1,1


## Zalando Webpage

In [234]:
url = "https://www.zalando.es/zapatillas-mujer/"

In [235]:
disfraz = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15"
}

In [236]:
res = requests.get(url, headers=disfraz)

In [237]:
res

<Response [200]>

In [238]:
html = BeautifulSoup(res.text)

In [239]:
html

<!DOCTYPE html>
<html class="rendering-engine re-main-531" lang="es-ES">
<head>
<meta charset="utf-8"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="DPR, Viewport-Width, Width" http-equiv="Accept-CH"/>
<link crossorigin="" href="https://mosaic02.ztat.net/" rel="preconnect"/>
<link href="https://img01.ztat.net/" rel="preconnect"/>
<link href="https://mosaic01.ztat.net/" rel="preconnect"/>
<link href="https://mosaic02.ztat.net/" rel="preconnect"/>
<link href="https://mosaic03.ztat.net/" rel="preconnect"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="https://mosaic01.ztat.net/base-assets/6-0-2/assets/style.css" rel="stylesheet"/>
<link href="https://mosaic02.ztat.net/nsg/dx-ui/atom-69.2.21.css" rel="stylesheet"/>
<style>@font-face {
  font-family: "ZoCRAz";
  font-display: swap;
  src: url("https://mosaic02.ztat.net/nsg/dx-ui/fonts/ZoCRAz.woff2")
      format("woff2"),
    url("https://mosaic02.ztat.net/nsg/dx-ui/fonts/ZoCRAz.w

## Code for Chrome Dev Tools

En la consola de dev tools, podemos ejecutar el siguiente comando para pintar en rojo todos los elementos con el selector `'a'`.

```js
document.querySelectorAll('a').forEach(elm => elm.style.background = 'red')
```

In [240]:
products = html.select("div > div > div > div > div > div > div > div > div > div > article > div > a > header")

In [241]:
len(products)

30

In [242]:
# Quito elementos que no son productos pero que entran dentro del selector utilizado
products = [p for p in products if not p.select("h5")]

In [245]:
products[1].select("div span, div h3")[0]

<span class="SZKKsK u-6V88 ka2E9k uMhVZi FxZV-M pVrzNP ZkIJC- r9BRio qXofat EKabf7 nBq1-s _2MyPg2">Converse</span>

In [246]:
products[0].select("div span, div h3")

[<span class="SZKKsK u-6V88 ka2E9k uMhVZi FxZV-M pVrzNP ZkIJC- r9BRio qXofat EKabf7 nBq1-s _2MyPg2">Reebok Classic</span>,
 <h3 class="RYghuO u-6V88 ka2E9k uMhVZi FxZV-M pVrzNP ZkIJC- r9BRio qXofat EKabf7 nBq1-s _2MyPg2">COURT PEAK UNISEX - Zapatillas - white</h3>,
 <span class="RYghuO u-6V88 ka2E9k uMhVZi FxZV-M pVrzNP cMfkVL"><span class="aajkfN wOOxir _0m5pni KVKCn3 ZkIJC- r9BRio"> </span>89,95 €</span>,
 <span class="aajkfN wOOxir _0m5pni KVKCn3 ZkIJC- r9BRio"> </span>]

In [253]:
[p.get_text(strip=True) for p in products[5].select("div span, div h3") if p.get_text(strip=True)]

['Puma', 'SMASH - Zapatillas - white', '37,65\xa0€', '49,95\xa0€']

In [329]:
def get_product(prod):
    data = [p.get_text(strip=True) for p in prod.select("div span, div h3") if p.get_text(strip=True)]
    data = [d.replace("desde","").replace("Entrega rápida", "0€") for d in data]
    columns = ["Marca", "Nombre", "Precio"]
    # Hay productos que tienen 4 elementos. EL ultimo es el precio original (sin aplicar descuento)
    # No nos interesa, por lo que lo descartamos
    return dict(zip(columns, data))

In [330]:
get_product(products[2])

{'Marca': 'Skechers Sport',
 'Nombre': 'BOBS SQUAD - Zapatillas - white',
 'Precio': '35,95\xa0€'}

In [331]:
colleccion = pd.DataFrame()
error = []
for p in products:
    try:
        colleccion =colleccion.append(get_product(p), ignore_index=True)
    except Exception as e:
        error.append((p,e))

In [332]:
error

[]

In [333]:
colleccion

Unnamed: 0,Marca,Nombre,Precio
0,Reebok Classic,COURT PEAK UNISEX - Zapatillas - white,"89,95 €"
1,Converse,CHUCK TAYLOR ALL STAR LIFT - Zapatillas altas ...,"79,99 €"
2,Skechers Sport,BOBS SQUAD - Zapatillas - white,"35,95 €"
3,Skechers Wide Fit,BOBS SQUAD - Zapatillas - black,"38,65 €"
4,Converse,CHUCK TAYLOR ALL STAR HI - Zapatillas altas - ...,"65,00 €"
5,Puma,SMASH - Zapatillas - white,"37,65 €"
6,Vans,UA SK8-LOW - Zapatillas skate - black/true white,"59,95 €"
7,Levi's®,MALIBU 2.0 - Zapatillas - brilliant white,"35,95 €"
8,Vans,UA OLD SKOOL - Zapatillas - black,"74,95 €"
9,Converse,CHUCK TAYLOR ALL STAR LIFT - Zapatillas altas ...,"79,00 €"


## Dynamic Pages and Selenium

Algunas páginas no pueden ser "escrapeadas" de la manera que lo hicimos hasta ahora. Sobretodo si requieren interacción o si son páginas dinámicas que dependen de la ejecución de código `javascript`. Embora el navegador pueda gestionar todo eso ni `requests` ni `BeautifulSoup` lo pueden. La solución es usar el próprio navegador. ;)

In [182]:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import os
from dotenv import load_dotenv
load_dotenv()

True

In [183]:
chrome = webdriver.Chrome(ChromeDriverManager().install())



Current google-chrome version is 101.0.4951
Get LATEST chromedriver version for 101.0.4951 google-chrome
Driver [/Users/core_school/.wdm/drivers/chromedriver/mac64/101.0.4951.41/chromedriver] found in cache


In [184]:
# Go to page
chrome.get("https://www.linkedin.com")

In [185]:
# Click the accept cookies button
accept_cookies = chrome.find_element_by_css_selector("#artdeco-global-alert-container > div > section > div > div.artdeco-global-alert-action__wrapper > button:nth-child(2)")
accept_cookies

<selenium.webdriver.remote.webelement.WebElement (session="21f9ed5bb7835479540385b8a1400c5d", element="a2ce2f20-0599-487f-b4dd-5bdc5d59e1e3")>

In [186]:
accept_cookies.click()

In [187]:
user = #correo/telefono
username_input = WebDriverWait(chrome, 10).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, "#session_key")))
username_input.send_keys(user)

In [188]:
# Password
password = os.getenv("link-pass")
password_input = chrome.find_element_by_css_selector("#session_password")
password_input.send_keys(password)

In [189]:
# Submit
button = chrome.find_element_by_css_selector("#main-content > section.section.min-h-\[560px\].flex-nowrap.pt-\[40px\].babybear\:flex-col.babybear\:min-h-\[0\].babybear\:px-mobile-container-padding.babybear\:pt-\[24px\] > div > div > form > button")
button.click()

In [195]:
chrome.close()

## Resources
- [HTML tags](https://www.w3schools.com/TAGS/default.ASP)
- [CSS selectors](https://www.w3schools.com/cssref/css_selectors.asp)