# Tutorial de Web Scraping usando BeautifulSoup y Python
Aprende a hacer web scraping de datos usando la biblioteca BeautifulSoup

## Acerca de BeautifulSoup
BeautifulSoup nos facilita analizar gramáticamente datos útiles de un sitio web construido en HTML.
Para poder usar esta biblioteca, tenemos primero que
instalarla en nuestro ambiente local utilizando la terminal y ejecutando el siguiente comando:

In [None]:
!pip install beautifulsoup4



Puedes echar un vistazo a la [documentación oficial de BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para ver el conjunto completo de funciones.

### Importamos la biblioteca requests para obtener el contenido HTML.
Puedes ver que nuestro ejemplo contiene cerca de 42k caracteres.

In [None]:
import requests
r = requests.get('https://www.usclimatedata.com/climate/united-states/us')
print(len(r.text))

42313


In [None]:
r.text

'<!DOCTYPE html>\n<html lang="en">\n<head>\n\t<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n})(window,document,\'script\',\'dataLayer\',\'GTM-NGZ4B4W\');</script>\n\t<meta http-equiv="content-type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=2.0" /><meta name="robots" content="index, follow" /><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="description" content="United States. Information regarding the temperature, precipitation and sunshine for cities and locations in United States. See the climate charts and averages for your city."><meta name="keywords" content="United States, climate, temperature, precipitation, sunshine, averag

### Importamos BeautifulSoup y convertimos el HTML en un objeto bs4 

Ahora podemos acceder a etiquetas específicas de HTML en la página usando el punto (.), justo como si fuera un JSON Object.

In [None]:
from bs4 import BeautifulSoup

In [None]:
soup = BeautifulSoup(r.text)


#############################################
# Reto 0. Utiliza otra página web , observa su árbol de etiquetas desde Chrome 
# Dev Tools y usa la documentación de bs4 para imprimir 3 etiquetas más.#############################################

In [None]:
print(soup.title)

<title>Climate United States - Normals and averages</title>


In [None]:
print(soup.title.string)

Climate United States - Normals and averages



### Profundizando en el objeto bs4 para acceder a contenido del sitio web.

soup.p nos dará el contenido de la primera etiqueta de tipo párrafo en la página web.

soup.a nos da los hipervínculos del sitio.

Podemos obtener los contenidos de un atributo dentro de una etiqueta HTML usando los brackets cuadrados y paréntesis.

Usamos .parent para obtener el objeto padre, y .next_sibling para obtener el objeto en la misma dimension.

**Podemos usar Chrome Dev Tools para inspeccionar elementos y encontrar la etiqueta que necesitemos**


In [None]:
print(soup.p)

<p class="selection_title">Select a state by name</p>


In [None]:
print(soup.p.text)

Select a state by name


In [None]:
print(soup.p.string)

Select a state by name


In [None]:
print(soup.a)

<a class="navbar-brand" href="/" title="Temperature - Precipitation - Sunshine - Snowfall"><img alt="Temperature - Precipitation - Sunshine - Snowfall" data-src="https://www.usclimatedata.com/assets/images/us-climate-data.png" height="34" src="https://www.usclimatedata.com/assets/images/us-climate-data.png" srcset="https://www.usclimatedata.com/assets/images/us-climate-data.png 1x, https://www.usclimatedata.com/assets/images/us-climate-data-2.png 2x" width="31"/><span class="white ml-2">U.S. Climate Data</span></a>


In [None]:
print(soup.a['title'])

NameError: ignored

In [None]:
print(soup.p.parent)

<div class="float-left mb-4 mt-2"><p class="selection_title">Select a state by name</p></div>


### Prettify() es muy útil para formateo de texto

Este método es genial pero pero obseremos que sólo funciona con objetos bs4, no en caracteres, diccionarios o listas. Para esos objetos necesitamos importar pprint.


In [None]:
print(soup.p.parent.prettify())

<div class="float-left mb-4 mt-2">
 <p class="selection_title">
  Select a state by name
 </p>
</div>



### Necesitamos todos los links de cada estado en esta página
Primero necesitamos encontrar todos los hipervínculos, para imprimir únicamente el atributo href, que es el link realmente.

Pero podemos observar que el resultado incluye algunos hipervínculos que no necesitamos, entonces necesitamos filtrar y remover esos.


In [None]:
soup.find_all('a')

[<a class="navbar-brand" href="/" title="Temperature - Precipitation - Sunshine - Snowfall"><img alt="Temperature - Precipitation - Sunshine - Snowfall" data-src="https://www.usclimatedata.com/assets/images/us-climate-data.png" height="34" src="https://www.usclimatedata.com/assets/images/us-climate-data.png" srcset="https://www.usclimatedata.com/assets/images/us-climate-data.png 1x, https://www.usclimatedata.com/assets/images/us-climate-data-2.png 2x" width="31"/><span class="white ml-2">U.S. Climate Data</span></a>,
 <a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="#" id="config_btn" title="Select Fahrenheit or Celcius"><span class="sr-only">Toggle Dropdown</span><svg aria-hidden="true" focusable="false" height="18px" preserveaspectratio="xMidYMid meet" style="vertical-align:text-bottom; -ms-transform: rotate(360deg); -webkit-transform: rotate(360deg); transform: rotate(360deg);" viewbox="0 0 24 24" width="18px" xmlns="http://

In [None]:
for link in soup.find_all('a'):
    print(link.get('href'))

/
#
/
/climate/united-states/us
/
/climate/united-states/us
/climate/alabama/united-states/3170
/climate/alaska/united-states/3171
/climate/arizona/united-states/3172
/climate/arkansas/united-states/3173
/climate/california/united-states/3174
/climate/colorado/united-states/3175
/climate/connecticut/united-states/3176
/climate/delaware/united-states/3177
/climate/district-of-columbia/united-states/3178
/climate/florida/united-states/3179
/climate/georgia/united-states/3180
/climate/hawaii/united-states/3181
/climate/idaho/united-states/3182
/climate/illinois/united-states/3183
/climate/indiana/united-states/3184
/climate/iowa/united-states/3185
/climate/kansas/united-states/3186
/climate/kentucky/united-states/3187
/climate/louisiana/united-states/3188
/climate/maine/united-states/3189
/climate/maryland/united-states/1872
/climate/massachusetts/united-states/3191
/climate/michigan/united-states/3192
/climate/minnesota/united-states/3193
/climate/mississippi/united-states/3194
/climate/

### Filter urls using string functions
### Filtrando URLs usando funciones de caracteres
Con un mágico **if** para verificar condiciones, y luego agregamos los que nos importan a una lista. 
Al final, obtendremos 51 hipervínculos de estado, incluyendo Washington DC.


In [None]:
base_url = 'https://www.usclimatedata.com'

state_links = []

for link in soup.find_all('a'):
    url = link.get('href')
    if url and '/climate/' in url and '/climate/united-states/us' not in url:
        state_links.append(url)

In [None]:
state_links

['/climate/alabama/united-states/3170',
 '/climate/alaska/united-states/3171',
 '/climate/arizona/united-states/3172',
 '/climate/arkansas/united-states/3173',
 '/climate/california/united-states/3174',
 '/climate/colorado/united-states/3175',
 '/climate/connecticut/united-states/3176',
 '/climate/delaware/united-states/3177',
 '/climate/district-of-columbia/united-states/3178',
 '/climate/florida/united-states/3179',
 '/climate/georgia/united-states/3180',
 '/climate/hawaii/united-states/3181',
 '/climate/idaho/united-states/3182',
 '/climate/illinois/united-states/3183',
 '/climate/indiana/united-states/3184',
 '/climate/iowa/united-states/3185',
 '/climate/kansas/united-states/3186',
 '/climate/kentucky/united-states/3187',
 '/climate/louisiana/united-states/3188',
 '/climate/maine/united-states/3189',
 '/climate/maryland/united-states/1872',
 '/climate/massachusetts/united-states/3191',
 '/climate/michigan/united-states/3192',
 '/climate/minnesota/united-states/3193',
 '/climate/mi

In [None]:
print(len(state_links))

NameError: ignored

### Hagamos una prueba obteniendo datos de sólo un estado
Y luego imprimimos el título de esa página web.

In [None]:
state_links[6]

'/climate/connecticut/united-states/3176'

In [None]:
state_links[0]

'/climate/alabama/united-states/3170'

In [None]:
# https://www.usclimatedata.com/climate/alabama/united-states/3170
r = requests.get(base_url + state_links[0])
soup = BeautifulSoup(r.text)
print(soup.title.string)

Climate Alabama - Temperature, Rainfall and Averages


### Los datos que necesitamos están en la etiqueta *tr*
Pero mira, hay 14 etiquetas de tipo tr en la página, y sólo queremos 2 de ellas (las columnas de **average high**)


In [None]:
rows = soup.find_all('tr')
print(len(rows))

14


In [None]:
rows

[<tr><th class="title tablesaw-swipe-cellpersist" data-tablesaw-priority="persist" data-tablesaw-sortable-col="" scope="col"> </th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="January">Jan</abbr></span><span class="d-block d-sm-none"><abbr title="January">Ja</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="February">Feb</abbr></span><span class="d-block d-sm-none"><abbr title="February">Fe</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="March">Mar</abbr></span><span class="d-block d-sm-none"><abbr title="March">Ma</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="April">Apr</abbr></span><span class="d-block d-sm-none"><abbr title="April">Ap</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="May">May</abbr></span><span class="d-block d-sm-none"><abbr title="May"

### Filtrando filas, y agregando datos de temperatura a la lista.
Usaremos **List comprehension** para filtrar las filas.
Entonces ahora tendremos sólo 2 filas.
Iteramos esas 2 filasm y agregamos todas las temperaturas para las celdas de datos (td) en la lista.


In [None]:
rows[0]

<tr><th class="title tablesaw-swipe-cellpersist" data-tablesaw-priority="persist" data-tablesaw-sortable-col="" scope="col"> </th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="January">Jan</abbr></span><span class="d-block d-sm-none"><abbr title="January">Ja</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="February">Feb</abbr></span><span class="d-block d-sm-none"><abbr title="February">Fe</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="March">Mar</abbr></span><span class="d-block d-sm-none"><abbr title="March">Ma</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="April">Apr</abbr></span><span class="d-block d-sm-none"><abbr title="April">Ap</abbr></span></th><th class="text-right" scope="col"><span class="d-none d-sm-block"><abbr title="May">May</abbr></span><span class="d-block d-sm-none"><abbr title="May">

In [None]:
rows2 = [row for row in rows if 'Average high in ºF' in str(row)]

In [None]:
rows2[0].td

<td class="high text-right">54</td>

In [None]:
rows2[0].find_all('td')

[<td class="high text-right">54</td>,
 <td class="high text-right">58</td>,
 <td class="high text-right">67</td>,
 <td class="high text-right">74</td>,
 <td class="high text-right">82</td>,
 <td class="high text-right">88</td>]

In [None]:
rows2[1].find_all('td')

[<td class="high text-right">91</td>,
 <td class="high text-right">91</td>,
 <td class="high text-right">85</td>,
 <td class="high text-right">75</td>,
 <td class="high text-right">65</td>,
 <td class="high text-right">56</td>]

In [None]:
print(len(rows))

high_temps = []
for row in rows2:
    tds = row.find_all('td')
    for i in range(1,2):
        high_temps.append(tds[i].text)
print(high_temps)

14
['58', '91']


### Obteniendo el nombre del estado
Lo que haremos ahora es primero partir la cadena de caracteres en una lista, y tomamos la segunda palabra.
Pero eso no funcionaría para estados con 2 palabras como New York o Carolina del Norte.
Entonces vamos a usar una función de cadenas de caracteres para encontrar y cortar una cadena de caracteres desde el guión (-)


In [None]:
soup.title.string

'Climate Alabama - Temperature, Rainfall and Averages'

In [None]:
state = soup.title.string.split()[1]
print(state)

Alabama


In [None]:
s = soup.title.string

In [None]:
s.find(' ')

7

In [None]:
s.find('-')

16

In [None]:
s[7:16].strip()

'Alabama'

In [None]:
s = soup.title.string
state = s[s.find(' '):s.find('-')].strip()
print(state)

Alabama


### Add state name and temp list to the data dictionary
### Agregamos el nombre del estado y una lista temporal al diccionario de datos.

Para un estado, así es como se ven nuestros datos con la técnica de scrapping. 
En este ejemplo sólo obtuvimos temperaturas máximas por estado, pero podríamos obtener cada ciuidad, o también obtener otros datos relevantes como las temperaturas mínimas y precipicitación.


In [None]:
data = {}
data[state] = high_temps
print(data)

{'Alabama': ['58', '91']}


### Put it all together and iterate 51 states
### Juntando todo e iterando en 51 estados.
Acá vamos a crear un ciclo en nuestra lista de 51 estados, y obtener la temperatura más alta para cada estado, y agregarla al diccionario de datos.

Esto combina todo nuestro trabajo anterior en un sólo ciclo.
El resultado es un diccionario con 51 estados y una lista de temperaturas máximas para cada uno.


In [None]:
data = {}

for state_link in state_links:

    url = base_url + state_link
    
    r = requests.get(base_url + state_link)
    
    soup = BeautifulSoup(r.text)
    
    rows = soup.find_all('tr')
    
    rows = [row for row in rows if 'Average high' in str(row)]
    
    high_temps = []
    
    for row in rows:
        tds = row.find_all('td')
        for i in range(1,2):
            high_temps.append(tds[i].text)
    
    s = soup.title.string
    
    state = s[s.find(' '):s.find('-')].strip()
    
    data[state] = high_temps
print(data)

{'Alabama': ['58', '91'], 'Alaska': ['27', '64'], 'Arizona': ['71', '104'], 'Arkansas': ['55', '93'], 'California': ['60', '91'], 'Colorado': ['46', '88'], 'Connecticut': ['40', '81'], 'Delaware': ['47', '85'], 'District Of Columbia': ['44', '84'], 'Florida': ['67', '92'], 'Georgia': ['57', '88'], 'Hawaii': ['80', '89'], 'Idaho': ['45', '90'], 'Illinois': ['36', '82'], 'Indiana': ['40', '83'], 'Iowa': ['36', '84'], 'Kansas': ['45', '89'], 'Kentucky': ['45', '86'], 'Louisiana': ['65', '91'], 'Maine': ['32', '78'], 'Maryland': ['46', '87'], 'Massachusetts': ['39', '80'], 'Michigan': ['33', '80'], 'Minnesota': ['31', '82'], 'Mississippi': ['60', '92'], 'Missouri': ['45', '88'], 'Montana': ['39', '85'], 'Nebraska': ['37', '86'], 'Nevada': ['50', '88'], 'New Hampshire': ['35', '81'], 'New Jersey': ['42', '84'], 'New Mexico': ['48', '83'], 'New York': ['42', '83'], 'North Carolina': ['55', '87'], 'North Dakota': ['28', '83'], 'Ohio': ['40', '84'], 'Oklahoma': ['55', '93'], 'Oregon': ['52', '

### Save to CSV file
### Guardando todo en un archivo CSV.
Finalmente, podría interesarnos escribir todo en un archivo CSV.
Acá tenemos una manera fácil para lograr eso.

In [None]:
data.items()

dict_items([('Alabama', ['58', '91']), ('Alaska', ['27', '64']), ('Arizona', ['71', '104']), ('Arkansas', ['55', '93']), ('California', ['60', '91']), ('Colorado', ['46', '88']), ('Connecticut', ['40', '81']), ('Delaware', ['47', '85']), ('District Of Columbia', ['44', '84']), ('Florida', ['67', '92']), ('Georgia', ['57', '88']), ('Hawaii', ['80', '89']), ('Idaho', ['45', '90']), ('Illinois', ['36', '82']), ('Indiana', ['40', '83']), ('Iowa', ['36', '84']), ('Kansas', ['45', '89']), ('Kentucky', ['45', '86']), ('Louisiana', ['65', '91']), ('Maine', ['32', '78']), ('Maryland', ['46', '87']), ('Massachusetts', ['39', '80']), ('Michigan', ['33', '80']), ('Minnesota', ['31', '82']), ('Mississippi', ['60', '92']), ('Missouri', ['45', '88']), ('Montana', ['39', '85']), ('Nebraska', ['37', '86']), ('Nevada', ['50', '88']), ('New Hampshire', ['35', '81']), ('New Jersey', ['42', '84']), ('New Mexico', ['48', '83']), ('New York', ['42', '83']), ('North Carolina', ['55', '87']), ('North Dakota', 

In [None]:
import csv

with open('high_temps.csv','w') as f:
    w = csv.writer(f)
    w.writerows(data.items())