# Web Scraping with BeautifulSoup



In [1]:
# Instalación de librerías
#!pip3 install 


## Step 1: Download page 

Este paso es opcional pero recomendable

In [2]:
# Librerías básicas

import requests  # To connect to the page we want to scrape from
from bs4 import BeautifulSoup # Provides a collection of functions that simplify scraping
import pandas as pd # To manage our data

import urllib
import re
import json
import os
import csv
import re
from datetime import date

def download(url, user_agent='Mozilla/5.0', num_retries=2):
    #Descarga una url. En caso de existir errores errores [500 600], intentar nuevamente.
    #Función adaptada desde (Lawson Richard, 2015)
    print('Descargando: ', url)
    headers = {'User-agent': user_agent}
    request = urllib.request.Request(url, headers=headers)
    
    try:
        html = urllib.request.urlopen(request).read()
    except urllib.error.URLError as e:
        print('Error descargando:', e.reason)
        html = None
        if num_retries > 0:
            if hasattr(e, 'code') and 500 <= e.code < 600:
                return download(url, user_agent, num_retries-1)
    return html


## Step 2: Establecer la página a leer y analizarla (parser)

In [3]:

#Dirección desde la que queremos extraer los datos:
url = 'https://archive.ics.uci.edu/ml/datasets.php'

# Page encoding
html = download(url) 


Descargando:  https://archive.ics.uci.edu/ml/datasets.php


In [4]:
# analizar la página HTML y cargarla en una estructura BeautifulSoup (BS4)

soup = BeautifulSoup(html, "html.parser")

# Print HTMl DOC
type(soup)

bs4.BeautifulSoup

## Step 3: Inspeccionar elementos de la página (desde el navegador) para obtener etiquetas HTML que contienen los datos que nos interesa:

In [5]:
# Atributos de de la página:
print(soup.title) # Incluye etiquetas HTML

print(soup.title.text)  # solo texto

<title>UCI Machine Learning Repository: Data Sets</title>
UCI Machine Learning Repository: Data Sets


In [6]:
tables = soup.findAll("table", {"cellpadding": "5", "border":"1"})
table = tables[0] # solo nos interesa esta tabla de datos

In [7]:
# Ver el código html en objeto tipo soap.
#print(table.prettify())

In [8]:
# Obtener todas las filas de datos
lines = table.findAll('tr')
len(lines)

1245

In [9]:
#Explorar la primera fila 
print(lines[0].prettify()) # Encabezado de la tabla

<tr bgcolor="#003366">
 <td class="normal, whitetext">
  <p class="normal, whitetext">
   <a href="datasets.php?format=&amp;task=&amp;att=&amp;area=&amp;numAtt=&amp;numIns=&amp;type=&amp;sort=nameDown&amp;view=table">
    <b>
     Name
    </b>
   </a>
  </p>
 </td>
 <!-- <td><p class="normal, whitetext"><b>Abstract</b></p></td> -->
 <td>
  <p class="normal, whitetext">
   <a href="datasets.php?format=&amp;task=&amp;att=&amp;area=&amp;numAtt=&amp;numIns=&amp;type=&amp;sort=typeUp&amp;view=table">
    <b>
     Data Types
    </b>
   </a>
  </p>
 </td>
 <td>
  <p class="normal, whitetext">
   <a href="datasets.php?format=&amp;task=&amp;att=&amp;area=&amp;numAtt=&amp;numIns=&amp;type=&amp;sort=taskUp&amp;view=table">
    <b>
     Default Task
    </b>
   </a>
  </p>
 </td>
 <td>
  <p class="normal, whitetext">
   <a href="datasets.php?format=&amp;task=&amp;att=&amp;area=&amp;numAtt=&amp;numIns=&amp;type=&amp;sort=attTypeUp&amp;view=table">
    <b>
     Attribute Types
    </b>
   </a>
  <

In [10]:
#Explorar la segunda fila 
print(lines[1].prettify()) # Primer dataset

<tr>
 <td>
  <table>
   <tr>
    <td>
     <a href="datasets/Abalone">
      <img border="1" src="assets/MLimages/SmallLarge1.jpg"/>
     </a>
    </td>
    <td>
     <p class="normal">
      <b>
       <a href="datasets/Abalone">
        Abalone
       </a>
      </b>
     </p>
    </td>
   </tr>
  </table>
 </td>
 <!-- <td><p class="normal">Predict the age of abalone from physical measurements&nbsp;</p></td> -->
 <td>
  <p class="normal">
   Multivariate
  </p>
 </td>
 <td>
  <p class="normal">
   Classification
  </p>
 </td>
 <td>
  <p class="normal">
   Categorical, Integer, Real
  </p>
 </td>
 <td>
  <p class="normal">
   4177
  </p>
 </td>
 <td>
  <p class="normal">
   8
  </p>
 </td>
 <td>
  <p class="normal">
   1995
  </p>
 </td>
 <!-- <td><p class="normal">Life&nbsp;</p></td> -->
</tr>



In [11]:
# Recorrer filas y obtener nombres de datasets:

cont = 1
for r in lines[1:10]:
    if cont % 2 != 0:
        dataset = r.find("p", {"class": "normal"})
        print(dataset.text)
    cont = cont + 1



Abalone
Adult
Annealing
Anonymous Microsoft Web Data
Arrhythmia


In [12]:
# Obtener todos los metadatos de los datasets y almacenarlos en un diccionario:

datasets = []
cont = 1
for r in lines[1:12]:
    cells = r.findAll('td')
    cells = cells[1:8]
    if cont % 2 != 0:
        datasets.append({"name":cells[1].find("p", {"class": "normal"}).text,
                   "datatype":cells[2].find("p", {"class": "normal"}).text,
                    "task":cells[3].find("p", {"class": "normal"}).text,
                    "attributestype":cells[4].find("p", {"class": "normal"}).text,
                    "instances":cells[5].find("p", {"class": "normal"}).text,
                    "attributes":cells[6].find("p", {"class": "normal"}).text})
    cont = cont + 1
    #print(cells[1])

In [13]:
datasets

[{'name': 'Abalone',
  'datatype': 'Multivariate\xa0',
  'task': 'Classification\xa0',
  'attributestype': 'Categorical, Integer, Real\xa0',
  'instances': '4177\xa0',
  'attributes': '8\xa0'},
 {'name': 'Adult',
  'datatype': 'Multivariate\xa0',
  'task': 'Classification\xa0',
  'attributestype': 'Categorical, Integer\xa0',
  'instances': '48842\xa0',
  'attributes': '14\xa0'},
 {'name': 'Annealing',
  'datatype': 'Multivariate\xa0',
  'task': 'Classification\xa0',
  'attributestype': 'Categorical, Integer, Real\xa0',
  'instances': '798\xa0',
  'attributes': '38\xa0'},
 {'name': 'Anonymous Microsoft Web Data',
  'datatype': '\xa0',
  'task': 'Recommender-Systems\xa0',
  'attributestype': 'Categorical\xa0',
  'instances': '37711\xa0',
  'attributes': '294\xa0'},
 {'name': 'Arrhythmia',
  'datatype': 'Multivariate\xa0',
  'task': 'Classification\xa0',
  'attributestype': 'Categorical, Integer, Real\xa0',
  'instances': '452\xa0',
  'attributes': '279\xa0'},
 {'name': 'Artificial Charac

In [14]:
datasets = pd.DataFrame(datasets)

datasets

Unnamed: 0,name,datatype,task,attributestype,instances,attributes
0,Abalone,Multivariate,Classification,"Categorical, Integer, Real",4177,8
1,Adult,Multivariate,Classification,"Categorical, Integer",48842,14
2,Annealing,Multivariate,Classification,"Categorical, Integer, Real",798,38
3,Anonymous Microsoft Web Data,,Recommender-Systems,Categorical,37711,294
4,Arrhythmia,Multivariate,Classification,"Categorical, Integer, Real",452,279
5,Artificial Characters,Multivariate,Classification,"Categorical, Integer, Real",6000,7
