# Actividad 01: Web Scraping

En esta actividad trabajarán con _web scraping_ para la generación de su propia base de datos. Luego, a partir de esta, deberán ser capaz de responder consultas simples sobre la información que contiene.

\

## **Entrega** 
La entrega de la actividad se realiza a través de **GitHub Classroom** en este mismo repositorio, revisaremos el **último _commit_ antes de las 20:00 hrs**. Deben aceptar la siguiente invitación para que se cree un repositorio https://classroom.github.com/a/RxR62732.


\
### **Consultas** 
Además, recuerden que durante el módulo de ayudantía 15:30 - 16:50 habrán ayudantes disponibles para responder dudas sobre la actividad en el siguiente [servidor de Discord](https://discord.gg/m8Fm2A).

\
Por último, recuerden que si bien estas actividades **son de caracter formativo**, recomendamos su realización ya que les permitirá aprender de forma práctica los contenidos vistos en clase. Si logran realizar las actividades a lo largo del curso, podrán obtener un beneficio en la nota de Tareas.

#### Librerías a utilizar:
Si bien para hacer web scraping se pueden utilzar diversas librerías, una de las más fáciles y rápidas de usar es [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/), la cual, para páginas con **html estático**, es de las más utilizadas. Además, se ocupará la librería [Requests](https://requests.readthedocs.io/en/master/) que sirve para hacer request de páginas web.

In [None]:
#!pip install beautifulsoup4
from bs4 import BeautifulSoup
import pandas as pd
import requests

#### (Requests) Ejemplo de uso:

Debemos partir haciendo un **request** al sitio al que queremos hacer scraping. Para esto la librería *requests* ofrece distintos métodos asociados a distintos tipos de request que podemos hacer (GET, POST, DELETE, etc).

Ahora haremos una request tipo GET de la página de [Carreras UC](http://admisionyregistros.uc.cl/futuros-alumnos/conoce-la-uc/carreras):

In [None]:
# hacemos requests del url, esto nos retornará un objeto "Response"
url = 'http://admisionyregistros.uc.cl/futuros-alumnos/conoce-la-uc/carreras'
page = requests.get(url)

El objeto page ahora tiene (casi) toda la información de la página en url, este objeto tiene distinta información sobre la página que nos será útil a la hora de hacer scraping:

In [None]:
# status code nos dice el estado del request (ie: 404 error)
print(page.status_code)

# encoding del texto en la página
print(page.encoding)

# CONTENIDO de la página
# podemos acceder en texto (unicode)
page.text
# o en bytes
page.content

200
utf-8


b'\r\n<!DOCTYPE html>\r\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="es-es" lang="es-es" >\r\n<head>\r\n<!-- Google Tag Manager -->\r\n<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\r\nnew Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\r\nj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\r\n\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\r\n})(window,document,\'script\',\'dataLayer\',\'GTM-WQDLPX\');</script>\r\n<!-- End Google Tag Manager -->\r\n\r\n\t<base href="http://admisionyregistros.uc.cl/futuros-alumnos/conoce-la-uc/carreras" />\n\t<meta http-equiv="content-type" content="text/html; charset=utf-8" />\n\t<meta name="keywords" content="Admisi\xc3\xb3n y Registros, Pontificia Universidad Cat\xc3\xb3lica de Chile" />\n\t<meta name="description" content="Sitio de Admisi\xc3\xb3n y Registros de la Pontificia Universidad Cat\xc3\xb3lica de Chile ." />\n\t<title>Carrer

Si bien la librería tiene muchas más funcionalidades, estás serán las primordiales a la hora de hacer scraping de sitios webs (más o menos simples)...

#### (BeatifulSoup) Ejemplo de uso:

BeatifulSoup arma un objeto desde el cual se puede acceder al contenido estructurado dentro de este. Para esto debemos entregar el contenido de la página y la forma en la que está estructurada la información (el "html.parser", de todas formas se puede omitir y la librería lo determinará automáticamente)

In [None]:
# se construye el objeto con el contenido de la página web
soup = BeautifulSoup(page.content, 'html.parser')

Desde este punto nosotros podemos acceder a toda la estructura de la página original y, de lo más útil, podemos hacer búsquedas por **html tags** para obtener la información que nosotros queremos:

In [None]:
# el objeto soup contiene toda la información estructurada del html
#print(soup.prettify())
print(soup.title)

# accede al primer elemento con tag a
#print(soup.find('a'))

# accede a todos los elementos con tag a
#soup.find_all('a')

<title>Carreras de pregrado</title>


Notemos en el output anterior que en algunos casos no solo aparece el tag con ```<a>```, sino que también incluye todos los tags que están al interior de estos. Además el método __*find* nos retorna un BeatifulSoup, por lo que podemos volver a aplicar la función *find* sobre este__.

Con esto ya tenemos todo para poder extraer información de la página, con el siguiente código vamos a extraer una lista con todas las carreras que se dictan en la UC, sus respectivas páginas web y la imagen miniatura:

In [None]:
base_url = 'http://admisionyregistros.uc.cl'
carreras = []
images = []
urls = []

# accedemos al section donde se encuentra toda la información por carreras
carreras_section = soup.find('section')

# dentro de "carreras_section" buscamos todos los div
for carrera_div in carreras_section.find_all('div'):

  # dentro del div buscamos el tag con la imagen
  carrera_info = carrera_div.find_all('a')

  # extraemos el href y la imagen del primer elemento con tag 'a'
  urls.append(base_url + carrera_info[0]['href'])
  images.append(base_url + carrera_info[0].find('img')['src'])
  
  #extraemos el nombre de la carrera desde el segundo elemento
  carreras.append(carrera_info[1].text.strip())

print('En la UC se dictan {0} carreras...'.format(len(carreras)))

En la UC se dictan 61 carreras...


#### (Pandas) Ejemplo de uso:

Muchas veces queremos pasar la información recolectada a tablas en la cuales trabajar con la información resulte de manera más rápida y ordenada. ```pandas``` es una de las librerías más utilizadas con este propósito, ahora veremos un caso de aplicación muy básico.

Digamos que queremos pasar la información a una tabla:

In [None]:
# construimos un diccionario con la información de cada fila
data = {'url': urls, 'image': images}

# podemos pasar todo estos a un dataframe
table = pd.DataFrame(data=data, index=carreras)
table

Unnamed: 0,url,image
Actuación,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Agronomía,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Antropología,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Arqueología,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Arquitectura,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
...,...,...
Química y Farmacia,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Sociología,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Teología,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...
Terapia Ocupacional,http://admisionyregistros.uc.cl/futuros-alumno...,http://admisionyregistros.uc.cl/images/185x130...


Si bien los **DataFrames** tienen muchos métodos y aplicaciones, estas se verán en profundidad en la ayudantía de la próxima semana, para esta actividad solo tienen que pensar estos objetos como iterables en sus filas y donde para cada fila pueden acceder a la información que esta posee usando ```row[columna]```.

In [None]:
# en este caso idx es el Index (nombre de carrera)
for idx, row in table.iterrows():
  print("La imagén de {0} está en {1}".format(idx, row['image']))

La imagén de Actuación está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/actuacion.jpg
La imagén de Agronomía está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/agronomia.jpg
La imagén de Antropología está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/antropologia.jpg
La imagén de Arqueología está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/arqueologia.jpg
La imagén de Arquitectura está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/arquitectura.jpg
La imagén de Arte está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/arte.jpg
La imagén de Astronomía está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/astronomia.jpg
La imagén de Biología está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/biologia.jpg
La imagén de Biología Marina está en http://admisionyregistros.uc.cl/images/185x130-iconos-carreras/biologia-marina.jpg
La imagén 

Lo último que queda por mostrar es una forma de almacenar estas estructuras como un archvio ```.csv```, lo cual se puede hacer con una función de la misma librería:

In [None]:
table.to_csv('tabla_ejemplo.csv')

# Desarrollo de la Actividad:

La actividad consta de **dos partes**:

1.   Utilizar Web Scraping para conseguir información desde la web y generar una base de datos a partir de esta.
2.   Trabajar en el manejo de estos datos utilizando librerías y métodos de ```python```.

## Parte 1: Web Scraping

Deberán ocupar Web Scraping para obtener una base de datos a partir de los notebooks presentes en https://www.solotodo.cl/notebooks.

En dicho link se muestra un _index_ con todos los notebooks que hay disponibles en la página. Desde acá ustedes podrán acceder a la "tarjeta" de cada notebook, la cual contiene información del producto y el **_url_ de la página específica del producto**.

La idea es que por cada producto ustedes sean capaces de acceder a su página específica y extraer la siguiente información:

* Nombre
* Precio (lo pueden extraer en el _index_)
* Procesador
* RAM
* Almacenamiento
* Tarjetas de video
* Peso
* Puntuación de aplicaciones
* Puntuación de gaming
* Puntuación de movilidad

Para la actividad deberán conseguir los datos de 120 productos distintos, para esto tendrán que enfrentarse a la páginación del sitio utilizando las librerías (**NO será válido guardar 10 link en una lista e iterar sobre estos**).

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

<title>Notebooks - SoloTodo</title>


In [None]:
notebooks = {}
urls = []
def find_pcs(div_results, notebooks):
  for columna_pc in div_results.find_all('div',{'class': 'd-flex flex-column category-browse-result'}):
    nombre = columna_pc.find('a').text.strip()
    precio = columna_pc.find('div', {'class': 'price flex-grow'}).text[1:]

    pag_notebook_url = 'https://www.solotodo.cl/' + columna_pc.find('a')['href']
    pag_notebook = requests.get(pag_notebook_url)
    soup_pc = BeautifulSoup(pag_notebook.content, 'html.parser')

    pc_data = soup_pc.find('div', {'id': 'product-detail-grid'})
    puntuaciones = pc_data.find_all('p', {'class': 'benchmark-score mb-0'})
    scores = []

    for pts in puntuaciones:
      scores.append(pts.text.strip())

    specs = pc_data.find('div', {'id': 'technical-specifications-container'})
    caract = specs.find_all('dd')
    notebooks[nombre] = {'Precio': precio,
                         'Procesador': caract[0].text.strip(),
                         'RAM': caract[1].text.strip(),
                         'Almacenamiento': caract[4].text.strip(),
                         'Tarjeta de video': caract[5].text.strip(),
                         'Peso': caract[7].text.strip(),
                         'Puntuación de aplicaciones': scores[0],
                         'Puntuación de gaming': scores[1],
                         'Puntuación de movilidad': scores[2]}
  return notebooks

url = 'https://www.solotodo.cl/notebooks'

for i in range(1, 12):                    
  page = requests.get(f'{url}?page={i}')
  soup = BeautifulSoup(page.content, 'html.parser')    
  div_results = soup.find(id="category-browse-results-card")
  notebooks = find_pcs(div_results, notebooks)

# Guardamos una página más en caso de que se haya repetido algún notebook
print(len(notebooks))


131


## Parte 2: Manejo de Datos

A partir de los datos obtenidos en la parte 1 debes guardar los resultados en un archivo ```.csv```. Finalmente, debes **responder 2 de las 3 consultas que hay más adelante** (la que no elijan les queda como propuesto) y **guardar los _outputs_ en archivos .csv llamados** ```consultaX.csv``` (donde X es el número de la consulta):

**Tip**: para guardar los datos en un archivo ```.csv``` puede ser útil utilizar el ejemplo de _pandas_ definido más arriba. De todas formas, si esto te complica, se pueden usar listas y _write_ de ```python```.


In [None]:
# Pasamos a DataFrame
table = pd.DataFrame(data=notebooks.values(), index=notebooks.keys())
table

Unnamed: 0,Precio,Procesador,RAM,Almacenamiento,Tarjeta de video,Peso,Puntuación de aplicaciones,Puntuación de gaming,Puntuación de movilidad
Lenovo IdeaPad 330-14AST [81D5005PCL],279.990,AMD A4-9125 (2 núcleos / \r\n\t\t4 hilos / 230...,4 GB DDR4 (2133 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,2200 g.,277 / 1000,117 / 1000,520 / 1000
Lenovo IdeaPad S145-14AST [81ST007YCL],279.990,AMD A4-9125 (2 núcleos / \r\n\t\t4 hilos / 230...,4 GB DDR4 (2133 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,2200 g.,277 / 1000,117 / 1000,520 / 1000
HP 240 G7 [6FU25LT],279.990,Intel Celeron N4000 (2 núcleos / \r\n\t\t2 hil...,4 GB DDR4 (2400 MHz),HDD 500GB (5400rpm),Intel UHD Graphics 600 (Integrada),1520 g.,241 / 1000,109 / 1000,722 / 1000
HP 240 G7 [1D0F9LT],279.990,Intel Celeron N4020 (2 núcleos / \r\n\t\t2 hil...,4 GB DDR4 (2400 MHz),HDD 500GB (7200rpm),Intel UHD Graphics 600 (Integrada),1520 g.,265 / 1000,115 / 1000,622 / 1000
HP 245 G7 [6LM84LT],290.990,AMD A4-9125 (2 núcleos / \r\n\t\t4 hilos / 230...,4 GB DDR4 (1866 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,1520 g.,277 / 1000,117 / 1000,622 / 1000
...,...,...,...,...,...,...,...,...,...
ASUS VivoBook X505ZA-BQ885T,539.990,AMD Ryzen 5 2500U (4 núcleos / \r\n\t\t8 hilos...,12 GB DDR4 (2133 MHz),SSD 512GB,AMD Radeon RX Vega 8 (Integrada),1980 g.,732 / 1000,296 / 1000,473 / 1000
Huawei Matebook D 15 [BOHRK-WAQ9BR / 53010VLT],539.990,AMD Ryzen 5 3500U (4 núcleos / \r\n\t\t8 hilos...,8 GB DDR4 (2400 MHz),SSD 256GB,AMD Radeon RX Vega 8 (Integrada),1530 g.,784 / 1000,309 / 1000,440 / 1000
Lenovo IdeaPad 330S-14IKB [81F400BHCL],539.990,Intel Core i5-8250U (4 núcleos / \r\n\t\t8 hil...,4 GB DDR4 (2400 MHz),HDD 1TB (5400rpm)\nIntel Optane 16GB,Intel UHD Graphics 620 (Integrada),1600 g.,687 / 1000,241 / 1000,610 / 1000
Lenovo IdeaPad V330-14IKB (i5-8250U / 8GB / 1TB),549.900,Intel Core i5-8250U (4 núcleos / \r\n\t\t8 hil...,8 GB DDR4 (2400 MHz),HDD 1TB (5400rpm),Intel UHD Graphics 620 (Integrada),1550 g.,754 / 1000,274 / 1000,617 / 1000


In [None]:
table.to_csv('notebooks.csv')

#### Consulta 1: 

Obtener los 10 mejores computadores según el orden de cada una de las ```puntuaciones vs precio``` (gaming/precio, movilidad/precio, aplicaciones/precio):


(Se piden 3 listas de 10 computadores, una lista ordenada por cada puntuación/precio)

In [None]:
# Gaming/precio

# Movilidad/precio

# Aplicaciones/precio

#### Consulta 2: 

Para cada tarjeta gráfica integrada, calcula el valor promedio de los notebooks que la tienen incorporada.

In [None]:
consulta_2 = {}
for note in notebooks:
  graphics = notebooks[note]['Tarjeta de video']
  if 'Integrada' in graphics:
    consulta_2[graphics] = {'precio_total': 0,
                            'cantidad': 0,
                            'promedio': 0}
    
for note in notebooks:
  graphics = notebooks[note]['Tarjeta de video']
  if 'Integrada' in graphics:
    consulta_2[graphics]['cantidad'] += 1
    consulta_2[graphics]['precio_total'] += int(notebooks[note]['Precio'].replace('.', ''))
    promedio = consulta_2[graphics]['precio_total'] / consulta_2[graphics]['cantidad']
    consulta_2[graphics]['promedio'] = promedio

table = pd.DataFrame(data=consulta_2.values(), index=consulta_2.keys())


table.to_csv('consulta2.csv')

#### Consulta 3: 

Determinar la cantidad de notebooks con procesador marca ```Intel``` y la cantidad con procesadores ```AMD```. Además, obtener el valor promedio de las puntuaciones (aplicaciones, gaming, movilidad) para cada marca. 

In [None]:
marcas = {'Intel': {'cantidad': 0, 
                    'promedio_aplicaciones': 0,
                    'promedio_gaming': 0,
                    'promedio_movilidad': 0},
          'AMD': {'cantidad': 0,
                  'promedio_aplicaciones': 0,
                  'promedio_gaming': 0,
                  'promedio_movilidad': 0}
}
intel_app = 0
intel_gaming = 0
intel_movilidad = 0
amd_app = 0
amd_gaming = 0
amd_movilidad = 0
for note in notebooks:
  procesador = notebooks[note]['Procesador']
  if 'Intel' in procesador:
    marcas['Intel']['cantidad'] += 1
    intel_app += int(notebooks[note]['Puntuación de aplicaciones'].split("/")[0].strip())
    marcas['Intel']['promedio_aplicaciones'] = intel_app / marcas['Intel']['cantidad']
    intel_gaming += int(notebooks[note]['Puntuación de gaming'].split("/")[0].strip())
    marcas['Intel']['promedio_gaming'] = intel_gaming / marcas['Intel']['cantidad']
    intel_movilidad += int(notebooks[note]['Puntuación de movilidad'].split("/")[0].strip())
    marcas['Intel']['promedio_movilidad'] = intel_movilidad / marcas['Intel']['cantidad']
  elif 'AMD' in procesador:
    marcas['AMD']['cantidad'] += 1
    amd_app += int(notebooks[note]['Puntuación de aplicaciones'].split("/")[0].strip())
    marcas['AMD']['promedio_aplicaciones'] = amd_app / marcas['AMD']['cantidad']
    amd_gaming += int(notebooks[note]['Puntuación de gaming'].split("/")[0].strip())
    marcas['AMD']['promedio_gaming'] = amd_gaming / marcas['AMD']['cantidad']
    amd_movilidad += int(notebooks[note]['Puntuación de movilidad'].split("/")[0].strip())
    marcas['AMD']['promedio_movilidad'] = amd_movilidad / marcas['AMD']['cantidad']

for i in ['promedio_aplicaciones', 'promedio_gaming', 'promedio_movilidad']:
  marcas['Intel'][i] = str(round(marcas['Intel'][i], 2)) + " / " + "1000"
  marcas['AMD'][i] = str(round(marcas['AMD'][i], 2)) + " / " + "1000"
table = pd.DataFrame(data=marcas.values(), index=marcas.keys())
table.to_csv('consulta3.csv')