# Actividad 01: Web Scraping

En esta actividad trabajarán con _web scraping_ para la generación de su propia base de datos. Luego, a partir de esta, deberán ser capaz de responder consultas simples sobre la información que contiene.

\

## **Entrega** 
La entrega de la actividad se realiza a través de **GitHub Classroom** en este mismo repositorio, revisaremos el **último _commit_ antes de las 20:00 hrs**. Deben aceptar la siguiente invitación para que se cree un repositorio https://classroom.github.com/a/RxR62732.


\
### **Consultas** 
Además, recuerden que durante el módulo de ayudantía 15:30 - 16:50 habrán ayudantes disponibles para responder dudas sobre la actividad en el siguiente [servidor de Discord](https://discord.gg/m8Fm2A).

\
Por último, recuerden que si bien estas actividades **son de caracter formativo**, recomendamos su realización ya que les permitirá aprender de forma práctica los contenidos vistos en clase. Si logran realizar las actividades a lo largo del curso, podrán obtener un beneficio en la nota de Tareas.

#### Librerías a utilizar:
Si bien para hacer web scraping se pueden utilzar diversas librerías, una de las más fáciles y rápidas de usar es [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/), la cual, para páginas con **html estático**, es de las más utilizadas. Además, se ocupará la librería [Requests](https://requests.readthedocs.io/en/master/) que sirve para hacer request de páginas web.

#### (Requests) Ejemplo de uso:

Debemos partir haciendo un **request** al sitio al que queremos hacer scraping. Para esto la librería *requests* ofrece distintos métodos asociados a distintos tipos de request que podemos hacer (GET, POST, DELETE, etc).

Ahora haremos una request tipo GET de la página de [Carreras UC](http://admisionyregistros.uc.cl/futuros-alumnos/conoce-la-uc/carreras):

El objeto page ahora tiene (casi) toda la información de la página en url, este objeto tiene distinta información sobre la página que nos será útil a la hora de hacer scraping:

Si bien la librería tiene muchas más funcionalidades, estás serán las primordiales a la hora de hacer scraping de sitios webs (más o menos simples)...

#### (BeatifulSoup) Ejemplo de uso:

BeatifulSoup arma un objeto desde el cual se puede acceder al contenido estructurado dentro de este. Para esto debemos entregar el contenido de la página y la forma en la que está estructurada la información (el "html.parser", de todas formas se puede omitir y la librería lo determinará automáticamente)

Desde este punto nosotros podemos acceder a toda la estructura de la página original y, de lo más útil, podemos hacer búsquedas por **html tags** para obtener la información que nosotros queremos:

Notemos en el output anterior que en algunos casos no solo aparece el tag con ```<a>```, sino que también incluye todos los tags que están al interior de estos. Además el método __*find* nos retorna un BeatifulSoup, por lo que podemos volver a aplicar la función *find* sobre este__.

Con esto ya tenemos todo para poder extraer información de la página, con el siguiente código vamos a extraer una lista con todas las carreras que se dictan en la UC, sus respectivas páginas web y la imagen miniatura:

#### (Pandas) Ejemplo de uso:

Muchas veces queremos pasar la información recolectada a tablas en la cuales trabajar con la información resulte de manera más rápida y ordenada. ```pandas``` es una de las librerías más utilizadas con este propósito, ahora veremos un caso de aplicación muy básico.

Digamos que queremos pasar la información a una tabla:

Si bien los **DataFrames** tienen muchos métodos y aplicaciones, estas se verán en profundidad en la ayudantía de la próxima semana, para esta actividad solo tienen que pensar estos objetos como iterables en sus filas y donde para cada fila pueden acceder a la información que esta posee usando ```row[columna]```.

Lo último que queda por mostrar es una forma de almacenar estas estructuras como un archvio ```.csv```, lo cual se puede hacer con una función de la misma librería:

# Desarrollo de la Actividad:

La actividad consta de **dos partes**:

1.   Utilizar Web Scraping para conseguir información desde la web y generar una base de datos a partir de esta.
2.   Trabajar en el manejo de estos datos utilizando librerías y métodos de ```python```.

### Actividad 01

* Nombre: Raúl Ignacio Diaz Campos

* Número Estudiante: 1720688J

* GitHub: ridiazcampos

## Parte 1: Web Scraping

Deberán ocupar Web Scraping para obtener una base de datos a partir de los notebooks presentes en https://www.solotodo.cl/notebooks.

En dicho link se muestra un _index_ con todos los notebooks que hay disponibles en la página. Desde acá ustedes podrán acceder a la "tarjeta" de cada notebook, la cual contiene información del producto y el **_url_ de la página específica del producto**.

La idea es que por cada producto ustedes sean capaces de acceder a su página específica y extraer la siguiente información:

* Nombre
* Precio (lo pueden extraer en el _index_)
* Procesador
* RAM
* Almacenamiento
* Tarjetas de video
* Peso
* Puntuación de aplicaciones
* Puntuación de gaming
* Puntuación de movilidad

Para la actividad deberán conseguir los datos de 120 productos distintos, para esto tendrán que enfrentarse a la páginación del sitio utilizando las librerías (**NO será válido guardar 10 link en una lista e iterar sobre estos**).

In [13]:
import requests
from bs4 import BeautifulSoup

In [124]:
import requests
from bs4 import BeautifulSoup

def a_numero(string):
    numero = ""
    for i in string:
        if i.isnumeric:
            numero += i#p
    return int(numero)
            

def product_data():
    base_url = 'https://www.solotodo.cl'
    url = 'https://www.solotodo.cl/notebooks'
    _nombres = []
    _precios = []
    procesadores = []
    rams = []
    almacenamientos = []
    tarjetas = []
    pesos = []
    puntuacion_aplic = []
    puntuacion_gaming = []
    puntuacion_mov = []
    listas = {
        'Procesador': procesadores,
        'RAM': rams,
        'Almacenamiento': almacenamientos,
        'Tarjetas de video': tarjetas,
        'Peso': pesos,
        
        #'P'
        
    }
    
    lista_calificacion = {
        'Aplicaciones': puntuacion_aplic,
        'Gaming': puntuacion_gaming,
        'Movilidad': puntuacion_mov
    }
    a = True
    numero_notebook = 0
    _url = url # ñ #tl
    while numero_notebook < 120:
        print('Sección ->', _url)
        # Hacemos la solicitud
        page = requests.get(_url)

        # Objeto con el contenido :D
        soup = BeautifulSoup(page.content, 'html.parser')

        # https://stackoverflow.com/questions/5041008/how-to-find-elements-by-class
        notebooks_section = soup.find_all('div', {'class': 'category-browse-results'})[-1]

        # recorremos cada notebook
        for notebook_div in notebooks_section.find_all('div', {'class': 'category-browse-result'}):

            # Exrtaemos el precio
            nombre = notebook_div.find('h3').find('a').text
            precio = notebook_div.find_all('div')[-1].text
            try:
                precio = int(precio.replace('$', '').replace('.', '')) #content
            except:
                precio = a_numero(precio)
                
            # Extraemos página específica del producto 
            notebook_url = base_url + notebook_div.find('a')['href']
            print(notebook_url)
            notebook_page = requests.get(notebook_url)
            notebook_soup = BeautifulSoup(notebook_page.content, 'html.parser')#rtr'requests.)
            
            caracteristicas = notebook_soup.find(id='technical-specifications-container') # B
            cuadros = caracteristicas.find('div').find_all('div')
            titles = []
            #values = []
            values = []
            for cuadro in cuadros:
                primero = cuadro.find('dl')
                titles += primero.find_all('dt')
                values += primero.find_all('dd')
            encontrados = {
                'Procesador': False, #True,
                'RAM': False, #A fA,
                'Almacenamiento': False,
                'Tarjetas de video': False,
                'Peso': False
            }
            n = 0
            
            for i in range(len(titles)):
                _nombre = titles[i].text.strip() #
                if _nombre in listas:
                    tabla = values[i].find('ul')
                    if tabla:
                        valor = ', '.join([j.text.replace('\n', ' ').replace('\t', ' ').replace('\r', ' ') for j in tabla.find_all('li')]) #0
                    else:
                        valor = values[i].text.strip().replace('\n', ' ').replace('\t', ' ').replace('\r', ' ')
                    listas[titles[i].text.strip()].append(valor)#ues)
                    del encontrados[_nombre]
                    n += 1
            for i in encontrados:
                listas[i].append(None)
                
            calificaciones = notebook_soup.find('div', {'id': 'benchmarks-container'})
            nombres = calificaciones.find_all('p', {'class': 'benchmark-name'})
            puntuaciones = calificaciones.find_all('p', {'class': 'benchmark-score'})
            check = ["Aplicaciones", "Gaming", "Movilidad"]
            
            for i in range(len(nombres)):
                if nombres[i].text.strip() in lista_calificacion:
                    puntuacion = a_numero(puntuaciones[i].text.split("/")[0])
                    lista_calificacion[nombres[i].text.strip()].append(puntuacion)
                    check.remove(nombres[i].text.strip())
            for _nombre in check:
                puntuacion = 0
                lista_calificacion[_nombre].append(puntuacion)
            
            _nombres.append(nombre)
            _precios.append(precio)
            #print(nombre, precio, [listas[i][-1] for i in listas], [lista_calificacion[i][-1] for i in lista_calificacion])
            

            #f
            numero_notebook += 1
        _url = url + soup.find_all('li', {'class': 'page-item'})[-1].find('a')['href']#.t
        #a = False
        
    # construimos un diccionario con la información de cada fila
    ides = list(range(len(_nombres)))
    
    data = {
            'Nombre': _nombres,
            'Precio': _precios,
            'Procesador': procesadores,
            'RAM': rams,
            'Almacenamiento': almacenamientos,
            'Tarjetas de video': tarjetas,
            'Peso': pesos,
            'Aplicaciones': puntuacion_aplic,
            'Gaming': puntuacion_gaming,
            'Movilidad': puntuacion_mov}
    
    #for i, k in data.items():
    #    print(i, k)

    # podemos pasar todo estos a un dataframe
    table = pd.DataFrame(data=data)
    table
    return table

tabla = product_data()

Sección -> https://www.solotodo.cl/notebooks
https://www.solotodo.cl/products/53264-lenovo-ideapad-330-14ast-81d5005pcl
https://www.solotodo.cl/products/79894-lenovo-ideapad-s145-14ast-81st007ycl
https://www.solotodo.cl/products/64227-hp-240-g7-6fu25lt
https://www.solotodo.cl/products/84211-hp-240-g7-1d0f9lt
https://www.solotodo.cl/products/64618-hp-245-g7-6lm84lt
https://www.solotodo.cl/products/62280-hp-240-g7-6gj49lt
https://www.solotodo.cl/products/84526-hp-14-cm0120la-1c2d0la
https://www.solotodo.cl/products/62168-hp-14-cm0002la-3px42la
https://www.solotodo.cl/products/84159-hp-240-g7-1d0f5lt
https://www.solotodo.cl/products/46936-hp-15-da0004la-3px29la
https://www.solotodo.cl/products/69843-lenovo-v145-15ast-81mt003ycl
https://www.solotodo.cl/products/83870-asus-e402ya-ga256t
Sección -> https://www.solotodo.cl/notebooks?page=2
https://www.solotodo.cl/products/46936-hp-15-da0004la-3px29la
https://www.solotodo.cl/products/69843-lenovo-v145-15ast-81mt003ycl
https://www.solotodo.cl/p

https://www.solotodo.cl/products/84316-hp-pavilion-x360-14-dh0025la-2b114la
https://www.solotodo.cl/products/84588-hp-15-gw0008la-15w69la
https://www.solotodo.cl/products/84697-hp-15-gw0005la-15f17la
https://www.solotodo.cl/products/82391-lenovo-ideapad-s145-15iil-81ww0003us
https://www.solotodo.cl/products/39676-hp-240-g6-1nw28lt
https://www.solotodo.cl/products/69138-hp-14-dq1003la-6qw09la


## Parte 2: Manejo de Datos

A partir de los datos obtenidos en la parte 1 debes guardar los resultados en un archivo ```.csv```. Finalmente, debes **responder 2 de las 3 consultas que hay más adelante** (la que no elijan les queda como propuesto) y **guardar los _outputs_ en archivos .csv llamados** ```consultaX.csv``` (donde X es el número de la consulta):

**Tip**: para guardar los datos en un archivo ```.csv``` puede ser útil utilizar el ejemplo de _pandas_ definido más arriba. De todas formas, si esto te complica, se pueden usar listas y _write_ de ```python```.


In [129]:
tabla.to_csv('notebooks.csv')
tabla

Unnamed: 0,Nombre,Precio,Procesador,RAM,Almacenamiento,Tarjetas de video,Peso,Aplicaciones,Gaming,Movilidad
0,Lenovo IdeaPad 330-14AST [81D5005PCL],279990,AMD A4-9125 (2 núcleos / 4 hilos / 2300 MH...,4 GB DDR4 (2133 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,2200 g.,277,117,520
1,Lenovo IdeaPad S145-14AST [81ST007YCL],279990,AMD A4-9125 (2 núcleos / 4 hilos / 2300 MH...,4 GB DDR4 (2133 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,2200 g.,277,117,520
2,HP 240 G7 [6FU25LT],279990,Intel Celeron N4000 (2 núcleos / 2 hilos /...,4 GB DDR4 (2400 MHz),HDD 500GB (5400rpm),Intel UHD Graphics 600 (Integrada),1520 g.,241,109,722
3,HP 240 G7 [1D0F9LT],279990,Intel Celeron N4020 (2 núcleos / 2 hilos /...,4 GB DDR4 (2400 MHz),HDD 500GB (7200rpm),Intel UHD Graphics 600 (Integrada),1520 g.,265,115,622
4,HP 245 G7 [6LM84LT],290990,AMD A4-9125 (2 núcleos / 4 hilos / 2300 MH...,4 GB DDR4 (1866 MHz),HDD 500GB (5400rpm),AMD Radeon R3 Graphics (Mullins/Beema) (Integr...,1520 g.,277,117,622
...,...,...,...,...,...,...,...,...,...,...
115,HP 15-GW0008LA [15W69LA],499990,AMD Ryzen 3 3250U (2 núcleos / 4 hilos / 2...,8 GB DDR4 (2400 MHz),SSD 256GB,AMD Radeon RX Vega 3 (Integrada),1470 g.,526,223,549
116,HP 15-GW0005LA [15F17LA],499990,AMD Ryzen 3 3250U (2 núcleos / 4 hilos / 2...,8 GB DDR4 (2400 MHz),SSD 256GB,AMD Radeon RX Vega 3 (Integrada),1470 g.,526,223,549
117,Lenovo IdeaPad S145-15IIL [81WW0003US],499000,Intel Core i3-1005G1 (2 núcleos / 4 hilos ...,8 GB DDR4 (2666 MHz),SSD 256GB,Intel HD Graphics G1 (Integrada),1600 g.,631,261,530
118,HP 240 G6 [1NW28LT],499990,Intel Core i5-7200U (2 núcleos / 4 hilos /...,4 GB DDR4 (2133 MHz),HDD 1TB (5400rpm),Intel HD Graphics 620 (Integrada),1850 g.,483,187,572


#### Consulta 1: 

Obtener los 10 mejores computadores según el orden de cada una de las ```puntuaciones vs precio``` (gaming/precio, movilidad/precio, aplicaciones/precio):


(Se piden 3 listas de 10 computadores, una lista ordenada por cada puntuación/precio)

In [177]:
gaming = sorted(tabla.iterrows(), key= lambda x: x[1]["Gaming"]/x[1]["Precio"], reverse=True)[:10]
movilidad = sorted(tabla.iterrows(), key= lambda x: x[1]["Movilidad"]/x[1]["Precio"], reverse=True)[:10]
aplicaciones = sorted(tabla.iterrows(), key= lambda x: x[1]["Aplicaciones"]/x[1]["Precio"], reverse=True)[:10]
diccionario = {"Gaming": gaming, "Movilidad": movilidad, "Aplicaciones": aplicaciones}
for i in diccionario:
    tablita = pd.DataFrame([j[1] for j in diccionario[i]])
    tablita.to_csv(f"consulta1_{i.lower()}.csv")#(#da'"'"

#### Consulta 2: 

Para cada tarjeta gráfica integrada, calcula el valor promedio de los notebooks que la tienen incorporada.

In [None]:
#######################################################
#                                                     #
#              ESCRIBE TU CÓDIGO ACÁ                  #
#                                                     #
#######################################################

#### Consulta 3: 

Determinar la cantidad de notebooks con procesador marca ```Intel``` y la cantidad con procesadores ```AMD```. Además, obtener el valor promedio de las puntuaciones (aplicaciones, gaming, movilidad) para cada marca. 

In [157]:
intel = []
amd = []

for i, notebook in tabla.iterrows():
    procesador = notebook["Procesador"].lower()
    if "intel" in procesador:
        intel.append(notebook)
    elif "amd" in procesador:
        amd.append(notebook)

In [160]:
print(f"Hay {len(intel)} notebooks con proceasdor Intel")
print(f"Hay {len(amd)} notebooks con proceasdor AMD")

Hay 79 notebooks con proceasdor Intel
Hay 41 notebooks con proceasdor AMD


In [170]:
listas = {"Gaming": [], "Movilidad": [], "Aplicaciones": []}
for i in intel:
    for k in listas:
        listas[k].append(i[k])
gaming_intel = sum(listas["Gaming"])/len(intel)
ap_intel = sum(listas["Aplicaciones"])/len(intel)
mov_intel = sum(listas["Movilidad"])/len(intel)

In [171]:
listas = {"Gaming": [], "Movilidad": [], "Aplicaciones": []}
for i in amd:
    for k in listas:
        listas[k].append(i[k])
gaming_amd = sum(listas["Gaming"])/len(intel)
ap_amd = sum(listas["Aplicaciones"])/len(intel)
mov_amd = sum(listas["Movilidad"])/len(intel)

In [173]:
with open('consulta3.csv', 'w') as archivo:
    archivo.write(",Intel,AMD\n")
    archivo.write("Cantidad,"+str(len(intel))+","+str(len(amd))+"\n")
    archivo.write("Promedio Gaming,"+str(gaming_intel)+","+str(gaming_amd)+"\n")
    archivo.write("Promedio Aplicaciones,"+str(ap_intel)+","+str(ap_amd)+"\n")
    archivo.write("Promedio Movilidad,"+str(mov_intel)+","+str(mov_amd)+"\n")