## Aplicando Web scraping a la página Genecards

### Presentado por:
* Cordova Quispe, Brigitte Nayely 
* Campuzano Galarza, Sofia Gabriela 
* Tejada Flores, Antonella Franchesca 

### Objetivo
Extraer información de la categoría, nombre del gen y los datos de las expresiones de "Breast"  de cada gen para posteriormente almacenarlos en un archivo excel ya predefinido por nuestra docente. 

### ¿La página tiene un API?
Tras una intensa busqueda, realizada por el grupo, pudimos validar que no existe API alguno para esta página. Por lo que, obtamos por inspeccionar de manera manual el html de la página y luego con ayuda de los paquetes de Selenium y BeautifulSoup pudimos extraer la data solicitada en el archivo CHGenesOrdenadosConVecinos.xlsx.

#### Nota:
<span style="color:blue;"> 
Se recomienda guardar los archivos en una misma carpeta, en especial el ejecutable de chrome con selenium o el navegador que haya usado para instalar Selenium.</span>

In [None]:
#Se importan los módulos

from selenium import webdriver
import requests #permite enviar solicitudes HTTP con mucha facilidad
import pandas as pd
import openpyxl
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import re 

In [None]:
archivo_vacio = pd.read_excel("CHGenesOrdenadosConVecinos.xlsx",header=1) #Se lee el archivo excel 
genes=list(archivo_vacio["Gen Abrev"]) #Del archivo excel se leerá la columna "Gen Abrev"

In [None]:
#Se crea una variable en la cual se guarda el driver y se coloca el webdriver ya importado.
#Dentro de los paréntesis se coloca la ubicación donde se encuentra el ejecutable
driver = webdriver.Chrome("./chromedriver.exe") 

In [None]:
n=3 #Se coloca igual a 3 para que empiece desde la fila 3 a llenar los datos

for i in genes: #Se crea un bucle en donde la variable "i" recorre cada gen que está almacenado en la variable genes
    print(n-2,":",i) #Se imprime para verificar que se recorra cada gen de la columna "Gen Abrev"

    #El método get nos permite ir a la página a scrapear
    driver.get(f"https://www.genecards.org/cgi-bin/carddisp.pl?gene={i}&keywords={i}") 
    
    #Devuelve una lista de elementos de la página web
    #Se antepone el "//" para que haga la búsqueda. 
    #El resultado devuelve todos los elementos con el tag "span". Cuyo atributo class sea igual a "aliasMainName"
    genname = driver.find_elements_by_xpath('//span[@ class="aliasMainName"]') 
    
    #El resultado devuelve todos los elementos con el tag "span". Cuyo atributo class sea igual a "gc-category"
    gen_category = driver.find_elements_by_xpath('//span[@class= "gc-category"]')
    
    
    name_list = [] #Se crea una lista vacía para que se almacenen los datos de "genname"
    for g in range (len(genname)): #La variable "g" se itera en el intervalo de la longitud #genname"
        name_list.append( genname[g].text) #Modifica la lista original agregando el elemento al final de la lista 
        print(name_list) #Se imprime 
    
    
    category_list = [] #Se crea una lista vacía para que se almacenen los datos de "gen_category"
    for c in range(len(gen_category)): #La variable "c" se itera en el intervalo de la longitud #gen_category"
        category_list.append(gen_category[c].text) #Modifica la lista original agregando el elemento al final de la lista 
        print(category_list) #Se imprime 

   
    excel=openpyxl.load_workbook("CHGenesOrdenadosConVecinos.xlsx") #Se abre el libro de trabajo del archivo excel
    sheet=excel['C1'] #De la hoja C1
    
    #Se usa el try y except para que no haya problemas al encontrar datos vacíos
    try: #Permite probar un bloque de código en busca de errores
        sheet.cell(row=n,column=2).value = str(category_list[0]) #Se accede al valor de la celda de la fila n y columna 2
        sheet.cell(row=n,column=3).value = str( name_list[1]) #Se accede al valor de la celda de la fila n y columna 3
        #Se convierte a string, porque no se lee como lista
    
    
    except: #Permite manejar el error
        sheet.cell(row=n,column=2).value = " " #Se accede al valor de la celda de la fila n y columna 2
        sheet.cell(row=n,column=3).value = " " #Se accede al valor de la celda de la fila n y columna 3
        
    excel.save("CHGenesOrdenadosConVecinos.xlsx") #Se guarda en el archivo excel 
    n=n+1 #Se llenan los datos hasta n+1
    
    

In [None]:
lista_html =[] #Se crea una lista vacía para que se almacenen los datos 
for i in genes: #Se crea un bucle en donde la variable "i" se itera en genes
    print(i) #Se imprime la datos que se van obteniendo de la variable "i"
    driver.get(f"https://www.genecards.org/cgi-bin/carddisp.pl?gene={i}#expression") #Permite ir a la página a scrapear
    
    #Se crea la conexión entre Beautiful soup y Selenium 
    soup = BeautifulSoup(driver.page_source, features='html.parser') #Pasa el parámetro "html.parser" al constructor Beautiful soup
    lista_html.append(soup) #Se almacena "soup" en "lista_html" y los datos extraídos se van agregando al final de la lista

driver.quit() #cierra todas las ventanas del navegador y finaliza la sesión del WebDriver

In [None]:
n=3 #Llenará los datos desde la fila 3
lista = [] # Almacena una fila de valores donde se va a adicionar otra matriz
for i in lista_html: #Se crea un bucle en donde la variable "i" recorre cada gen que está almacenado en la variable lista_html
    lista2 = [] #Almacena toda la información
    
    #Extrae la información de acuerdo a cada gen que está almacenado en  lista_html y busca la información que tiene la etiqueta "area" y "title"
    #y por expresiones regulares se extrae la información especifica de Breast.
    lista3=i.find_all("area", {"title":re.compile('.*Breast.*')}) 
    
    if len(lista3) != 0: #Si la longitud de la lista3 es diferente del vacio se realizará lo siguiente
        
        #Se agregará a la lista2 los datos recolectados por la lista3 con las siguientes sentencias 
        #El método split() divide una cadena en una lista y en este caso lo separa por ",".
        lista2.append(lista3[0]["title"].split(",")[0]+', '+lista3[3]["title"].split(",")[0]) #Usamos expresiones regulares para la búsqueda
        lista2.append(lista3[1]["title"].split(",")[0]) # 2da columna
        lista2.append(lista3[2]["title"].split(",")[0]) # 3ra columna
    
    lista.append(lista2) #La información almacenada por "lista2" se almacena en la lista general, "lista".
    print(lista2) #Se imprime lista2
    
    excel=openpyxl.load_workbook("CHGenesOrdenadosConVecinos.xlsx") #Se abre el libro de trabajo del archivo excel
    sheet=excel['C1'] #De la hoja C1
    
    #Se usa el try y except para que no haya problemas al encontrar datos vacíos
    try: #Permite probar un bloque de código en busca de errores
        sheet.cell(row=n,column=6).value = str(lista2[0:1]) #Se accede al valor de la celda de la fila n y columna 6
        sheet.cell(row=n,column=7).value = str(lista2[-2]) #Se accede al valor de la celda de la fila n y columna 7
        sheet.cell(row=n,column=8).value = str(lista2[-1]) #Se accede al valor de la celda de la fila n y columna 8
    
    except: #Permite manejar el error
        sheet.cell(row=n,column=6).value = " "  #Se accede al valor de la celda de la fila n y columna 6
        sheet.cell(row=n,column=7).value = " "  #Se accede al valor de la celda de la fila n y columna 7
        sheet.cell(row=n,column=8).value = " "  #Se accede al valor de la celda de la fila n y columna 8
        
    excel.save("CHGenesOrdenadosConVecinos.xlsx") #Se guarda en el archivo excel 
    n=n+1 #Se llenan los datos hasta n+1
