<h1 style="text-align: center">
<strong>WEB SCRAPING - REPOSITORIO DE UNMSM</strong>
</h1>

**Nombre:** Alex Jesus Flores Taco (20210833)

**Descripción del caso:**
Se quiere obtener información estructurada de las tesis de pregrado y posgrado de Estadística 
Informática o de carreras similares desarrolladas a nivel  nacional, a través de los repositorios 
institucionales de las universidades.

**Especificaciones:**
1. El repositorio escogido es el de la Universidad Nacional Mayor de San Marcos(UNMSM). 
El respectivo url de dicho repositorio es:  http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?type=dateissued 
**Observación:** Escrapeamos el repositorio de la Facultad de Ciencias Matemáticas listado por fecha de publicación ya que en esta se encuentran la especialidad de estadistica dentro de la UNMSM

In [1]:
# Cargando librerías o módulos pertinentes
import requests
from bs4 import BeautifulSoup
import re
import itertools
import pandas as pd

In [2]:
# Creando una función que permite extraer todas las urls de las páginas que contienen
# las publicaciones encontradas en erespectivo repositorio
def all_pages(url):
    # Descargar el contenido de la página
    page = requests.get(url)
    # Crear un objeto BeautifulSoup a partir del contenido de la página
    soup = BeautifulSoup(page.content, "html.parser")
    # Encontrar el tag a que contiene el url base de las páginas que contienen las publicaciones
    pages = soup.find_all("a", {"class":"next-page-link"})
    # Extraer el url base de las páginas que contienen las publicaciones
    pages_soup = BeautifulSoup(str(pages), 'html.parser')
    a_tags = pages_soup.find_all('a') # find all anchor elements
    base_href = ["http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/" + a_tag['href'] for a_tag in a_tags][0]
    # Crear lista de límites inferiores de cada url-página
    string_pages = soup.find_all("p", {"class":"pagination-info"})
    matches = re.findall("\d+", str(string_pages[0]))
    lower_limit_max = (max([int(item) for item in matches]) // 20) * 20
    lower_limits = list(range(0, lower_limit_max + 20, 20))
    # Crear lista de urls de cada una de las páginas 
    hrefs_all = [re.sub(r"offset=\d+", "offset=" + str(pag), base_href) for pag in lower_limits]
    return hrefs_all

In [3]:
all_pages('http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?type=dateissued')

['http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=0&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=20&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=40&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=60&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=80&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=100&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=120&etal=-1&order=ASC',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?rpp=20&sort_by=2&type=dateissued&offset=140&etal=-1&order=ASC'

In [4]:
# Creando una función que permite extraer todas las urls de la tabla de datos de las
# publicaciones de una determina página
def links_scrapy(url):
    # Descargar el contenido de la página
    page = requests.get(url)
    # Crear un objeto BeautifulSoup a partir del contenido de la página
    soup = BeautifulSoup(page.content, "html.parser")
    # Encontrar el tag padre de las publicaciones que contiene su respectivo url
    publication = soup.find_all("h4", {"class":"artifact-title"})
    # Extraer los url de los tags hijos respectivos
    publication_soup = BeautifulSoup(str(publication), 'html.parser')
    a_tags = publication_soup.find_all('a') # find all anchor elements
    hrefs = ["http://cybertesis.unmsm.edu.pe" + a_tag['href'] + "?show=full" for a_tag in a_tags]
    return hrefs

In [5]:
links_scrapy('http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?type=dateissued')

['http://cybertesis.unmsm.edu.pe/handle/20.500.12672/1520?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/15729?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/608?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/2905?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/2674?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/300?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/12786?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/2280?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/2281?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/1749?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/5976?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/12780?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/12779?show=full',
 'http://cybertesis.unmsm.edu.pe/handle/20.500.12672/15809?show=full',
 'http://cybertes

In [12]:
### TENER CUIDADO CON AL EJECUCIOND E ESTE CODIGO SON 5769 TESIS Y MI LAPOTP NO AGUANTA

# Extracción de todas las urls de la tabla de datos de todas las
# publicaciones del repositorio
# NOTA: no se recomienda ejecutar esta celda, ya que toma demasiado tiempo obtener una salida
every_page = all_pages('http://cybertesis.unmsm.edu.pe/handle/20.500.12672/7/browse?type=dateissued')
publications_links = list(itertools.chain(*[links_scrapy(url) for url in every_page]))

In [13]:
len(publications_links)

533

In [None]:
publications_links

In [14]:
## CREEAMOS  LISTAS PARA LA VARIABLES QUE DESEAMOS EXTRAER.

headers = {"User-agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}


años = []
instituciones = []
titulos = []
autores = []
contribuidores = []
grados = []
resumenes = []
n = 0
for i in range(len(publications_links)):
    respuesta = requests.get(publications_links[i], headers=headers)
    tabla_tesis = pd.read_html(respuesta.content, encoding = 'utf8')
    tabla_1 = tabla_tesis[0]


    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'dc.date.issued':
            año=tabla_1.iloc[j,1]
            años.append(año)
            n = n + 1
    if n == 0:
        años.append(" ")

    else:
        n = 0



    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'dc.publisher':
            institucion=tabla_1.iloc[j,1]
            instituciones.append(institucion)
            n = n + 1
    if n == 0:
        instituciones.append(" ")

    else:
        n = 0



    for j in range(len(tabla_1)):        
        if tabla_1.iloc[j,0] == 'dc.title':
            titulo=tabla_1.iloc[j,1]
            titulos.append(titulo)
            n = n + 1
    if n == 0:
            titulos.append(" ")

    else:
        n = 0



    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'dc.contributor.author':
            autor=tabla_1.iloc[j,1]
            autores.append(autor)
            n = n + 1
            break
    if n == 0:
            autores.append(" ")

    else:
        n = 0 



    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'thesis.degree.name':
            grado=tabla_1.iloc[j,1]
            grados.append(grado)
            n = n + 1
    if n == 0:
            grados.append(" ")

    else:
        n = 0



    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'dc.contributor.advisor':
            contribuidor=tabla_1.iloc[j,1]
            contribuidores.append(contribuidor)
            n = n + 1
            break
    if n == 0:
            contribuidores.append(" ")
    else:
        n = 0



    for j in range(len(tabla_1)):
        if tabla_1.iloc[j,0] == 'dc.description.abstract':
            resumen=tabla_1.iloc[j,1]
            resumenes.append(resumen)
            n = n + 1
            break
    if n == 0:
            resumenes.append(" ")
    else:
        n = 0
        

In [15]:
#creamos un dataframe para poder guardarlos en un archivo csv

df = pd.DataFrame()

df['instituciones'] = instituciones
df['titulos'] = titulos
df['autores'] = autores
df['contribuidores'] = contribuidores
df['resumenes'] = resumenes
df['grados'] = grados
df['años'] = años

In [16]:
#GUARDAMOS LA INFROMACION EN UN ARCHIVO CSV

df.to_csv('UNMSM.csv', index=False)
df

Unnamed: 0,instituciones,titulos,autores,contribuidores,resumenes,grados,años
0,Universidad Nacional Mayor de San Marcos,La Dualidad en la programación no lineal,"Oré Luján, Luis Alberto",,En el Presente trabajo se estudia el Problema ...,Licenciado en Investigación Operativa,1991
1,Universidad Nacional Mayor de San Marcos,No existencia de soluciones globales débiles p...,"Nuñez Caycho, Rafael","Pérez Arteaga, José del Carmen",Se estudia la no existencia de soluciones glob...,Licenciado en Matemática,1997
2,Universidad Nacional Mayor de San Marcos,Estimación por mínimos cuadrados ponderados en...,"Gonzales King-Keé, Karin Cecilia",,En este trabajo se aplica el método de Mínimos...,Licenciado en Estadística,2001
3,Universidad Nacional Mayor de San Marcos,Elementos finitos especiales aplicados a probl...,"Timoteo Sánchez, Martha Hilda","Montoro Alegre, Edinson Raúl",En el capitulo I hacemos un resumen de propied...,Licenciada en Matemática,2002
4,Universidad Nacional Mayor de San Marcos,Producción y comercialización de truchas en el...,"Yapuchura Sayco, Angélica",,Se trata de la Producción y Comercialización d...,Magíster en Investigación de Operaciones y Sis...,2002
...,...,...,...,...,...,...,...
528,Universidad Nacional Mayor de San Marcos,Reducción de costos de recolección y transport...,"Astoquillca Yaranga, David Jonathan","Berger Vidal, Esther","Presenta una alternativa diseñada en NetBeans,...",Licenciado en Investigación Operativa,2022
529,Universidad Nacional Mayor de San Marcos,Sistemas dinámicos y tres formas de definir caos,"Azahuanche Falcón, Fiorela","Crisóstomo Parejas, Jorge Luis",Estudia tres formas de definir caos para un si...,Licenciada en Matemática,2022
530,Universidad Nacional Mayor de San Marcos,Efecto del tamaño de muestra en los índices de...,"Tarazona Cochachin, Moises Enrique","Huamán Gutiérrez, Zoraida Judith",Determina el efecto del tamaño de muestra en l...,Magíster en Estadística Matemática,2022
531,Universidad Nacional Mayor de San Marcos,Simulación de sistemas aplicada al diseño del ...,"Chipana Loo, Alexandra Sayuri","Berger Vidal, Esther",Desarrolla un Plan Estratégico de Marketing or...,Licenciada en Investigación Operativa,2022
