# **EXTRACCIÓN DE DATOS**
*   **Autor:** "Jairo Armijos"
*   **Fecha:** "19/12/2023"
*   **Título:** "Extracción de datos de la Web (Scrapy)"
*   **Tema:** "Clasificación de desempeño de artículos científicos para universidades del mundo"

# **1. Pre Requisitos**


In [None]:
# Instalación de las librerias o dependencias necesarias
!pip install beautifulsoup4 requests pandas

In [3]:
# Dependencias de carga
import json # Modulo para trabajar con archivos JSON
import requests # Libreria para hacer peticiones HTTP
import pandas as pd # Libreria para procesar datos, proporciona funciones para analíticas
from bs4 import BeautifulSoup as bs # Extraer información de paginas web

# **2. Funciones para procesamiento de los datos**

In [4]:
# Función que convierte una lista de elementos en un dataframe de pandas
def rowsToDataFrame(rows):
    df = pd.DataFrame(rows[1:], columns=rows[0])
    return df

In [5]:
# Función para extraer los datos de una tabla HTML
def processTableData(tbl):
    rows = []
    for child in tbl.find('tbody').children: # Itera los items internos de la tabla [<tr>]
        row = []
        for td in child: # Itera los items internos de la tabla [<td>]
            try:
                item = td.text.replace('\n', '') # Recupera el texto del elemento [<td>]
                if item:
                    row.append(item) # Agrega cada elemento de la fila
            except:
                continue
        if len(row) > 0:
            rows.append(row) # Agrega todos los campos de una fila de la tabla
    # print(rows)
    return rows

In [6]:
# Función para extraer la data de la URL y procesar el contenido HTML
def processDataHTML(data):
    soup = bs(data['sections'][1]['text'], 'html.parser') # Recupera el item del JSON y lo convierte en contenido HTML
    tbl = soup.find_all('table')[0] # Recupera la tabla del contenido HTML
    # print(tbl.prettify())
    tblRows = processTableData(tbl) # Ejecuta la función para procesar el contenido de la Tabla
    return tblRows

# **3. Extracción de Información**

In [7]:
# Leer sitio web
r = requests.get('https://www.wikiwand.com/mcs-api/en.wikipedia.org/v1/page/mobile-sections-remaining/Performance_Ranking_of_Scientific_Papers_for_World_Universities')  # Recuperamos el contenido de la web
# print(r)
table = processDataHTML(json.loads(r.content)) # Formate el contenido en formato JSON
df = rowsToDataFrame(table) # Ejecuta la funcion para recupera los datos de la tabla como dataframe de Pandas
df

Unnamed: 0,2010,2009,2008,2007,Institution,Country
0,1,1,1,1,Harvard University,United States
1,2,3,3,4,Stanford University,United States
2,3,2,2,2,Johns Hopkins University,United States
3,4,4,4,3,University of Washington,United States
4,5,5,5,5,"University of California, Los Angeles",United States
5,6,8,6,7,"University of California, Berkeley",United States
6,7,7,7,10,Massachusetts Institute of Technology,United States
7,8,6,7,6,University of Michigan,United States
8,9,11,14,12,University of Toronto,Canada
9,10,17,19,19,University of Oxford,United Kingdom


In [8]:
# Inspeccionamos el tipo de dato de cada variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   2010         50 non-null     object
 1   2009         50 non-null     object
 2   2008         50 non-null     object
 3   2007         50 non-null     object
 4   Institution  50 non-null     object
 5   Country      50 non-null     object
dtypes: object(6)
memory usage: 2.5+ KB


# **4. Almacenamiento de los datos**

In [9]:
# Guardamos las datos extraidos como archivo CSV
df.to_csv('rankingScientificPapers.csv')

# **5. Referencia**

*   [Ranking basado en campos](https://www.wikiwand.com/en/Performance_Ranking_of_Scientific_Papers_for_World_Universities)

