### Web Scrapping con Beautiful Soup (lvl. 2)

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
# Pasos iniciales
sitio = "http://programminghistorian.org/es/lecciones/"
respuesta = requests.get(sitio)
contenido = respuesta.text

In [3]:
soup = BeautifulSoup(contenido, "html.parser")

In [4]:
print(contenido)



<!DOCTYPE html>
<html lang="es">

  <head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">

  

  

  <link rel="shortcut icon" href="/images/favicons/es_favicon.ico" type="image/x-icon">

  <!-- Mobile viewport optimized: h5bp.com/viewport -->
  <meta name="viewport" content="width=device-width">

  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.0.12/css/all.css" integrity="sha384-G0fIWCsCzJIMAVNQPfjH08cyYaUtMwjJwqiRKxxE/rx96Uroj1BtIQ6MLJuheaO9" crossorigin="anonymous">

  <link href='/feed.xml' rel='alternate' type='application/atom+xml'>

  <title>Índice de lecciones | Programming Historian</title>

  <link href="https://fonts.googleapis.com/css?family=Crete+Round|Open+Sans|Quattrocento|Roboto|Roboto+Condensed" rel="stylesheet">

  <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0-alpha.6/css/bootstrap.min.css" integrity="sha384-rwoIResjU2yc3z8GV/NPeZWAv56rSmLldC3R/AZzGRnGxQQKnKkoFVhFQhNUwEy

In [5]:
# Extraer los datos que nos interesan

# probar qué pasa si trato de extraer las etiquetas que identificamos

elementos_h2 = soup.find_all("h2", class_ = "title")
len(elementos_h2)
elementos_h2[0].get_text()
elementos_h2[58].get_text()

'Para entender páginas web y HTML'

In [6]:
todos_los_enlaces = soup.find_all("a")
len(todos_los_enlaces)

for enlace in todos_los_enlaces:
    print(enlace.get("href"))

https://www.patreon.com/theprogramminghistorian
/es
None
/es/acerca-de
/es/equipo-de-proyecto
/es/investigacion
/es/vacantes
/es/politica-de-privacidad
None
/es/contribuciones
/es/retroalimentacion
/es/guia-para-revisores
/es/guia-para-autores
/es/guia-para-traductores
/es/guia-editor
https://github.com/programminghistorian/jekyll/wiki/Making-Technical-Contributions
/es/lecciones
/es/eventos
None
/es/pia
/es/donaciones
/es/colaboradores
/blog
/en/lessons/
None
/fr/lecons/
/pt/licoes/
/es/retroalimentacion
https://lunrjs.com/guides/searching.html
/es/lecciones/administracion-de-datos-en-r
/es/lecciones/administracion-de-datos-en-r
/es/lecciones/analisis-de-corpus-con-antconc
/es/lecciones/analisis-de-corpus-con-antconc
/es/lecciones/analisis-de-correspondencia-en-r
/es/lecciones/analisis-de-correspondencia-en-r
/es/lecciones/analisis-de-sentimientos-r
/es/lecciones/analisis-de-sentimientos-r
/es/lecciones/analisis-temporal-red
/es/lecciones/analisis-temporal-red
/es/lecciones/analisis-v

In [7]:
# Lo anterior nos devolvía más información de la que queríamos. Por lo tanto vamos a hacer un "recorte": vamos a extraer los datos de el div con la clase "lesson-description" y ahí dentro buscar lo que nos interesa

lista_lecciones = soup.find_all("div", class_ = "lesson-description")
len(lista_lecciones)

60

In [8]:
lista_lecciones[41]

<div class="lesson-description clearfix">
<div class="lesson-image">
<a href="/es/lecciones/manipular-cadenas-de-caracteres-en-python"><img alt="Grabado de un joven tocando una guitarra" class="rounded" src="/gallery/manipulating-strings-in-python.png"/><span class="visually-hidden">Manipular cadenas de caracteres en Python</span></a>
</div>
<h3 class="above-title"> 



William J. Turkel y Adam Crymble </h3>
<a href="/es/lecciones/manipular-cadenas-de-caracteres-en-python"><h2 class="title">Manipular cadenas de caracteres en Python</h2></a>
<p class="abstract">
    Esta lección es una rápida introducción a técnicas de manipulación de cadenas de caracteres (o strings) en Python.

  </p>
<span class="activity">transforming</span>
<span class="topics">python</span>
<span class="date">2017-03-15</span>
<span class="difficulty">2</span>
<span class="score" id="/es/lecciones/manipular-cadenas-de-caracteres-en-python-score" style="display: none;">0</span>
<p class="search_results" id="/es/lec

In [9]:
# titulo
lista_lecciones[41].h2.get_text()

'Manipular cadenas de caracteres en Python'

In [10]:
# autores
lista_lecciones[41].h3.get_text(strip = True)

'William J. Turkel y Adam Crymble'

In [11]:
# enlace
lista_lecciones[41].a.get("href")

'/es/lecciones/manipular-cadenas-de-caracteres-en-python'

In [12]:
# descripcion
lista_lecciones[41].p.get_text(strip = True)

'Esta lección es una rápida introducción a técnicas de manipulación de cadenas de caracteres (o strings) en Python.'

In [13]:
# date
lista_lecciones[41].find("span", class_ = "date").get_text()

'2017-03-15'

In [14]:
# topics

lista_lecciones[41].find("span", class_ = "topics").get_text()
lista_lecciones[2].find("span", class_ = "topics").get_text().split()

['data-manipulation', 'network-analysis', 'r']

In [15]:
# Ahora que ya exploramos la página, hagamos la extracción:

titulos = []
topicos = []
enlaces = []

for leccion in lista_lecciones:
    # extremos el título y lo guardamos en la lista títulos
    titulo = leccion.h2.get_text(strip = True)
    titulos.append(titulo)

    # extraemos los tópicos y los guardamos en la lista tópicos
    topico = leccion.find("span", class_ = "topics").get_text().split()
    topicos.append(topico)

    # extrer y guardar los enlaces
    enlace = leccion.a.get("href")
    enlaces.append(f"http://programminghistorian.org{enlace}")

In [16]:
# creamos un diccionario

tutoriales_ph = {"titulo": titulos, "topicos": topicos, "enlace": enlaces}

df_tutoriales_ph = pd.DataFrame(tutoriales_ph)

In [17]:
df_tutoriales_ph.head()

Unnamed: 0,titulo,topicos,enlace
0,Administración de datos en R,"[data-manipulation, data-management, distant-r...",http://programminghistorian.org/es/lecciones/a...
1,Análisis de corpus con AntConc,[distant-reading],http://programminghistorian.org/es/lecciones/a...
2,Análisis de correspondencia para la investigac...,"[data-manipulation, network-analysis, r]",http://programminghistorian.org/es/lecciones/a...
3,Análisis de sentimientos en R con 'syuzhet',"[distant-reading, r]",http://programminghistorian.org/es/lecciones/a...
4,Análisis de redes temporal en R,"[network-analysis, r]",http://programminghistorian.org/es/lecciones/a...


In [18]:
df_tutoriales_ph.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   titulo   60 non-null     object
 1   topicos  60 non-null     object
 2   enlace   60 non-null     object
dtypes: object(3)
memory usage: 1.5+ KB


In [20]:
df_tutoriales_ph.to_csv("data/tutoriales_ph.csv", index = False)