# Data hunting and gathering (part 2)

<img style = "border-radius:20px;" src = "http://unadocenade.com/wp-content/uploads/2012/09/cavalls-de-valltorta.jpg">

# Sesión 2: Creando Nuestra Propia API Web - Scraping

En esta sesión, nos adentramos en el mundo del web scraping, enfocándonos en técnicas y herramientas avanzadas para extraer datos de páginas web dinámicas.

## Objetivos de Aprendizaje
- **Entender HTML y CSS**: Comprender los fundamentos de la estructura HTML y el estilo CSS para navegar efectivamente por las páginas web.
- **Selectores XPath**: Aprender a usar selectores XPath para localizar y extraer contenido específico de las páginas web.
- **Scraping de Contenido Dinámico con Selenium**: Entender cómo raspar contenido generado dinámicamente, el cual las herramientas de scraping estándar no siempre pueden manejar.

## Bibliotecas Adicionales de Python
Necesitarás instalar estas bibliotecas de Python para las tareas de scraping:

- **lxml**: Una poderosa biblioteca para procesar XML y HTML en Python.
  - Instalar vía pip: `pip install lxml`
- **selenium**: Una herramienta automatizada de navegador web para probar aplicaciones web, también útil para tareas complejas de scraping.
  - Instalar vía pip: `pip install selenium`

### Nota
Asegúrate de que todo el software y las bibliotecas estén instalados antes de la sesión. Esto te permitirá participar activamente en los ejercicios y seguir los ejemplos de scraping.

## 1. "Creando Tu Propia API": Web Scraping

### Entendiendo el Web Scraping
El web scraping se vuelve esencial cuando los datos están disponibles en la web pero no son accesibles a través de una API, o la API existente carece de ciertas funcionalidades o tiene términos de servicio restrictivos. En tales escenarios, el **Web Scraping** es la técnica que permite la extracción automatizada de estos datos, replicando el acceso que tendría visualmente un humano.

### ¿Por Qué Web Scraping?
- **Accesibilidad de Datos**: A veces, la única forma de acceder a ciertos datos es directamente desde las páginas web donde se muestran.
- **Flexibilidad**: El web scraping permite personalizar la extracción de datos para necesidades específicas, eludiendo las limitaciones de las APIs existentes.

### Preparándose para el Web Scraping: Entendiendo la Estructura de las Páginas Web
Antes de adentrarse en el scraping, es crucial tener un conocimiento básico de la estructura de las páginas web y cómo se almacenan y presentan los datos. Esta sesión cubre:

#### Páginas Estáticas Básicas de HTML y CSS
- **HTML (Lenguaje de Marcado de Hipertexto)**: El lenguaje de marcado estándar utilizado para crear páginas web. Entender HTML es clave para identificar los datos que quieres raspar.
- **CSS (Hojas de Estilo en Cascada)**: Se utiliza para describir la presentación de un documento escrito en HTML. Conocer CSS ayuda a localizar elementos específicos en una página.

#### HTML Dinámico
- **Ejemplo Básico de JavaScript Usando JQuery**: Los sitios web a menudo usan JavaScript para cargar datos dinámicamente. Entender cómo funciona esto es crucial para raspar datos de dichas páginas dinámicas.

### 1.1 Fundamentos de HTML + CSS 101

#### Entendiendo los Fundamentos de las Páginas Web

Las páginas web más fundamentales están construidas usando HTML y CSS. Estas tecnologías cumplen dos propósitos primarios: **HTML (Lenguaje de Marcado de Hipertexto)** estructura y almacena el contenido, siendo el objetivo principal para el web scraping, mientras que **CSS (Hojas de Estilo en Cascada)** formatea y estiliza el contenido, destacando elementos visuales como fuentes, colores, bordes y diseño.

#### HTML: La Estructura de la Web
HTML es un lenguaje de marcado típicamente renderizado por navegadores web. Usa 'etiquetas' para definir elementos en una página web. Un formato de etiqueta típico incluye un nombre de etiqueta, atributos (si los hay) y el contenido entre etiquetas de apertura y cierre.

#### Componentes Clave de un Archivo HTML

- **Declaración DOCTYPE**: 
  - Comienza con `<!DOCTYPE html>`, indicando el uso de HTML5.
  - Versiones anteriores de HTML tenían diferentes DOCTYPEs.

- **Etiqueta HTML**: 
  - La etiqueta `html` (y su etiqueta de cierre `/html`) encierra todo el contenido de la página web.

- **Cabeza y Cuerpo**: 
  - La sección `head` a menudo incluye la etiqueta `title`, definiendo el nombre de la página web, enlaces a hojas de estilo CSS y archivos JavaScript para comportamiento dinámico.
  - El `body` contiene el contenido visible de la página web.

- **Elementos Comunes de HTML**:
  - **Encabezados y Párrafos**: Usa `h#` (donde # es un número) para encabezados y `p` para párrafos.
  - **Hipervínculos**: Definidos con el atributo `href` en etiquetas `a` (ancla).
  - **Imágenes**: Incrustadas usando etiquetas `img` con el atributo `src`. Nota: `img` se cierra por sí misma.

#### Ejercicio: Construir una Página Web Básica en HTML

Pongamos en práctica tu conocimiento de HTML:

- Crea un archivo llamado 'ejemplo.html' en tu editor de texto favorito.
- Construye una página web básica en HTML que contenga elementos como etiquetas `title`, `h1`, `p`, `img` y `a`. Recuerda que casi todas las etiquetas necesitan cerrarse con una `/tag`.

Este ejercicio tiene como objetivo familiarizarte con la estructura básica de HTML y cómo varios elementos se unen para formar una página web.

Si eres perezoso, ve a la carpeta de archivos y haz doble clic en "ejemplo.html". Puedes verificar el código html ejecutando la siguiente línea.

In [3]:
%%html

<!-- Start of the HTML head section -->
<head>
    <!-- Title of the webpage -->
    <title>
        Basic knowledge for web scraping.
    </title>	
</head>
<!-- Start of the HTML body section -->
<body>
    <!-- Header 1 indicating the subject of the content -->
    <h1>About HTML
    </h1>
    <!-- Paragraph explaining what HTML is and providing a link for further information -->
    <p>Html (Hypertext markdown language) is the basic language to provide contents in the web. It is a tagged language. You can check more about it in <a href="http://www.w3.org/community/webed/wiki/HTML">World Wide Web Consortium.</a></p>
    
    <!-- Paragraph indicating that one of the following images is clickable -->
    <p> One of the following rubberduckies is clickable
    </p>
    <!-- Image of a rubber ducky; this one is not clickable -->
    <p>
        <img src = "files/rubberduck.jpg"/>
    
        <!-- Clickable image (hyperlinked) of a rubber ducky -->
        <a href="http://www.pinterest.com/misscannabliss/rubber-duck-mania/"><img src = "files/rubberduck.jpg"/></a>
    </p>
</body>

### Entendiendo Páginas Estáticas HTML Antiguas vs. Actuales

#### Páginas Estáticas HTML al Estilo Antiguo
Las páginas HTML antiguas a menudo dependían de tablas y listas para estructurar el contenido.

- **Listas**:
  - **Listas Ordenadas (`ol`)**: Se utilizan para crear listas donde el orden importa, con cada elemento representado por `li` (list item).
  - **Listas Desordenadas (`ul`)**: Se utilizan para listas donde el orden no es importante, nuevamente usando `li` para cada elemento.

- **Tablas**:
  - La etiqueta `table` se utiliza para crear una tabla.
  - Cada fila de la tabla se marca con una etiqueta `tr`.
  - Las columnas de la tabla se definen por elementos `td` (table data) dentro de cada fila.
  - Las tablas pueden incluir un encabezado (`thead`) y un cuerpo (`tbody`).
  - Los elementos `th` se utilizan de manera similar a `td` pero para encabezados.
  - Para extender una celda a través de múltiples columnas, se utiliza `colspan` con el número de celdas a cubrir.

#### Páginas Estáticas HTML Actuales
Las páginas HTML modernas se centran más en el uso de contenedores y CSS para el diseño y estilo.

- **Divisiones (`div`)**: 
  - La etiqueta `div` señala una división y se utiliza para definir un bloque de contenido. Es un contenedor versátil utilizado en el diseño web moderno.

- **Span (`span`)**: 
  - La etiqueta `span` se utiliza para resaltar o estilizar una parte específica de un bloque de contenido. Es un contenedor en línea y se utiliza a menudo para modificaciones a pequeña escala de texto u otros elementos.

Tanto los estilos antiguos como los actuales de HTML tienen sus usos, pero las prácticas modernas favorecen el uso de `div` y `span` junto con CSS para un diseño más flexible y adaptable.

### Entendiendo CSS para el Web Scraping

CSS, que significa Hojas de Estilo en Cascada, es un lenguaje de hojas de estilo utilizado para describir la presentación y formato de documentos HTML. En el web scraping, entender CSS es crucial para navegar y extraer datos de las páginas web eficazmente.

#### ¿Qué es CSS?
- **CSS** es un lenguaje diseñado para estilizar el contenido de archivos HTML. Mediante CSS, los desarrolladores web definen cómo deben aparecer varios elementos HTML en una página web.
- El término **"cascada"** se refiere a la prioridad que se da a ciertas reglas de estilo sobre otras más genéricas. Esta jerarquía es un aspecto fundamental de CSS.

#### El Papel de CSS en el Web Scraping
- **Separación de Preocupaciones**: CSS permite una clara separación entre la estructura de HTML (contenido) y el estilo de la página web (apariencia). Esta separación hace que las páginas web sean más fáciles de diseñar y mantener, y también más fáciles de raspar.
- **Selectores y Propiedades**:
  - **Selectores** son patrones utilizados para seleccionar el(los) elemento(s) que se desea estilizar, o en el caso del scraping, los elementos que se desean extraer.
  - **Propiedades** son los aspectos de los elementos que se desea estilizar, como color, fuente, ancho, altura y más.
- **Orden de Cascada**:
  - Los estilos se aplican en orden de especificidad, con selectores más específicos anulando los más generales. Los estilos en línea (directamente dentro de un elemento HTML) tienen la mayor especificidad.

#### Ejemplo en Web Scraping
Considera una página web con el siguiente HTML y CSS:

```html
<!-- HTML Example -->
<div class="product-description">
    <p>Awesome product</p>
</div>
```

Now, css example:

```css
/* CSS Example */
.product-description p {
    color: blue;
}
```

En este ejemplo, el CSS se dirige a un elemento `p` dentro de un `div` de la clase `product-description` y cambia el color de su texto a azul. Entender cómo se aplica esta regla de CSS ayuda en el scraping de datos de manera precisa.

### Conclusión
Para el web scraping, CSS no se trata solo de entender la estética de la página web; se trata de comprender de manera integral la estructura de la página web. Este entendimiento es crucial para una extracción de datos efectiva.

### Ejemplo en Python: Web Scraping Usando Selectores CSS

Este ejemplo demuestra cómo raspar una página web (el blog oficial de Python) y extraer contenido específico utilizando selectores CSS en Python. Utilizamos las bibliotecas `requests` y `BeautifulSoup` para lograr esto.

#### Explicación del Script

1. **Import Libraries**:
   - `requests` for sending HTTP requests.
   - `BeautifulSoup` from `bs4` for parsing HTML content.

   ```python
   import requests
   from bs4 import BeautifulSoup


In [None]:
pip install requests beautifulsoup4

In [None]:
import requests
from bs4 import BeautifulSoup

# URL of the website we want to scrape
# In this case, we are targeting the Python.org blog page
url = "https://www.python.org/blogs/"

# Send a GET request to the specified URL
# This request fetches the HTML content of the webpage
response = requests.get(url)

# Parse the HTML content of the page
# 'BeautifulSoup' is a Python library for parsing HTML documents
# It creates a parse tree from page source code that can be used to extract data easily
soup = BeautifulSoup(response.text, 'html.parser')

In [None]:
# what is soup if you print it:
soup

In [None]:
# Use a CSS selector to extract specific elements
# Here, we select all 'h2' elements (commonly used for titles/headings in HTML)
# 'select' is a method that finds all instances of a tag with the specified CSS path
titles = soup.select('h2')

# Iterate through the extracted titles and print them
# 'get_text()' extracts the text part of the HTML element, and 'strip()' removes leading/trailing whitespaces
for title in titles:
    print(title.get_text().strip())

# This script prints out all the text content of 'h2' tags found on the Python blog page
# It provides an example of how to extract and print specific parts of a webpage

### Ejercicio de Web Scraping: Extracción de Titulares de Noticias de Tecnología de la BBC

#### Objetivo
Escribir un script en Python para raspar titulares de la sección de noticias de tecnología de la BBC y categorizarlos basándose en palabras clave.

#### Detalles de la Tarea

1. **Sitio Web para Raspar**:
   - Dirigirse a la sección 'Tecnología' de la BBC: [Noticias de Tecnología de la BBC](https://www.bbc.co.uk/news/technology).

2. **Requisito de Scraping**:
   - Raspar los titulares principales de la página, que se encuentran típicamente en etiquetas `h3` o en una clase específica.

3. **Categorización**:
   - Categorizar los titulares basándose en palabras clave predefinidas como 'Apple', 'Microsoft', 'Google', etc.
   - Contar el número de titulares que caen en cada categoría.

4. **Salida**:
   - Imprimir cada titular junto con su respectiva categoría.
   - Resumir con el recuento de titulares en cada categoría.

In [9]:
import requests
from bs4 import BeautifulSoup

# URL of the BBC technology news section
url = "https://www.bbc.co.uk/news/technology"

# Send a GET request and parse the HTML content
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Define categories and associated keywords
categories = {
    'Apple': ['Apple', 'iPhone', 'iPad'],
    'Microsoft': ['Microsoft', 'Windows', 'Bill Gates'],
    'Google': ['Google', 'Android', 'Alphabet']
    # Add more categories as needed
}

# Function to determine the category of a headline
def categorize_headline(headline):
    # Logic to determine the category based on keywords
    # Return the category name if a keyword is found, else return 'Other'
    pass

# Scrape and process the headlines
# Look for 'h3' tags or other relevant tags
# Use the categorize_headline function to categorize each headline
# Print each headline and its category

# Print the count of headlines in each category

## 1.3 Seleccionando Elementos con XPath

XPath, o XML Path Language, es una herramienta versátil y robusta para navegar y seleccionar elementos dentro de documentos HTML. Aunque las bibliotecas Beautiful Soup y requests son comúnmente usadas para el web scraping, XPath ofrece un enfoque único y poderoso para extraer datos de páginas web.

### ¿Qué es XPath?

XPath fue diseñado originalmente para navegar documentos XML, pero es igualmente aplicable a HTML, que comparte una similitud estructural con XML. XPath te permite especificar la ubicación precisa de elementos o datos dentro de un documento HTML usando una sintaxis concisa y expresiva.

### Diferenciadores Clave:

Aquí hay algunos diferenciadores clave que distinguen a XPath de otros enfoques de web scraping:

1. **Selección Granular**: XPath proporciona un control granular sobre la selección de elementos. A diferencia de Beautiful Soup, que a menudo requiere múltiples iteraciones y filtrado, XPath te permite apuntar directamente a elementos basados en sus atributos, etiquetas o posiciones dentro del documento.

2. **Navegación Jerárquica**: XPath sobresale en navegar la estructura jerárquica de documentos HTML. Te permite atravesar el árbol del documento, moviéndote hacia arriba, abajo o a través de ramas con facilidad.

3. **Consultas Precisas**: Con XPath, puedes crear consultas precisas para extraer datos específicos. Por ejemplo, puedes apuntar a elementos con atributos específicos, como seleccionar todos los elementos `<a>` con una clase particular o localizar elementos dentro de elementos padres específicos.

4. **Extracción de Texto**: La función `text()` de XPath simplifica la extracción del contenido de texto de los elementos. Esto es particularmente útil para raspar datos de texto, como titulares, párrafos o descripciones de productos.

### Cómo Usar XPath:

Para utilizar XPath para el web scraping, típicamente sigues estos pasos:

1. **Enviar una Solicitud HTTP**: Usa una biblioteca como requests para enviar una solicitud GET HTTP a la página web que deseas raspar. Esto recupera el contenido HTML de la página.

2. **Parsear el HTML**: Una vez que tienes el contenido HTML, pásalo por una biblioteca como lxml o lxml.html. Este paso construye una representación estructurada de la página web que puedes navegar con XPath.

3. **Construir Expresiones XPath**: Formula expresiones XPath que apunten a los elementos o datos específicos que deseas extraer. Las expresiones XPath pueden variar en complejidad, permitiéndote adaptarte a diferentes estructuras de páginas web.

4. **Aplicar Expresiones XPath**: Aplica tus expresiones XPath al documento HTML parseado para seleccionar los elementos o datos deseados. Este proceso filtra efectivamente el contenido HTML para capturar solo lo que necesitas.

5. **Recuperar y Procesar Datos**: Recupera los elementos o datos seleccionados usando las consultas XPath y procésalos según sea necesario para tu tarea de scraping.

En resumen, XPath es una herramienta poderosa para el web scraping que ofrece una selección precisa y eficiente de elementos dentro de documentos HTML. Mientras que bibliotecas como Beautiful Soup y requests son valiosas, XPath proporciona una capa adicional de control y flexibilidad, haciéndolo una elección valiosa para proyectos de scraping avanzados.

### Entendiendo la Sintaxis de XPath

- **Ruta Absoluta (`/`)**: 
  - Usar una barra inclinada indica una ruta absoluta desde el elemento raíz.
  - Ejemplo: `xpath('/html/body/p')` selecciona todos los elementos de párrafo (`<p>`) directamente bajo el `<body>` dentro del elemento raíz `<html>`.

- **Ruta Relativa (`//`)**:
  - Las dobles barras inclinadas indican una ruta relativa, lo que significa que la selección puede comenzar en cualquier lugar de la jerarquía del documento.
  - Ejemplo: `xpath('//a/div')` encuentra todos los elementos `<div>` que son descendientes de etiquetas `<a>`, independientemente de su ubicación específica en el documento.

- **Comodines (`*`)**:
  - El asterisco actúa como un comodín, representando cualquier elemento.
  - Ejemplo: `xpath('//a/div/*')` selecciona todos los elementos que son hijos de etiquetas `<div>` bajo etiquetas `<a>`, en cualquier lugar del documento.
  - Otro ejemplo: `xpath('/*/*/div')` encuentra elementos `<div>` que están en el segundo nivel de la jerarquía desde la raíz.

- **Seleccionando Elementos Específicos (Usando Corchetes)**:
  - Si una selección devuelve múltiples elementos, puedes especificar cuál seleccionar usando corchetes.
  - Ejemplo: `xpath('//a/div[1]')` selecciona el primer `<div>` en el conjunto; `xpath('//a/div[last()]')` selecciona el último `<div>`.

### Trabajando con Atributos

- **Seleccionando Atributos (`@`)**:
  - El símbolo `@` se utiliza para trabajar con atributos de elementos.
  - Ejemplo: `xpath('//@name')` selecciona todos los atributos llamados 'name' en el documento.
  - Para seleccionar elementos `<div>` con un atributo 'name': `xpath('//div[@name]')`.
  - Para seleccionar elementos `<div>` sin ningún atributo: `xpath('//div[not(@*)]')`.
  - Para encontrar elementos `<div>` con un valor de atributo 'name' específico: `xpath('//div[@name="chachiname"]')`.

### Utilizando Funciones Incorporadas

- XPath viene con varias funciones incorporadas para ayudar en la selección de elementos.
  - `contains()`: Selecciona elementos que contienen una subcadena específica. Ejemplo: `xpath('//*[contains(name(),'iv')]')`.
  - `count()`: Se utiliza para selección condicional basada en el conteo de hijos. Ejemplo: `xpath('//*[count(div)=2]')`.

### Combinando Rutas y Seleccionando Parientes

- **Combinando Rutas (`|`)**:
  - Usa el símbolo de tubería para combinar rutas, funcionando como un operador OR.
  - Ejemplo: `xpath('/div/p|/div/a')` selecciona elementos que coinciden con `div/p` o `div/a`.

- **Seleccionando Parientes**:
  - Puedes referirte a varios aspectos relacionales como padre, ancestros, hijos o descendientes.
  - Ejemplo: `xpath('//div/div/parent::*')` selecciona los elementos padres de las rutas `div/div`.

Entender XPath es esencial para el web scraping efectivo, ya que permite un direccionamiento y extracción precisos de datos basados en la estructura de una página web.

In [None]:
from lxml import html
import requests

# URL of the website we want to scrape
# For this example, we'll use a news website like the BBC technology page
url = "https://www.bbc.co.uk/news/technology"

# Send a GET request to the URL to fetch the webpage's HTML content
response = requests.get(url)

# Parse the HTML content of the webpage
# The html.fromstring method constructs an lxml HTML document from the response text
tree = html.fromstring(response.content)

# Use XPath to select specific elements
# In this case, we'll attempt to extract text content from the page
# The XPath expression here captures all text content within the HTML structure
# Note: The actual XPath may vary depending on the webpage's HTML structure
headlines = tree.xpath('//text()')


# Print each extracted headline
# The text() function in XPath extracts the text content of the selected elements
for headline in headlines:
    print(headline.strip())

# This script prints all the text content of <h3> tags found on the BBC Technology page
# It demonstrates how to use XPath for extracting specific information from a webpage

## 2.0. Comenzando con Selenium

Selenium es una herramienta poderosa utilizada principalmente para automatizar navegadores web. Se utiliza ampliamente en áreas como el web scraping, pruebas automatizadas y automatización de tareas administrativas basadas en web.

### Introducción a Selenium Sin Geckodriver

Tradicionalmente, Selenium funciona en conjunto con un controlador específico para cada navegador, como geckodriver para Firefox o chromedriver para Chrome. Sin embargo, desarrollos recientes han permitido que ciertos navegadores sean controlados directamente por Selenium sin la necesidad de un controlador adicional:

- **Chrome**: Versiones recientes de Google Chrome pueden ser controladas directamente por Selenium a través del Protocolo Chrome DevTools. Esto simplifica el proceso de configuración ya que no necesitas descargar y configurar chromedriver por separado.

- **Microsoft Edge**: Similar a Chrome, el navegador Edge (versión Chromium) también puede ser automatizado directamente usando Selenium con sus capacidades de controlador integradas.

Este enfoque de usar Selenium sin un controlador adicional agiliza las tareas de automatización del navegador, haciéndolo más accesible y fácil de configurar, especialmente para principiantes y aquellos que buscan configurar rápidamente interacciones automatizadas del navegador.

## 2.1 Conceptos Básicos de Selenium WebDriver

### Entendiendo WebDriver

WebDriver es un componente clave del conjunto de herramientas Selenium. Actúa como una interfaz para interactuar con el navegador web, permitiéndote controlarlo programáticamente. WebDriver puede realizar operaciones como abrir páginas web, hacer clic en botones, ingresar texto en formularios y extraer datos de páginas web.

#### Funciones Clave de WebDriver
- **Abrir una Página Web**: WebDriver puede navegar a una URL específica.
- **Localizar Elementos**: Puede encontrar elementos en una página web basados en sus atributos (como ID, nombre, XPath).
- **Interactuar con Elementos**: WebDriver puede simular acciones como hacer clic en botones, escribir texto y enviar formularios.

### Interactuando con Elementos Web

Puedes localizar e interactuar con elementos en una página web usando varios métodos proporcionados por WebDriver. La elección del método depende de los atributos de los elementos HTML que estás apuntando.

- **find_element_by_id**: Localiza un elemento por su ID único.
- **find_element_by_name**: Encuentra un elemento por su atributo de nombre.
- **find_element_by_xpath**: Utiliza consultas XPath para localizar elementos, proporcionando una forma poderosa de navegar el DOM.

In [None]:
### Selenium WebDriver Python Examples
#### Example 1: Opening a Web Page

#This example demonstrates how to open a web page using Selenium WebDriver.

from selenium import webdriver

# Initialize the Chrome WebDriver
driver = webdriver.Chrome()

# Open a web page
driver.get("https://www.python.org")

In [None]:
# Close the browser
driver.quit()

**Ejemplo 2: Web Scraping de Salarios de Jugadores de la NBA**

Este ejemplo demuestra cómo raspar datos de salarios de jugadores de la NBA de un sitio web usando Selenium en Python. Es una ilustración práctica de cómo Selenium puede ser utilizado para automatizar la navegación web y extraer datos específicos de páginas web. El script navega a través de diferentes páginas para cada temporada de la NBA, recopila los nombres de los jugadores y sus correspondientes salarios, y organiza estos datos en un DataFrame de pandas para cada año desde 1990 hasta 2018. Este es un ejemplo útil para aprender cómo manejar elementos web, extraer texto y manejar datos usando pandas en Python.

In [None]:
# Importing the necessary libraries
from selenium import webdriver  # Used to automate web browser interaction
from selenium.webdriver.common.by import By  # Helps in locating elements on web pages
import pandas as pd  # Pandas library for data manipulation and analysis

# Creating an empty DataFrame with specified columns
# This DataFrame will be used to store the scraped data
df = pd.DataFrame(columns=['Player', 'Salary', 'Year'])

# Initializing the Chrome WebDriver
# This opens up a Chrome browser window for web scraping
driver = webdriver.Chrome()

# Looping through the years 2017 to 2018
for yr in range(2017, 2019):
    # Constructing the URL for each year by appending the year range to the base URL
    page_num = str(yr) + '-' + str(yr + 1) + '/'
    url = 'https://hoopshype.com/salaries/players/' + page_num
    driver.get(url)  # Navigating to the constructed URL in the browser
    
    # Finding all player name elements on the page using their XPATH
    # XPATH is a syntax used to navigate through elements and attributes in an XML document
    players = driver.find_elements(By.XPATH, '//td[@class="name"]')

    # Similarly, finding all salary elements on the page using their XPATH
    salaries = driver.find_elements(By.XPATH, '//td[@class="hh-salaries-sorted"]')
    
    # Extracting the text from each player element and storing in a list
    players_list = [player.text for player in players]

    # Extracting the text from each salary element and storing in a list
    salaries_list = [salary.text for salary in salaries]
    
    # Pairing each player's name with their salary and year using the zip function
    data_tuples = list(zip(players_list[1:], salaries_list[1:]))
    
    # Creating a temporary DataFrame for the current year
    # This DataFrame contains the player names, their salaries, and the year
    temp_df = pd.DataFrame(data_tuples, columns=['Player', 'Salary'])
    temp_df['Year'] = yr

    # Appending the temporary DataFrame to the master DataFrame
    # ignore_index=True is used to ensure the index continues correctly in the master DataFrame
    df = df.append(temp_df, ignore_index=True)

# Closing the WebDriver after completing the scraping
# This is important to free up resources and avoid potential memory leaks
driver.close()

## Business challenge: **Análisis del Mercado de Alquileres en Barcelona: Un Proyecto de Web Scraping y Visualización de Datos**

## Objetivo:
El objetivo es desarrollar un web scraper basado en Python para extraer datos de propiedades de alquiler de Idealista para diferentes barrios de Barcelona. Estos datos serán analizados usando Power BI para descubrir insights sobre el mercado de alquileres de la ciudad.

## Alcance:
- **Web Scraping**: Extraer puntos clave de datos como precios de alquiler, tamaño de la propiedad, número de habitaciones y ubicaciones de barrios de Idealista.
- **Análisis y Visualización de Datos**: Analizar los datos raspados para identificar tendencias y patrones, luego visualizar estos hallazgos usando Power BI.

## Pasos y Aplicación de la Metodología Ágil:

### 1. Iniciación y Planificación del Proyecto (Sprint 0)
- **Configuración del Equipo**: Formar equipos multifuncionales con roles como Scrum Master, Propietario del Producto y Analistas de Datos.
- **Recolección de Requisitos**: Definir los puntos específicos de datos a ser raspados de Idealista.
- **Selección de Herramientas**: Elegir herramientas apropiadas para el web scraping (por ejemplo, Python con bibliotecas como BeautifulSoup, Selenium) y para la visualización de datos (Power BI).
- **Creación del Backlog**: Crear un backlog de producto que comprenda historias de usuario (por ejemplo, "Como analista de datos, quiero raspar precios de alquiler para poder analizar el alquiler promedio en cada barrio").

### 2. Ejecución del Sprint
- **Planificación del Sprint**: Desglosar el backlog en tareas más pequeñas y manejables para ser completadas en cada sprint (por ejemplo, configurar el entorno de scraping, diseñar el modelo de datos, etc.).
- **Reuniones Diarias**: Realizar breves reuniones diarias para discutir el progreso, obstáculos y próximos pasos.
- **Desarrollo y Pruebas**: Realizar desarrollo iterativo, con pruebas regulares para asegurar la precisión y fiabilidad de los datos.
- **Revisión del Sprint**: Al final de cada sprint, revisar el trabajo completado y demostrar la funcionalidad.
- **Retrospectiva del Sprint**: Reflexionar sobre el proceso del sprint para identificar mejoras para el próximo sprint.

### 3. Fase de Web Scraping
- Implementar scripts de web scraping para extraer los datos requeridos de Idealista.
- Asegurar el cumplimiento de las políticas de web scraping de Idealista y consideraciones legales.

### 4. Análisis y Visualización de Datos
- Limpiar y preprocesar los datos raspados para el análisis.
- Usar Power BI para crear dashboards interactivos y visualizaciones que resalten aspectos clave del mercado de alquileres en Barcelona.

### 5. Revisión Final y Presentación
- Compilar los hallazgos e insights en un informe comprensivo.
- Presentar el análisis de datos y visualizaciones a los stakeholders o en un entorno de clase.

### Entregables:
- Código fuente para el script de web scraping.
- Archivos de dashboard de Power BI.
- Informe final detallando la metodología, hallazgos e insights.

### Resultados de Aprendizaje:
- Aplicación práctica de web scraping y análisis de datos.
- Experiencia en el uso de metodología Ágil para la gestión de proyectos.
- Mejora de la colaboración y habilidades de trabajo en equipo.
- Competencia en el uso de Python para la recolección de datos y Power BI para la visualización de datos.

## Respuestas

In [None]:
import requests
from bs4 import BeautifulSoup

# URL of the BBC technology news section
url = "https://www.bbc.co.uk/news/technology"

# Send a GET request and parse the HTML content
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Define categories and associated keywords
categories = {
    'Apple': ['Apple', 'iPhone', 'iPad'],
    'Microsoft': ['Microsoft', 'Windows', 'Bill Gates'],
    'Google': ['Google', 'Android', 'Alphabet']
    # Add more categories as needed
}

# Function to determine the category of a headline
def categorize_headline(headline):
    for category, keywords in categories.items():
        for keyword in keywords:
            if keyword in headline:
                return category
    return 'Other'

# Scrape and process the headlines
# Look for 'h3' tags or other relevant tags
headlines = soup.find_all('h3')
category_counts = {category: 0 for category in categories.keys()}
category_counts['Other'] = 0

for h in headlines:
    headline_text = h.get_text().strip()
    category = categorize_headline(headline_text)
    category_counts[category] += 1
    print(f"Headline: {headline_text}\nCategory: {category}\n")

# Print the count of headlines in each category
print("Headline Counts by Category:")
for category, count in category_counts.items():
    print(f"{category}: {count}")