# **RECOPILACIÓN Y ALMACENAMIENTO DE DATOS - SQL**

### **El navegador y las solicitudes**

Cuando accedes a un sitio web, tu navegador envía una solicitud HTTP al servidor. El servidor, a su vez, formula una respuesta: el código HTML de la página correspondiente.

**Formato de solicitud**

Una solicitud formada por un navegador puede contener lo siguiente:

- Método HTTP: determina la operación a realizar. Existen varios métodos. Los más populares son GET y POST. El primero solicita datos del servidor, mientras que el segundo los envía.
- Ruta: el segmento de la dirección que sigue al nombre del sitio example.com/hello la ruta es /hello).
- Versión HTTP: la versión del protocolo HTTP utilizado para enviar la solicitud (por ejemplo, HTTP/1.1).
- Encabezados de la solicitud: se utilizan para enviar información adicional al servidor.
- Cuerpo de la solicitud: por ejemplo, el cuerpo de una solicitud POST son los datos que se envían. No todas las solicitudes tienen cuerpo.

**Formato de respuesta**

La respuesta puede contener:

- La versión HTTP.
- El código y el mensaje de respuesta (por ejemplo, "200 OK" si todo va bien, o "404 Not Found" si no se encuentra la ruta solicitada).
- Encabezados que contienen información adicional para el navegador.
- Cuerpo de la respuesta (por ejemplo, cuando abres el sitio web, verás el código HTML de esta página en el cuerpo de la respuesta).

## **Primera solicitud GET**

Para obtener datos del servidor, usaremos el método get(), y para enviar solicitudes HTTP, necesitamos la librería Requests. Importamos la librería:

In [3]:
import requests

URL = "https://practicum-content.s3.us-west-1.amazonaws.com/new-markets/Data_sprint_6/web-sites/most_famous_shipwrecks_es_1.html?etag=87662559becdeb134637e5670502d6d6"

# El método get() de la librería Requests actúa como un navegador. Le pasaremos el enlace como argumento. El método enviará al servidor una solicitud GET, luego procesará la respuesta que reciba y devolverá una respuesta, un objeto que contiene la respuesta del servidor a la solicitud.

req = requests.get(URL)  # guardando el objeto de respuesta como variable requerida

print(req.text)  # el nombre del atributo se coloca después del objeto de respuesta y se divide por un punto

<html>
  <head>
    <meta charset="utf-8" />

    <link
      rel="stylesheet"
      href="https://praktikum.yandex.ru/static/fonts/landings/suisse.css"
    />
    <link
      rel="stylesheet"
      href="https://praktikum.yandex.ru/static/fonts/ys/ys.css"
    />

    <style>
      @font-face {
        font-family: "Suisse";
        font-weight: 600;
        src: url("https://pictures.s3.yandex.net/fonts/landings/SuisseIntl-SemiBold.woff"),
          url("https://pictures.s3.yandex.net/fonts/landings/SuisseIntl-SemiBold.woff2");
      }

      @font-face {
        font-family: "Yandex Sans";
        font-weight: 400;
        font-style: normal;
        font-stretch: normal;
        src: url("https://pictures.s3.yandex.net/fonts/landings/YSText-Regular-Web.woff2")
            format("woff2"),
          url("https://pictures.s3.yandex.net/fonts/landings/YSText-Regular-Web.woff")
            format("woff");
      }

      h2 {
        font-family: "Suisse", sans-serif;
        font-size: 

**El atributo status_code te dice si el servidor ha respondido o si ha ocurrido un error.
Vamos a generar el código de estado de la respuesta:**

In [4]:
print(req.status_code)

200



Desafortunadamente, no todas las solicitudes regresan con datos. A veces, las solicitudes devuelven errores; cada uno tiene un código especial dependiendo de su tipo. Estos son los errores más comunes:

| Codigo error | Nombre | Implicaciones |
|----------|----------|----------|
| 200    | OK   | Todo está bien   |
| 302    | Found    | La página ha sido movida   |
| 400    | Bad Request   | Error en la sintaxis de la solicitud   |
| 404    | Not Found   | No se puede encontrar la página   |
| 500    | Internal Server Error   | Error por parte del servidor   |
| 502    | Bad Gateway   | Error en el intercambio de datos entre servidores   |
| 503    | Server Unvailable   | El servidor no puede procesar solicitudes temporalmente   |



### Practicando

**Ejercicio 1**

Escribe una solicitud GET en la siguiente página: https://tripleten-com.github.io/simple-shop_es/. Guarda tu resultado en la variable req.

In [5]:
import requests

URL = "https://tripleten-com.github.io/simple-shop_es/"
req = requests.get(URL)

print(req.text)

<!DOCTYPE html>
<html lang="es">
  <head>
    <meta charset="UTF-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <link rel="stylesheet" href="./pages/index.css" />
    <title>Tierra de lácteos Tienda</title>
  </head>
  <body class="page">
    <div class="page__content">
      <header class="header page__section">
        <img src="./images/logo.png" alt="Tierra de lácteos." class="logo" />
      </header>
      <main class="content">
        <h1 class="content__title">Alta calidad, productores locales</h1>
        <section class="products page__section">
          <ul class="cards">
            <li class="card">
              <img
                src="https://cdn-icons-png.flaticon.com/512/684/684614.png"
                alt=""
                class="card__image"
              />
              <p class="t754__title t-name t-name_md js-product-name">Leche de vaca entera, 1 galón</p>
     

## Expresiones regulares

Una expresión regular (regex) es una regla para buscar subcadenas (fragmentos de texto dentro de cadenas). Por ejemplo, si estamos buscando la combinación de letras "tion" en la oración "Arrived at the station in total frustration", Python lo entenderá como si estuviera buscando la subcadena "tion" dentro de la cadena 'Arrived at the station in total frustration'. 

#### **Cómo funcionan las expresiones regulares**

Para empezar a trabajar con expresiones regulares en Python, necesitamos importar el módulo re (expresiones regulares). Siguen dos etapas.

- En la primera etapa, creamos el patrón de la expresión regular. Este es un algoritmo que describe lo que debe buscarse dentro del texto (por ejemplo, todas las letras mayúsculas).

- Luego, este patrón se pasa a los métodos específicos de re. Estos métodos buscan, reemplazan y eliminan símbolos. En otras palabras, el patrón identifica qué buscar y cómo, mientras que el método define qué hacer con las coincidencias que se encuentran.

| Expresión regular | Descripción | Ejemplo | Explicación |
|----------|----------|----------|----------|
| []    | Caracter único contenido entre paréntesis	   | [a-]	   |a o -
   |
| [^…]    | Negación   | [^a]	   |cualquier caracter excepto "a"
   |
| -    | Rango   | [0-9]	   |rango: cualquier dígito del 0 al 9
   |
| .	    | Cualquier caracter único excepto una nueva línea	   | a.	   |as, a1, a_
   |
| \d (see [0-9])	    | Cualquier dígito	   | a\d	   |a[0-9]	   |
| \w	    | Cualquier letra, dígito o _	   | a\w	   |a_, a1, ab
   |
| [A-z]	    | Cualquier letra   | a[A-z]	   |ab   |
| ?    | 0 o 1 instancia	   | a?	   |a o nada
   |
| +    | 1 o más instancias   | a+	   |a o aa, o aaa
   |
| *    | 0 o más instancias	   | a*   |nada o a, o aa
   |
| ^    | Comienzo de cadena	   | ^a	   |a1234, abcd
   |
| $    | Fin de cadena	   | a$   |1a, ba
   |


### Expresiones regulares en Python

Estas son algunas de las tareas más comunes para los analistas:

- encontrar una subcadena dentro de una cadena
- dividir cadenas en subcadenas
- reemplazar partes de una cadena con otras cadenas

Para completar estas tareas, necesitarás los siguientes métodos re:

1. search(patrón, cadena) busca un patrón en una cadena. Aunque search() recorre toda la cadena para encontrar el patrón, solo devuelve la primera subcadena que encuentra:

In [6]:
import re

string = '"General Slocum" 15 June 1904 East River human factor'
print(re.search("\w+", string))

<re.Match object; span=(1, 8), match='General'>


In [7]:
import re

string = '""General Slocum" 15 June 1904 East River human factor'
print(re.search("\w+", string).group())

General


¿Cómo identificamos las palabras que se encuentran entre caracteres particulares? Intentemos hacer coincidir una frase entre comillas dobles, asumiendo que solo contiene letras y espacios.

[A-z] : este patrón coincide con cualquier letra, ya sea mayúscula o minúscula. Este patrón coincide con cada letra de la cadena, pero como letras separadas, no como palabras.

[A-z ] : (¡ten en cuenta el espacio al final!): este patrón indica que los espacios también son bienvenidos, pero aún coincide con un solo caracter a la vez, ya sea una letra o un espacio.

[A-z ]+: este patrón coincide con una secuencia de estos caracteres hasta que se encuentra algún otro caracter o se alcanza el final de la cadena. Entonces, todos los caracteres que no están en la lista (como dígitos o signos de puntuación) se convierten esencialmente en separadores. Si aplicamos este patrón a nuestra cadena, obtendremos tres coincidencias: General Slocum, un espacio, June (observa los espacios que rodean la palabra) y ast River human factor.

"[A-z ]+": este patrón coincide con una comilla doble, seguida de una secuencia de letras y espacios (1 o más, sin límite superior), seguida de otra comilla doble. Eso nos deja con "General Slocum" (contando las comillas esta vez), justo lo que estábamos buscando.

In [8]:
import re

string = '"General Slocum" 15 June 1904 East River human factor'
print(re.search('"[A-z ]+"', string).group())

"General Slocum"


Observa que si el contenido de la cita contiene caracteres que no están en la lista, impedirán que la cita coincida con el patrón. Es por eso que hemos agregado el espacio. Las expresiones regulares son una ciencia exacta.

2. split(patrón, cadena) divide una cadena en los puntos donde aparece el patrón.

In [9]:
import re

string = '"General Slocum" 15 June 1904 East River human factor'
print(re.split("\d+", string))

['"General Slocum" ', ' June ', ' East River human factor']


Como puedes ver, la cadena se ha dividido en tres partes, divididas en lugares donde el método ha encontrado el patrón definido en el argumento. Aquí, el patrón '\d+' coincide con uno o más dígitos. Siempre que split() encuentra uno o más dígitos (en este caso, 15 y 1904), divide la cadena en subcadenas. Las subcadenas que coinciden con el patrón se excluyen y no están presentes en la salida.

El parámetro maxsplit del método split() limita el número de veces que se divide la cadena.

In [10]:
import re

string = '"General Slocum" 15 June 1904 East River human factor'
print(re.split("\d+", string, maxsplit=1))

['"General Slocum" ', ' June 1904 East River human factor']


Como puedes ver, la cadena solo se ha dividido una vez.

3. sub(patrón, repl, cadena) busca el patrón de subcadena dentro de una cadena y lo reemplaza con la subcadena repl (replace).

In [11]:
import re

string = '"General Slocum" 15 June 1904 East River human factor'
print(re.sub("\d+", "", string))  # buscamos secuencias de 1 o más dígitos
# y las eliminamos

"General Slocum"  June  East River human factor


Se han eliminado todas las subcadenas que consistían en dígitos (estrictamente hablando, se han reemplazado con una cadena vacía entre comillas simples: '').

4. findall(patrón, cadena) devuelve una lista de todas las subcadenas en una cadena que coinciden con el patrón. Compáralo con el método search() que solo devuelve la primera subcadena coincidente. Intentemos encontrar todas las palabras que terminen con "tion":

In [12]:
import re

tion = "Arrived at the station in total frustration"
print(re.findall("[A-z]+tion", tion))

['station', 'frustration']


... o palabras con guion:

In [13]:
import re

string = "sixty-seven drops of rain"
print(re.findall("\w+-\w+", string))

['sixty-seven']


El patrón coincide con las palabras con guion; en este caso, "sixty-seven" es la única coincidencia. El método findall() es realmente útil ya que, cuando se usa junto con la función len(), te permite determinar cuántas veces se repite una subcadena:

In [14]:
import re

string = "sixty-seven drops of rain"
print(len(re.findall("\w+", string)))

5


¿Esperabas que len() mostrara 4? Nos ha dado 5 porque "sixty-seven" se ha contado como dos palabras; el patrón '\w+' no captura el guion.

Agreguemos '-' a la expresión regular y contemos "sixty-seven" como una sola palabra

In [15]:
import re

string = "sixty-seven drops of rain"
print(len(re.findall("[\w-]+", string)))

4


### Ejercicios!

**Ejercicio 1**

Para obtener el contenido de texto de la solicitud, utiliza el método get() de la librería requests junto con el atributo text. Pasa la variable URL al método get().

La información entre las etiquetas <title> y </title> contiene tanto un espacio como letras. El símbolo + captura una o más instancias. Escribe tu patrón de expresión regular envuelto en las etiquetas <title> y </title>.

In [1]:
import requests
import re

URL = "https://tripleten-com.github.io/simple-shop_es/"  # el enlace al sitio web
req_text = requests.get(URL).text  # el contenido de texto de la solicitud

# Expresión regular para encontrar la etiqueta <title> y su contenido
pattern = r"<title>(.+?)<\/title>"
match = re.search(pattern, req_text)

if match:
    title_content = match.group(1)
    print(f"<title>{title_content}</title>")
else:
    print("No se encontró la etiqueta <title> en el contenido de la solicitud.")

<title>Tierra de lácteos Tienda</title>


**Ejercicio 2**

Escribe una expresión regular que genere todos los nombres de productos que incluyan la palabra "Mantequilla" (ten en cuenta la letra mayúscula). "Mantequilla" puede aparecer en medio del nombre. Así que podría haber 0 o más letras o espacios antes de "Mantequilla" y podría haber algunas letras o espacios después. No necesitamos incluir el peso neto en nuestros nombres, así que no incluyas una coma en tu expresión regular. Muestra lo que encuentres.

Ahora necesitamos múltiples ocurrencias, así que usaremos re.findall() .

In [2]:
import requests
import re

URL = "https://tripleten-com.github.io/simple-shop_es/"
req_text = requests.get(URL).text

# Expresión regular para encontrar todos los nombres de productos que incluyan la palabra "Mantequilla"
pattern = r"\b[\w\s]*Mantequilla[\w\s]*\b"

matches = re.findall(pattern, req_text)
print(matches)

['Kerrygold Mantequilla irlandesa con aceite de canola', 'Danish Creamery Mantequilla sin sal', 'Kelapo Ghee Mantequilla clarificada', 'Land O Lakes Mantequilla baja en sodio con aceite de canola']
