# Semana 15: 📦 Recopilación y Almacenamiento de Datos (SQL)
En el mundo actual, los datos provienen de distintas fuentes: sitios web, APIs, bases de datos, hojas de cálculo, sensores y más. Para los analistas de datos, saber cómo **recopilar** y **almacenar** información es el primer paso antes de cualquier análisis.

Una de las herramientas más importantes para este propósito es **SQL (Structured Query Language)**, el lenguaje universal para interactuar con bases de datos relacionales.

## 📊 El Proceso de Análisis de Datos
1. **Solicitud del cliente:** Descripción de la tarea.
2. **Aclarar la tarea:**  ¿Cómo deben ser los resultados?, ¿Qué debo calculary porqué?, ¿Qué factores debo tener encuenta?, etc.
3. **Recopilar datos:** Se exportan los datos necesarios para cumplir tus tareas.
4. **Prepara los datos:** Realizar las evaluaciones estadísticas necesarias.
5. **Ensayo y error:** Análisis iterativos de datos, validación y repetición de cálculos.
6. **Solución:** Examinar las soluciones y responder preguntas como: ¿Funciona?, ¿Está justificado?, ¿Es de alta calidad?, etc.

## 🗳️ Recuperar Datos de Recursos en Línea
Muchas veces necesitamos extraer datos de páginas web o servicios en línea, para ello usamos técnicas como web scraping o accedemos directamente a APIs.

### ⛏️ ¿Qué es la minería web?
La minería web es el proceso de extraer información útil de páginas web. Puede ser:
- **Estructural:** cómo está organizada la página.
- **De contenido:** obtener textos, imágenes, números, etc.
- **De uso:** analizar comportamiento de usuarios.

### 📚 Cosas que un analista necesita saber sobre Internet:
- **Navegadores:** Herramientas para visualizar sitios web (Chrome, Firefox, Edge).
- **HTML:** Lenguaje de marcado que estructura los contenidos de las páginas web.
- **HTTP:** Protocolo de transferencia de datos entre cliente (tú) y servidor (página web).

### 🛰 Protocolos de transferencia
- **HTTP/HTTPS:** estándar para cargar páginas web.
- **FTP:** usado en algunos servidores para compartir archivos.
- **API (Application Programming Interface):** mecanismos estandarizados para solicitar datos estructurados.

### 🏷 Introducción a HTML
HTML significa lenguaje de marcado de hipertexto. El nombre se explica por sí mismo: cada objeto de la página debe marcarse para que se muestre correctamente. Este marcado implica colocar bloques de información dentro de comandos llamados "etiquetas". Estas etiquetas le dicen a los navegadores cómo mostrar la información que rodean.

```html
<h1>Encabezado</h1>
<p>Este es un párrafo</p>
<a href="https://www.youtube.com/watch?v=cie7scVUdQE&ab_channel=AlvaroPadilla">Enlace</a>
```

Y las tablas:

```html
<!-- La etiqueta <table> marca el comienzo de la tabla -->
<table id="student" class='Stanford'> 
    <!-- La etiqueta <tr> marca el comienzo de la fila -->
    <tr> 
        <!-- La etiqueta <th> marca el comienzo de la celda de encabezado y la etiqueta </th> marca su final -->
        <th>Apellido</th>
        <th>Nombre</th> 
        <th>Grupo</th>
    </tr>
    <!-- La etiqueta </tr> marca el final de la fila --> 
    <!-- le sigue la etiqueta <tr> tag, que define el comienzo de una nueva fila -->
    <tr>
        <!-- La etiqueta <td> marca el comienzo de una celda de datos y la etiqueta </td> marca su final -->
        <td>Smith</td> 
        <td>Alex</td> 
        <td>41-A</td> 
    </tr> 
    <tr> 
        <td>Stafford</td> 
        <td>John</td> 
        <td>13-C</td> 
    </tr>
    <tr> 
        <td>Johnson</td> 
        <td>Mark</td> 
        <td>41-B</td> 
</tr>
</table>
<!-- La etiqueta </table> marca el final de la tabla -->
```
### 🛠 Herramientas para desarrolladores
Usamos las herramientas del desarrollador (Ctrl + Shift + I) para examinar el código HTML de las páginas.

### 🌐 Tu primera solicitud GET en Python
```python
import request

URL = 'https://practicum-content.s3.us-west-1.amazonaws.com/new-markets/Data_sprint_6/web-sites/most_famous_shipwrecks_es_1.html?etag=87662559becdeb134637e5670502d6d6'

req = requests.get(URL)

print(req.txt)
```
### 🔎 Expresiones regulares
Permiten encontrar patrones dentro de textos.
```python
import re
texto = "Mi número es 300-123-4567"
re.findall(r'\d{3}-\d{3}-\d{4}', texto)
```
### 📄 Análisis sintáctico de HTML
```python
import requests
from bs4 import BeautifulSoup 

URL = 'https://tripleten-com.github.io/simple-shop_es/'
req = requests.get(URL)

soup = BeautifulSoup(req.txt, 'lxml')
```