# Semana 15: üì¶ Recopilaci√≥n y Almacenamiento de Datos (SQL)
En el mundo actual, los datos provienen de distintas fuentes: sitios web, APIs, bases de datos, hojas de c√°lculo, sensores y m√°s. Para los analistas de datos, saber c√≥mo **recopilar** y **almacenar** informaci√≥n es el primer paso antes de cualquier an√°lisis.

Una de las herramientas m√°s importantes para este prop√≥sito es **SQL (Structured Query Language)**, el lenguaje universal para interactuar con bases de datos relacionales.

## üìä El Proceso de An√°lisis de Datos
1. **Solicitud del cliente:** Descripci√≥n de la tarea.
2. **Aclarar la tarea:**  ¬øC√≥mo deben ser los resultados?, ¬øQu√© debo calculary porqu√©?, ¬øQu√© factores debo tener encuenta?, etc.
3. **Recopilar datos:** Se exportan los datos necesarios para cumplir tus tareas.
4. **Prepara los datos:** Realizar las evaluaciones estad√≠sticas necesarias.
5. **Ensayo y error:** An√°lisis iterativos de datos, validaci√≥n y repetici√≥n de c√°lculos.
6. **Soluci√≥n:** Examinar las soluciones y responder preguntas como: ¬øFunciona?, ¬øEst√° justificado?, ¬øEs de alta calidad?, etc.

## üó≥Ô∏è Recuperar Datos de Recursos en L√≠nea
Muchas veces necesitamos extraer datos de p√°ginas web o servicios en l√≠nea, para ello usamos t√©cnicas como web scraping o accedemos directamente a APIs.

### ‚õèÔ∏è ¬øQu√© es la miner√≠a web?
La miner√≠a web es el proceso de extraer informaci√≥n √∫til de p√°ginas web. Puede ser:
- **Estructural:** c√≥mo est√° organizada la p√°gina.
- **De contenido:** obtener textos, im√°genes, n√∫meros, etc.
- **De uso:** analizar comportamiento de usuarios.

### üìö Cosas que un analista necesita saber sobre Internet:
- **Navegadores:** Herramientas para visualizar sitios web (Chrome, Firefox, Edge).
- **HTML:** Lenguaje de marcado que estructura los contenidos de las p√°ginas web.
- **HTTP:** Protocolo de transferencia de datos entre cliente (t√∫) y servidor (p√°gina web).

### üõ∞ Protocolos de transferencia
- **HTTP/HTTPS:** est√°ndar para cargar p√°ginas web.
- **FTP:** usado en algunos servidores para compartir archivos.
- **API (Application Programming Interface):** mecanismos estandarizados para solicitar datos estructurados.

### üè∑ Introducci√≥n a HTML
HTML significa lenguaje de marcado de hipertexto. El nombre se explica por s√≠ mismo: cada objeto de la p√°gina debe marcarse para que se muestre correctamente. Este marcado implica colocar bloques de informaci√≥n dentro de comandos llamados "etiquetas". Estas etiquetas le dicen a los navegadores c√≥mo mostrar la informaci√≥n que rodean.

```html
<h1>Encabezado</h1>
<p>Este es un p√°rrafo</p>
<a href="https://www.youtube.com/watch?v=cie7scVUdQE&ab_channel=AlvaroPadilla">Enlace</a>
```

Y las tablas:

```html
<!-- La etiqueta <table> marca el comienzo de la tabla -->
<table id="student" class='Stanford'> 
    <!-- La etiqueta <tr> marca el comienzo de la fila -->
    <tr> 
        <!-- La etiqueta <th> marca el comienzo de la celda de encabezado y la etiqueta </th> marca su final -->
        <th>Apellido</th>
        <th>Nombre</th> 
        <th>Grupo</th>
    </tr>
    <!-- La etiqueta </tr> marca el final de la fila --> 
    <!-- le sigue la etiqueta <tr> tag, que define el comienzo de una nueva fila -->
    <tr>
        <!-- La etiqueta <td> marca el comienzo de una celda de datos y la etiqueta </td> marca su final -->
        <td>Smith</td> 
        <td>Alex</td> 
        <td>41-A</td> 
    </tr> 
    <tr> 
        <td>Stafford</td> 
        <td>John</td> 
        <td>13-C</td> 
    </tr>
    <tr> 
        <td>Johnson</td> 
        <td>Mark</td> 
        <td>41-B</td> 
</tr>
</table>
<!-- La etiqueta </table> marca el final de la tabla -->
```
### üõ† Herramientas para desarrolladores
Usamos las herramientas del desarrollador (Ctrl + Shift + I) para examinar el c√≥digo HTML de las p√°ginas.

### üåê Tu primera solicitud GET en Python
```python
import request

URL = 'https://practicum-content.s3.us-west-1.amazonaws.com/new-markets/Data_sprint_6/web-sites/most_famous_shipwrecks_es_1.html?etag=87662559becdeb134637e5670502d6d6'

req = requests.get(URL)

print(req.txt)
```
### üîé Expresiones regulares
Permiten encontrar patrones dentro de textos.
```python
import re
texto = "Mi n√∫mero es 300-123-4567"
re.findall(r'\d{3}-\d{3}-\d{4}', texto)
```
### üìÑ An√°lisis sint√°ctico de HTML
```python
import requests
from bs4 import BeautifulSoup 

URL = 'https://tripleten-com.github.io/simple-shop_es/'
req = requests.get(URL)

soup = BeautifulSoup(req.txt, 'lxml')
```