<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/4_pnl/clase_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Primera clase de PLN

![verbos http](https://gautambiztalkblog.wordpress.com/wp-content/uploads/2015/03/crud.jpg)

# Explicación detallada de la librería `requests` (Python) — en Markdown

requests es la librería HTTP más usada en el ecosistema Python para realizar peticiones HTTP de forma sencilla y legible. Proporciona una API de alto nivel que abstrae los detalles de urllib3/httplib y facilita tareas comunes: GET/POST, manejo de encabezados, cookies, sesiones, subida/descarga de ficheros, autenticación, timeouts, etc.

## Instalación

```bash
pip install requests
```

## Conceptos básicos

### GET con parámetros

```python
params = {"q": "python requests", "page": 1}
resp = requests.get("https://api.example.com/search", params=params)
```

### POST con JSON

```python
payload = {"name": "Alice", "age": 30}
resp = requests.post("https://api.example.com/users", json=payload)
```

## Interpretación de la respuesta

```python
resp.status_code
resp.json()
resp.text
resp.raise_for_status()
```

## Manejo de excepciones

```python
try:
    resp = requests.get(url, timeout=3)
    resp.raise_for_status()
except requests.Timeout:
    print("Timeout")
except requests.RequestException as e:
    print("Error:", e)
```

## Sessions

```python
with requests.Session() as s:
    s.headers.update({"User-Agent": "mi-app/1.0"})
    resp = s.get("https://api.example.com")
```

## Subida y descarga de ficheros

```python
files = {"file": ("data.csv", open("data.csv", "rb"), "text/csv")}
requests.post("https://example.com/upload", files=files)
```

```python
resp = requests.get(url, stream=True)
with open("archivo.bin", "wb") as f:
    for chunk in resp.iter_content(8192):
        f.write(chunk)
```

## Autenticación y SSL

```python
resp = requests.get("https://api.example.com", auth=("user", "pass"))
requests.get("https://insecure.com", verify=False)
```

## Buenas prácticas

1. Usar Session para varias peticiones.
2. Especificar siempre timeout.
3. Manejar excepciones.
4. No desactivar SSL sin motivo.
5. Usar reintentos (Retry + HTTPAdapter).



In [8]:
import requests as rq


In [9]:
res = rq.get("https://en.wikipedia.org/wiki/Machine_learning")

In [10]:
res.status_code

403

In [14]:
import requests as rq

url = "https://en.wikipedia.org/wiki/Machine_learning"
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/118.0.0.0 Safari/537.36"
}

res = rq.get(url, headers=headers)
print(res.status_code)


200


In [None]:
# Si quieres comprender los códigos de estatus de http, con gatos -->

https://http.cat/

# Parámetros de `requests.get()` en Python

La función `requests.get()` permite realizar solicitudes HTTP GET y
admite varios parámetros opcionales que controlan cómo se envía la
solicitud.

------------------------------------------------------------------------

## Sintaxis general

``` python
requests.get(
    url,
    params=None,
    headers=None,
    cookies=None,
    auth=None,
    timeout=None,
    allow_redirects=True,
    proxies=None,
    verify=True,
    stream=False,
    cert=None
)
```

------------------------------------------------------------------------

## Parámetros principales

### `url` (`str`)

**Obligatorio.** Dirección web del recurso al que se realiza la
solicitud.

------------------------------------------------------------------------

### `params` (`dict` o `list`)

Parámetros que se añaden automáticamente a la URL como *query string*.

``` python
params = {'q': 'python', 'page': 2}
# Resultado: ?q=python&page=2
```

------------------------------------------------------------------------

### `headers` (`dict`)

Encabezados HTTP personalizados que se envían con la solicitud.

``` python
headers = {'User-Agent': 'MiApp/1.0'}
```

------------------------------------------------------------------------

### `cookies` (`dict` o `CookieJar`)

Cookies enviadas junto con la solicitud.

------------------------------------------------------------------------

### `auth` (`tuple` o `objeto Auth`)

Autenticación HTTP básica o personalizada.

``` python
auth = ('usuario', 'contraseña')
```

------------------------------------------------------------------------

### `timeout` (`float` o `(float, float)`)

Tiempo máximo de espera en segundos antes de que la solicitud falle.

``` python
timeout = 5          # Tiempo total
timeout = (3.05, 27) # (conexión, lectura)
```

------------------------------------------------------------------------

### `allow_redirects` (`bool`)

Indica si se deben seguir redirecciones automáticas.\
**Valor por defecto:** `True`.

------------------------------------------------------------------------

### `proxies` (`dict`)

Define los servidores proxy a utilizar.

``` python
proxies = {'http': 'http://10.10.1.10:3128'}
```

------------------------------------------------------------------------

### `verify` (`bool` o `str`)

Verifica el certificado SSL.\
Usa `False` para omitir (no recomendado) o un path a un certificado.

------------------------------------------------------------------------

### `stream` (`bool`)

Descarga la respuesta por partes en lugar de hacerlo completamente en
memoria.\
Útil para archivos grandes.

------------------------------------------------------------------------

### `cert` (`str` o `tuple`)

Certificado del cliente para autenticación SSL.

``` python
cert = ('cert.pem', 'key.pem')
```

------------------------------------------------------------------------

## Ejemplo de uso completo

``` python
import requests

url = "https://api.github.com/search/repositories"
params = {'q': 'requests', 'sort': 'stars'}
headers = {'User-Agent': 'mi-aplicacion'}

response = requests.get(url, params=params, headers=headers, timeout=5)

print(response.status_code)  # 200 si fue exitosa
print(response.url)          # URL final con parámetros
print(response.json())       # Contenido en formato JSON
```


In [17]:
import requests as rq

url = "https://en.wikipedia.org/wiki/Machine_learning"
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/118.0.0.0 Safari/537.36"
}

res = rq.get(url, headers=headers)
print(res.status_code)


200


In [None]:
res.text

![Imagen estructura HTML](https://disenowebakus.net/imagenes/articulos/estructura-basica-de-una-pagina-web-en-html.jpg)

In [None]:
# Si quieres conocer etiquetas html revisa

https://allthetags.com/

In [None]:
# Ver https://beautiful-soup-4.readthedocs.io/en/latest/

In [20]:
import requests as rq

url = "https://en.wikipedia.org/wiki/Machine_learning"
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/118.0.0.0 Safari/537.36"
}

res = rq.get(url, headers=headers)
print(res.status_code)

200


In [24]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text, 'html.parser')


In [None]:
soup

In [34]:
divs = soup.find_all("div", class_=lambda c: c and "mw-heading" in c and "mw-heading2" in c)

for div in divs:
    print(div.get_text(strip=True))

History[edit]
Relationships to other fields[edit]
Theory[edit]
Approaches[edit]
Models[edit]
Applications[edit]
Limitations[edit]
Model assessments[edit]
Ethics[edit]
Hardware[edit]
Software[edit]
Journals[edit]
Conferences[edit]
See also[edit]
References[edit]
Sources[edit]
Further reading[edit]
External links[edit]


In [35]:
t = soup.find_all("p")

In [37]:
text = ''

In [39]:
for i in range(len(t)):
  text += t[i].text.strip() + '\n'

In [None]:
print(text)

In [None]:
import requests as rq

res = rq.get("https://en.wikipedia.org/wiki/Samsung", headers={
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/118.0.0.0 Safari/537.36"
})

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text, 'html.parser')

t = soup.find_all("p")
text = ''

for i in range(len(t)):
  text += t[i].text.strip() + '\n'

print(text)

![Códigos de status de requests](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcT2oPHcwlYQadHfInt1EeqLdH1TiaPYpV1LZA&s)

# llegamos hasta la slide 25