<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Clase 22

Introducción PNL

In [None]:
corpus = [
    "hola como estas",
    "hola como te va",
    "hola que tal",
    "hoy es un gran día",
    "hoy estamos felices",
    "hoy comemos pastel",
    "mañana iremos al cine"
]


In [None]:
from collections import defaultdict

# Estructura de datos: diccionario de palabras -> siguientes palabras posibles
predictor = defaultdict(lambda: defaultdict(int))

for sentence in corpus:
    words = sentence.lower().split()
    for i in range(len(words) - 1):
        predictor[words[i]][words[i + 1]] += 1


In [None]:
def sugerir_siguiente(palabra):
    if palabra not in predictor:
        return "Sin sugerencias"
    siguientes = predictor[palabra]
    sugerencia = max(siguientes, key=siguientes.get)
    return sugerencia


In [None]:
entrada = "hoy"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hoy': es


In [None]:
entrada = "hola"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hola': como


In [None]:
entrada = "hoy estamos"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hoy estamos': Sin sugerencias


In [None]:
entrada = input("Ingresa una palabra: ")
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")

Ingresa una palabra: mañana
Sugerencia para 'mañana': iremos


### NLTK

https://www.nltk.org/


# Análisis del archivo `robots.txt` de Wikipedia

URL: [https://en.wikipedia.org/robots.txt](https://en.wikipedia.org/robots.txt)

---

## 🧱 ESTRUCTURA BÁSICA DE UN `robots.txt`

La estructura básica de un archivo `robots.txt` tiene reglas con esta sintaxis:

```
User-agent: [nombre del bot]
Disallow: [ruta que no se debe rastrear]
Allow: [ruta que sí se puede rastrear]
```

Opcionalmente puede incluir:

- `Sitemap:` → Para decir dónde está el mapa del sitio.
- `Crawl-delay:` → Para limitar la frecuencia con la que un bot accede a las páginas.

---

## 🔍 CONTENIDO DE `robots.txt` de Wikipedia

### 1. Comentarios informativos

```txt
# Please note: There are multiple Wikimedia projects, including Wikipedia, ...
```

Estos son **comentarios informativos** para humanos que leen el archivo. Indican que existen múltiples proyectos de Wikimedia y que cada uno tiene su propio `robots.txt`.

---

### 2. Reglas para todos los bots

```txt
User-agent: *
Disallow: /wiki/Special:
Disallow: /w/
Disallow: /trap/
```

**Significado**:

- `User-agent: *` → Aplica a **todos los bots**.
- `Disallow: /wiki/Special:` → Bloquea las páginas especiales (como `/wiki/Special:RecentChanges`, etc.).
- `Disallow: /w/` → Bloquea el acceso al backend del software MediaWiki (como `/w/index.php`, etc.).
- `Disallow: /trap/` → Bloquea una ruta trampa para bots maliciosos.

---

### 3. Reglas específicas para algunos bots

```txt
User-agent: Googlebot
Disallow: /w/
```

```txt
User-agent: Bingbot
Disallow: /w/
```

Estos bloques son similares pero aplican a **bots específicos** (como Googlebot y Bingbot). También se les bloquea la carpeta `/w/`.

---

### 4. Crawl-delay para algunos bots

```txt
User-agent: Slurp
Crawl-delay: 1
```

Esto le dice al bot de Yahoo (Slurp) que espere **al menos 1 segundo entre cada solicitud**.

---

### 5. Sitemap

```txt
Sitemap: https://en.wikipedia.org/sitemap.xml
```

Esto indica a los bots dónde pueden encontrar el **mapa del sitio**, que es un archivo con URLs recomendadas para rastrear.

---

## ✅ RESUMEN

- Wikipedia **permite** el acceso a la mayoría de sus páginas de artículos.
- **Restringe** el acceso a:
  - Páginas especiales del sistema (`/wiki/Special:`),
  - Rutas del backend del software MediaWiki (`/w/`),
  - Carpetas trampa o privadas (`/trap/`).
- Define reglas específicas para algunos bots populares.
- Incluye un `sitemap.xml`.


Por ejemplo hay páginas restrictivas para los sistemas automatizados de extraer datos, ejemplo: https://www.instagram.com/robots.txt

![Imagen estructura HTML](https://disenowebakus.net/imagenes/articulos/estructura-basica-de-una-pagina-web-en-html.jpg)

# Descargar información desde sitio web

![verbos http](https://gautambiztalkblog.wordpress.com/wp-content/uploads/2015/03/crud.jpg)

https://requests.readthedocs.io/en/latest/

![Códigos de status de requests](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcT2oPHcwlYQadHfInt1EeqLdH1TiaPYpV1LZA&s)

In [1]:
import requests
res = requests.get('https://en.wikipedia.org/wiki/Machine_learning')


In [2]:
res

<Response [200]>

In [3]:
res.status_code

200

In [4]:
res.links

{}

In [9]:
res.json

In [None]:
res.text

https://beautiful-soup-4.readthedocs.io/en/latest/

In [10]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://en.wikipedia.org/wiki/Machine_learning')
soup = BeautifulSoup(res.text, 'html.parser')


In [None]:
soup.head()

In [None]:
soup.body()

In [16]:
soup.b

<b><a href="/wiki/Statistical_classification" title="Statistical classification">classification</a></b>

In [17]:
soup.i

<i>k</i>

In [19]:
soup.a

<a class="mw-jump-link" href="#bodyContent">Jump to content</a>

In [None]:
soup.find_all('a')

In [24]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico')
soup = BeautifulSoup(res.text, 'html.parser')

x = soup.find_all('p')
text = ""

for i in range(len(x)):
  text += x[i].text.strip() + '\n'

In [26]:
text

'El aprendizaje automático (AA); también llamado automatizado, computacional de máquinas, o maquinal[1]\u200b (del inglés machine learning, ML), es el subcampo de las ciencias de la computación y una rama de la inteligencia artificial, cuyo objetivo es desarrollar técnicas que permitan que las computadoras aprendan. Se dice que un agente aprende cuando su desempeño mejora con la experiencia y mediante el uso de datos; es decir, cuando la habilidad no estaba presente en su genotipo o rasgos de nacimiento.[2]\u200b "En el aprendizaje de máquinas un computador observa datos, construye un modelo basado en esos datos y utiliza ese modelo a la vez como una hipótesis acerca del mundo y una pieza de software que puede resolver problemas".[3]\u200b\nEn muchas ocasiones el campo de actuación del aprendizaje automático se solapa con el de la estadística inferencial, ya que las dos disciplinas se basan en el análisis de datos. Sin embargo, el aprendizaje automático incorpora las preocupaciones de 