<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Clase 22

Introducción PNL

In [None]:
corpus = [
    "hola como estas",
    "hola como te va",
    "hola que tal",
    "hoy es un gran día",
    "hoy estamos felices",
    "hoy comemos pastel",
    "mañana iremos al cine"
]


In [None]:
from collections import defaultdict

# Estructura de datos: diccionario de palabras -> siguientes palabras posibles
predictor = defaultdict(lambda: defaultdict(int))

for sentence in corpus:
    words = sentence.lower().split()
    for i in range(len(words) - 1):
        predictor[words[i]][words[i + 1]] += 1


In [None]:
def sugerir_siguiente(palabra):
    if palabra not in predictor:
        return "Sin sugerencias"
    siguientes = predictor[palabra]
    sugerencia = max(siguientes, key=siguientes.get)
    return sugerencia


In [None]:
entrada = "hoy"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hoy': es


In [None]:
entrada = "hola"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hola': como


In [None]:
entrada = "hoy estamos"
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")


Sugerencia para 'hoy estamos': Sin sugerencias


In [None]:
entrada = input("Ingresa una palabra: ")
print(f"Sugerencia para '{entrada}': {sugerir_siguiente(entrada)}")

Ingresa una palabra: mañana
Sugerencia para 'mañana': iremos


### NLTK

https://www.nltk.org/


# Análisis del archivo `robots.txt` de Wikipedia

URL: [https://en.wikipedia.org/robots.txt](https://en.wikipedia.org/robots.txt)

---

## 🧱 ESTRUCTURA BÁSICA DE UN `robots.txt`

La estructura básica de un archivo `robots.txt` tiene reglas con esta sintaxis:

```
User-agent: [nombre del bot]
Disallow: [ruta que no se debe rastrear]
Allow: [ruta que sí se puede rastrear]
```

Opcionalmente puede incluir:

- `Sitemap:` → Para decir dónde está el mapa del sitio.
- `Crawl-delay:` → Para limitar la frecuencia con la que un bot accede a las páginas.

---

## 🔍 CONTENIDO DE `robots.txt` de Wikipedia

### 1. Comentarios informativos

```txt
# Please note: There are multiple Wikimedia projects, including Wikipedia, ...
```

Estos son **comentarios informativos** para humanos que leen el archivo. Indican que existen múltiples proyectos de Wikimedia y que cada uno tiene su propio `robots.txt`.

---

### 2. Reglas para todos los bots

```txt
User-agent: *
Disallow: /wiki/Special:
Disallow: /w/
Disallow: /trap/
```

**Significado**:

- `User-agent: *` → Aplica a **todos los bots**.
- `Disallow: /wiki/Special:` → Bloquea las páginas especiales (como `/wiki/Special:RecentChanges`, etc.).
- `Disallow: /w/` → Bloquea el acceso al backend del software MediaWiki (como `/w/index.php`, etc.).
- `Disallow: /trap/` → Bloquea una ruta trampa para bots maliciosos.

---

### 3. Reglas específicas para algunos bots

```txt
User-agent: Googlebot
Disallow: /w/
```

```txt
User-agent: Bingbot
Disallow: /w/
```

Estos bloques son similares pero aplican a **bots específicos** (como Googlebot y Bingbot). También se les bloquea la carpeta `/w/`.

---

### 4. Crawl-delay para algunos bots

```txt
User-agent: Slurp
Crawl-delay: 1
```

Esto le dice al bot de Yahoo (Slurp) que espere **al menos 1 segundo entre cada solicitud**.

---

### 5. Sitemap

```txt
Sitemap: https://en.wikipedia.org/sitemap.xml
```

Esto indica a los bots dónde pueden encontrar el **mapa del sitio**, que es un archivo con URLs recomendadas para rastrear.

---

## ✅ RESUMEN

- Wikipedia **permite** el acceso a la mayoría de sus páginas de artículos.
- **Restringe** el acceso a:
  - Páginas especiales del sistema (`/wiki/Special:`),
  - Rutas del backend del software MediaWiki (`/w/`),
  - Carpetas trampa o privadas (`/trap/`).
- Define reglas específicas para algunos bots populares.
- Incluye un `sitemap.xml`.


Por ejemplo hay páginas restrictivas para los sistemas automatizados de extraer datos, ejemplo: https://www.instagram.com/robots.txt

![Imagen estructura HTML](https://disenowebakus.net/imagenes/articulos/estructura-basica-de-una-pagina-web-en-html.jpg)

# Descargar información desde sitio web

![verbos http](https://gautambiztalkblog.wordpress.com/wp-content/uploads/2015/03/crud.jpg)

https://requests.readthedocs.io/en/latest/

![Códigos de status de requests](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcT2oPHcwlYQadHfInt1EeqLdH1TiaPYpV1LZA&s)

In [1]:
import requests
res = requests.get('https://en.wikipedia.org/wiki/Machine_learning')


In [2]:
res

<Response [200]>

In [3]:
res.status_code

200

In [4]:
res.links

{}

In [9]:
res.json

In [None]:
res.text

https://beautiful-soup-4.readthedocs.io/en/latest/

In [10]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://en.wikipedia.org/wiki/Machine_learning')
soup = BeautifulSoup(res.text, 'html.parser')


In [None]:
soup.head()

In [None]:
soup.body()

In [16]:
soup.b

<b><a href="/wiki/Statistical_classification" title="Statistical classification">classification</a></b>

In [17]:
soup.i

<i>k</i>

In [19]:
soup.a

<a class="mw-jump-link" href="#bodyContent">Jump to content</a>

In [None]:
soup.find_all('a')

In [31]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico')
soup = BeautifulSoup(res.text, 'html.parser')

x = soup.find_all(class_='mw-heading mw-heading3')
text = ''

for i in range(len(x)):
  text += x[i].text.strip()+'\n'

In [32]:
text

'Modelos[editar]\nÁrboles de decisiones[editar]\nReglas de asociación[editar]\nAlgoritmos genéticos[editar]\nRedes neuronales artificiales[editar]\nMáquinas de vectores de soporte[editar]\nAlgoritmos de agrupamiento[editar]\nRedes bayesianas[editar]\nSoftware de código abierto[editar]\nSoftware comercial[editar]\n'

In [35]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.clubdeperrosygatos.cl/categorias/ropa-vestuario-y-accesorios-perros-gatos/?sort_by=discount&page=1&rb_categories=Ropa%20Polerones%20Chaquetas%20Perros%20y%20Gatos&tab=products')
soup = BeautifulSoup(res.text, 'html.parser')

x = soup.find_all(class_='snize-title')
text = ''

for i in range(len(x)):
  text += x[i].text.strip()+'\n'

In [36]:
text

''

In [38]:
!pip install selenium


Collecting selenium
  Downloading selenium-4.34.2-py3-none-any.whl.metadata (7.5 kB)
Collecting trio~=0.30.0 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting outcome (from trio~=0.30.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.12.2->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.34.2-py3-none-any.whl (9.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.4/9.4 MB[0m [31m19.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio-0.30.0-py3-none-any.whl (499 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m499.2/499.2 kB[0m [31m31.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Downloading outcome-1.3.0.post

In [46]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Configurar Selenium en modo headless (sin abrir ventana)
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--no-sandbox")
# Inicializar el navegador
driver = webdriver.Chrome(options=chrome_options)

# URL del sitio
url = 'https://www.clubdeperrosygatos.cl/categorias/alimento/alimento-para-perros/alimento-humedo-perros/?sort_by=discount'
driver.get(url)

# Esperar hasta que los precios se carguen en la página
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, "snize-price"))
)
# Obtener HTML renderizado
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Extraer todos los precios
titulos = soup.find_all('span', class_='snize-title')
precios = soup.find_all('span', class_='snize-price snize-price-with-discount money')


# Mostrar resultados
print("Productos encontrados:")
for idx, (t, p) in enumerate(zip(titulos, precios), start=1):
    print(f"{idx}. {t.get_text(strip=True)} - {p.get_text(strip=True)}")

# Cerrar el navegador
driver.quit()

Productos encontrados:
1. Belcando cordero y patatas con arándano 125 Grs - $2.618
2. Belcando pato con arroz y arándano 125 Grs - $2.618
3. Belcando venado con mijo y arándano 125 grs - $2.618
4. Belcando Mastercraft Topping Pavo 100 Gr - $2.618
5. Belcando Mastercraft Topping Ternera 100 Gr - $2.618
6. BRAVERY TUNA AND VEGETABLES ADULT DOG WET FOOD 80 GR - $1.752
7. BRAVERY CHICKEN AND VEGETABLES ADULT DOG WET FOOD 80 GR - $1.862
8. Bravery chicken and vegetables dog wet food 290 gr - $2.967
9. Bravery Lata Tuna and Vegetables Dog Wet Food 290 gr - $2.967


# Llegamos hasta la p 25