<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/4_pnl/clase_26.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 26


Expresiones regulares
https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str


# Manipulación de Cadenas en Python

Python ofrece una gran variedad de métodos para trabajar con cadenas de texto, fundamentales para el procesamiento de datos.

## Métodos Comunes de Cadenas

| Función                  | Explicación                                                                 |
|--------------------------|------------------------------------------------------------------------------|
| `x.lstrip()`             | Elimina espacios a la izquierda.                                            |
| `x.rstrip()`             | Elimina espacios a la derecha.                                              |
| `x.strip()`              | Elimina espacios en ambos lados.                                            |
| `x.replace(str1, str2)`  | Reemplaza la subcadena `str1` por `str2`.                                   |
| `x.count(str)`           | Cuenta cuántas veces aparece `str` en `x`.                                  |
| `x.find(str)`            | Devuelve el índice de la primera ocurrencia de `str`, o `-1` si no existe.  |
| `x.index(str)`           | Igual que `find`, pero lanza un error si `str` no se encuentra.             |
| `y.join(str_list)`       | Une los elementos de `str_list` usando `y` como separador.                  |
| `x.split(y)`             | Divide la cadena `x` usando `y` como separador.                             |
| `x.upper()`              | Convierte la cadena a mayúsculas.                                           |
| `x.lower()`              | Convierte la cadena a minúsculas.                                           |
| `len(x)`                 | Devuelve la longitud de la cadena.                                          |

## Aplicaciones Prácticas

### Ejercicio 1: Limpieza de texto
```python
texto = "   Hola mundo   "
print(texto.strip())
```

### Ejercicio 2: Reemplazo y conteo
```python
frase = "python es genial, python es fácil"
print(frase.replace("python", "Python"))
print(frase.count("python"))
```

### Ejercicio 3: Búsqueda
```python
mensaje = "Bienvenido al curso de Python"
print(mensaje.find("curso"))
print(mensaje.index("Python"))
```

### Ejercicio 4: Join y Split
```python
palabras = ["hola", "mundo"]
frase = "-".join(palabras)
print(frase)

print(frase.split("-"))
```

### Ejercicio 5: Mayúsculas y minúsculas
```python
x = "Python"
print(x.upper())
print(x.lower())
```

### Ejercicio 6: Longitud de la cadena
```python
mensaje = "Esto es una prueba"
print(len(mensaje))
```

## Expresiones Regulares

Las expresiones regulares son herramientas potentes para buscar patrones dentro de texto.

### Metacaracteres Comunes

```
. ^ $ * + ? { } [ ] \ | ( )
```

Estos caracteres tienen significados especiales y permiten construir patrones complejos.

Más información en: https://docs.python.org/3/howto/regex.html

## Ejercicios con Expresiones Regulares

### Ejercicio 7: Buscar números en texto
```python
import re

texto = "La temperatura es de 28 grados hoy."
resultado = re.findall(r"\d+", texto)
print(resultado)
```

### Ejercicio 8: Validar un correo electrónico
```python
import re

correo = "usuario@dominio.com"
patron = r"^[\w\.-]+@[\w\.-]+\.\w+$"
print(re.match(patron, correo) is not None)
```

### Ejercicio 9: Reemplazar espacios por guiones
```python
import re

frase = "texto con varios espacios"
print(re.sub(r"\s+", "-", frase))
```

### Ejercicio 10: Extraer datos de texto estructurado
```python
import re

texto = "Nombre: Juan, Edad: 35, Correo: juan@mail.com"
nombre = re.findall(r"Nombre: (\w+)", texto)
edad = re.findall(r"Edad: (\d+)", texto)
correo = re.findall(r"Correo: ([\w.-]+@[\w.-]+\.\w+)", texto)

print(nombre, edad, correo)
```

### Ejercicio 11: Detectar palabras que empiecen con mayúscula
```python
import re

texto = "Mi nombre es Carlos y vivo en Santiago"
palabras = re.findall(r"\b[A-Z][a-z]+\b", texto)
print(palabras)
```

### Ejercicio 12: Detectar fechas en formato dd/mm/aaaa
```python
import re

texto = "Fechas: 25/12/2025, 01/01/2026"
fechas = re.findall(r"\b\d{2}/\d{2}/\d{4}\b", texto)
print(fechas)
```

## Desafío Final

Dado el siguiente texto:

```python
texto = "Estudiante: Maria, Edad: 21, Email: maria23@gmail.com"
```

1. Extrae el nombre usando `split()` o `find()`.
2. Extrae el número de edad usando una expresión regular.
3. Verifica si el correo electrónico es válido con regex.


In [1]:
# Eliminar espacios a la izquierda

texto = "   Hola mundo   "
print(texto.lstrip())

Hola mundo   


In [2]:
# Eliminar espacios a la derecha

texto = "   Hola mundo   "
print(texto.rstrip())

   Hola mundo


In [3]:
# Eliminar espacios a ambos lados

texto = "   Hola mundo   "
print(texto.strip())

Hola mundo


In [8]:
# Reemplazar un string por otro y contar

frase = "python es genial, python es fácil"
print(frase.replace("python", "Python"))
print(frase.count("python"))

Python es genial, Python es fácil
2


In [10]:
mensaje = "Bienvenido al curso de Python"
print(mensaje.find("curso")) # Índice de la primera ocurrencia
print(mensaje.index("Python")) # Índice de la primera ocurrencia

14
23


In [11]:
palabras = ["hola", "mundo"]
frase = "-".join(palabras)
print(frase)

print(frase.split("-"))

hola-mundo
['hola', 'mundo']


In [12]:
x = "Python"
print(x.upper())
print(x.lower())

PYTHON
python


In [13]:
mensaje = "Esto es una prueba"
print(len(mensaje))

18


In [15]:
# Expresiones regulares, búsqueda de números

import re

texto = "La temperatura es de 28 grados hoy."
resultado = re.findall(r"\d+", texto)
print(resultado)

['28']


In [26]:
texto = "La temperatura es de 28 grados hoy."
resultado = re.findall(r"\d", texto)
print(resultado)

['2', '8']


In [27]:

texto = "La temperatura es de 28 grados hoy 14 de octubre de 2025."
resultado = re.findall(r"\d+", texto)
print(resultado)

['28', '14', '2025']


In [28]:
texto = "La temperatura es de 28 grados hoy 14 de octubre de 2025."
resultado = re.findall(r"[0-9]", texto)
print(resultado)

['2', '8', '1', '4', '2', '0', '2', '5']


In [29]:
texto = "La temperatura es de 28 grados hoy 14 de octubre de 2025."
resultado = re.findall(r"[0-9]+", texto)
print(resultado)

['28', '14', '2025']


In [36]:
texto = "La temperatura es de 28 grados hoy 14 de octubre de 2025."
resultado = re.findall(r"\d{4}", texto)
print(resultado)

['2025']


In [38]:
import re

texto = "La temperatura es de 28 grados hoy 14-10-25."
resultado = re.findall(r"\d{2}", texto)
print(resultado)

['28', '14', '10', '25']


In [39]:
import re

texto = "La temperatura es de 28 grados hoy 14-10-25."
resultado = re.findall(r"\d{2}-\d{2}-\d{2}", texto)
print(resultado)

['14-10-25']


In [40]:
import re

texto_con_fechas = "Eventos importantes ocurrieron el 14-10-2023 y el 25/12/2024, también el 01-01-25."
patron_fechas = r"\b\d{2}[-/]\d{2}[-/]\d{2,4}\b"
fechas_encontradas = re.findall(patron_fechas, texto_con_fechas)
print(fechas_encontradas)

['14-10-2023', '25/12/2024', '01-01-25']


In [34]:
import re

texto_con_años = "Eventos importantes ocurrieron en 1990, 2005, 2023 y continuarán en 2025."
patron_años = r"\b\d{4}\b"
años_encontrados = re.findall(patron_años, texto_con_años)
print(años_encontrados)

['1990', '2005', '2023', '2025']


In [16]:
import re

texto = "La temperatura es de 28 grados hoy."
resultado = re.findall(r"\D+", texto)
print(resultado)

['La temperatura es de ', ' grados hoy.']


In [17]:
re.findall(r"[a-z]+", texto)

['a', 'temperatura', 'es', 'de', 'grados', 'hoy']

In [18]:
re.findall(r"[A-Z]+", texto)

['L']

In [22]:
re.findall(r"\w+", texto)

['La', 'temperatura', 'es', 'de', '28', 'grados', 'hoy']

In [23]:
re.findall(r"\W+", texto)

[' ', ' ', ' ', ' ', ' ', ' ', '.']

In [24]:
re.findall(r"\s+", texto)

[' ', ' ', ' ', ' ', ' ', ' ']

In [25]:
re.findall(r"\S+", texto)

['La', 'temperatura', 'es', 'de', '28', 'grados', 'hoy.']

# Introducción a las Expresiones Regulares en Python

Las expresiones regulares (regex o regexp) son una herramienta poderosa para manipular y buscar patrones en cadenas de texto. En Python, se manejan principalmente a través del módulo `re`, que proporciona funciones para compilar patrones, buscar coincidencias y realizar sustituciones. Regex es útil en tareas como validación de emails, extracción de datos de logs, procesamiento de texto natural y más.

Para usar regex en Python, primero importa el módulo:

```python
import re
```

Un patrón regex es una secuencia de caracteres que define un criterio de búsqueda. Por ejemplo, el patrón `\d+` coincide con uno o más dígitos.

## Componentes Básicos de las Expresiones Regulares

Las regex se componen de **caracteres literales** (que coinciden exactamente con sí mismos) y **metacaracteres** (con significados especiales). Aquí va un desglose detallado:

### 1. Metacaracteres Básicos

- `.`: Coincide con cualquier carácter excepto una nueva línea (\n).
  - Ejemplo: `a.c` coincide con "abc", "a1c", pero no con "ac".
- `^`: Coincide con el inicio de la cadena.
  - Ejemplo: `^hello` coincide con "hello world" pero no con "world hello".
- `$`: Coincide con el final de la cadena.
  - Ejemplo: `world$` coincide con "hello world" pero no con "world hello".
- `\`: Escapa metacaracteres para tratarlos como literales (e.g., `\.` para coincidir con un punto literal).
- `|`: Operador OR (alternativa).
  - Ejemplo: `cat|dog` coincide con "cat" o "dog".

### 2. Clases de Caracteres

- `[]`: Define un conjunto de caracteres. Coincide con cualquiera dentro de los corchetes.
  - Ejemplo: `[abc]` coincide con "a", "b" o "c".
  - Rangos: `[a-z]` (letras minúsculas), `[0-9]` (dígitos), `[A-Za-z0-9]` (alfanuméricos).
  - Negación: `[^abc]` coincide con cualquier carácter excepto "a", "b" o "c".
- Clases predefinidas:
  - `\d`: Cualquier dígito (equivalente a `[0-9]`).
  - `\D`: Cualquier no dígito (equivalente a `[^0-9]`).
  - `\w`: Cualquier carácter alfanumérico o guion bajo (equivalente a `[a-zA-Z0-9_]`).
  - `\W`: Cualquier no alfanumérico (equivalente a `[^a-zA-Z0-9_]`).
  - `\s`: Cualquier espacio en blanco (espacio, tab, nueva línea).
  - `\S`: Cualquier no espacio en blanco.
  - `\b`: Límite de palabra (transición entre \w y \W).
  - `\B`: No límite de palabra.

### 3. Cuantificadores

Especifican cuántas veces debe repetirse un elemento.

- `*`: 0 o más veces.
  - Ejemplo: `a*` coincide con "", "a", "aa", etc.
- `+`: 1 o más veces.
  - Ejemplo: `a+` coincide con "a", "aa", pero no con "".
- `?`: 0 o 1 vez (opcional).
  - Ejemplo: `colou?r` coincide con "color" y "colour".
- `{n}`: Exactamente n veces.
  - Ejemplo: `a{3}` coincide con "aaa".
- `{n,m}`: Entre n y m veces.
  - Ejemplo: `a{2,4}` coincide con "aa", "aaa", "aaaa".
- `{n,}`: n o más veces.
- Modo no codicioso: Agrega `?` después del cuantificador (e.g., `*?`, `+?`) para coincidir con la menor cantidad posible.

### 4. Grupos y Capturas

- `()`: Define un grupo capturador. Permite extraer partes de la coincidencia.
  - Ejemplo: `(\d{3})-(\d{2})` coincide con "123-45" y captura "123" y "45".
- Grupos no capturadores: `(?:...)` – Agrupa sin capturar.
- Referencias: `\1`, `\2`, etc., para referenciar grupos capturados en el mismo patrón o en sustituciones.
- Lookahead y Lookbehind:
  - `(?=...)`: Lookahead positivo (coincide si sigue ...).
  - `(?!...)`: Lookahead negativo (coincide si no sigue ...).
  - `(?<=...)`: Lookbehind positivo (coincide si precede ...).
  - `(?<!...)`: Lookbehind negativo (coincide si no precede ...).
  - Ejemplo: `\d+(?=%)` coincide con dígitos seguidos de "%" (sin incluir el "%").

## Funciones Principales del Módulo `re`

El módulo `re` ofrece varias funciones. Primero, puedes compilar un patrón para reutilizarlo:

```python
pattern = re.compile(r'\d+')  # r'' para raw strings, evita escapes innecesarios
```

### 1. re.match(pat, string, flags=0)

- Busca coincidencia solo al inicio de la cadena.
- Retorna un objeto Match si coincide, None otherwise.
- Ejemplo:

```python
match = re.match(r'hello', 'hello world')
if match:
    print(match.group())  # 'hello'
```

### 2. re.search(pat, string, flags=0)

- Busca la primera coincidencia en cualquier parte de la cadena.
- Similar a match, pero no restringido al inicio.
- Ejemplo:

```python
search = re.search(r'world', 'hello world')
print(search.group())  # 'world'
```

### 3. re.findall(pat, string, flags=0)

- Retorna una lista de todas las coincidencias no solapantes.
- Si hay grupos, retorna tuplas de grupos.
- Ejemplo:

```python
print(re.findall(r'\d+', 'Hay 123 manzanas y 45 peras'))  # ['123', '45']
```

### 4. re.finditer(pat, string, flags=0)

- Similar a findall, pero retorna un iterador de objetos Match.
- Útil para obtener posiciones y más detalles.

### 5. re.sub(pat, repl, string, count=0, flags=0)

- Sustituye coincidencias con repl (puede ser string o función).
- Ejemplo:

```python
print(re.sub(r'\d+', 'X', 'Hay 123 manzanas'))  # 'Hay X manzanas'
```

- Con función: `re.sub(r'(\w+)', lambda m: m.group(1).upper(), 'hello world')` → 'HELLO WORLD'

### 6. re.split(pat, string, maxsplit=0, flags=0)

- Divide la cadena en una lista usando el patrón como separador.
- Ejemplo:

```python
print(re.split(r'\s+', 'hello   world'))  # ['hello', 'world']
```

## Banderas (Flags)

Modifican el comportamiento del patrón. Se pasan como argumento `flags` o en el patrón con `(?i)` para ignorecase, etc.

- `re.IGNORECASE` o `re.I`: Ignora mayúsculas/minúsculas.
- `re.MULTILINE` o `re.M`: ^ y $ coinciden con inicios/fines de líneas, no solo de la cadena.
- `re.DOTALL` o `re.S`: . coincide con cualquier carácter, incluyendo \n.
- `re.VERBOSE` o `re.X`: Permite patrones multilínea con comentarios.
- Ejemplo: `re.compile(r'hello', re.I)` coincide con "Hello".

## Objetos Match

Cuando obtienes un Match (de match, search, etc.):

- `match.group(n)`: Retorna el grupo n (0 para toda la coincidencia).
- `match.groups()`: Tupla de todos los grupos.
- `match.start()`, `match.end()`: Posiciones de inicio y fin.
- `match.span()`: Tupla (start, end).

## Ejemplos Prácticos

1. **Validar Email**:

   ```python
   email_pat = r'^[\w\.-]+@[\w\.-]+\.\w+$'
   print(bool(re.match(email_pat, 'user@example.com')))  # True
   ```

2. **Extraer URLs**:

   ```python
   text = 'Visita https://example.com o http://test.org'
   urls = re.findall(r'https?://[\w\.-]+(?:/[\w\.-]*)*', text)
   print(urls)  # ['https://example.com', 'http://test.org']
   ```

3. **Limpiar Texto**:

   ```python
   text = 'Hola!!! ¿Cómo estás???'
   cleaned = re.sub(r'[!?.]{2,}', lambda m: m.group(0)[0], text)
   print(cleaned)  # 'Hola! ¿Cómo estás?'
   ```

4. **Grupos Nombrados**:
   - Usa `(?P<name>...)` para nombrar grupos.

   ```python
   pat = r'(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})'
   match = re.match(pat, '2023-10-14')
   print(match.group('year'))  # '2023'
   ```

## Consejos y Mejores Prácticas

- Usa strings raw (`r''`) para patrones para evitar dobles escapes.
- Compila patrones si los usas múltiples veces para mejorar rendimiento.
- Prueba patrones en herramientas como regex101.com.
- Evita regex para parsing complejo (e.g., HTML); usa parsers dedicados.
- Regex puede ser codicioso por defecto; usa modo no codicioso cuando necesites coincidencias mínimas.
- Maneja excepciones: Si no hay coincidencia, group() lanza AttributeError si match es None.

# Elementos Opcionales en Expresiones Regulares

En regex, un elemento opcional es aquel que puede aparecer **cero o una vez** en la cadena. Esto se maneja con:

1. **Cuantificador `?`**: Indica que el carácter, grupo o clase de caracteres precedente es opcional (puede estar o no).
2. **Grupos opcionales**: Usando paréntesis `()` con `?` para hacer que un grupo entero sea opcional.
3. **Alternativas con `|`**: Para casos donde el elemento opcional tiene varias formas posibles.

## 1. Usar `?` para Hacer un Carácter o Patrón Opcional

El cuantificador `?` hace que el elemento inmediatamente anterior sea opcional. Esto es útil para caracteres individuales o patrones pequeños.

### Ejemplo 1: Hacer un carácter opcional

Supongamos que quieres buscar palabras como "color" o "colour" (donde la "u" es opcional).

```python
import re

text = "I like color and colour."
pattern = r'colou?r'  # La "u" es opcional
matches = re.findall(pattern, text)
print(matches)  # ['color', 'colour']
```

**Explicación**: `u?` significa que la "u" puede aparecer 0 o 1 vez. El patrón coincide con "color" (sin "u") y "colour" (con "u").

### Ejemplo 2: Hacer una secuencia opcional

Quieres coincidir con números que pueden o no tener un signo "+" o "-".

```python
text = "Los valores son +123, -456, 789."
pattern = r'[+-]?\d+'  # El signo es opcional
matches = re.findall(pattern, text)
print(matches)  # ['+123', '-456', '789']
```

**Explicación**: `[+-]?` indica que el signo "+" o "-" puede aparecer 0 o 1 vez antes de los dígitos (`\d+`).

## 2. Grupos Opcionales con `(...)` y `?`

Si necesitas que un grupo entero sea opcional, usa paréntesis para agrupar el patrón y luego aplica `?`.

### Ejemplo 3: Hacer una palabra o frase opcional

Quieres buscar fechas en formato "DD-MM-YYYY" o "DD-MM-YY", donde los últimos dos dígitos del año son opcionales.

```python
text = "Fechas: 14-10-2025, 15-11-23"
pattern = r'\d{2}-\d{2}-(\d{2}|\d{4})'  # Acepta 2 o 4 dígitos para el año
matches = re.findall(pattern, text)
print(matches)  # ['2025', '23']
```

**Explicación**: El grupo `(\d{2}|\d{4})` permite que el año sea de 2 o 4 dígitos. Pero si quieres que los últimos dos dígitos sean opcionales, puedes usar:

```python
pattern = r'\d{2}-\d{2}-\d{2}(\d{2})?'  # Los últimos dos dígitos son opcionales
matches = re.findall(pattern, text)
print(matches)  # [('2025', '25'), ('23', '')]
```

**Explicación**: `(\d{2})?` hace que los últimos dos dígitos sean opcionales. El resultado es una tupla por cada coincidencia, donde el segundo elemento es vacío si no hay dígitos adicionales.

## 3. Usar `|` para Alternativas Opcionales

El operador `|` permite especificar alternativas. Puedes usarlo para manejar casos donde algo puede estar presente en diferentes formas o no estarlo.

### Ejemplo 4: Protocolo HTTP/HTTPS opcional en URLs

Quieres extraer URLs que pueden empezar con "http://", "https://", o no tener protocolo.

```python
text = "Visita https://example.com, http://test.org, example.net"
pattern = r'(https?://)?[\w\.-]+'  # Protocolo opcional
matches = re.findall(pattern, text)
print(matches)  # ['https://', 'http://', '']
```

**Explicación**: `(https?://)?` hace que el protocolo ("http://" o "https://") sea opcional. El `s?` permite que la "s" sea opcional, y el grupo entero `(...)` con `?` hace que el protocolo completo pueda no estar presente.

## 4. Usar Lookaheads para Condiciones Opcionales

A veces, quieres que algo sea opcional pero que dependa de una condición. Los lookaheads (`(?=...)` o `(?!...)`) son útiles aquí.

### Ejemplo 5: Números seguidos opcionalmente por "%"

Quieres extraer números que pueden o no estar seguidos por un signo de porcentaje.

```python
text = "Los valores son 50%, 75, 100%."
pattern = r'\d+(?=%)?'  # Número seguido opcionalmente por %
matches = re.findall(pattern, text)
print(matches)  # ['50', '75', '100']
```

**Explicación**: `(?=%)?` indica que el "%" es opcional (el lookahead en sí es opcional). Esto asegura que el número se extraiga sin incluir el "%" en la coincidencia.

## 5. Ejemplo Complejo: Validar Emails con Partes Opcionales

Supongamos que quieres validar emails donde el dominio puede tener subdominios opcionales (e.g., "user@domain.com" o "user@sub.domain.com").

```python
text = "Emails: user@domain.com, user@sub.domain.com, invalid@.com"
pattern = r'^[\w\.-]+@(?:[\w-]+\.)+[\w-]+$'
for email in text.split(", "):
    email = email.split(": ")[1]  # Limpiar "Emails: "
    if re.match(pattern, email):
        print(f"{email} es válido")
    else:
        print(f"{email} es inválido")
```

**Salida**:

```
user@domain.com es válido
user@sub.domain.com es válido
invalid@.com es inválido
```

**Explicación**:

- `[\w\.-]+`: Nombre de usuario (letras, números, puntos, guiones).
- `@`: Literal.
- `(?:[\w-]+\.)+`: Uno o más subdominios (no capturador con `?:`).
- `[\w-]+`: Dominio de nivel superior (e.g., "com").
- El grupo `(?:[\w-]+\.)+` permite subdominios opcionales repetidos.

## Consejos para Manejar Elementos Opcionales

1. **Usa `?` para simplicidad**: Si el elemento opcional es un solo carácter o pequeño patrón, `?` es suficiente.
2. **Agrupa con `()` para patrones complejos**: Si lo opcional es una secuencia, usa `(...)` con `?`.
3. **Prueba tus patrones**: Usa herramientas como regex101.com para verificar que el patrón coincida con lo esperado.
4. **Evita ambigüedad**: Asegúrate de que el patrón no coincida con casos no deseados. Por ejemplo, `a?` puede coincidir con una cadena vacía si no está bien delimitado.
5. **Combina con otros metacaracteres**: Usa `|`, clases de caracteres (`[]`), o lookaheads para mayor flexibilidad.

## Caso Práctico: Números de Teléfono con Formato Opcional

Supongamos que quieres buscar números de teléfono que pueden tener o no un código de país (e.g., "+54" o nada) y un guion opcional.

```python
text = "Contactos: +54123456789, 123456789, +54-987654321"
pattern = r'(\+?\d{2}-?)?\d{9}'  # Código de país opcional, guion opcional
matches = re.findall(pattern, text)
print(matches)  # ['+54', '', '+54-']
```

**Explicación**:

- `(\+?\d{2}-?)?`: El grupo del código de país (+ seguido de 2 dígitos y guion opcional) es opcional.
- `\d{9}`: Los 9 dígitos del número principal.
- El resultado muestra el grupo capturado (o vacío si no hay código).

In [4]:
import requests as rq

res = rq.get("https://en.wikipedia.org/wiki/Samsung", headers={
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/118.0.0.0 Safari/537.36"
})

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text, 'html.parser')

t = soup.find_all("p")
text = ''

for i in range(min(len(t), 3)):
  text += t[i].text.strip() + '\n'

print(text)


Samsung Group[1] (Korean: 삼성; pronounced [samsʌŋ]; stylised as SΛMSUNG) is a South Korean multinational manufacturing conglomerate headquartered in the Samsung Town office complex in Seoul. The group consists of numerous affiliated businesses,[2] most of which operate under the Samsung brand, and is the largest chaebol (business conglomerate) in South Korea. As of 2024,[update] Samsung has the world's fifth-highest brand value.[3]
Founded in 1938 by Lee Byung-chul as a trading company, Samsung diversified into various sectors, including food processing, textiles, insurance, securities, and retail, over the next three decades. In the late 1960s, Samsung entered the electronics industry, followed by the construction and shipbuilding sectors in the mid-1970s—areas that would fuel its future growth. After Lee died in 1987, Samsung was divided into five business groups: Samsung Group, Shinsegae Group, CJ Group, Hansol Group, and JoongAng Group.



In [5]:
text

"\nSamsung Group[1] (Korean: 삼성; pronounced [samsʌŋ]; stylised as SΛMSUNG) is a South Korean multinational manufacturing conglomerate headquartered in the Samsung Town office complex in Seoul. The group consists of numerous affiliated businesses,[2] most of which operate under the Samsung brand, and is the largest chaebol (business conglomerate) in South Korea. As of 2024,[update] Samsung has the world's fifth-highest brand value.[3]\nFounded in 1938 by Lee Byung-chul as a trading company, Samsung diversified into various sectors, including food processing, textiles, insurance, securities, and retail, over the next three decades. In the late 1960s, Samsung entered the electronics industry, followed by the construction and shipbuilding sectors in the mid-1970s—areas that would fuel its future growth. After Lee died in 1987, Samsung was divided into five business groups: Samsung Group, Shinsegae Group, CJ Group, Hansol Group, and JoongAng Group.\n"

In [6]:
text = text.strip()

In [7]:
text

"Samsung Group[1] (Korean: 삼성; pronounced [samsʌŋ]; stylised as SΛMSUNG) is a South Korean multinational manufacturing conglomerate headquartered in the Samsung Town office complex in Seoul. The group consists of numerous affiliated businesses,[2] most of which operate under the Samsung brand, and is the largest chaebol (business conglomerate) in South Korea. As of 2024,[update] Samsung has the world's fifth-highest brand value.[3]\nFounded in 1938 by Lee Byung-chul as a trading company, Samsung diversified into various sectors, including food processing, textiles, insurance, securities, and retail, over the next three decades. In the late 1960s, Samsung entered the electronics industry, followed by the construction and shipbuilding sectors in the mid-1970s—areas that would fuel its future growth. After Lee died in 1987, Samsung was divided into five business groups: Samsung Group, Shinsegae Group, CJ Group, Hansol Group, and JoongAng Group."

In [9]:
# Contar cuantas veces aparece la palabra 'Samsung' en text

text.count('Samsung')

8

In [14]:
# Longitud de la cadena de text

len(text)

953

In [41]:
import re

# Expresión regular para encontrar diferentes formatos de fecha
# Busca patrones como YYYY, YYYY–YYYY, Month YYYY, DD Month YYYY, Month DD, YYYY
date_pattern = re.compile(r'\b(\d{4}|\d{4}–\d{4}|(?:January|February|March|April|May|June|July|August|September|October|November|December)\s\d{4}|\d{1,2}\s(?:January|February|March|April|May|June|July|August|September|October|November|December)\s\d{4}|(?:January|February|March|April|May|June|July|August|September|October|November|December)\s\d{1,2},\s\d{4})\b')

# Encuentra todas las coincidencias en el texto
dates_found = date_pattern.findall(text)

# Imprime las fechas encontradas
for date in dates_found:
    print(date)


2024
1938
1987


In [42]:
resultado=(re.findall(r"\d{4}", text)) # fecha
print(resultado)

['2024', '1938', '1960', '1970', '1987']


In [43]:
resultado=(re.findall(r"\d{4}?s", text)) # fecha
print(resultado)

['1960s', '1970s']
