# Dividir

[Pablo A. Haya](https://pablohaya.com)

En la introducción comentabamos que existen diversas operaciones que se pueden realizar empleando expresiones regulares. Una muy útil es dividir un texto en palabras, o sentencias, o una palabra en varias partes.

Si estamos buscando separar un texto en palabras, podemos utilizar la función `re.findall()` que ya conocemos. Recordemos que el símbolo `\w` permite recuperar todas las letras, números, y el caracter `_`. Combinándolo con el símbolo `+` podemos separar fácilmente una frase en palabras.

In [4]:
import re

trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que,
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

re.findall(r"\w+", trabalenguas)

['Cuando',
 'cuentes',
 'cuentos',
 'cuenta',
 'cuantos',
 'cuentos',
 'cuentas',
 'por',
 'que',
 'si',
 'no',
 'cuentas',
 'cuantos',
 'cuentos',
 'cuentas',
 'nunca',
 'sabrás',
 'cuantos',
 'cuentos',
 'sabes',
 'contar']

El módulo `re` incluye una función específica para separar un texto, `re.split()`,  que es la versión potente del método `split()` que incorporan las cadenas de caracteres.

Siguiendo con el ejemplo anterior, si utilizamos la función `re.split()` tenemos que definir un expresión regular que indique cuales son los separadores. Aquí acude a nuestra ayuda el símbolo especial `\s` que nos permite hacer referencia a cualquier caracter que suele actuar como separador (ej. espacio en blanco, retornos de carro, saltos de línea...)

In [7]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que,
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

re.split(r"\s", trabalenguas)

['Cuando',
 'cuentes',
 'cuentos',
 'cuenta',
 'cuantos',
 'cuentos',
 'cuentas',
 'por',
 'que,',
 'si',
 'no',
 'cuentas',
 'cuantos',
 'cuentos',
 'cuentas,',
 'nunca',
 'sabrás',
 'cuantos',
 'cuentos',
 'sabes',
 'contar.']

Si te fijas la expresión anterior no hemos incluido el símbolo `+` después de `\s`.

**Prueba tú mismo**. Modifica el trabalenguas anterior e incluye más de un espacio para separar algunas de las palabras. Prueba a ejecutar `re.split()` con `\s`, y con `\s+` ¿cual es la diferencia? ¿por qué?

Una diferencia aparente pequeña pero importante entre `re.findall(\w+)` y `re.split(\s+)` es que este segundo incluye los símbolos de puntuación como parte de las palabras, como es de `que,`, y `contar.` en el ejemplo anterior. Recordar que `\w+` empareja letras y dígitos, y el caracter `_` con lo que cualquier símbolo de puntuación queda excluido. Mientras que `\s+` divide únicamente por los símbolos de separación universales que comentabamos más arriba. Esta diferencia se hace más evidente si incluimos más símbolos de puntuación. 

**Prueba tú mismo**. Las dos operaciones `re.findall(\w+)` y `re.split(\s+)` con el siguiente trabalenguas `"Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"`

Podemos jugar también con la expresión contraria a `\s` que es `\S`, la cual reconoce cualquier caracter que **no** sea un separador.

**Prueba tú mismo**. A utilizar de nuevo `re.findall()` con `\S+` para separar las palabras del trabalenguas ¿qué diferencia hay con `\w+`? ¿y con `\s+` utilizando `re.split()`? ¿y con `\W+` utilizando `re.split()`?

## Ejercicios

**1. Ejercicio** Dada el siguiente texto:

```
Los signos de puntuación delimitan las frases y los párrafos, establecen la jerarquía sintáctica de las proposiciones para conseguir estructurar al texto, ordenan las ideas y las jerarquizan en principales y secundarias. La puntuación varía según el estilo de escritura; sin embargo, las diferencias de estilo que se puedan presentar no eximen a nadie los signos con ciertas normas mínimas y de evitar errores generalmente considerados como inaceptables. De ahí la importancia de conocer y aplicar las normas básicas de la puntuación. 
```

dividirlo en oraciones considerando el `;` también como un separador.

In [20]:
s = """Los signos de puntuación delimitan las frases y los párrafos, establecen la jerarquía sintáctica de las proposiciones para conseguir estructurar al texto, ordenan las ideas y las jerarquizan en principales y secundarias. La puntuación varía según el estilo de escritura; sin embargo, las diferencias de estilo que se puedan presentar no eximen a nadie los signos con ciertas normas mínimas y de evitar errores generalmente considerados como inaceptables. De ahí la importancia de conocer y aplicar las normas básicas de la puntuación."""

re.split(r"[.;]", s)

['Los signos de puntuación delimitan las frases y los párrafos, establecen la jerarquía sintáctica de las proposiciones para conseguir estructurar al texto, ordenan las ideas y las jerarquizan en principales y secundarias',
 ' La puntuación varía según el estilo de escritura',
 ' sin embargo, las diferencias de estilo que se puedan presentar no eximen a nadie los signos con ciertas normas mínimas y de evitar errores generalmente considerados como inaceptables',
 ' De ahí la importancia de conocer y aplicar las normas básicas de la puntuación',
 '']