# Sustituir

[Pablo A. Haya](https://pablohaya.com)

La función `re.sub()` permite reemplazar aquel texto que concuerde con la expresión regular por otra cadena. Es el hermano mayor de la función `str.replace()`. La sintaxis es `re.sub(pattern, repl, string)`. Así primero se incluye la expresión regular, a continuación la nueva cadena por la que se va a sustituir, y finalmente el texto sobre el cual se aplica la operación.

La siguiente operación eliminar las partes de un texto que cumplan determinado patrón.  

In [4]:
import re

trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que,
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.sub(r"c\w+s", "", trabalenguas))

Cuando   cuenta    por que,
si no    , nunca sabrás   sabes contar.


La expresión `r"c\w+s"` indica todas aquellas subcadenas que empiecen por `c`, y terminen por `s`. Estas se reemplazan por la cadena vacía `""`.

**Prueba tú mismo**. Reemplaza las palabras anteriores por la cadena `X`. ¿Qué pasa si eliminamos 's' de la expresión regular?, ¿qué tendríamos que hacer para indicar que solo reemplaze palabras que empiecen por `c`? 

Se pueden combinar `re.sub()` y grupos, haciendo referencia en el patrón a sustituir a parte de la cadena que se quiere sustituir. Así solo se reemplaza una parte del patrón. 

In [5]:
print(re.sub(r"c(\w+)s", r"x\1x", trabalenguas))

Cuando xuentex xuentox cuenta xuantox xuentox xuentax por que,
si no xuentax xuantox xuentox xuentax, nunca sabrás xuantox xuentox sabes contar.


En la primera expresión regular se indica un grupo que es todo aquello que está entre la `c` y la `s`. En la segunda expresión se referencia a ese grupo mediante `\1`, de manera que se mantiene ese grupo, y solo se reemplaza la `c` y la `s`, por `x`.

La función `re.subn()` opera igual que `re.sub()` pero devuelve una tupla que contiene la nueva cadena, y el número de sustituciones aplicadas. 

In [6]:
print(re.subn(r"c(\w+)s", r"x\1x", trabalenguas))

('Cuando xuentex xuentox cuenta xuantox xuentox xuentax por que,\nsi no xuentax xuantox xuentox xuentax, nunca sabrás xuantox xuentox sabes contar.', 11)


## Ejercicios

**Ejercio. 1** Dado el siguiente texte, eliminar todos los saltos de línea:

```
txt = """La filología   (del latín   philologĭa,y este del griego φιλολογία    philología,‘amor o interés

por las palabras’) es el estudio de    los textos escritos,a través    de los que se 

intenta    reconstruir, lo más    fielmente posible, el    sentido     original de estos con el   

respaldo    de la cultura que en ellos subyace."""
```

In [7]:
txt = """La filología   (del latín   philologĭa,y este del griego φιλολογία    philología,‘amor o interés

por las palabras’) es el estudio de    los textos escritos,a través    de los que se 

intenta    reconstruir,lo más    fielmente posible, el    sentido     original de estos con el   

respaldo    de la cultura que en ellos subyace."""

In [8]:
import re

txt = re.sub(r'[\n\r]', '', txt)
txt

'La filología   (del latín   philologĭa,y este del griego φιλολογία    philología,‘amor o interéspor las palabras’) es el estudio de    los textos escritos,a través    de los que se intenta    reconstruir,lo más    fielmente posible, el    sentido     original de estos con el   respaldo    de la cultura que en ellos subyace.'

**Ejercio. 2** Continuando con el ejercicio anterior, eliminar todos los espacios en blanco duplicados.

In [10]:
txt = re.sub(r'\s+', ' ', txt)
txt

'La filología (del latín philologĭa,y este del griego φιλολογία philología,‘amor o interéspor las palabras’) es el estudio de los textos escritos,a través de los que se intenta reconstruir,lo más fielmente posible, el sentido original de estos con el respaldo de la cultura que en ellos subyace.'

**Ejercio. 3** Continuando con el ejercicio anterior, añadir un espacio en aquellas `,` que se encuentren pegadas a la palabra anterior. Ejemplos:

```
philologĭa,y => philologĭa, y
philología,‘amor => philología, ‘amor
escritos,a => escritos, a
```

En cambio, `posible, el` tiene que mantenerse inalterado.

In [12]:
print(re.sub(",([^ ])", r", \1", txt))

La filología (del latín philologĭa, y este del griego φιλολογία philología, ‘amor o interéspor las palabras’) es el estudio de los textos escritos, a través de los que se intenta reconstruir, lo más fielmente posible, el sentido original de estos con el respaldo de la cultura que en ellos subyace.


**Ejercio. 4** Dado el siguiente listado:

    Chacel, Rosa (1898-1994)
    Laforet, Carmen (1921-2004)
    Martín Gaite, Carmen (1925-2000)
    Matute, Ana María (1925-2014)
    Fuertes, Gloria (1917-1998)
    Tellado, Corín (1927-2009)
    Montero, Rosa (1951)
    Grandes, Almudena (1960)
    Extebarría, Lucía (1966)
    Freire, Espido (1974)
    
imprimirlo con formato nombre apellidos y años. Ej: `Rosa Chacel (1898-1994)`   

In [26]:
txt = """Chacel, Rosa (1898-1994)
Laforet, Carmen (1921-2004)
Martín Gaite, Carmen (1925-2000)
Matute, Ana María (1925-2014)
Fuertes, Gloria (1917-1998)
Tellado, Corín (1927-2009)
Montero, Rosa (1951)
Grandes, Almudena (1960)
Extebarría, Lucía (1966)
Freire, Espido (1974)"""

txt = txt.split("\n")
for autora in txt:
    print(re.sub(r"(.*?),\s+(.*?)\s+\((.*?)\)", r"\2 \1 (\3)", autora))

Rosa Chacel (1898-1994)
Carmen Laforet (1921-2004)
Carmen Martín Gaite (1925-2000)
Ana María Matute (1925-2014)
Gloria Fuertes (1917-1998)
Corín Tellado (1927-2009)
Rosa Montero (1951)
Almudena Grandes (1960)
Lucía Extebarría (1966)
Espido Freire (1974)


**Ejercio. 5** Descargase la Regenta en formato html desde http://www.gutenberg.org/files/17073/17073-h/17073-h.htm, y extraer el texto enre las etiquetas `<body>` y `</body>`.

In [3]:
import requests

url = 'http://www.gutenberg.org/files/17073/17073-h/17073-h.htm'

myfile = requests.get(url)

open('regenta.html', 'wb').write(myfile.content)

2470694

In [8]:
import re
with open('regenta.html', encoding="iso-8859-1") as f:
    html = f.read()

In [27]:
print(html[:200])

<?xml version="1.0" encoding="iso-8859-1"?>

<!DOCTYPE html
   PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
   "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd" >

<html xmlns="http://www.w3.org/1999/x


In [36]:
html_body = re.match(r'.*<body>(.*)</body>.*', html, re.DOTALL).group(1)


<pre xml:space="preserve">
The Project Gutenberg EBook of La Regenta, by Leopoldo Alas

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may co


In [38]:
print(html_body[:200])


<pre xml:space="preserve">
The Project Gutenberg EBook of La Regenta, by Leopoldo Alas

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may co


**Ejercio. 6** Eliminar todas las etiquetas html del texto extraído en el ejercicio anterior.

In [41]:
text = re.sub(r'<.*?>', r"", html_body)

In [42]:
print(text)



The Project Gutenberg EBook of La Regenta, by Leopoldo Alas

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project Gutenberg License included
with this eBook or online at www.gutenberg.net


Title: La Regenta

Author: Leopoldo Alas

Release Date: November 16, 2005 [EBook #17073]
Last Updated: May 7, 2018

Language: Spanish

Character set encoding: ISO-8859-1

*** START OF THIS PROJECT GUTENBERG EBOOK LA REGENTA ***




Produced by Chuck Greif






    
      La Regenta
    
    
      por
    
    
      Leopoldo Alas «Clarín»
    
    
      Librería de Fernando Fé, Madrid
    
    
      1900.
    
    
    
      TOMO I
    
    
      Prólogo
    
    
      
        
          
            CAPÍTULOS: I,
            II, III,
            IV, V, <a
            href="#VImdash">VI, VII,
            VIII, IX,
            X, XI, <a
            href="#XIImdash">XII, 

In [43]:
text = re.sub(r'&iacute;', r"í", text)
print(text)



The Project Gutenberg EBook of La Regenta, by Leopoldo Alas

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project Gutenberg License included
with this eBook or online at www.gutenberg.net


Title: La Regenta

Author: Leopoldo Alas

Release Date: November 16, 2005 [EBook #17073]
Last Updated: May 7, 2018

Language: Spanish

Character set encoding: ISO-8859-1

*** START OF THIS PROJECT GUTENBERG EBOOK LA REGENTA ***




Produced by Chuck Greif






    
      La Regenta
    
    
      por
    
    
      Leopoldo Alas «Clarín»
    
    
      Librería de Fernando Fé, Madrid
    
    
      1900.
    
    
    
      TOMO I
    
    
      Prólogo
    
    
      
        
          
            CAPÍTULOS: I,
            II, III,
            IV, V, <a
            href="#VImdash">VI, VII,
            VIII, IX,
            X, XI, <a
            href="#XIImdash">XII, 