<img src="images/di.png" alt="" width="200px" align="left"/>
<img src="images/utfsm.png" alt="" width="150px" align="right"/>

<br/>
<div align="center">
<h1>IWI131 Programación</h1><br/>
<h2>Procesamiento de Texto</h2>
<br/><br/>
Departamento de Informática<br/>
Universidad Técnica Federico Santa María
</div>

El **procesamiento de texto** consiste en manipular **strings** para:
1. **extraer información**
2. **convertir** un texto en otro
3. **codificar información**

- Servirá más adelante para crear o editar **archivos**.


Hasta ahora sabemos:

In [1]:
s = "hola"
t = "mundo"

In [2]:
s+t

'holamundo'

In [3]:
s*2

'holahola'

In [4]:
s[3]

'a'

In [5]:
s in t

False

In [6]:
list("abc")

['a', 'b', 'c']

## Secuencias de escape

Utilizando el caracter _backslash_ (\\) se pueden llamar a secuencias de escape que normalmente serían interpretadas como strings.

## Salto de línea

- Corresponde al caracter backslash seguido de una n: `'\n'`.
- Es invisible al utilizar `print`.

In [7]:
a = "piano\nviolin\noboe"

In [8]:
print(a)

piano
violin
oboe


No obstante, la secuencia de escape es parte del string.

In [9]:
a

'piano\nviolin\noboe'

## Tabulación

- Se utiliza con backslash más el caracter t: `\t`
- Es equivalente a hacer una tabulación.

In [10]:
a = "piano\tviolin\toboe"
print(a)

piano	violin	oboe


In [11]:
a

'piano\tviolin\toboe'

- La longitud de un salto de línea y una tabulación es 1. 
- Por lo general, el caracter backslash es ignorado para efectos de cualquier string porque permite hacer las secuencias de escape.

In [12]:
len("\n")

1

In [13]:
len("\t")

1

In [14]:
len("piano\nviolin\noboe")

17

### Removiendo carácteres especiales

El método `s.strip()` remueve espacios y caracteres especiales que aparezcan antes y después de algún texto.

In [15]:
s = "hola mundo\n"
print(s)

hola mundo



In [16]:
print(s.strip())

hola mundo


In [17]:
s

'hola mundo\n'

In [18]:
s.strip()

'hola mundo'

**Importante:** El método `strip` no remueve espacios, ni caracteres especiales que estén en medio de las palabras.

In [19]:
"hola\nmundo\n".strip()

'hola\nmundo'

### Reemplazar secciones de un string

El **método** `s.replace(antes,despues)` que reemplaza totas las apariciones del texto `antes` por el texto `despues` en `s`.

In [20]:
orden = "Quiero arroz con pollo"
orden.replace("arroz","pure")

'Quiero pure con pollo'

In [21]:
print(orden.replace("arroz","pure"))

Quiero pure con pollo


In [22]:
orden = orden.replace("arroz","pure")
print(orden)

Quiero pure con pollo


El valor del string **NO** cambia

In [23]:
a = "11111111-5"

In [24]:
# reemplazar el caracter '1' por '2' en la variable a (que es un string)
a.replace("1","2")

'22222222-5'

In [25]:
# reemplazar el caracter '1' por '2' en la variable a (que es un string)
# solo se reemplaza 2 veces
a.replace("1","2",2)

'22111111-5'

### Separar strings

- El método `s.split()` separa un string en varios substrings usando el espacio en blanco como separador.
- El método `s.split(sep)` separa un string en varios substrings usando el texto `sep` como separador.

In [26]:
s = "Ana lavaba las sabanas"

In [27]:
s.split()

['Ana', 'lavaba', 'las', 'sabanas']

In [28]:
s.split("aba")

['Ana lav', ' las s', 'nas']

In [29]:
print(s)

Ana lavaba las sabanas


¿Qué tipo de dato entrega el método `split`?

### Unir strings

El método `s.join(iterable)` une los strings de la variable `iterable` utilizando a `s` como _pegamento_.

In [30]:
valores = ['0', '1', '2', '3', '4', '5']
pegamento = " "
pegamento.join(valores)

'0 1 2 3 4 5'

In [31]:
",".join(valores)

'0,1,2,3,4,5'

In [32]:
valores

['0', '1', '2', '3', '4', '5']

In [33]:
"".join(valores)

'012345'

In [34]:
" ".join([1,2,4])

TypeError: sequence item 0: expected str instance, int found

In [35]:
" ".join(("1","2","4"))

'1 2 4'

In [36]:
" ".join("1245")

'1 2 4 5'

### Interpolación de strings

La **interpolación de strings** permite generar una **plantilla** que puede ser rellenada con información **dinámica**.

In [37]:
s =  "Soy {0} y vivo en {1}"

In [38]:
s.format("Perico","Valparaiso")

'Soy Perico y vivo en Valparaiso'

In [39]:
s.format("Erika","Berlin")

'Soy Erika y vivo en Berlin'

In [40]:
s.format("Wang Dawei","Beijing")

'Soy Wang Dawei y vivo en Beijing'

In [41]:
print(s)

Soy {0} y vivo en {1}


- `{0}` y `{1}` se llaman **campos**, y el método `format` va rellenando los campos en orden.

In [42]:
"{1}{0}{2}{0}".format("a","v","c")

'vaca'

In [43]:
"{0} y {1}".format("carne","huevos")

'carne y huevos'

In [44]:
"{1} y {0}".format("carne","huevos")

'huevos y carne'

In [45]:
"{2}".format("a")

IndexError: tuple index out of range

In [46]:
"{0}, {1} {3}".format("casa", "azul", "grande", "verde")

'casa, azul verde'

- Los campos pueden definirse por identificadores, en lugar de números.

In [47]:
s = "{nombre} estudia en la {universidad}"

In [48]:
s.format(nombre="Perico", universidad="UTFSM")

'Perico estudia en la UTFSM'

In [49]:
s.format(universidad="PUC",nombre="Yayita")

'Yayita estudia en la PUC'

### Algunas preguntas

- ¿Qué es lo que podemos hacer con strings?
- ¿Los métodos modifican al string?