# IWI131 Programación

## Procesamiento de Texto

El **procesamiento de texto** consiste en manipular **strings** para:
1. **extraer información**
2. **convertir** un texto en otro
3. **codificar información**

- Servirá más adelante para crear o editar **archivos**.


Hasta ahora sabemos:

In [1]:
s = "hola"
t = "mundo"

In [2]:
s+t

'holamundo'

In [3]:
s*2

'holahola'

In [4]:
s[3]

'a'

In [5]:
s in t

False

In [6]:
list("abc")

['a', 'b', 'c']

## Secuencias de escape

Utilizando el caracter _backslash_ (\\) se pueden llamar a secuencias de escape que normalmente serían interpretadas como strings.

## Salto de línea

- Corresponde al caracter backslash seguido de una n: `'\n'`.
- Es invisible al utilizar `print`.

In [7]:
a = "piano\nviolin\noboe"

In [8]:
print(a)

piano
violin
oboe


No obstante, la secuencia de escape es parte del string.

In [9]:
a

'piano\nviolin\noboe'

## Tabulación

- Se utiliza con backslash más el caracter t: `\t`
- Es equivalente a hacer una tabulación.

In [10]:
a = "piano\tviolin\toboe"
print(a)

piano	violin	oboe


In [11]:
a

'piano\tviolin\toboe'

- La longitud de un salto de línea y una tabulación es 1. 
- Por lo general, el caracter backslash es ignorado para efectos de cualquier string porque permite hacer las secuencias de escape.

In [12]:
len("\n")

1

In [13]:
len("\t")

1

In [14]:
len("piano\nviolin\noboe")

17

### Removiendo carácteres especiales

El método `s.strip()` remueve espacios y caracteres especiales que aparezcan antes y después de algún texto.

In [15]:
s = "hola mundo\n"
print(s)

hola mundo



In [16]:
print(s.strip())

hola mundo


In [17]:
s

'hola mundo\n'

In [18]:
s.strip()

'hola mundo'

**Importante:** El método `strip` no remueve espacios, ni caracteres especiales que estén en medio de las palabras.

In [19]:
"hola\nmundo\n".strip()

'hola\nmundo'

### Reemplazar secciones de un string

El **método** `s.replace(antes,despues)` que reemplaza totas las apariciones del texto `antes` por el texto `despues` en `s`.

In [20]:
orden = "Quiero arroz con pollo"
orden.replace("arroz","pure")

'Quiero pure con pollo'

In [21]:
print(orden.replace("arroz","pure"))

Quiero pure con pollo


In [22]:
orden = orden.replace("arroz","pure")
print(orden)

Quiero pure con pollo


El valor del string **NO** cambia

In [23]:
a = "11111111-5"

In [24]:
# reemplazar el caracter '1' por '2' en la variable a (que es un string)
a.replace("1","2")

'22222222-5'

In [25]:
# reemplazar el caracter '1' por '2' en la variable a (que es un string)
# solo se reemplaza 2 veces
a.replace("1","2",2)

'22111111-5'

### Separar strings

- El método `s.split()` separa un string en varios substrings usando el espacio en blanco como separador.
- El método `s.split(sep)` separa un string en varios substrings usando el texto `sep` como separador.

In [26]:
s = "Ana lavaba las sabanas"

In [27]:
s.split()

['Ana', 'lavaba', 'las', 'sabanas']

In [28]:
s.split("aba")

['Ana lav', ' las s', 'nas']

In [29]:
print(s)

Ana lavaba las sabanas


¿Qué tipo de dato entrega el método `split`?

### Unir strings

El método `s.join(iterable)` une los strings de la variable `iterable` utilizando a `s` como _pegamento_.

In [30]:
valores = ['0', '1', '2', '3', '4', '5']
pegamento = " "
pegamento.join(valores)

'0 1 2 3 4 5'

In [31]:
",".join(valores)

'0,1,2,3,4,5'

In [32]:
valores

['0', '1', '2', '3', '4', '5']

In [33]:
"".join(valores)

'012345'

In [38]:
" ".join([1,2,4])

TypeError: sequence item 0: expected str instance, int found

In [41]:
" ".join(("1","2","4"))

'1 2 4'

In [42]:
" ".join("1245")

'1 2 4 5'

### Interpolación de strings

La **interpolación de strings** permite generar una **plantilla** que puede ser rellenada con información **dinámica**.

In [43]:
s =  "Soy {0} y vivo en {1}"

In [44]:
s.format("Perico","Valparaiso")

'Soy Perico y vivo en Valparaiso'

In [45]:
s.format("Erika","Berlin")

'Soy Erika y vivo en Berlin'

In [46]:
s.format("Wang Dawei","Beijing")

'Soy Wang Dawei y vivo en Beijing'

In [47]:
print(s)

Soy {0} y vivo en {1}


- `{0}` y `{1}` se llaman **campos**, y el método `format` va rellenando los campos en orden.

In [48]:
"{1}{0}{2}{0}".format("a","v","c")

'vaca'

In [49]:
"{0} y {1}".format("carne","huevos")

'carne y huevos'

In [50]:
"{1} y {0}".format("carne","huevos")

'huevos y carne'

In [51]:
"{2}".format("a")

IndexError: tuple index out of range

In [53]:
"{0}, {1} {3}".format("casa", "azul", "grande", "verde")

'casa, azul verde'

- Los campos pueden definirse por identificadores, en lugar de números.

In [54]:
s = "{nombre} estudia en la {universidad}"

In [55]:
s.format(nombre="Perico", universidad="UTFSM")

'Perico estudia en la UTFSM'

In [56]:
s.format(universidad="PUC",nombre="Yayita")

'Yayita estudia en la PUC'

## Archivos de Texto

Tipo de archivo informático que contiene únicamente texto formado por caracteres que son legibles por humanos, careciendo de cualquier tipo de formato tipográfico.

Ejemplo de archivo: `quijote.txt`

```
En un lugar de la Mancha
de cuyo nombre no quiero acordarme
no ha mucho tiempo que vivia un hidalgo
```

## Protocolo de uso

1. Abrir el archivo
2. Recorrer el archivo
3. Cerrar el archivo

### Apertura de Archivo

Un archivo puede ser abierto mediante la función `open`, que acepta como parámetros la dirección donde se encuentra el archivo y el modo de apertura. Los modos de apertura son:
* *Lectura* `'r'`
* *Escritura* `'w'`
* *Escritura añadiendo al final del archivo* `'a'`

In [57]:
# Por omisión los archivos se abren en modo 'r'
archivo = open('quijote.txt')

### Recorrer el archivo

Un **archivo** puede considerarse un tipo de dato **iterable**, es decir, podemos recorrerlo con  `for`.

Al momento de iterar el archivo, se incluye la secuencia de escape. Por ejemplo `'En un lugar de la Mancha\n'`. Si queremos "limpiar" la línea leída es necesario utilizar la función `strip()`, vista en procesamiento de texto.

In [58]:
for linea in archivo:
    # Operaciones sobre linea
    linea = linea.strip()
    print(linea)

En un lugar de la Mancha
de cuyo nombre no quiero acordarme
no ha mucho tiempo que vivia un hidalgo


### Cierre de archivo

El último paso es cerrar el archivo luego de leer la información. Para ello se utiliza el método `close()`.

In [59]:
archivo.close()

## Creación de archivos

### Apertura

Para escribir un archivo, este debe abrirse en modo escritura usando la función `open` con el parámetro `'w'`.

In [60]:
nuevo_archivo = open('prueba.txt', 'w')

### Escritura

Se utilizará el método `write`, que recibe como parámetro un **string** con el texto que se escribirá en el archivo.

In [61]:
nuevo_archivo.write('Informacion\n')

12

### Cierre

Al igual que en el caso de lectura, luego de escribir la información se debe cerrar el archivo con `close()`.

In [62]:
nuevo_archivo.close()

## Agregar información a un archivo existente

### Apertura

Para escribir un archivo, este debe abrirse en modo `'a'` usando la función `open`.

In [63]:
archivo = open('prueba.txt', 'a')

### Escritura

Se utilizará el método `write`, que recibe como parámetro un **string** con el texto que se agregará en el archivo.

In [64]:
archivo.write("Nueva informacion\n")

18

### Cierre

Al igual que en el caso de lectura y escritura, luego de escribir la información se debe cerrar el archivo con `close()`.

In [65]:
archivo.close()

## Archivos con separador

Considere un archivo que utiliza un caracter para separar la información. Por ejemplo:

```
Esteban:Gutierrez:49:18:32
Luisa:Miranda:68:44:99
Jean Paul:Munoz:48:38:81
Gianfranco:Basso:54:54:50
Romina:Smith:100:98:9
```

### Manipulación de este tipo de archivos

In [66]:
archivo = open('alumnos.txt')
for linea in archivo:
    valores = linea.strip().split(':')
    nombres = valores[0:2]
    notas = []
    for nota in valores[2:5]:
        notas.append(int(nota))
    print(nombres[0], notas)
archivo.close()

Esteban [49, 18, 32]
Luisa [68, 44, 99]
Jean Paul [48, 38, 81]
Gianfranco [54, 54, 50]
Romina [100, 98, 92]


## Ejercicios

### Ejercicio 1

Escriba un programa que abra el archivo `quijote.txt` y cuente:
* el número de letras,
* el número de palabras,
* el número de líneas.

### Ejercicio 2

A partir del archivo `alumnos.txt`, crear los siguientes archivos:

`aprobados.txt.`
```
Luisa,Miranda,70
Jean Paul,Munoz,56
Romina,Smith,97
```

`reprobados.txt`
```
Esteban,Gutierrez,33
Gianfranco,Basso,53
```