# Análisis de líneas de texto

En el procesamiento de archivos de datos, es común que se presenten en una única línea de texto varios valores separados mediante un carácter "especial", como puede ser una coma (`,`), una diagonal invertida (`\`), una barra vertical (`|`) o un simple espacio. Por ejemplo:

```
1,2,3,5
Hernández\Ramírez\Pedro
12.8|65.2|-123
a b c xyz
```

Como ya se ha comentado, con las estructuras estudiadas (secuenciales, de decisión y repetitivas) es posible codificar cualquier algoritmo. Podríamos utlizar, por ejemplo, un código como el siguiente:

In [None]:
entrada = "Black Panther$Black Widow$Captain America$Captain Marvel$Doctor Strange$Spiderman"
separador = "$"
valores = []
valor = ""
for caracter in entrada:
    # Analizar cada uno de los caracteres de la cadena
    if caracter == separador:
        # Si se encuentra un separador, ya se terminó el valor que se estaba leyendo,
        # agregarlo a la lista...
        valores.append(valor)
        # ... y comenzar a leer un nuevo valor.
        valor = ""
    else:
        # Si no es un separador, el caracter forma parte del valor actual
        valor += caracter
print(valores)

# El método `split`
Sin embargo, esta es una situación tan común que varios lenguajes de programación implementan funciones nativas para realizar este procedimiento. En particular, en Python tenemos el método `split` de la clase `str`, que nos permite simplificar el código anterior:

In [None]:
valores = entrada.split(separador)
print(valores)

El parámetro de `split` es el carácter (o caracteres) que se utilizarán para separar los valores presentes en la cadena. Si se omite, por omisión se considera que los valores están separados entre sí por un espacio.

Es importante hacer notar que, aunque el método `split` produce como salida una **lista** (`list`), se trata de un método de **cadena** (`str`). Como tal, la lista generada es una lista de cadenas (`str`). Si los valores analizados son números, habrá que efectuar la conversión correspondiente. Por ejemplo:

In [None]:
entrada = "1 2 3 4 5 6 7 8"
valores = entrada.split()   # El separador es un espacio, no hace falta especificarlo
print("split genera una lista de cadenas:", valores)
numeros = []
for i in valores:
    numeros.append(int(i))
print("Cada valor de la lista ha sido convertido a entero:", numeros)

Hay dos patrones comunes en Python para efectuar esta operación.

El más moderno es la combinación de `split` con **_expansión de listas_** (_list comprehension_). Por ejemplo:

In [None]:
numeros = [int(i) for i in entrada.split()]

print("entrada         =", entrada)
print("entrada.split() =", entrada.split())
print("numeros         =", numeros)

Hay también otro patrón que ha caído un tanto en desuso pero que aún es común encontrar: el uso de la función `map`, que aplica una función, como pueden ser `int` o `float`, a todos los elementos de un iterable.

> ***Nota***: Como `map` regresa un *iterador*, normalmente, se le aplica la función constructora `list` para convertirlo en una lista.

In [None]:
numeros = list(map(int, entrada.split()))

print("entrada         =", entrada)
print("entrada.split() =", entrada.split())
print("numeros         =", numeros)

# El método `join`

Así como el método `split` se utiliza para _cortar_ una _cadena de valores_ y convertirla en una _lista de valores_, el método `join` nos permite volver a unir una lista de valores de texto en una única cadena de texto. 

El método `join` también es un método de cadena y la cadena base (a la que se le aplica el método) es el conector mediante el que se unirán los elementos de la lista. La lista es el argumento del método `join`.

In [None]:
valores = ["Ant-Man", "Wasp", "Scarlet Witch"]
conector = "-*-"
cadena = conector.join(valores)
print(cadena)

Es posible utilizar el método `join` sobre la cadena vacía, de tal forma que únicamente se concatenan los valores de la lista sin ningún conector de por medio:

In [None]:
letras = [chr(i) for i in range(65, 75)]
print("Lista:", letras)
cadena = "".join(letras)
print("Cadena:", cadena)