# Tema 2: Uso de texto en Python
## Procesado de Lenguaje Natural
### Grado en Ciencia de Datos 

In [None]:
texto = "Este es un texto 'normal' en Python"

In [None]:
type(texto)

In [None]:
len(texto)

In [None]:
#el texto es un elemento iterable
for t in texto:
    print(t)

In [None]:
texto[0]

In [None]:
type(texto[0])

In [None]:
#podemos indexar cada elemento (caracter) del texto
texto[0:4]

In [None]:
#los iterables también se recorren como list comprehension:
lista = [t for t in texto]
print(lista)

In [None]:
len(lista)

*Nota:* Las list comprenhension se ven en detalle al final del notebook.

In [None]:
type(lista)

In [None]:
type(lista[0])

### caracteres unicode

In [None]:
texto2 = "áèï😀🛵"
len(texto2)

In [None]:
[t for t in texto2]

En la codificación unicode cada caracter se puede codificar con varios bytes

In [None]:
texto2.encode('UTF-8')


In [None]:
len(texto2.encode('UTF-8'))

In [None]:
#texto en otros alfabetos:
#http://xahlee.info/comp/unicode_index.html
#chino
texto3 = "林花謝了春紅 太匆匆"
[t for t in texto3]

In [None]:
#cirílico:
texto4 = "БбвГгДдѭ"
[t for t in texto4]

In [None]:
#griego:
texto5 = "αβγδε"
[t for t in texto5]

### caracteres invisibles

In [None]:
texto6 = "hola\nmundo"
[t for t in texto6]

In [None]:
print(texto6)

Si declaramos el texto como 'raw' no considera los caracteres invisibles como tales

In [None]:
texto6 = r"hola\nmundo"
[t for t in texto6]

In [None]:
print(texto6)

In [None]:
print("el día 2\\3")

In [None]:
print(r"el día 2\3")

### Métodos del objeto str
`lower
upper
title
len`

In [None]:
"texto".upper()

In [None]:
texto.title()

Listas de *strings*

In [None]:
#creamos una lista a partir de las palabras de nuestro texto
lista2 = texto.split(" ")
lista2

In [None]:
#también podemos juntas las palabras de una lista en un string
'-'.join(lista2)

Podemos aplicar estos métodos en una *list comprenhension*

In [None]:
#aplicamos método a cada elemento de la lista
[c.upper() for c in lista2]

### Métodos de comparación:  
```python
s.startswith(t)
s.endswith(t)
t in s
s.isupper(); s.islower(); s.istitle()
s.isalpha(); s.isdigit(); s.isalnum()
```  

In [None]:
'Texto'.startswith('t')

In [None]:
'Texto'.startswith('T')

In [None]:
texto.startswith('ex')

In [None]:
'ex' in texto

In [None]:
'Texto'.istitle()

In [None]:
'TexTo'.istitle()

In [None]:
"Otro Texto".istitle()

In [None]:
"Otro texto".istitle()

Podemos combinar las funciones de comparación con las list comprehension

In [None]:
lista2

In [None]:
#palabras que empiezan en mayúscula
[w for w in lista2 if w.istitle()]

## Uso de texto en Pandas

In [None]:
import pandas as pd
import numpy as np
pd.__version__

In [None]:
pd.Series(lista2)

In [None]:
pd.Series(lista2, dtype="string")

In [None]:
#podemos usar los métodos de str sobre los elementos del array
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
 )
s

In [None]:
#declaramos como object
s2 = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"]
 )
s2

In [None]:
s.str.len()

In [None]:
s2.str.len()

In [None]:
pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "CABA", "dog", "cat"]
 ).str.len()

Dividir, expandir, reemplazar, o concatenar texto (extraer lo veremos con RegEx)

In [None]:
#split devuelve una Serie de listas
s2 = pd.Series(["a_b_c", "d_e", np.nan, "f_g_h_i", "j_k_l"], dtype="string")
s2.str.split("_")

Podemos acceder a los elementos de la lista con `str.get` o `str[]`

In [None]:
s2.str.split("_").str.get(1) #segundo caracter de cada elemento de la serie

In [None]:
s2.str.split("_").get(1) #segundo elemento de la serie

In [None]:
s2.str.split("_").str[1] #segundo caracter de cada elemento de la serie

In [None]:
#podemos expandir la lista a un dataframe
df = s2.str.split("_", expand=True)
df

In [None]:
df.info()

In [None]:
s3 = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s3

In [None]:
#reemplazar texto
s3.str.replace("a", "X", case=True)

In [None]:
#reemplazar texto
s3.str.replace("a", "X", case=False)

In [None]:
#concatenar texto
s = pd.Series(["a", "b", "c", "d"], dtype="string")
s

In [None]:
s.str.cat(sep=",")

In [None]:
type(s.str.cat(sep=","))

In [None]:
#podemos concatenar los elementos de una Serie con otra de igual longitud
s.str.cat(["A", "B", "C", "D"])

In [None]:
#podemos concatenar los elementos de una Serie con otra de igual longitud
s.str.cat(["A", "B", "C", "D"], sep=",")

Comprobar si un elemento contiene o empieza por un patrón

In [None]:
s3

In [None]:
s3.str.match("A") #comienza por el patrón

In [None]:
s3.str.startswith("A") #comienza por el texto

In [None]:
pd.concat([s3, s3.str.match("Aa")], axis=1) #comienza por patrón regular

In [None]:
pd.concat([s3, s3.str.contains("A")], axis=1) #contiene el patrón

In [None]:
pd.concat([s3, s3.str.contains("A", case=False)], axis=1) #contiene el patrón

In [None]:
pd.concat([s3, s3.str.fullmatch("A")], axis=1) #es igual al patrón

El listado completo de métodos para *strings* está en https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary

## Iteradores y generadores  
Los `iterable` son objetos que contienen una serie de miembros que se recorren secuencialmente (p.ej. con un bucle `for`)

In [None]:
#la función range es un caso especial de iterable
x=range(10)

In [None]:
x

In [None]:
type(x)

In [None]:
#iteramos x con un for
for i in x:
    print(i)

In [None]:
#iteramos x con una list comprenhension
[i for i in x]

In [None]:
len(x)

Una lista y un *string* también son objetos iterables

In [None]:
l = ['a','b','c']
len(l)

In [None]:
s = 'abc'
len(s)

Se puede acceder a cualquier elemento del iterable mediante su indexado

In [None]:
l[1]

In [None]:
s[0]

Los objetos de tipo `iterator` son objetos que sólo se pueden recorrer secuencialmente como un iterable y adicionalmente con la función `next()`

In [None]:
x_iter = iter(x)
x_iter

In [None]:
next(x_iter)

Los `iterator` se "consumen" conforme se recorren (sólo se pueden recorrer una vez)

In [None]:
for i in x_iter:
    print(i)

Los `iterator` no tienen longitud:

In [None]:
try:
    len(x_iter)
except BaseException as ex:
    print('Error: ', ex)

### Generator
Un `generator` es una función que devuelve un `iterator`. Por tanto se puede recorrer con un bucle `for` pero también con la función `next()`.  

Podemos crear un `generator` con una `generator comprenhension`

In [None]:
x_gen = (i**2 for i in range(10))
x_gen

In [None]:
next(x_gen)

Los `iterator` y los `generator` se consumen al iterar sobre ellos, por lo que no es posible volver a generar el mismo miembro. En el siguiente bucle se comienza por el 2º elemento

In [None]:
for i in x_gen:
    print(i)

In [None]:
for i in x_iter:
    print(i)

In [None]:
import sys
sys.getsizeof(x_gen)

Podemos volcar los contenidos de un iterador (o generador) a una lista, que sí ocupa memoria por cada uno de sus elementos.

In [None]:
gen = (i**2 for i in range(10))
lista_gen = list(gen)

In [None]:
lista_gen

In [None]:
#que equivale a
[i**2 for i in range(10)]

In [None]:
sys.getsizeof(lista_gen)

In [None]:
sys.getsizeof(gen)

In [None]:
for i in lista_gen:
    print(i)

In [None]:
for i in gen:
    print(i)

In [None]:
#lo anterior equivale a un list comprenhension de los mismos valores
lista = [i**2 for i in range(10)]
lista

In [None]:
sys.getsizeof(lista)

In [None]:
sys.getsizeof(x)

In [None]:
sys.getsizeof(x_iter)

In [None]:
#también podemos generar tuplas con los generadores
gen = ((i, i**2) for i in range(10))

In [None]:
for i in gen:
    print(i)


In [None]:
for i,j in ((i, i**2) for i in range(10)):
    print(f"El cuadrado de {i} es {j}")

In [None]:
for _,j in ((i, i**2) for i in range(10)):
    print(f"El cuadrado es {j}")

### Enumerando iterables
La función nativa `enumerate` permite iterar sobre un iterable y mantener la cuenta de la iteración. La función `enumerate` es en sí mismo *iterable*.

In [None]:
enumerate(lista)

In [None]:
for i,j in enumerate(lista2):
    print(i,j)

In [None]:
for (i, p) in enumerate("Esta es una frase".split(' ')):
    print(f"Palabra {i}: {p}")

### Uso de *list comprenhensions*
Podemos usar una expresión `if-else` dentro de la *comprenhension*

In [None]:
['impar' if i%2 else 'par' for i in range(10)]

In [None]:
#devolviendo una tupla con (valor, par/impar)
[(i,'impar' if i%2 else 'par') for i in range(10)]

Podemos filtrar poniendo condiciones a los elementos que devuelve nuestra lista.

In [None]:
[c for c in lista2 if c.endswith('n')]

In [None]:
#podemos combinar con funciones sobre str
[c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n')]

In [None]:
#también podemos aplicar funciones y filtrados sobre un generador
gen = (c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n'))

In [None]:
gen

In [None]:
for i in gen:
    print(i)