## Uso de texto en Python
Declaraci√≥n de variables de tipo `string`

In [1]:
texto = """
Texto en 
dos lineas
"""

In [2]:
type(texto)

str

In [3]:
len(texto)

22

Los objetos de tipo `string` son elementos *iterables* compuestos por sus caracteres:

In [4]:
for t in texto:
    print(t)



T
e
x
t
o
 
e
n
 


d
o
s
 
l
i
n
e
a
s




In [5]:
#podemos indexar cada elemento (caracter) del texto
texto[0:5]

'\nText'

In [6]:
#los iterables tambi√©n se recorren como list comprehension:
lista = [t for t in texto]
print(lista)

['\n', 'T', 'e', 'x', 't', 'o', ' ', 'e', 'n', ' ', '\n', 'd', 'o', 's', ' ', 'l', 'i', 'n', 'e', 'a', 's', '\n']


*Nota:* Las list comprenhension se ven en detalle al final del notebook.

In [7]:
type(lista)

list

### Ejercicio
¬øDe qu√© tipo es cada elemento de la lista anterior?

### Caracteres unicode en Python
Todos los objetos `string` aceptan caracteres unicode.

In [8]:
#caracteres unicode
texto2 = "√°√®√ØüòÄüõµ"
len(texto2)

5

In [9]:
[t for t in texto2]

['√°', '√®', '√Ø', 'üòÄ', 'üõµ']

In [10]:
texto2[4]

'üõµ'

En la codificaci√≥n unicode cada caracter se puede codificar con varios bytes

In [11]:
texto2.encode('UTF-8')

b'\xc3\xa1\xc3\xa8\xc3\xaf\xf0\x9f\x98\x80\xf0\x9f\x9b\xb5'

In [12]:
len(texto2.encode('UTF-8'))

14

Texto en otros alfabetos (http://xahlee.info/comp/unicode_index.html)

In [13]:
#chino
texto3 = "ÊûóËä±Ë¨ù‰∫ÜÊò•Á¥Ö Â§™ÂåÜÂåÜ"
[t for t in texto3]

['Êûó', 'Ëä±', 'Ë¨ù', '‰∫Ü', 'Êò•', 'Á¥Ö', ' ', 'Â§™', 'ÂåÜ', 'ÂåÜ']

In [14]:
#cir√≠lico:
texto4 = "–ë–±–≤–ì–≥–î–¥—≠"
[t for t in texto4]

['–ë', '–±', '–≤', '–ì', '–≥', '–î', '–¥', '—≠']

In [15]:
#griego:
texto5 = "Œ±Œ≤Œ≥Œ¥Œµ"
lista = [t for t in texto5]

### Caracteres invisibles

In [16]:
texto6 = "hola\nmundo"
[t for t in texto6]

['h', 'o', 'l', 'a', '\n', 'm', 'u', 'n', 'd', 'o']

In [17]:
len(texto6)

10

In [18]:
texto6

'hola\nmundo'

In [19]:
print(texto6)

hola
mundo


Si declaramos el texto como 'raw' no considera los caracteres invisibles como tales

In [20]:
texto6 = r"hola\nmundo"
[t for t in texto6]

['h', 'o', 'l', 'a', '\\', 'n', 'm', 'u', 'n', 'd', 'o']

In [21]:
len(texto6)

11

In [22]:
print(texto6)

hola\nmundo


## M√©todos sobre strings
M√©todos que devuelven `string`/lista de `string`:
- `lower`
- `upper`
- `title`
- `capitalize`
- `zfill`

In [23]:
"texto".upper()

'TEXTO'

In [24]:
texto.title()

'\nTexto En \nDos Lineas\n'

In [25]:
"la casa azul".title()

'La Casa Azul'

Lo podemos aplicar a los elementos *string* de una lista mediante una *list comprenhension*

In [26]:
#creamos una lista de las palabras de nuestro texto
lista2 = texto.split(" ")
lista2

['\nTexto', 'en', '\ndos', 'lineas\n']

In [27]:
#aplicamos m√©todo a cada elemento de la lista
[c.upper() for c in lista2]

['\nTEXTO', 'EN', '\nDOS', 'LINEAS\n']

In [28]:
#tambi√©n podemos convertir una lista en string
','.join(lista2)

'\nTexto,en,\ndos,lineas\n'

### M√©todos de comparaci√≥n:  
```python
s.startswith(t)
s.endswith(t)
t in s
s.isupper(); s.islower(); s.istitle()
s.isalpha(); s.isdigit(); s.isalnum()
```  

In [29]:
'Texto'.startswith('t')

False

In [30]:
'Texto'.startswith('T')

True

In [31]:
'ex' in texto

True

In [32]:
'Texto'.istitle()

True

In [33]:
'TexTo'.istitle()

False

In [34]:
'Texto largo'.istitle()

False

Podemos combinar las funciones de comparaci√≥n con las list comprehension

In [35]:
lista2

['\nTexto', 'en', '\ndos', 'lineas\n']

In [36]:
#palabras que empiezan en may√∫scula
[w for w in lista2 if w.istitle()]

['\nTexto']

### Ejercicio
Filtra las palabras terminadas en `n` de `lista2`

## Uso de texto en Pandas
https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html

In [37]:
import pandas as pd
import numpy as np
pd.__version__

'2.2.1'

In [38]:
pd.Series(lista2)

0     \nTexto
1          en
2       \ndos
3    lineas\n
dtype: object

In [39]:
pd.Series(lista2, dtype="string") #string es un nuevo dtype de Pandas 1.0

0     
Texto
1         en
2       
dos
3    lineas

dtype: string

In [40]:
#podemos usar los m√©todos de str sobre los elementos del array
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"],
     dtype="string"
 )
s

0       A
1       B
2       C
3    Aaba
4    Baca
5    <NA>
6    CABA
7     dog
8     cat
dtype: string

In [41]:
#contar caracteres
s.str.len()

0       1
1       1
2       1
3       4
4       4
5    <NA>
6       4
7       3
8       3
dtype: Int64

In [42]:
#convertir serie s en may√∫sculas
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5    <NA>
6    CABA
7     DOG
8     CAT
dtype: string

Dividir, expandir, reemplazar, o concatenar texto (extraer lo veremos con RegEx)

In [43]:
#split devuelve una Serie de elementos de tipo lista
s2 = pd.Series(["a_b_c", "c_d_e", np.nan, "f_g_h_k"], dtype="string")
s2.str.split("_")

0       [a, b, c]
1       [c, d, e]
2            <NA>
3    [f, g, h, k]
dtype: object

In [44]:
#podemos acceder a los elementos de la lista con str.get o str[]
s2.str.split("_").str.get(1)

0       b
1       d
2    <NA>
3       g
dtype: object

In [45]:
s2.str.split("_").str[2]

0       c
1       e
2    <NA>
3       h
dtype: object

In [46]:
#podemos expandir la lista a un dataframe
s2.str.split("_", expand=True)

Unnamed: 0,0,1,2,3
0,a,b,c,
1,c,d,e,
2,,,,
3,f,g,h,k


In [47]:
s3 = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s3

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

In [48]:
#reemplazar texto
s3.str.replace("a", "X", case=True)

0       A
1       B
2       C
3    AXbX
4    BXcX
5        
6    <NA>
7    CABA
8     dog
9     cXt
dtype: string

In [49]:
s = pd.Series(["a", "b", "c", "d"], dtype="string")
s

0    a
1    b
2    c
3    d
dtype: string

In [50]:
#concatenar texto (elementos de una Serie)
s.str.cat(sep=",")

'a,b,c,d'

In [51]:
type(s.str.cat(sep=","))

str

In [52]:
#podemos concatenar los elementos de una Serie con otra de igual longitud
s.str.cat(["A", "B", "C", "D"])

0    aA
1    bB
2    cC
3    dD
dtype: string

Funciones de comparaci√≥n: comprobar si un elemento contiene o empieza por un patr√≥n

In [53]:
s3

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

In [54]:
s3.str.match("A") #comienza por el patr√≥n

0     True
1    False
2    False
3     True
4    False
5    False
6     <NA>
7    False
8    False
9    False
dtype: boolean

In [55]:
pd.concat([s3, s3.str.startswith("A")], axis=1) #comienza por patr√≥n

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,True
4,Baca,False
5,,False
6,,
7,CABA,False
8,dog,False
9,cat,False


In [56]:
pd.concat([s3, s3.str.contains("A")], axis=1) #contiene el patr√≥n

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,True
4,Baca,False
5,,False
6,,
7,CABA,True
8,dog,False
9,cat,False


In [57]:
pd.concat([s3, s3.str.fullmatch("A")], axis=1) #es igual al patr√≥n

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,False
4,Baca,False
5,,False
6,,
7,CABA,False
8,dog,False
9,cat,False


El listado completo de m√©todos para *strings* est√° en https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary

## Objetos iteradores

Los objetos de tipo `iterator` son objetos que s√≥lo se pueden recorrer secuencialmente como un *iterable* y adicionalmente con la funci√≥n `next()`

In [58]:
#la funci√≥n range es un caso especial de iterator
x=range(10)

In [59]:
x

range(0, 10)

In [60]:
#los generadores son iterables
for i in x:
    print(i)

0
1
2
3
4
5
6
7
8
9


In [61]:
#generator comprenhension
gen = (i**2 for i in range(10))
gen

<generator object <genexpr> at 0x7fc8a02619a0>

Los generadores son otro caso de `iterator`

In [62]:
[i**2 for i in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Los `iterator` se pueden recorrer con un bucle `for` pero tambi√©n con la funci√≥n `next()`.  

In [63]:
next(gen)

0

Un iterador no se puede indexar...

In [64]:
try:
    gen[2]
except TypeError as e:
    print(f"TypeError: {e}")

TypeError: 'generator' object is not subscriptable


Ni tiene un atributo de longitud...

In [65]:
try:
    len(gen)
except TypeError as e:
    print(f"TypeError: {e}")

TypeError: object of type 'generator' has no len()


Los `iterator` se consumen al iterar sobre ellos, por lo que no es posible volver a generar el mismo miembro. En el siguiente bucle se comienza por el 2¬∫ elemento

In [66]:
for i in gen:
    print(i)

1
4
9
16
25
36
49
64
81


In [67]:
try:
    next(gen)
except StopIteration:
    print("StopIteration")

StopIteration


In [68]:
import sys
sys.getsizeof(gen)

104

Podemos volcar los contenidos de un `iterador` a una lista (objeto `iterable`), que s√≠ ocupa memoria por cada uno de sus elementos.

In [69]:
gen = (i**2 for i in range(100))
lista_gen = list(gen)

In [70]:
sys.getsizeof(gen)

104

In [71]:
sys.getsizeof(lista_gen)

920

In [72]:
#lo anterior equivale a un list comprenhension de los mismos valores
lista = [i**2 for i in range(10)]

In [73]:
lista

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Podemos convertir cualquier objeto *iterable* en objeto de tipo `iterator` mediante la funci√≥n `iter()`

In [74]:
gen_lista = iter(lista)

In [75]:
gen_lista

<list_iterator at 0x7fc8a023f250>

In [76]:
next(gen_lista)

0

In [77]:
for i in gen_lista:
    print(i)

1
4
9
16
25
36
49
64
81


Podemos crear un `iterator` a partir de un objeto *iterable* mediante la funci√≥n `map()`

In [78]:
lista = ["uno", "dos", "tres"]
mapa = map(str.upper, lista)
mapa

<map at 0x7fc8a023ed70>

In [79]:
next(mapa)

'UNO'

In [80]:
for s in mapa:
    print(s)

DOS
TRES


### Enumerando iterables
La funci√≥n nativa `enumerate` permite iterar sobre un iterable y mantener la cuenta de la iteraci√≥n. La funci√≥n `enumerate` es en s√≠ mismo *iterable*.

In [81]:
enumerate(lista)

<enumerate at 0x7fc8a02a2fc0>

In [82]:
for i,j in enumerate(lista2):
    print(i,j)

0 
Texto
1 en
2 
dos
3 lineas



In [83]:
lista2

['\nTexto', 'en', '\ndos', 'lineas\n']

In [84]:
for i,j in enumerate((i**2 for i in range(10))):
    print(i,j)

0 0
1 1
2 4
3 9
4 16
5 25
6 36
7 49
8 64
9 81


In [85]:
for (i, p) in enumerate("Esta es una frase".split(' ')):
    print(f"Palabra {i}: {p}")

Palabra 0: Esta
Palabra 1: es
Palabra 2: una
Palabra 3: frase


### Uso de *list/generator comprenhensions*
Podemos usar una expresi√≥n `if-else` dentro de la *comprenhension*

In [86]:
['impar' if i%2 else 'par' for i in range(10)]

['par',
 'impar',
 'par',
 'impar',
 'par',
 'impar',
 'par',
 'impar',
 'par',
 'impar']

In [87]:
#devolviendo una tupla con (valor, par/impar)
[(i,'impar' if i%2 else 'par') for i in range(10)]

[(0, 'par'),
 (1, 'impar'),
 (2, 'par'),
 (3, 'impar'),
 (4, 'par'),
 (5, 'impar'),
 (6, 'par'),
 (7, 'impar'),
 (8, 'par'),
 (9, 'impar')]

In [88]:
#devolviendo una tupla con (valor, par/impar)
[(i,'impar') for i in range(10) if i%2]

[(1, 'impar'), (3, 'impar'), (5, 'impar'), (7, 'impar'), (9, 'impar')]

In [89]:
#podemos combinar con funciones sobre str
[c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n')]

['en']

In [90]:
#tambi√©n lo podemos hacer sobre un generador
gen = (c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n'))

In [91]:
gen

<generator object <genexpr> at 0x7fc8a0262a40>

In [92]:
for i in gen:
    print(i)

en


In [93]:
#tambi√©n podemos generar tuplas con los list / generator comprenhension
gen = ((i, i**2) for i in range(10))

In [94]:
for i in gen:
    print(i)


(0, 0)
(1, 1)
(2, 4)
(3, 9)
(4, 16)
(5, 25)
(6, 36)
(7, 49)
(8, 64)
(9, 81)


In [95]:
for i,j in ((i, i**2) for i in range(10)):
    print(f"El cuadrado de {i} es {j}")

El cuadrado de 0 es 0
El cuadrado de 1 es 1
El cuadrado de 2 es 4
El cuadrado de 3 es 9
El cuadrado de 4 es 16
El cuadrado de 5 es 25
El cuadrado de 6 es 36
El cuadrado de 7 es 49
El cuadrado de 8 es 64
El cuadrado de 9 es 81
