<a href="https://colab.research.google.com/github/SoniaPMi/NLP/blob/main/NLP_01_Uso_de_texto_en_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Uso de texto en Python
Declaración de variables de tipo `string`

In [1]:
pip -m spacy download en_core_web_md
pip -m spacy download es_core_news_md
pip -m spacy download es_core_news_sm

SyntaxError: ignored

In [2]:
pip spacy download en_core_web_md
pip spacy download es_core_news_md
pip spacy download es_core_news_sm

SyntaxError: ignored

In [3]:
texto = "Texto 'normal' en Python"

In [4]:
type(texto)

str

In [6]:
len(texto) #iterable, puede recorerse elemento a elemento con un bucle

24

Los objetos de tipo `string` son elementos iterables compuestos por sus caracteres:

In [7]:
for t in texto:
    print(t)

T
e
x
t
o
 
'
n
o
r
m
a
l
'
 
e
n
 
P
y
t
h
o
n


In [8]:
#podemos indexar cada elemento (caracter) del texto
texto[0:5]

'Texto'

In [9]:
#los iterables también se recorren como list comprehension:
lista = [t for t in texto]
print(lista)

['T', 'e', 'x', 't', 'o', ' ', "'", 'n', 'o', 'r', 'm', 'a', 'l', "'", ' ', 'e', 'n', ' ', 'P', 'y', 't', 'h', 'o', 'n']


*Nota:* Las list comprenhension se ven en detalle al final del notebook.

In [12]:
type(lista)

list

### Ejercicio
¿De qué tipo es cada elemento de la lista anterior?

In [13]:
type(lista[0])

str

### Caracteres unicode en Python
Todos los objetos `string` aceptan caracteres unicode.

In [14]:
#caracteres unicode
texto2 = "áèï😀🛵"

In [15]:
[t for t in texto2]

['á', 'è', 'ï', '😀', '🛵']

Texto en otros alfabetos (http://xahlee.info/comp/unicode_index.html)

In [16]:
#chino
texto3 = "林花謝了春紅 太匆匆"
[t for t in texto3]

['林', '花', '謝', '了', '春', '紅', ' ', '太', '匆', '匆']

In [17]:
#cirílico:
texto4 = "БбвГгДдѭ"
[t for t in texto4]

['Б', 'б', 'в', 'Г', 'г', 'Д', 'д', 'ѭ']

In [18]:
#griego:
texto5 = "αβγδε"
[t for t in texto5]

['α', 'β', 'γ', 'δ', 'ε']

In [19]:
import sys 
sys.getsizeof(texto4) #tamaño memoria

90

In [21]:
len(texto4) #longitud texto

8

## Métodos sobre strings
Métodos que devuelven `string`/lista de `string`:
- `lower`
- `upper`
- `tittle`
- `len`

In [22]:
"texto".upper()

'TEXTO'

In [23]:
texto.title()

"Texto 'Normal' En Python"

In [24]:
"la casa azul".title()

'La Casa Azul'

Lo podemos aplicar a los elementos *string* de una lista mediante una *list comprenhension*

In [25]:
#creamos una lista de las palabras de nuestro texto
lista2 = texto.split(" ")
lista2

['Texto', "'normal'", 'en', 'Python']

In [26]:
#también podemos convertir una lista en string
','.join(lista2)

"Texto,'normal',en,Python"

In [27]:
#aplicamos método a cada elemento de la lista
[c.upper() for c in lista2]

['TEXTO', "'NORMAL'", 'EN', 'PYTHON']

Métodos de comparación:  
`s.startswith(t)
s.endswith(t)
t in s
s.isupper(); s.islower(); s.istitle()
s.isalpha(); s.isdigit(); s.isalnum()`

In [28]:
'Texto'.startswith('t')

False

In [29]:
'Texto'.startswith('T')

True

In [30]:
'ex' in texto

True

In [31]:
'Texto'.istitle()

True

In [32]:
'TexTo'.istitle()

False

In [33]:
'Texto largo'.istitle()

False

In [34]:
'Hola' == 'hola'

False

In [35]:
'Hola'.lower() == 'hola'

True

In [38]:
lista2 = texto.split(" ")
lista2

['Texto', "'normal'", 'en', 'Python']

In [49]:
'texto' in texto

False

In [39]:
','.join(lista2)

"Texto,'normal',en,Python"

In [41]:
[c.upper() for c in lista2] 
# el elemento lista no tiene lista, lo aplico elemento a elemento, porq asi lo aplico a un str

['TEXTO', "'NORMAL'", 'EN', 'PYTHON']

In [42]:
list(map(lambda x: x.upper(), lista2))

['TEXTO', "'NORMAL'", 'EN', 'PYTHON']

In [51]:
print('ó' in 'acción')
print('o' in 'acción')

True
False


Podemos combinar las funciones de comparación con las list comprehension

In [36]:
lista2

['Texto', "'normal'", 'en', 'Python']

In [54]:
print([w for w in lista2]) #recorrer todos los elementos de la lista
print([w for w in range(10)]) #recorrer todos los elementos de 0 a 9

['Texto', "'normal'", 'en', 'Python']
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [37]:
#palabras que empiezan en mayúscula
[w for w in lista2 if w.istitle()] 
#devuelve de la lista los elementos que cumplen esa condición

['Texto', 'Python']

### Ejercicio
Filtra las palabras terminadas en `n` de `lista2`

In [56]:
[w for w in lista2 if w.endswith('n')]

['en', 'Python']

In [59]:
texto = 'hola\nmundo'

In [60]:
print(texto)


hola
mundo


In [64]:
len('r\n') #raw

2

In [65]:
len('\n')

1

In [67]:
[c for c in r'\n']

['\\', 'n']

## Uso de texto en Pandas
https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html

In [43]:
import pandas as pd
import numpy as np
pd.__version__

'1.3.5'

In [44]:
pd.Series(lista2)

0       Texto
1    'normal'
2          en
3      Python
dtype: object

In [45]:
pd.Series(lista2, dtype="string") #string es un nuevo dtype de Pandas 1.0

0       Texto
1    'normal'
2          en
3      Python
dtype: string

In [46]:
#podemos usar los métodos de str sobre los elementos del array
s = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"],
     dtype="string"
 )
s

0       A
1       B
2       C
3    Aaba
4    Baca
5    <NA>
6    CABA
7     dog
8     cat
dtype: string

In [47]:
#contar caracteres
s.str.len()

0       1
1       1
2       1
3       4
4       4
5    <NA>
6       4
7       3
8       3
dtype: Int64

In [48]:
#convertir serie s en mayúsculas
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5    <NA>
6    CABA
7     DOG
8     CAT
dtype: string

Dividir, expandir, reemplazar, o concatenar texto (extraer lo veremos con RegEx)

In [68]:
#split devuelve una Serie de elementos de tipo lista
s2 = pd.Series(["a_b_c", "c_d_e", np.nan, "f_g_h_k"], dtype="string")
s2.str.split("_")

0       [a, b, c]
1       [c, d, e]
2            <NA>
3    [f, g, h, k]
dtype: object

In [69]:
#podemos acceder a los elementos de la lista con str.get o str[]
s2.str.split("_").str.get(1)

0       b
1       d
2    <NA>
3       g
dtype: object

In [70]:
s2.str.split("_").str[2]

0       c
1       e
2    <NA>
3       h
dtype: object

In [71]:
#podemos expandir la lista a un dataframe
s2.str.split("_", expand=True)

Unnamed: 0,0,1,2,3
0,a,b,c,
1,c,d,e,
2,,,,
3,f,g,h,k


In [72]:
s3 = pd.Series(
     ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
     dtype="string",
 )
s3

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

In [73]:
#reemplazar texto
s3.str.replace("a", "X", case=True)

0       A
1       B
2       C
3    AXbX
4    BXcX
5        
6    <NA>
7    CABA
8     dog
9     cXt
dtype: string

In [74]:
s = pd.Series(["a", "b", "c", "d"], dtype="string")
s

0    a
1    b
2    c
3    d
dtype: string

In [76]:
#concatenar texto (elementos de una Serie)
s.str.cat(sep=",")

'a,b,c,d'

In [77]:
type(s.str.cat(sep=","))

str

In [78]:
#podemos concatenar los elementos de una Serie con otra de igual longitud
s.str.cat(["A", "B", "C", "D"])

0    aA
1    bB
2    cC
3    dD
dtype: string

Funciones de comparación: comprobar si un elemento contiene o empieza por un patrón

In [79]:
s3

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

In [80]:
s3.str.match("A") #comienza por el patrón

0     True
1    False
2    False
3     True
4    False
5    False
6     <NA>
7    False
8    False
9    False
dtype: boolean

In [81]:
pd.concat([s3, s3.str.startswith("A")], axis=1) #comienza por patrón

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,True
4,Baca,False
5,,False
6,,
7,CABA,False
8,dog,False
9,cat,False


In [82]:
pd.concat([s3, s3.str.contains("A")], axis=1) #contiene el patrón

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,True
4,Baca,False
5,,False
6,,
7,CABA,True
8,dog,False
9,cat,False


In [83]:
pd.concat([s3, s3.str.fullmatch("A")], axis=1) #es igual al patrón

Unnamed: 0,0,1
0,A,True
1,B,False
2,C,False
3,Aaba,False
4,Baca,False
5,,False
6,,
7,CABA,False
8,dog,False
9,cat,False


El listado completo de métodos para *strings* está en https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary

## Generator comprenhension y List comprenhension

In [116]:
#ITERADOR
x = [0, 1, 2, 3, 4]
for i in x:
  print(i)

0
1
2
3
4


In [119]:
#GENERADOR - no ocupa memoria "ram"
#internamente tiene un puntero que apunta al elemento historiable que tiene que devolver.
#al llegar al ultimo ya no vuelve al principio
def eleva_cuadrado(lista): 
  for i in lista:
    yield i**2

cuadrado = eleva_cuadrado(x)
print(cuadrado)

for i in cuadrado:
  print(i)

<generator object eleva_cuadrado at 0x7f802d1b2f50>
0
1
4
9
16


In [84]:
#la función range es un caso especial de generator
x=range(10)

In [85]:
x

range(0, 10)

In [86]:
#los generadores son iterables
for i in x:
    print(i)

0
1
2
3
4
5
6
7
8
9


In [87]:
#generator comprenhension
gen = (i**2 for i in range(10))
gen

<generator object <genexpr> at 0x7f802d1ed550>

Los `generator` se pueden recorrer con un bucle `for` pero también con la función `next()`.  

In [88]:
next(gen)

0

Los `generator` se consumen al iterar sobre ellos, por lo que no es posible volver a generar el mismo miembro. En el siguiente bucle se comienza por el 2º elemento

In [89]:
for i in gen:
    print(i)

1
4
9
16
25
36
49
64
81


In [90]:
import sys
sys.getsizeof(gen)

128

Podemos volcar los contenidos de un iterador (o generador) a una lista, que sí ocupa memoria por cada uno de sus elementos.

In [91]:
gen = (i**2 for i in range(10))
lista_gen = list(gen)

In [123]:
next(gen) 
# cada intro recore una posición, una vez recorrida una posición ya se ha comsumido

1

In [124]:
lista_gen

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [93]:
sys.getsizeof(gen)

128

In [94]:
sys.getsizeof(lista_gen)

168

In [95]:
#lo anterior equivale a un list comprenhension de los mismos valores
lista = [i**2 for i in range(10)]

In [96]:
lista

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [125]:
#un iterator es un objeto iterable que implementa el método next()
gen_lista = iter(lista)

In [127]:
gen_lista

<list_iterator at 0x7f802d1ef290>

In [129]:
next(gen_lista) # de esta manera no recorro entero el "bucle"

4

In [130]:
next(gen_lista)

9

In [101]:
for i in gen_lista:
    print(i)

4
9
16
25
36
49
64
81


In [102]:
sys.getsizeof(gen_lista)

64

In [103]:
#también podemos generar tuplas con los generadores
gen = ((i, i**2) for i in range(10))

In [104]:
sys.getsizeof(gen)

128

In [105]:
for i in gen:
    print(i)


(0, 0)
(1, 1)
(2, 4)
(3, 9)
(4, 16)
(5, 25)
(6, 36)
(7, 49)
(8, 64)
(9, 81)


In [106]:
for i,j in ((i, i**2) for i in range(10)):
    print(f"El cuadrado de {i} es {j}")

El cuadrado de 0 es 0
El cuadrado de 1 es 1
El cuadrado de 2 es 4
El cuadrado de 3 es 9
El cuadrado de 4 es 16
El cuadrado de 5 es 25
El cuadrado de 6 es 36
El cuadrado de 7 es 49
El cuadrado de 8 es 64
El cuadrado de 9 es 81


### Enumerating iterables
The built-in enumerate function allows us to iterate over an iterable, while keeping track of the iteration count

In [107]:
enumerate(lista)

<enumerate at 0x7f802d199fa0>

In [108]:
for i,j in enumerate(lista2):
    print(i,j)

0 Texto
1 'normal'
2 en
3 Python


In [109]:
for (i, p) in enumerate("Esta es una frase".split(' ')):
    print(f"Palabra {i}: {p}")

Palabra 0: Esta
Palabra 1: es
Palabra 2: una
Palabra 3: frase


Podemos usar una expresión `if-else` dentro de la *comprenhension*

In [110]:
['impar' if i%2 else 'par' for i in range(10)] 
#recorro todos los elementos, pero que me devuelva si es par o impar

['par',
 'impar',
 'par',
 'impar',
 'par',
 'impar',
 'par',
 'impar',
 'par',
 'impar']

In [111]:
#devolviendo una tupla con (valor, par/impar)
[(i,'impar' if i%2 else 'par') for i in range(10)]

[(0, 'par'),
 (1, 'impar'),
 (2, 'par'),
 (3, 'impar'),
 (4, 'par'),
 (5, 'impar'),
 (6, 'par'),
 (7, 'impar'),
 (8, 'par'),
 (9, 'impar')]

In [112]:
#podemos combinar con funciones sobre str
[c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n')]

['en', 'PYTHON']

In [113]:
#también lo podemos hacer sobre un generador
gen = (c.upper() if len(c)>3 else c for c in lista2 if c.endswith('n'))

In [114]:
gen

<generator object <genexpr> at 0x7f802d1eded0>

In [115]:
for i in gen:
    print(i)

en
PYTHON
