# Manejo de Texto

> _Preparado por: [Juan Javier Santos Ochoa](https://twitter.com/jjsantoso) ([LNPP](https://www.lnpp.mx/))_

En esta sesión aprenderemos a realizar manejo básico del texto y sacar información que pueda resultar útil.

En Python una cadena de texto es un objeto denominado *str* o *string*. Un *string* se puede crear de diferentes formas:
1. Colocando texto entre comillas dobles ": 

```python
"puedo usar 'comillas' simples adentro"
```
2.  Colocando texto entre comillas simples ':
```python
'puedo usar "comillas" dobles adentro'
```
3. Usando comillas triples (tres comillas simples '''):
```python
'''Puedo escribir 
varias lineas 
de texto'''
```
4. usando el constructor str():
```python
str(2)
```

In [None]:
import pandas as pd
import re
from sklearn.feature_extraction.text import strip_accents_ascii
from string import punctuation
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

In [None]:
L = [0, 2, 3]
str(L)

## Operaciones con objetos string
Con las cadenas de texto podemos usar las operaciones:
* suma: $+$ 
* multiplicación: $*$ 
* Igual o diferente: $==$ o $!=$
* "mayor que" o "menor que": $>$ o $<$
* Además se puede usar los operadores **in** y **not in**

In [None]:
h = "hola"
m = 'mundo'
# Suma
print("la suma de los dos string es:", h + m)

In [None]:
# Multiplicación
print("Aquí asociamos y multiplicamos:", (h + m + ' ') * 3)

In [None]:
#Comparación lexicográfica. Para ver el orden usar ord("")
print("¿'hola' es mayor que 'mundo'?", h > m)

In [None]:
print("¿'mundo' es mayor que 'hola'?", m > h)

In [None]:
# Contenido en
print("¿'mundo' contiene la letra t?", 'mu' in m)

* Podemos extraer parte de un texto indexando con corchetes y la posición o un rango.

In [None]:
print('la primera letra es:', h[0])

In [None]:
print('Las primeras 3 letras son:', h[0:3])

In [None]:
print('Las últimas 2 letras son:', h[-2:])

* El texto es iterable

In [None]:
for i in m:
    print(i*2)

* Para contar el número de carácteres puedo usar la función `len()`

In [None]:
len(m+h)

## Métodos de objetos *string*
    
Los métodos son funciones que se aplican sobre el objeto. Algunos de los métodos útiles para cadenas de texto son los siguientes:

### Mayúsculas y minúsculas

In [None]:
L = "Esta es una Cadena de Texto"
#"Solo la primera letra en mayúscula:"
L.capitalize()

In [None]:
# Todo en mayúscula
L.upper()

In [None]:
#Todo en minúscula
L.lower()

In [None]:
# La primera letra de cada palabra en mayúscula:
L.title()

### isalpha, isdigit, isalnum, isupper, islower
Verifica si **todos** los caracteres de un texto son:
* alfabéticos `.isalpha()`
* numéricos `.isdigit()`
* alfanuméricos `.isalnum()`
* En mayúsculas `.isupper()`
* En minúsculas `.islower()`


In [None]:
'salu2'.isalpha()

In [None]:
'01002'.isdigit()

In [None]:
'salu2!'.isalnum()

In [None]:
'Hola'.isupper()

In [None]:
'hola'.islower()

### count
Cuenta cuantas veces aparece un conjuto de caracteres

In [None]:
L.lower().count('es')

### replace

Reemplaza un caracter por otro

In [None]:
L.replace('a', 'x').replace('o', 'e')

### split
Construye una lista a partir de "romper" un texto. Cada elemento en que se rompe el texto se convierte en un elemento de la lista.

In [None]:
L.split()

In [None]:
L2 = 'Esta es una idea. Esta es otra. Estan separadas por puntos'
R1 = L2.split('.')
R1

In [None]:
L3 = '''Esta es una idea.
Esta es otra. Estan separadas
por puntos'''

In [None]:
L3.split('\n')

### join

Hace lo opuesto de `.split()`. Toma como argumento una lista y los une en un solo texto, usando un separador entre cada elemento.

In [None]:
R1

In [None]:
';'.join(R1)

In [None]:
'|'.join(['uno','dos','tres'])

### Strip
Remueve espacios en blanco (incluídos saltos de línea y tabulaciones) al princio o al final del texto.

In [None]:
'    Hola mundo   \n\t\t'.strip()

# Expresiones regulares

Una expresion regular (regex) es un conjunto de caracteres que sigue una sintaxis determinada para encontrar coincidencias en cadenas de texto. Con las regex podemos recuperar un texto que se ajusta a ciertos patrones, por ejemplo, podemos buscar si hay nombres propios, fechas, cantidades de medida y otro tipo de información que usualmente siguen ciertas reglas gramaticales o de escritura.

La sintaxis de las regex se siguen por ciertas reglas o expresiones que funcionan de manera más o menos igual en varios lenguajes de programación populares.

La librería `re` tiene varios métodos, pero en este tutorial solo usaremos el método `re.findall` que nos regresa una lista con todas las coincidencias encontradas.

Para usar la librería necesitamos suministrar un patrón y un texto.
```{python}
re.findall(patron,texto)
```
El patrón es un conjunto de caracteres con la sintaxis de expresiones regulares que indica los patrones que queremos extraer del texto. El patrón es sensible a mayúsculas.

In [None]:
##ejemplo
patron = r'[A-Z]'
texto = 'Este es un texto de Prueba' 
re.findall(patron, texto)

En el ejemplo anterior, el patrón `[A-Z]` es una expresión regular para indicar que buscamos las letras de la A a la Z, en mayúsculas. En Python, añadimos la letra `r` para indicar que es un raw string y así evitar tener que poner un \ antes de algunos caracteres especiales.

In [None]:
patron = r'e'
re.findall(patron, texto)

En este ejemplo buscamos todas las apariciones de la letra `'e'`. Esta expresión solo nos regresará el caracter que buscamos por cada una de las veces que lo encontró en el texto, **es importante notar que no nos regresará la palabra de la cual proviene.**

In [None]:
patron = r'texto'
texto = 'Este texto es un pretexto para hacer una prueba'
re.findall(patron, texto)

En este ejemplo, al buscar los caracteres 'texto', nos devuelve cualquier coincidencia que encuentre, sin importar si los caracteres conforman toda una palabra o solo hacen parte de ella. **Más adelante veremos cómo acotar la búsqueda a palabras enteras**

## Clases de caracteres

Hay varias clases de caracteres que usualmente nos interesan más, como por ejemplo, los caracteres **alfabéticos**, los **numéricos** o los **espacios en blanco**. En las expresiones regulares hay una forma de abreviar la búsqueda segun el tipo de caracter:

* `\w`  caracteres alfanuméricos, es decir, los caracteres a-z, A-Z, 0-9 y también los guiones bajos _
* `\d` caracteres numéricos, es decir 0-9
* `\s` espacio en blanco, incluyendo tabulaciones y saltos de linea
* si colocamos la letra de la clase de caracter en mayúscula, entonces la regex busca el patrón contrario, es decir, \W busca todos los carateres que no son alfanuméricos, \D todos los que no son números y \S todos los que no son espacios en blanco

In [None]:
patron = r'\w' # Todos los caracteres alfanuméricos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron, texto))

In [None]:
patron = r'\d\d' # Todos los caracteres numéricos
texto = 'jjsantos01@cide7.edu'
print(re.findall(patron,texto))

In [None]:
patron = r'\D' # Todos los caracteres no numéricos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

## Operadores "Codiciosos"  (greedy match)

Estos son operadores que se colocan junto a un caracter y también ayudan a definir la cantidad de caracteres que se desea buscar:
* $+$ : encuentra caracteres similares al de la izquierda 1 o más veces
* $*$ : encuentra caracteres similares al de la izquierda 0 o más veces
* $?$ : encuentra caracteres similares al de la izquierda 0 o 1 vez

Estos son muy útiles para encontrar derivaciones de alguna palabra.

In [None]:
## SOLO BUSCA programa
patron = r'programa'
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
re.findall(patron, texto)

In [None]:
# todas las palabras que contienen programa y al menos un caracter alfanumerico
patron = r'programa\w+'
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
re.findall(patron,texto)

In [None]:
# todas las palabras que contienen programa e incluye también las que tienen más caracteres
patron = r'programa\w*'
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
print(re.findall(patron,texto))

In [None]:
# todas las palabras que contienen programa e incluye también las que tienen maximo un caracter mas
patron = r'programa\w?'
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
print(re.findall(patron,texto))

## Palabras
Usamos la sequencia `\b` para definir los límites iniciales o finales de una palabra:

In [None]:
texto = 'Este texto es un pretexto para hacer una prueba con textos'
patron = r'\btextos?\b'
re.findall(patron, texto)

In [None]:
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'\b\w*programa\w?\b'
print(re.findall(patron, texto))

## Buscar varios patrones en una sola expresión

Para buscar simultaneamente varios patrones usando una sola expresión regular podemos usar el operador `|` (barra vertical)

In [None]:
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'\bprograma\b|pres\w+|prox\w+'
re.findall(patron,texto)

In [None]:
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'(programa\w*|pres\w+|prox\w+) (est\w+|tamb\w+)'
re.findall(patron, texto)

# Procesamiento y exploración

* Si tenemos archivos de texto simple (`.txt`) podemos abrirlos con `open()`, como cualquier archivo en Python y luego usar el método `.read()`
* A continuación listamos algunos de los procedimientos de preprocesamiento y exploración básicos.

In [None]:
with open('datos/pdf1.txt', 'r', encoding='utf8') as txtfile:
    texto1 = txtfile.read()

with open('datos/pdf2.txt', 'r', encoding='utf8') as txtfile:
    texto2 = txtfile.read()

## Tokenizar
* Tokenizar consiste en dividir el texto entero en componentes más pequeños. Cada componente se conoce como token. Lo más usual es tokenizar por palabras, aunque también es posible dividir un texto por oraciones, párrafos o incluso por caracteres.

### Palabras
* Para tokenizar por palabras solo basta con aplicar el método `.split()` a un objeto de texto.

In [None]:
texto1.split()

### Oraciones

* Para tokenizar por oraciones aplicamos el método `.split('.')` a un objeto de texto.

In [None]:
texto1.split('.')

### Párrafos
* Para tokenizar por párrafos aplicamos el método `.splitlines()` a un objeto de texto.

In [None]:
texto1.splitlines()

## Limpiar texto

* Antes de hacer cualquier anális tenemos que preprocesar el texto para homogeneizarlo y remover algunas palabras o caracteres que pueden ser irrelevantes.

### Minúsculas y remover acentos
* Podemos usar el método `.lower()` para convertir todo a minúsculas.
* sklearn tiene la función `strip_accents_ascii`, dentro del módulo `sklearn.feature_extraction.text`, para remover acentos.

In [None]:
strip_accents_ascii(texto1.lower())

### Stopwords

* Las stopwords son palabras muy comunes que usualmente no aportan mucha información. Estas palabras suelen ser artículos o preposiciones.
* En español podemos usar la lista de stopwords que viene en la librería [`nltk`](https://www.nltk.org/), dentro del módulo `stopwords`. La librería ya viene instalada en Anaconda.
* Dependiendo de la aplicación, podemos agregar nuestras propias stopwords.
* A continuación vamos a usar las stopwords de nltk que están guardadas en el archivo `datos/stopwords_spanol.csv` y creamos una función que las remueve de cualquier texto.

In [None]:
stops = pd.read_csv('datos/stopwords_spanol.csv')['stopwords'].tolist()
def remueve_stopwords(texto):
    p = [t for t in texto.split() if t.lower() not in stops]
    return ' '.join(p)

remueve_stopwords(texto1)[0:1000]

### Remover puntuación y números

* También puede ser útil remover signos de puntucación y números
* Dentro de la librería `string` se encuentra la variable `punctuation` que contiene los principales signos de puntuación. En español debemos agregarle algunos signos de apertura (¡¿)
* Usamos el método `re.sub()` de la librería `re`, ya que permite usar expresiones regulares para hacer múltiples reemplazos.

In [None]:
def remueve_puntuacion(texto, remueve_numeros=True):
    pat = '[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¡¿\d]'
    if not remueve_numeros:
        pat = '[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¡¿]'
    return re.sub(pat, '', texto)

In [None]:
remueve_puntuacion(texto1)[0:1000]

In [None]:
remueve_puntuacion(texto2, remueve_numeros=False)[0:1000]

## Extraer información

* Ahora que tenemos algunas funciones para preprocesar el texto podemos usar las expresiones regulares para encontrar información de interés en el texto, como nombres propios, direcciones, números, etc.

### Nombres propios

* Los nombres propios se caracterizan por que son varias palabras seguidas en las que la primera letra es mayúscula, mientras las demás son minúsculas.
* A continuación generamos un patrón para detectar nombres propios compuestos de al menos tres palabras.

In [None]:
pat_nprop = r'(?:\b[A-Z][a-z]+\b\s?){3,}'
re.findall(pat_nprop, remueve_stopwords(strip_accents_ascii(texto1)))

In [None]:
re.findall(pat_nprop, remueve_stopwords(strip_accents_ascii(texto2)))

### Números

* Podemos extraer patrones numéricos, como por ejemplo números de teléfono, número de folios o cantidades de dinero.

In [None]:
# Números de folio
pat_fol = r'(folios?(?:\,? \d+)+)'
re.findall(pat_fol, texto1)

In [None]:
# Dinero
pat_din = r'\$\s?[\d\,\.]+'
re.findall(pat_din, texto2)

In [None]:
re.findall(pat_din, texto1)

### Lugar

* Podemos encontrar ubicaciones genéricas como calles, avenidas, colonias o estaciones del metro. También podemos intentar recuperar el nombre del lugar si está escrito como nombre propio o si tiene números.

In [None]:
pat_lugar = r'(?:[Cc]olonia|[Bb]oulevard|\b[Cc]ol\b\.?|[Aa]venida|\b[Aa]v\b.?|\b[Cc]alle\w*|[Cc]alz\w*|\b[Ee]je\b|\b[Pp]laza|\b[Mm]etro\w*|[Zz]ona|[Jj]ardin\w*|[Ee]stacion)\s?(?:[A-Z][\w\.]* [A-Z][\w\.]* [A-Z][\w\.]*|[A-Z][\w\.]* [A-Z][\w\.]*|[A-Z][\w\.]*|\d+|(?=.*))+'
re.findall(pat_lugar, remueve_stopwords(texto2))

In [None]:
re.findall(pat_lugar, texto1)

### Fecha

* Las fechas suelen tener patrones muy particulares, como dd/mm/yyyy o yyyy-mm-dd, por lo que suele ser fácil captarlas en un texto.
* A continuación usamos un patrón que captura fechas de la forma `"{dia} de {mes} del {año}"`

In [None]:
pat_fecha = r'(\d{1,2} de (?:enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|noviembre|diciembre) del? \d{4})'
re.findall(pat_fecha, texto1, re.I)

In [None]:
re.findall(pat_fecha, texto2, re.I)

### Leyes, artículos, fracciones

* Podemos encontrar referencias a legislaciones anteponiendo las palabras ley, código, estatuto, etc y esperando que el nombre de la norma esté escrito como nombre propio.
* También podemos buscar Títulos, Artículos o Fracciones de las leyes.
* Remover las stopwords ayuda mucho.

In [None]:
# ley
pat_art = r'(?:Ley|Codigo|Estatuto)(?:\s\b[A-Z]\w+\b)+'
re.findall(pat_art, remueve_stopwords(texto1))

In [None]:
re.findall(pat_art, remueve_stopwords(texto2))

In [None]:
# Articulos
pat_art = r'articulos?(?:\,?\s?\d+°?)+'
re.findall(pat_art, remueve_stopwords(texto2), re.I)

In [None]:
# Fracciones
pat_fracc = r'fracci\w+(?:\,?\s?[IVX]+)+'
re.findall(pat_fracc, remueve_stopwords(texto1), re.I)

## Palabras más comunes


* Para conocer las palabras más populares usamos la función `Counter` dentro de la librería nativa `collections`. Los objetos tipo `Counter` reciben como input una lista de elementos, en este caso palabras y tienen el método `.most_common()` para mostrar los elementos más comunes.
* Antes de buscar las palabras más comunes, preprocesamos el texto para evitar palabras no relevantes se filtren.

In [None]:
text1_prep = remueve_stopwords(remueve_puntuacion(strip_accents_ascii(texto1[0:7500].lower())))
conteo = Counter(text1_prep.split())
conteo.most_common(20)

In [None]:
text2_prep = remueve_stopwords(remueve_puntuacion(strip_accents_ascii(texto2.lower())))
conteo = Counter(text2_prep.split())
conteo.most_common(20)

## WordClouds

* Las _wordclouds_ o nubes de palabras, son gráficos que muestran los términos más frecuentes de un texto.
* Para hacer wordclouds instalamos la librería `wordcloud`
```
pip install wordcloud
```

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100, collocations=False, background_color="white")
wordcloud.generate(text1_prep)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
# Guardamos
wordcloud.to_file("imagenes/texto1.png")

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100, collocations=False, background_color="white")
wordcloud.generate(text2_prep)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
# Guardamos
wordcloud.to_file("imagenes/texto2.png")

Aquí pueden encontrar un [tutorial sobre wordcloud](https://www.datacamp.com/community/tutorials/wordcloud-python)

 # Métodos de string en un DataFrame de Pandas
 * Cuando tenemos muchos textos que pertenecen a una colección de documentos puede ser mejor guardarlos en un archivo de datos tabulares, como excel, csv o SQL.
 * La ventaja es que podemos hacer el procesamiento utilizando funciones vectorizadas, que son más eficientes que si aplicamos los mismos procedimientos a cada texto de forma individual.
 * Podemos leer el conjunto de textos usando la librería [Pandas](https://pandas.pydata.org/) que tiene muchas funciones de utilidad para el procesamiento de datos.
 * Las variables que son de tipo string en un `DataFrame` tienen un conjunto de métodos especiales para este tipo de datos. A estos métodos se acceden escribiendo `.str` después de una `Serie`

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
pd.options.display.max_colwidth=300 # opción para poder ver hasta 300 caracteres en Jupyter
plt.style.use('ggplot')
%matplotlib inline

In [None]:
# Leemos los datos
debates = pd.read_excel('datos/debates_presidenciales_2018.xlsx')
debates.head()

In [None]:
debates['nombre_corto'].unique()

## Reemplazar

In [None]:
## Reemplazar, se puede usar una regex
debates['nombre_corto'] = debates['nombre_corto'].str.replace('López Obrador', 'AMLO')
debates['nombre_corto'].unique()

In [None]:
debates['dialogo'].str.replace('Andrés Manuel López Obrador|Andres Manuel', 'AMLO').head(10)

In [None]:
# En la base de datos hay un error, algunos presentadores fueron tratados como candidatos
debates.query('rol=="Candidato"')['nombre_corto'].unique()
## Corregiremos el rol para los presentadores
presentadores = ['Warketin','Puig', 'Curzio']
debates.loc[debates['nombre_corto'].isin(presentadores), 'rol'] = 'Moderador'
debates.loc[debates['nombre_corto']=='Voz en off', 'rol'] = 'Voz en off'
debates.query('rol=="Candidato"')['nombre_corto'].unique()

## Contar

### Número de caracteres

Usamos el método `.str.len()` de las series.

In [None]:
debates['N_caracteres'] = debates['dialogo'].str.len()
debates.head()

### Número de palabras

Usamos el método `.str.count()`, que funciona con expresiones regulares

In [None]:
debates['N_palabras'] = debates['dialogo'].str.count('\w+')
debates.head()

In [None]:
debates_npalabras = debates.query('rol=="Candidato"')\
            .groupby(['nombre_corto','num_debate'])\
            .sum()[['N_palabras','N_caracteres']]

debates_npalabras

> Usamos el método `.groupby()` para agrupar los datos a partir de una o más variables, y luego aplicamos el método `.sum()` para sumar el `DataFrame` agrupado.

In [None]:
debates_npalabras['N_palabras'].unstack('num_debate')

In [None]:
## Grafica de número de palabras de cada candidato, desagregadas por número de debate
ax = debates_npalabras['N_palabras'].unstack('num_debate').plot.bar()
ax.legend(loc=3)

In [None]:
## Grafica de número de palabras de cada candidato, desagregadas por número de debate
ax = debates_npalabras['N_palabras'].unstack('num_debate')\
    .plot.pie(subplots=True, legend=False, figsize=(12, 4))

### Contar ocurrencia de palabras

Usamos el método `.str.count()`

In [None]:
# Contar cuántas veces se mencionaron a los candidatos en el diálogo
debates['mencion_meade'] = debates['dialogo'].str.count('José Antonio Meade|Jose Antonio|Meade|José')
debates['mencion_anaya'] = debates['dialogo'].str.count('Ricardo Anaya|Ricardo|Anaya')
debates['mencion_amlo'] = debates['dialogo'].str.count('Andrés Manuel López Obrador|Andrés Manuel|López Obrador|Andres|AMLO')
debates['mencion_bronco'] = debates['dialogo'].str.count('Jaime Rodríguez Calderon|Jaime Rodríguez|Jaime|Bronco')
debates['mencion_zavala'] = debates['dialogo'].str.count('Margarita Zavala|Margarita|Zavala')
debates.head()

In [None]:
# Suma total de menciones
debates.filter(regex='num_|N_|mencion_').groupby('num_debate').sum()

> El método `.filter()` sirve para filtrar las columnas usando expresiones regulares.

In [None]:
## Grafica de Suma de menciones, desagregadas por número de debate
ax = debates.groupby('num_debate').sum().filter(like='mencion_')\
    .plot(kind='bar')
ax.get_legend().set_bbox_to_anchor((0.5, -0.1))

In [None]:
## Grafica de Suma de menciones, desagregadas por nombre_corto de candidato
debates.query('rol=="Candidato"')\
    .groupby('nombre_corto')\
    .sum()\
    .filter(like='mencion_')\
    .plot(kind='bar')

## Contiene

Usamos el método `.str.contains()` para identificar si una serie contiene una serie de caracteres. Se usan expresiones regulares y retorna una serie de booleanos.

In [None]:
debates['dialogo'].str.contains('balazos|canallín|suerte')

In [None]:
debates.loc[debates['dialogo'].str.contains('balazos|canallín|suerte'), ['nombre_corto', 'dialogo']]

## Subconjunto

Para seleccionar un subconjunto de caracteres basados en la posición usamos el método `.str[]`

In [None]:
# Obtenemos los primeros 10 caracteres de cada diálogo
debates['dialogo'].str[0:10]

## Encontrar caracteres/palabras

Con el método `.str.findall()` podemos buscar una expresión regular en el texto y nos retorna una serie con una lista para cada fila con las coincidencias encontradas.

In [None]:
# Todos los números
debates['dialogo'].str.findall('\d+')

In [None]:
# Todos los números, incluyendo la palabra anterior y posterior, si la hay
debates['dialogo'].str.findall('\w+\s\w+\s\d+\s?\w*')

## split

El método `str.split()` sirve para separar el texto según un caracter separador. El resultado es una lista con los elementos separados.

In [None]:
debates['dialogo'].str.split('.')#.str.len()

Cuando el resultado de una operación es una serie que contiene listas, se puede acceder al resultado de cada lista usando `str[]`

In [None]:
debates['dialogo'].str.split('.').str[-2]

In [None]:
'hola. mundo.'.split('.')

## Otras funciones str

In [None]:
debates['dialogo'].head().str.upper()

In [None]:
debates['dialogo'].head().str.lower()

In [None]:
debates['dialogo'].head().str.strip()

## Apply

El método `.apply()` es un método que permite aplicar una función a cada uno de los elementos de una serie

In [None]:
debates['dialogo'].apply(strip_accents_ascii)

In [None]:
# Número de caracteres únicos en cada diálogo
debates['dialogo'].apply(lambda x: len(set(x)))

## sumar

In [None]:
# Colapsamos todo el texto en una sola variable. Cada oración
texto_debate = debates['dialogo'].add('\n').sum()
print(texto_debate[0:1000])

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100, collocations=False, background_color="white")
wordcloud.generate(remueve_stopwords(texto_debate))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
# Guardamos
wordcloud.to_file("imagenes/debate.png")