Text Mining - 1. Basics

AFI - Máster en Data Science y Big Data

Juan de Dios Romero Palop

Abril 2022

# **Funciones básicas para trabajar con textos**

In [1]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no hace mucho que vivia"
len(texto)

85

Para dividir un texto por palabras utilizamos la función split() y especificamos que queremos dividir por espacios en blanco.

In [2]:
# Division en palabras
palabras = texto.split(' ')
palabras

['En',
 'un',
 'lugar',
 'de',
 'la',
 'Mancha,',
 'de',
 'cuyo',
 'nombre',
 'no',
 'quiero',
 'acordarme,',
 'no',
 'hace',
 'mucho',
 'que',
 'vivia']

En el split podemos especificar cualquier cosa para dividir, por ejemplo división por comas

In [3]:
texto.split(',')

['En un lugar de la Mancha',
 ' de cuyo nombre no quiero acordarme',
 ' no hace mucho que vivia']

Una vez que tenemos las palabras por separado podemos filtrarlas para quedarnos con las que cumplen los requisitos que estamos buscando. Veamos algunos ejemplos.

In [4]:
[palabra for palabra in palabras if len(palabra) > 3]

['lugar',
 'Mancha,',
 'cuyo',
 'nombre',
 'quiero',
 'acordarme,',
 'hace',
 'mucho',
 'vivia']

In [5]:
[palabra for palabra in palabras if palabra.istitle()]

['En', 'Mancha,']

In [6]:
[palabra for palabra in palabras if palabra.endswith('e')]

['de', 'de', 'nombre', 'hace', 'que']

In [7]:
[palabra for palabra in palabras if palabra.endswith('E')]

[]

In [8]:
[palabra for palabra in palabras if palabra.startswith('m')]

['mucho']

In [9]:
# Reto: ¿Cómo hacemos para quitar la coma a todas las palabras que se han quedado con ella pegada al final?

In [10]:
[palabra.replace(",","") for palabra in palabras if palabra.__contains__(',')]

['Mancha', 'acordarme']

Algunas funciones más para comprobar condiciones:


*   isupper()
*   islower()
*   isdigit()
*   operador **in**
*   ...





In [11]:
# Reto: ¿Qué ejemplos de uso reales se os ocurren para esta funcionalidad?  


La funcion split devuelve una lista de todas las palabras eliminando el caracter definido por el usuario. La lista puede contener palabras repetidas. Para obtener el conjunto de palabras únicas contenidas en el texto hay que utilizar **set()**.

In [12]:
set(palabras)

{'En',
 'Mancha,',
 'acordarme,',
 'cuyo',
 'de',
 'hace',
 'la',
 'lugar',
 'mucho',
 'no',
 'nombre',
 'que',
 'quiero',
 'un',
 'vivia'}

In [13]:
# Reto: ¿Cómo comprobamos si existen palabras repetidas en un texto?
len(set(palabras)) == len(palabras)

False

In [14]:
# Ojo con las mayúsculas
texto2 = "No puedo vivir sin ti, no hay manera"
print(texto2.split(' '))
print(set(texto2.split(' ')))

['No', 'puedo', 'vivir', 'sin', 'ti,', 'no', 'hay', 'manera']
{'No', 'puedo', 'ti,', 'sin', 'manera', 'no', 'vivir', 'hay'}


Ademas de split() contamos con otras funciones que nos ayudan a hacer la division de los textos en estructuras mas sencillas. Por ejemplo, tenemos splitlines() que divide textos en parrafos (busca el caracter de ENTER -> '\n')

In [15]:
texto3 = '''Primera parte del Ingenioso hidalgo Don Quijote de la Mancha.
Capitulo Primero. Que trata de la condicion y ejercicio del famoso hidalgo don Quijote de la Mancha'''

In [16]:
texto3.splitlines()

['Primera parte del Ingenioso hidalgo Don Quijote de la Mancha.',
 'Capitulo Primero. Que trata de la condicion y ejercicio del famoso hidalgo don Quijote de la Mancha']

Podemos combinar ambas funciones para dividir los textos en parrafos y acabar teniendo las frases que pertenecen a cada parrafo.

In [17]:
frases = [parrafo.split('.') for parrafo in texto3.splitlines()]
frases

[['Primera parte del Ingenioso hidalgo Don Quijote de la Mancha', ''],
 ['Capitulo Primero',
  ' Que trata de la condicion y ejercicio del famoso hidalgo don Quijote de la Mancha']]

In [18]:
# RETO: ¿Cómo se lee la siguiente celda y qué hace?
[frase for parrafo in texto3.splitlines() for frase in parrafo.split('.') if len(frase) > 0]

['Primera parte del Ingenioso hidalgo Don Quijote de la Mancha',
 'Capitulo Primero',
 ' Que trata de la condicion y ejercicio del famoso hidalgo don Quijote de la Mancha']

Combinando ambas funciones podemos obtener las palabras que pertenecen a cada párrafo.

In [19]:
palabras = [frase.split(' ') for frase in texto3.splitlines()]
palabras

[['Primera',
  'parte',
  'del',
  'Ingenioso',
  'hidalgo',
  'Don',
  'Quijote',
  'de',
  'la',
  'Mancha.'],
 ['Capitulo',
  'Primero.',
  'Que',
  'trata',
  'de',
  'la',
  'condicion',
  'y',
  'ejercicio',
  'del',
  'famoso',
  'hidalgo',
  'don',
  'Quijote',
  'de',
  'la',
  'Mancha']]

Por último, si queremos dividir los textos en letras basta con convertir esas variables en listas.

In [20]:
## Obtener lista de letras de un texto
texto2 = 'No puedo vivir sin ti, no hay manera'
list(texto2)
[letra for letra in list(texto2) if letra != ' ']

['N',
 'o',
 'p',
 'u',
 'e',
 'd',
 'o',
 'v',
 'i',
 'v',
 'i',
 'r',
 's',
 'i',
 'n',
 't',
 'i',
 ',',
 'n',
 'o',
 'h',
 'a',
 'y',
 'm',
 'a',
 'n',
 'e',
 'r',
 'a']

In [21]:
len(' ')

1

In [22]:
# Si queremos quitarnos espacios y signos de puntuación basta con aplicar la condición de ser alfanumérico
[letra for letra in texto2 if letra.isalpha()]

['N',
 'o',
 'p',
 'u',
 'e',
 'd',
 'o',
 'v',
 'i',
 'v',
 'i',
 'r',
 's',
 'i',
 'n',
 't',
 'i',
 'n',
 'o',
 'h',
 'a',
 'y',
 'm',
 'a',
 'n',
 'e',
 'r',
 'a']

In [23]:
# Al trabajar en castellano tambien hay que tener cuidado con los acentos
'i' == 'í'

False

### Funciones que modifican textos

A menudo es necesario aplicar funciones que no solo manipulan los textos sino que los modifican. ¿Qué ejemplos se os ocurren?

In [24]:
texto = "No puedo vivir sin ti, no hay manera. No puedo estar sin tí, no hay manera."

In [25]:
palabras_unicas = set(texto.split(' '))
palabras_unicas

{'No', 'estar', 'hay', 'manera.', 'no', 'puedo', 'sin', 'ti,', 'tí,', 'vivir'}

In [26]:
texto.lower()

'no puedo vivir sin ti, no hay manera. no puedo estar sin tí, no hay manera.'

In [27]:
texto_min = texto.lower()
palabras_unicas = set(texto_min.split(' '))
palabras_unicas

{'estar', 'hay', 'manera.', 'no', 'puedo', 'sin', 'ti,', 'tí,', 'vivir'}

In [28]:
texto.upper()

'NO PUEDO VIVIR SIN TI, NO HAY MANERA. NO PUEDO ESTAR SIN TÍ, NO HAY MANERA.'

In [29]:
texto_min.capitalize()

'No puedo vivir sin ti, no hay manera. no puedo estar sin tí, no hay manera.'

In [30]:
texto.swapcase()

'nO PUEDO VIVIR SIN TI, NO HAY MANERA. nO PUEDO ESTAR SIN TÍ, NO HAY MANERA.'

In [31]:
texto.title()

'No Puedo Vivir Sin Ti, No Hay Manera. No Puedo Estar Sin Tí, No Hay Manera.'

Una operación que es bastante común es la de eliminar espacios sobrantes al principio y final de las frases. Para ello se utiliza la función strip().

In [32]:
texto_feo = '       Me he dejado un espacio al principio y al final  '

In [33]:
texto_feo.strip()

'Me he dejado un espacio al principio y al final'

In [34]:
texto_feo.lstrip()

'Me he dejado un espacio al principio y al final  '

In [35]:
texto_feo.rstrip()

'       Me he dejado un espacio al principio y al final'

Si lo que queremos es reemplazar algunos valores podemos utilizar la función replace().

In [36]:
texto_acentos = texto.replace('í','i')
texto_acentos

'No puedo vivir sin ti, no hay manera. No puedo estar sin ti, no hay manera.'

In [37]:
texto_acentos.replace('ti', 'el')

'No puedo vivir sin el, no hay manera. No puedo estar sin el, no hay manera.'

### Leer un fichero de texto

https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files

Lo primero que tenemos que hacer para trabajar con ficheros de textos es abrirlos y especificar en qué modo (qué tipo de operaciones) queremos realizar con ellos. Una vez abiertos podemos leer la primera frase utilizando la función readline()

In [38]:
g = open('./reviews.txt','r')

In [39]:
g.readline()

'bromwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   \n'

¡Ojo! Una vez que hemos ejecutado readline() el cursor que tenemos en el fichero abierto avanza y se sitúa justo delante del último carácter que hemos leído. Por lo tanto, si ejecutamos otra vez el comando el resultado es distinto.


In [40]:
g.readline()

'story of a man who has unnatural feelings for a pig . starts out with a opening scene that is a terrific example of absurd comedy . a formal orchestra audience is turned into an insane  violent mob by the crazy chantings of it  s singers . unfortunately it stays absurd the whole time with no general narrative eventually making it just too off putting . even those from the era should be turned off . the cryptic dialogue would make shakespeare seem easy to a third grader . on a technical level it  s better than you might think with some good cinematography by future great vilmos zsigmond . future stars sally kirkland and frederic forrest can be seen briefly .  \n'

Si queremos situar el cursor en algún punto determinado del fichero podemos utilizar la función seek.

In [41]:
g.seek(1)
g.readline()

'romwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   \n'

Podemos leer el fichero entero y asignarlo a una sola variable utilizando read()

In [42]:
g.seek(0)
texto_entero = g.read()
len(texto_entero)

33678267

In [43]:
g.seek(0)
texto_entero = g.read()
g.seek(0)
g.readline()

'bromwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   \n'

In [44]:
g.seek(0)
veinte_primeros_caracteres = g.read(20)
len(veinte_primeros_caracteres)

20

In [45]:
parrafos = texto_entero.splitlines()
len(parrafos)

25000

In [46]:
parrafos[0:3]

['bromwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   ',
 'story of a man who has unnatural feelings for a pig . starts out with a opening scene that is a terrific example of absurd comedy . a formal orchestra audience i

Es importante cerrar los ficheros cuando hemos terminado de trabajar con ellos para liberar memoria y permitir su uso por parte de otras aplicaciones.

In [47]:
g.close()

In [48]:
g.closed

True

In [49]:
g = open('./reviews.txt','r')

In [50]:
import os

g = open('./reviews.txt','rb')
g.seek(texto_entero.find('football'), 0)
g.readline()

b'football is played whatsoever and we see the behind the scenes look at basically nothing . with the many stars in this film  it made no difference . i really don  t know why i watched this .  \n'

In [51]:
g.seek(texto_entero.find('football'), 0)
g.seek(4,os.SEEK_CUR)
g.readline()

b'ball is played whatsoever and we see the behind the scenes look at basically nothing . with the many stars in this film  it made no difference . i really don  t know why i watched this .  \n'

In [52]:
g.close()

In [53]:
g = open('./reviews.txt','r')
g.readlines()[0:10]

['bromwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   \n',
 'story of a man who has unnatural feelings for a pig . starts out with a opening scene that is a terrific example of absurd comedy . a formal orchestra audience

In [54]:
g.close()