# Importación y preparación de datos en procesamiento de lenguaje natural
Este notebook es parte de una serie que busca introducir los problemas y posibles alternativas de solución que se presentan en procesamiento de lenguaje natural (NLP).
Esta primera etapa busca familiarizarse con las librerías fundamentales de preparación de datos, para lograr importar corpus de diferentes fuentes y realizar una limpieza sobre ellos

In [1]:
import os, re, string

La librería fundamental para probar el análisis de texto es NLTK

In [2]:
import nltk

Una de las librería líderes para poner NLP en producción es spacy

In [4]:
import spacy

## Importación de un documento como corpus
###Archivos de texto "txt"
Para la importación de txt, basta con abrir y leer el archivo.
Para documentos en español es clave el uso de la codificación (*encoding*) correcta.
UTF-8 suele ser funcional, pero una más amplia es latin-1

In [5]:

abre=open("nuevo_testamento_valera.txt",encoding="UTF-8")
base=abre.read()
print(type(base), len(base))



<class 'str'> 181152


El archivo es leido como una cadena (*string*)

Como podrá observarse, en general los archivos requieren limpieza para tener el texto deseado. En este caso, hay prefacios e introducciones que no hacen parte del nuevo testamento en el proyecto Gutenberg

In [6]:
#print(base)

In [7]:
base[0:100]

'\ufeffThe Project Gutenberg EBook of Reina Valera New Testament of the Bible 1909, by \nAnonymous\n\nThis eB'

Una limpieza inicial incluye marcar el verdadero inicio y final del texto de interés

In [8]:
inicio="HEBREO Y GRIEGO"
init=base.find(inicio)
finale=base.find("The first pass")
base2=base[init+len(inicio):finale]
base2[0:2000]

'\n\n\n\nCapítulo  1\n\n        1 EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era\nDios.\n\n        2 Este era en el principio con Dios.\n\n        3 Todas las cosas por él fueron hechas; y sin él nada de lo que es\nhecho, fué hecho.\n\n        4 En él estaba la vida, y la vida era la luz de los hombres.\n\n        5 Y la luz en las tinieblas resplandece; mas las tinieblas no la\ncomprendieron.\n\n        6 Fué un hombre enviado de Dios, el cual se llamaba Juan.\n\n        7 Este vino por testimonio, para que diese testimonio de la luz, para\nque todos creyesen por él.\n\n        8 No era él la luz, sino para que diese testimonio de la luz.\n\n        9 [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á\neste mundo.\n\n        10 En el mundo estaba, y el mundo fué hecho por él; y el mundo no le\nconoció.\n\n        11 A lo suyo vino, y los suyos no le recibieron.\n\n        12 Mas á todos los que le recibieron, dióles potestad de ser hechos\nhijos

Después de eso, resulta claro que hay elementos en el texto que no son deseados. Ocurre mucho también con redes sociales y páginas web (en nuestro caso se trata de los tabuladores y cambios de párrafo). La forma usual de retirarlos es con el uso de *expresiones regulares*. A lo largo del notebook iremos mostrando otras expresiones regulares de limpieza de texto.

In [9]:
base2a = re.sub ("\n|\t"," ",base2)
base2a[0:2000]

'    Capítulo  1          1 EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios.          2 Este era en el principio con Dios.          3 Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho.          4 En él estaba la vida, y la vida era la luz de los hombres.          5 Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron.          6 Fué un hombre enviado de Dios, el cual se llamaba Juan.          7 Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él.          8 No era él la luz, sino para que diese testimonio de la luz.          9 [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo.          10 En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció.          11 A lo suyo vino, y los suyos no le recibieron.          12 Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nom

Algunas limpiezas pueden ser más polémicas, pues los signos de puntuación tienen potencial de significado en el texto

In [10]:
base3=re.sub(r"[.,;:¿?!¡()\-/\\]",'',base2a)
base3[0:2000]

'    Capítulo  1          1 EN el principio era el Verbo y el Verbo era con Dios y el Verbo era Dios          2 Este era en el principio con Dios          3 Todas las cosas por él fueron hechas y sin él nada de lo que es hecho fué hecho          4 En él estaba la vida y la vida era la luz de los hombres          5 Y la luz en las tinieblas resplandece mas las tinieblas no la comprendieron          6 Fué un hombre enviado de Dios el cual se llamaba Juan          7 Este vino por testimonio para que diese testimonio de la luz para que todos creyesen por él          8 No era él la luz sino para que diese testimonio de la luz          9 [Aquél] era la luz verdadera que alumbra á todo hombre que viene á este mundo          10 En el mundo estaba y el mundo fué hecho por él y el mundo no le conoció          11 A lo suyo vino y los suyos no le recibieron          12 Mas á todos los que le recibieron dióles potestad de ser hechos hijos de Dios á los que creen en su nombre          13 Los cuales 

Eliminar los números de los versículos también podría ser importante

In [11]:
base2b=re.sub(r"[0-9]","",base2a)
##equivalente a [0-9]: /d
base2b[0:2000]

'    Capítulo             EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios.           Este era en el principio con Dios.           Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho.           En él estaba la vida, y la vida era la luz de los hombres.           Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron.           Fué un hombre enviado de Dios, el cual se llamaba Juan.           Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él.           No era él la luz, sino para que diese testimonio de la luz.           [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo.           En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció.           A lo suyo vino, y los suyos no le recibieron.           Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nombre:           L

In [12]:
base2c=re.sub(r" +"," ",base2b)
##alternativa: /s
base2c[0:2000]

' Capítulo EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios. Este era en el principio con Dios. Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho. En él estaba la vida, y la vida era la luz de los hombres. Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron. Fué un hombre enviado de Dios, el cual se llamaba Juan. Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él. No era él la luz, sino para que diese testimonio de la luz. [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo. En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció. A lo suyo vino, y los suyos no le recibieron. Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nombre: Los cuales no son engendrados de sangre, ni de voluntad de carne, ni de voluntad de varón, mas de Dios. Y aquel Verbo fué hecho carne, y

Unificar los textos en minúsculas sule funcionar bastante bien, aunque puede dificultar la identificación de nombres propios

In [13]:
basefinal=base2c.lower()
basefinal[0:850]


' capítulo en el principio era el verbo, y el verbo era con dios, y el verbo era dios. este era en el principio con dios. todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho. en él estaba la vida, y la vida era la luz de los hombres. y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron. fué un hombre enviado de dios, el cual se llamaba juan. este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él. no era él la luz, sino para que diese testimonio de la luz. [aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo. en el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció. a lo suyo vino, y los suyos no le recibieron. mas á todos los que le recibieron, dióles potestad de ser hechos hijos de dios, á los que creen e'

In [14]:
#basefinal

### Importar datos de redes sociales
En general las redes sociales solo están abiertas a aquello que la cuenta puede acceder; sin embargo Twitter ha sido una red abierta por excelencia, y es por ello una de las más usadas para extraer esa información

In [16]:
import tweepy

para usar las API de twitter hay que tener una cuenta de desarrollador, con sus propias claves.

In [None]:
##incluir tus propias claves
consumer_key= ''
consumer_secret= ''
access_token= ''
access_token_secret= ''

Y luego autenticarse

In [18]:

##autenticarse
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth, wait_on_rate_limit=True)


In [18]:
#?tweepy.API

después de ello, hay que conocer el lenguaje de búsquedas para extraer los trinos requeridos.

In [19]:
busqueda="cerveza + ambiente -filter:retweets"
desde="2020-01-01"

#trinos=tweepy.Cursor(api.search,q=busqueda,lang="es",since=desde).items(50)
trinos=tweepy.Cursor(api.search_tweets,q=busqueda,lang="es",since=desde).items(50)


Luego pasamos los trinos a una lista, y podemos observar nuevos desafíos de limpieza, como las páginas web y las menciones.

In [20]:
guardainfo = [[trino.user.screen_name, trino.user.location, trino.text] for trino in trinos]
guardainfo[0:5]

Unexpected parameter: since
Unexpected parameter: since
Unexpected parameter: since
Unexpected parameter: since


[['FranRuizParra',
  '',
  'Creía que a cualquier persona le parecía un planazo el atardecer en el mar con la tabla de paddle surf, una (varias… https://t.co/maYfy8iOFB'],
 ['ma35035393',
  '',
  '¿En qué pub estás bebiendo?" Gonzalito, quería saberlo. “¿Cerveza caliente? ¿Ya no, seguro?”\n¡Seguro como necesite… https://t.co/tu9PkyQUlq'],
 ['IlCazzo8',
  'Hamburgo, Alemania',
  'Piden cuidar el medio ambiente pero compran cerveza, botan los envases en la calle y votan Apruebo \n\nPiden cuidar l… https://t.co/eq9AyaPl6f'],
 ['Celesteescobara',
  'Guatemala',
  'Un filing, una cerveza para entrar en ambiente'],
 ['ToorsDrella',
  '',
  'Oigan que pedo que los nuevos restaurantes de CDMX que van de gran propuesta gastronómica / calidad de producto per… https://t.co/wvLzw6GHEj']]

las expresiones regulares ayudan entonces a limpiar esas páginas web

In [21]:
guardatrino = [trino[2] for trino in guardainfo]
guardatrino2= [re.sub("(\w+:\/\/\S+)", "", trino) for trino in guardatrino]
#cualquier palabra que tenga caracteres de palabras seguido de dos puntos , slash/slash y hasta que encuentre espacio en blanco 
# otra opciion
guardatrino3= [re.sub("(http\S+)", "", trino) for trino in guardatrino2]
guardatrino3[0:5]


['Creía que a cualquier persona le parecía un planazo el atardecer en el mar con la tabla de paddle surf, una (varias… ',
 '¿En qué pub estás bebiendo?" Gonzalito, quería saberlo. “¿Cerveza caliente? ¿Ya no, seguro?”\n¡Seguro como necesite… ',
 'Piden cuidar el medio ambiente pero compran cerveza, botan los envases en la calle y votan Apruebo \n\nPiden cuidar l… ',
 'Un filing, una cerveza para entrar en ambiente',
 'Oigan que pedo que los nuevos restaurantes de CDMX que van de gran propuesta gastronómica / calidad de producto per… ']

Puedo también eliminar las menciones

In [22]:
guardatrino4= [re.sub("(^@\S+)", "", trino) for trino in guardatrino3]
guardatrino4[0:5]

['Creía que a cualquier persona le parecía un planazo el atardecer en el mar con la tabla de paddle surf, una (varias… ',
 '¿En qué pub estás bebiendo?" Gonzalito, quería saberlo. “¿Cerveza caliente? ¿Ya no, seguro?”\n¡Seguro como necesite… ',
 'Piden cuidar el medio ambiente pero compran cerveza, botan los envases en la calle y votan Apruebo \n\nPiden cuidar l… ',
 'Un filing, una cerveza para entrar en ambiente',
 'Oigan que pedo que los nuevos restaurantes de CDMX que van de gran propuesta gastronómica / calidad de producto per… ']

O inclusive llevarmelas

In [23]:
menciones=[re.findall("(^@\S+)",trino) for trino in guardatrino3]
menciones[0:10]

[[], [], [], [], [], ['@rgtito'], [], [], ['@LaLovegood'], []]

In [24]:
print(type(guardainfo), len(guardainfo))
guardainfo[0]

<class 'list'> 50


['FranRuizParra',
 '',
 'Creía que a cualquier persona le parecía un planazo el atardecer en el mar con la tabla de paddle surf, una (varias… https://t.co/maYfy8iOFB']

In [26]:
import pandas as pd
tweet_df = pd.DataFrame(data=guardainfo, 
                    columns=['usuario', "ubicacion","texto"])
tweet_df.head(10)


Unnamed: 0,usuario,ubicacion,texto
0,FranRuizParra,,Creía que a cualquier persona le parecía un pl...
1,ma35035393,,"¿En qué pub estás bebiendo?"" Gonzalito, quería..."
2,IlCazzo8,"Hamburgo, Alemania",Piden cuidar el medio ambiente pero compran ce...
3,Celesteescobara,Guatemala,"Un filing, una cerveza para entrar en ambiente"
4,ToorsDrella,,Oigan que pedo que los nuevos restaurantes de ...
5,4daniel_,Jalisco,@rgtito Y esta bien que quieran ayudar al ambi...
6,CarlosF23351821,,Hoy es domingo de Paz y de encuentro familiar...
7,Mex_Libertario,México,"Como buen demagogo, @lopezobrador_ se dice pre..."
8,13ruadopercebe,,"@LaLovegood Los adultos bebían mucha cerveza, ..."
9,lediakhov10,Asturias,Yo estuve en ese estadio. He ido varias veces ...


### Importación de PDFs

Para PDFs usamos un proyecto libre de Apache, y nos conectamos a él. Si se trata de PDFs con imagen es más complicado.

In [27]:
!pip install tika

Collecting tika
  Downloading tika-1.24.tar.gz (28 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: tika
  Building wheel for tika (setup.py) ... [?25ldone
[?25h  Created wheel for tika: filename=tika-1.24-py3-none-any.whl size=32876 sha256=36035cc83e69e1919a0b15951ab3eba1fcc5b53fdd7bebdd827609404dd55010
  Stored in directory: /Users/habi/Library/Caches/pip/wheels/75/66/8b/d1acbac7d49f3d98ade76c51ae5d72cec1866131a3b1ad9f82
Successfully built tika
Installing collected packages: tika
Successfully installed tika-1.24


In [34]:
import tika
from tika import parser


In [35]:
tika.initVM()

In [37]:

#pdfbase=parser.from_file("survey_sentiment.pdf")
pdfbase=parser.from_file("Defining_the_Concepts_of_Technology_and_Technology.pdf")
textopdf= str(pdfbase.values()).lower()
textopdf[0:8000]



2022-08-22 17:04:50,075 [MainThread  ] [WARNI]  Failed to see startup log message; retrying...


'dict_values([{\'content-type\': \'application/pdf\', \'creation-date\': \'2011-12-26t05:58:59z\', \'last-modified\': \'2011-12-26t05:59:05z\', \'last-save-date\': \'2011-12-26t05:59:05z\', \'x-parsed-by\': [\'org.apache.tika.parser.defaultparser\', \'org.apache.tika.parser.pdf.pdfparser\'], \'x-tika:content_handler\': \'totextcontenthandler\', \'x-tika:embedded_depth\': \'0\', \'x-tika:parse_time_millis\': \'1652\', \'access_permission:assemble_document\': \'true\', \'access_permission:can_modify\': \'true\', \'access_permission:can_print\': \'true\', \'access_permission:can_print_degraded\': \'true\', \'access_permission:extract_content\': \'true\', \'access_permission:extract_for_accessibility\': \'true\', \'access_permission:fill_in_form\': \'true\', \'access_permission:modify_annotations\': \'true\', \'created\': \'2011-12-26t05:58:59z\', \'date\': \'2011-12-26t05:59:05z\', \'dc:format\': \'application/pdf; version=1.6\', \'dc:title\': \'untitled\', \'dcterms:created\': \'2011-12-

In [38]:
textopdf[3500:4500]

'literature_analysis?enrichid=rgreq-20394c32c6d2cec18f0af40cd66527bc-xxx&enrichsource=y292zxjqywdlozmxodaxnte1mjtbuzoxntkzodk1nji0ndk5mjjamtqxntaxmjg0mtk5mq%3d%3d&el=1_x_3&_esc=publicationcoverpdf\\nhttps://www.researchgate.net/project/sustainable-employees-performance?enrichid=rgreq-20394c32c6d2cec18f0af40cd66527bc-xxx&enrichsource=y292zxjqywdlozmxodaxnte1mjtbuzoxntkzodk1nji0ndk5mjjamtqxntaxmjg0mtk5mq%3d%3d&el=1_x_9&_esc=publicationcoverpdf\\nhttps://www.researchgate.net/project/developing-a-technology-innovation-sustainability-model?enrichid=rgreq-20394c32c6d2cec18f0af40cd66527bc-xxx&enrichsource=y292zxjqywdlozmxodaxnte1mjtbuzoxntkzodk1nji0ndk5mjjamtqxntaxmjg0mtk5mq%3d%3d&el=1_x_9&_esc=publicationcoverpdf\\nhttps://www.researchgate.net/?enrichid=rgreq-20394c32c6d2cec18f0af40cd66527bc-xxx&enrichsource=y292zxjqywdlozmxodaxnte1mjtbuzoxntkzodk1nji0ndk5mjjamtqxntaxmjg0mtk5mq%3d%3d&el=1_x_1&_esc=publicationcoverpdf\\nhttps://www.researchgate.net/profile/sazali-abd-wahab?enrichid=rgreq-2039

En este caso el encabezado de metadatos inicia con "{" y probablemente cierra con "}". Asi mismo el formato tiene muchos caracteres especiales. Intentaremos mejorarlo.

In [39]:
hallar=textopdf.find("abstract")
textopdftrim=textopdf[hallar+1:]
textopdftrim2=re.sub(r"[^\w.,;:¿?!¡()\-]"," ",textopdftrim)
textopdftrim2[0:1000]

'bstract  n nthe primary objective of this paper is to contribute to the existing literature by comprehensively reviewing the  ndevelopment, definitions and concepts of technology and technology transfer based on a literature review conducted  non these wide research areas. this review covers various definitions and dimensions of both technology and  ntechnology transfer from the early technology concept i.e. from the development of solow s (1957) growth model up  nto maskus s (2003) definition and concept of technology and technology transfer. while the term  technology  itself is  ndifficult to interpret, observe or evaluate, as argued by many scholars, this review attempts to provide in-depth  ndiscussion and enhance understanding on these concepts from various perspectives, research background and  ndisciplines. this review could shed some dynamic ideas for future researchers to further identify, conceptualize and  nunderstand the underlying theories and perspectives which strongly

In [40]:
textopdftrim

'bstract \\n\\nthe primary objective of this paper is to contribute to the existing literature by comprehensively reviewing the \\ndevelopment, definitions and concepts of technology and technology transfer based on a literature review conducted \\non these wide research areas. this review covers various definitions and dimensions of both technology and \\ntechnology transfer from the early technology concept i.e. from the development of solow’s (1957) growth model up \\nto maskus’s (2003) definition and concept of technology and technology transfer. while the term ‘technology’ itself is \\ndifficult to interpret, observe or evaluate, as argued by many scholars, this review attempts to provide in-depth \\ndiscussion and enhance understanding on these concepts from various perspectives, research background and \\ndisciplines. this review could shed some dynamic ideas for future researchers to further identify, conceptualize and \\nunderstand the underlying theories and perspectives whic

In [41]:
re.findall(r'Published by Canadian Center of Science and Education [0-9]+'.lower(), textopdftrim)

['published by canadian center of science and education 63',
 'published by canadian center of science and education 65',
 'published by canadian center of science and education 67',
 'published by canadian center of science and education 69',
 'published by canadian center of science and education 71']

In [42]:
textopdftrim2[4000:5000]

'fiable set of processes and products. the current studies on  nthe technology transfer have connected technology directly with knowledge and more attention is given to the process  nof research and development (dunning, 1994). by scrutinizing the technology definition, there are two basic  ncomponents that can be identified: 1)  knowledge  or technique; and 2)  doing things . technology is always  nconnected with obtaining certain result, resolving certain problems, completing certain tasks using particular skills,  nemploying knowledge and exploiting assets (lan and young, 1996). the concept of technology does not only relate to  nthe technology that embodies in the product but it is also associated with the knowledge or information of it use,  napplication and the process in developing the product (lovell, 1998; bozeman, 2000).   n nthe early concept of technology as information holds that the technology is generally applicable and easy to reproduce  nand reuse (arrow, 1962). howeve

Esta limpieza no logra el resultado exacto que buscamos... ¿cómo mejorarlo?

In [43]:
##aqui va tu codigo que mejora los resultados anteriores##

Tika puede importar un amplio conjunto de formatos, entre los cuales están los populares formatos de Office. Importemos un Power Point.

In [44]:
pptbase=parser.from_file("prueba_nlp.pptx")
textoppt= str(pptbase.values()).lower()
textoppt[1000:1500]

"e.tika.parser.defaultparser', 'org.apache.tika.parser.image.imageparser'], ['org.apache.tika.parser.defaultparser', 'org.apache.tika.parser.xml.dcxmlparser'], ['org.apache.tika.parser.defaultparser', 'org.apache.tika.parser.jpeg.jpegparser']], 'x-tika:content_handler': ['totextcontenthandler', 'totextcontenthandler'], 'x-tika:embedded_depth': ['0', '1', '1', '1', '1', '1', '1'], 'x-tika:parse_time_millis': ['352', '35', '3', '1', '2', '3', '16'], 'cp:revision': '1', 'creator': 'jorge andres alva"

In [45]:
textoppt[6500:]

"ción del\\nlenguaje\\n\\n\\n\\n\\n\\nutilización del\\nlenguaje como\\npredictor\\n\\n\\n\\naplicaciones clásicas en comprensión del lenguaje natural\\ntraducción automática\\n01\\n02\\n03\\n04\\n\\n\\n\\ngeneración de resúmenes\\nhallazgo de abstracciones y relaciones (conocimiento)\\nsentiment analysis / opinión mining\\n05\\nmodelado de tópicos /topic detection\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n/docprops/thumbnail.jpeg\\n\\n', 200])"

### Lectura de texto en imágenes
La lectura de texto en imágenes es en si misma una aplicación de machine learning. Tesseract es el motor más usado de reconocimiento óptico de caracteres

In [46]:
#!sudo apt install tesseract-ocr

In [43]:
#! pip install pytesseract

Collecting pytesseract
  Downloading pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.9


In [47]:
import pytesseract
from PIL import Image

In [50]:
#imagen="cognitive biases.jpeg"
#imagen = "meme_with_text.jpeg"
#imagen = "imagen_with_text.png"
imagen = "jesus_6.png"
#magen = "cognitive_image.jpeg"
texto_imagen=pytesseract.image_to_string(Image.open(imagen),lang="eng")
#texto_imagen
print(texto_imagen)




###Textos en html
Otro de los tipos más usados de formato cuando de importar texto se trata es html, el utilzado en las páginas web y que puede ser abierto en navegadores. Importarlo es tan sencillo como un archivo de texto. Sin embargo, el desafío del html es también la limpieza, dados los etiquetados especiales de formato. Por ello existen librerías especializadas para esto.

In [51]:
import bs4
from bs4 import BeautifulSoup
#trae=open("spanishText_10000_15000",encoding="latin-1")
trae = open ('html_example.html', encoding= 'latin-1')
wiki=trae.read()
print(type(wiki), len(wiki))

<class 'str'> 124556


In [52]:
wiki[0:500]

'<body>\n<header class="site-header">\n<div class="site-header-base">\n<div class="site-logo">\n<a title="Quackit Homepage" target="_top" href="https://www.quackit.com/"><img src="/pix/quackit_logo_watermark.png" width="87" height="33" alt="Quackit Logo"></a>\n</div>\n<button id="site-nav-toggler" class="site-nav-toggler" aria-expanded="false" aria-controls="site-nav">\n<span class="sr-only">Toggle navigation</span>\nâ\x98°\n</button>\n</div>\n<nav id="site-nav" class="site-nav">\n<div class="site-links">\n<ul>\n'

In [53]:
wikilimpio = BeautifulSoup(wiki, "html.parser").text
#alternativa: lxml. Puede necesitar ser instalado
wikilimpio[0:500]

'\n\n\n\n\n\n\nToggle navigation\nâ\x98°\n\n\n\n\n\n Home\nHTML\nCSS\nScripting\nDatabase\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nHTML Text Examples\n\n\n\n\n\nBack to HTML Examples List\nThis page contains HTML examples of text - examples of text-specific code that you can use for your own website. \nTo use the code, copy it straight from the text box and paste it into your own website. Feel free to modify it as required.\n\n\n\n\n\n\n\n\n\n Run\n\n\n\nStack editor\n\n\nUnstack editor\n\n\n\n\n\n<h1>Heading 1</h1>\n<h2>Heading 2</h2>\n<h3>Heading 3</h3>\n<h4>Heading 4</h4'

Esta librería permite también navegar la estructura de la página web.

In [54]:
wikitree=BeautifulSoup(wiki, "html.parser")
print(wikitree.title)

None


In [56]:
wikitree.find_all('a')

[<a href="https://www.quackit.com/" target="_top" title="Quackit Homepage"><img alt="Quackit Logo" height="33" src="/pix/quackit_logo_watermark.png" width="87"/></a>,
 <a href="https://www.quackit.com"><i class="fa fa-home"></i> <span class="sr-only">Home</span></a>,
 <a href="https://www.quackit.com/html/">HTML</a>,
 <a href="https://www.quackit.com/css/">CSS</a>,
 <a href="https://www.quackit.com/scripting/">Scripting</a>,
 <a href="https://www.quackit.com/database/">Database</a>,
 <a href="/html/examples/">Back to HTML Examples List</a>,
 <a href="/html/tags/html_h1_tag.cfm"><code>&lt;h1&gt;</code></a>,
 <a href="/html/tags/html_h2_tag.cfm"><code>&lt;h2&gt;</code></a>,
 <a href="/html/tags/html_h3_tag.cfm"><code>&lt;h4&gt;</code></a>,
 <a href="/html/tags/html_h4_tag.cfm"><code>&lt;h4&gt;</code></a>,
 <a href="/html/tags/html_h5_tag.cfm"><code>&lt;h5&gt;</code></a>,
 <a href="/html/tags/html_h6_tag.cfm"><code>&lt;h6&gt;</code></a>,
 <a href="/html/tags/html_p_tag.cfm">HTML <code>&lt