# Importación y preparación de datos en procesamiento de lenguaje natural
Este notebook es parte de una serie que busca introducir los problemas y posibles alternativas de solución que se presentan en procesamiento de lenguaje natural (NLP).
Esta primera etapa busca familiarizarse con las librerías fundamentales de preparación de datos, para lograr importar corpus de diferentes fuentes y realizar una limpieza sobre ellos

In [5]:
import os, re, string

La librería fundamental para probar el análisis de texto es NLTK

In [6]:
import nltk

Una de las librería líderes para poner NLP en producción es spacy

In [7]:
import spacy

## Importación de un documento como corpus
###Archivos de texto "txt"
Para la importación de txt, basta con abrir y leer el archivo.
Para documentos en español es clave el uso de la codificación (*encoding*) correcta.
UTF-8 suele ser funcional, pero una más amplia es latin-1

In [25]:

abre=open("nuevo_testamento_valera.txt",encoding="UTF-8")
base=abre.read()
print(type(base), len(base))



<class 'str'> 181152


El archivo es leido como una cadena (*string*)

Como podrá observarse, en general los archivos requieren limpieza para tener el texto deseado. En este caso, hay prefacios e introducciones que no hacen parte del nuevo testamento en el proyecto Gutenberg

In [26]:
base[0:100]

'\ufeffThe Project Gutenberg EBook of Reina Valera New Testament of the Bible 1909, by \nAnonymous\n\nThis eB'

Una limpieza inicial incluye marcar el verdadero inicio y final del texto de interés

In [29]:
inicio="HEBREO Y GRIEGO"
init=base.find(inicio)
finale=base.find("The first pass")
base2=base[init+len(inicio):finale]
base2[0:2000]

'\n\n\n\nCapítulo  1\n\n        1 EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era\nDios.\n\n        2 Este era en el principio con Dios.\n\n        3 Todas las cosas por él fueron hechas; y '

Después de eso, resulta claro que hay elementos en el texto que no son deseados. Ocurre mucho también con redes sociales y páginas web (en nuestro caso se trata de los tabuladores y cambios de párrafo). La forma usual de retirarlos es con el uso de *expresiones regulares*. A lo largo del notebook iremos mostrando otras expresiones regulares de limpieza de texto.

In [32]:
base2a = re.sub ("\n|\t"," ",base2)
base2a[0:2000]

'    Capítulo  1          1 EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios.          2 Este era en el principio con Dios.          3 Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho.          4 En él estaba la vida, y la vida era la luz de los hombres.          5 Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron.          6 Fué un hombre enviado de Dios, el cual se llamaba Juan.          7 Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él.          8 No era él la luz, sino para que diese testimonio de la luz.          9 [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo.          10 En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció.          11 A lo suyo vino, y los suyos no le recibieron.          12 Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nom

Algunas limpiezas pueden ser más polémicas, pues los signos de puntuación tienen potencial de significado en el texto

In [38]:
base3=re.sub(r"[.,;:¿?!¡()\-/\\]",'',base2a)
base3[0:2000]

'    Capítulo  1          1 EN el principio era el Verbo y el Verbo era con Dios y el Verbo era Dios          2 Este era en el principio con Dios          3 Todas las cosas por él fueron hechas y sin él nada de lo que es hecho fué hecho          4 En él estaba la vida y la vida era la luz de los hombres          5 Y la luz en las tinieblas resplandece mas las tinieblas no la comprendieron          6 Fué un hombre enviado de Dios el cual se llamaba Juan          7 Este vino por testimonio para que diese testimonio de la luz para que todos creyesen por él          8 No era él la luz sino para que diese testimonio de la luz          9 [Aquél] era la luz verdadera que alumbra á todo hombre que viene á este mundo          10 En el mundo estaba y el mundo fué hecho por él y el mundo no le conoció          11 A lo suyo vino y los suyos no le recibieron          12 Mas á todos los que le recibieron dióles potestad de ser hechos hijos de Dios á los que creen en su nombre          13 Los cuales 

Eliminar los números de los versículos también podría ser importante

In [40]:
base2b=re.sub(r"[0-9]","",base2a)
##equivalente a [0-9]: /d
base2b[0:2000]

'    Capítulo             EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios.           Este era en el principio con Dios.           Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho.           En él estaba la vida, y la vida era la luz de los hombres.           Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron.           Fué un hombre enviado de Dios, el cual se llamaba Juan.           Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él.           No era él la luz, sino para que diese testimonio de la luz.           [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo.           En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció.           A lo suyo vino, y los suyos no le recibieron.           Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nombre:           L

In [42]:
base2c=re.sub(r" +"," ",base2b)
##alternativa: /s
base2c[0:2000]

' Capítulo EN el principio era el Verbo, y el Verbo era con Dios, y el Verbo era Dios. Este era en el principio con Dios. Todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho. En él estaba la vida, y la vida era la luz de los hombres. Y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron. Fué un hombre enviado de Dios, el cual se llamaba Juan. Este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él. No era él la luz, sino para que diese testimonio de la luz. [Aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo. En el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció. A lo suyo vino, y los suyos no le recibieron. Mas á todos los que le recibieron, dióles potestad de ser hechos hijos de Dios, á los que creen en su nombre: Los cuales no son engendrados de sangre, ni de voluntad de carne, ni de voluntad de varón, mas de Dios. Y aquel Verbo fué hecho carne, y

Unificar los textos en minúsculas sule funcionar bastante bien, aunque puede dificultar la identificación de nombres propios

In [43]:
basefinal=base2c.lower()
basefinal[0:850]


' capítulo en el principio era el verbo, y el verbo era con dios, y el verbo era dios. este era en el principio con dios. todas las cosas por él fueron hechas; y sin él nada de lo que es hecho, fué hecho. en él estaba la vida, y la vida era la luz de los hombres. y la luz en las tinieblas resplandece; mas las tinieblas no la comprendieron. fué un hombre enviado de dios, el cual se llamaba juan. este vino por testimonio, para que diese testimonio de la luz, para que todos creyesen por él. no era él la luz, sino para que diese testimonio de la luz. [aquél] era la luz verdadera, que alumbra á todo hombre que viene á este mundo. en el mundo estaba, y el mundo fué hecho por él; y el mundo no le conoció. a lo suyo vino, y los suyos no le recibieron. mas á todos los que le recibieron, dióles potestad de ser hechos hijos de dios, á los que creen e'

###Importar datos de redes sociales
En general las redes sociales solo están abiertas a aquello que la cuenta puede acceder; sin embargo Twitter ha sido una red abierta por excelencia, y es por ello una de las más usadas para extraer esa información

In [45]:
import tweepy

para usar las API de twitter hay que tener una cuenta de desarrollador, con sus propias claves.

In [None]:
##incluir tus propias claves
consumer_key= ''
consumer_secret= ''
access_token= ''
access_token_secret= ''

Y luego autenticarse

In [46]:

##autenticarse
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth, wait_on_rate_limit=True)


después de ello, hay que conocer el lenguaje de búsquedas para extraer los trinos requeridos.

In [47]:
busqueda="cerveza + ambiente -filter:retweets"
desde="2020-01-01"

trinos=tweepy.Cursor(api.search,q=busqueda,lang="es",since=desde).items(50)


Luego pasamos los trinos a una lista, y podemos observar nuevos desafíos de limpieza, como las páginas web y las menciones.

In [48]:
guardainfo = [[trino.user.screen_name, trino.user.location, trino.text] for trino in trinos]
guardainfo[0:5]

[['_5aR4_',
  'Asgardia',
  'Anoche fui a ver una agrupación de la zona y me encontré este cartel, me encantó el ambiente, la cerveza de Corozo… https://t.co/yENfud9F3z'],
 ['Greenedwar',
  'Sabaneta, Colombia',
  'Está bien que quieran protestar no yendo al partido, por el papelón que vivimos se entiende. \n\nYo personalmente no… https://t.co/qIrY2NlQdX'],
 ['Kaeveieene',
  'Quetzaltenango.',
  'No puede ser que hasta ahorita vine a mi casa. No sé cómo terminé tomando hoy. 🤣\n\nPero la verdad es que estoy asque… https://t.co/93ucADNJUn'],
 ['DayanaSantis',
  'CSE',
  '@ElSamu_BSC A ti te gusta la cerveza al ambiente y yo a eso no le hago.'],
 ['cbtrzc',
  '',
  'Mi mamá me acaba de decir que prefiere tomar aperol a temperatura ambiente, igual que la cerveza. dioh mioh quizás soy adoptada']]

las expresiones regulares ayudan entonces a limpiar esas páginas web

In [49]:
guardatrino = [trino[2] for trino in guardainfo]
guardatrino2= [re.sub("(\w+:\/\/\S+)", "", trino) for trino in guardatrino]
#cualquier palabra que tenga caracteres de palabras seguido de dos puntos , slash/slash y hasta que encuentre espacio en blanco 
# otra opciion
guardatrino3= [re.sub("(http\S+)", "", trino) for trino in guardatrino2]
guardatrino3[0:5]


['Anoche fui a ver una agrupación de la zona y me encontré este cartel, me encantó el ambiente, la cerveza de Corozo… ',
 'Está bien que quieran protestar no yendo al partido, por el papelón que vivimos se entiende. \n\nYo personalmente no… ',
 'No puede ser que hasta ahorita vine a mi casa. No sé cómo terminé tomando hoy. 🤣\n\nPero la verdad es que estoy asque… ',
 '@ElSamu_BSC A ti te gusta la cerveza al ambiente y yo a eso no le hago.',
 'Mi mamá me acaba de decir que prefiere tomar aperol a temperatura ambiente, igual que la cerveza. dioh mioh quizás soy adoptada']

Puedo también eliminar las menciones

In [50]:
guardatrino4= [re.sub("(^@\S+)", "", trino) for trino in guardatrino3]
guardatrino4[0:5]

['Anoche fui a ver una agrupación de la zona y me encontré este cartel, me encantó el ambiente, la cerveza de Corozo… ',
 'Está bien que quieran protestar no yendo al partido, por el papelón que vivimos se entiende. \n\nYo personalmente no… ',
 'No puede ser que hasta ahorita vine a mi casa. No sé cómo terminé tomando hoy. 🤣\n\nPero la verdad es que estoy asque… ',
 ' A ti te gusta la cerveza al ambiente y yo a eso no le hago.',
 'Mi mamá me acaba de decir que prefiere tomar aperol a temperatura ambiente, igual que la cerveza. dioh mioh quizás soy adoptada']

O inclusive llevarmelas

In [53]:
menciones=[re.findall("(^@\S+)",trino) for trino in guardatrino3]
menciones[0:10]

[[],
 [],
 [],
 ['@ElSamu_BSC'],
 [],
 ['@La_Tmb_'],
 ['@fearfxlsymmetry'],
 [],
 [],
 []]

In [None]:
import pandas as pd
tweet_df = pd.DataFrame(data=guardainfo, 
                    columns=['usuario', "ubicacion","texto"])
tweet_df.head(10)


Unnamed: 0,usuario,ubicacion,texto
0,kerenyberenise,México,Aquí estoy... intentando moderar el uso de agu...
1,DonPantuflo3,la prospe,@sanchezcasrejon Es el voto de los osos tabern...
2,luisberraquero,Andalucía,@antroperplejo @PTomeM Terraza con vistas. Amb...
3,PalotesPericles,,@marin_blazquez Y más divertido y con mejor am...
4,Ana36437128,,"@NacimosBravos El buen ambiente, las jícamas c..."
5,Tombstone_RIP,💎,@ajualamojada surtidor de cerveza negra decora...
6,pinta_bar,,🍻‼TECATE E INDIO 3 MEGAS X 100 ‼️🍻\nVen con tu...
7,KURTIS1975,,@Kraut_Kanzler Es la mejor cerveza en el mejor...
8,rafacastillosoy,"Tijuana, Mexico",@ZapotlanMx @alexfer_twit @BLuNaAndy @JuanBert...
9,javier_sabogal,,@CVderoux Podría ser un impuesto a las botella...


###Importación de PDFs

Para PDFs usamos un proyecto libre de Apache, y nos conectamos a él. Si se trata de PDFs con imagen es más complicado.

In [54]:
!pip install tika

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting tika
  Downloading tika-1.24.tar.gz (28 kB)
Building wheels for collected packages: tika
  Building wheel for tika (setup.py) ... [?25l[?25hdone
  Created wheel for tika: filename=tika-1.24-py3-none-any.whl size=32893 sha256=7e447d54dc18ee9efac3aa19902ee2ed20559bf3deebf8c3b3b117b46f17cbab
  Stored in directory: /root/.cache/pip/wheels/ec/2b/38/58ff05467a742e32f67f5d0de048fa046e764e2fbb25ac93f3
Successfully built tika
Installing collected packages: tika
Successfully installed tika-1.24


In [67]:
import tika
from tika import parser

pdfbase=parser.from_file("survey_sentiment.pdf")
textopdf= str(pdfbase.values()).lower()
textopdf[0:8000]



'dict_values([{\'author\': [\'kumar ravi\', \'vadlamani ravi\'], \'content-type\': \'application/pdf\', \'creation-date\': \'2015-10-13t15:15:13z\', \'crossmarkdomains[1]\': \'sciencedirect.com\', \'crossmarkdomains[2]\': \'elsevier.com\', \'crossmarkdomainexclusive\': \'true\', \'crossmarkmajorversiondate\': \'2010-04-23\', \'elsevierwebpdfspecifications\': \'6.4\', \'last-modified\': \'2020-02-04t21:41:58z\', \'last-save-date\': \'2020-02-04t21:41:58z\', \'x-parsed-by\': [\'org.apache.tika.parser.defaultparser\', \'org.apache.tika.parser.pdf.pdfparser\'], \'x-tika:content_handler\': \'totextcontenthandler\', \'x-tika:embedded_depth\': \'0\', \'x-tika:parse_time_millis\': \'1537\', \'access_permission:assemble_document\': \'true\', \'access_permission:can_modify\': \'true\', \'access_permission:can_print\': \'true\', \'access_permission:can_print_degraded\': \'true\', \'access_permission:extract_content\': \'true\', \'access_permission:extract_for_accessibility\': \'true\', \'access_p

In [63]:
textopdf[3500:4500]

"'robots': 'noindex', 'subject': 'knowledge-based systems, 89 (2015) 14-46. doi:10.1016/j.knosys.2015.06.015', 'title': 'a survey on opinion mining and sentiment analysis: tasks, approaches and applications', 'trapped': 'false', 'xmp:creatortool': 'elsevier', 'xmpmm:documentid': 'uuid:b9963d1f-05f6-4d24-835e-b398746c4013', 'xmptpg:npages': '33'}, '\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\na survey on opinion mining and sentiment analysis: tasks, approaches and applications\\n\\n\\nknowledge-based systems 89 (2015) 14–46\\ncontents lists available at sciencedirect\\n\\nknowledge-based systems\\n\\njournal homepage: www.elsevier .com/locate /knosys\\na survey on opinion mining and sentiment analysis: tasks, approaches\\nand applications\\nhttp://dx.doi.org/10.1016/j.knosys.2015.06.015\\n0950-7051/� 2015 elsevier b.v.

En este caso el encabezado de metadatos inicia con "{" y probablemente cierra con "}". Asi mismo el formato tiene muchos caracteres especiales. Intentaremos mejorarlo.

In [66]:
hallar=textopdf.find("}")
textopdftrim=textopdf[hallar+1:]
textopdftrim2=re.sub(r"[^\w.,;:¿?!¡()\-]"," ",textopdftrim)
textopdftrim2[0:1000]

',   n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n n na survey on opinion mining and sentiment analysis: tasks, approaches and applications n n nknowledge-based systems 89 (2015) 14 46 ncontents lists available at sciencedirect n nknowledge-based systems n njournal homepage: www.elsevier .com locate  knosys na survey on opinion mining and sentiment analysis: tasks, approaches nand applications nhttp:  dx.doi.org 10.1016 j.knosys.2015.06.015 n0950-7051   2015 elsevier b.v. all rights reserved. n n  corresponding author. tel.:  91 40 23294042; fax:  91 40 23535157. ne-mail addresses: ankitaravi.ravi00 gmail.com (k. ravi), rav_padma yahoo. n ncom (v. ravi). nkumar ravi a,b, vadlamani ravi a,  na center of excellence in crm and analytics, institute for development and research in banking technology, castle hills road no. 1, masab tank, hyderabad 500057, ap, india nb school of computer   informatio

In [68]:
textopdftrim2[4000:5000]

'ing rigorously on sentiment analysis for last none and half decade. sentiment analysis (sa) is a computational nstudy of opinions, sentiments, emotions, and attitude expressed nin texts towards an entity  138 . sentiment analysis (also called nopinion mining, review mining or appraisal extraction, attitude nanalysis) is the task of detecting, extracting and classifying nopinions, sentiments and attitudes concerning different topics, nas expressed in textual input  2,84 . sa helps in achieving nvarious goals like observing public mood regarding political nmovement, market intelligence  90 , the measurement of ncustomer satisfaction  158 , movie sales prediction  131  and nmany more. n nsentiments, evaluations, and reviews are becoming very much nevident due to growing interest in e-commerce, which is also a nprominent source of expressing and analyzing opinions. nnowadays, customers on e-commerce site mostly rely on reviews nposted by existing customers, and producers and service provi

Esta limpieza no logra el resultado exacto que buscamos... ¿cómo mejorarlo?

In [None]:
##aqui va tu codigo que mejora los resultados anteriores##

Tika puede importar un amplio conjunto de formatos, entre los cuales están los populares formatos de Office. Importemos un Power Point.

In [78]:
pptbase=parser.from_file("prueba_nlp.pptx")
textoppt= str(pptbase.values()).lower()
textoppt[1000:1500]

"e.tika.parser.defaultparser', 'org.apache.tika.parser.image.imageparser'], ['org.apache.tika.parser.defaultparser', 'org.apache.tika.parser.xml.dcxmlparser'], ['org.apache.tika.parser.defaultparser', 'org.apache.tika.parser.jpeg.jpegparser']], 'x-tika:content_handler': ['totextcontenthandler', 'totextcontenthandler'], 'x-tika:embedded_depth': ['0', '1', '1', '1', '1', '1', '1'], 'x-tika:parse_time_millis': ['397', '3', '4', '3', '3', '3', '5'], 'cp:revision': '1', 'creator': 'jorge andres alvara"

In [82]:
textoppt[6500:]

"n del\\nlenguaje\\n\\n\\n\\n\\n\\nutilización del\\nlenguaje como\\npredictor\\n\\n\\n\\naplicaciones clásicas en comprensión del lenguaje natural\\ntraducción automática\\n01\\n02\\n03\\n04\\n\\n\\n\\ngeneración de resúmenes\\nhallazgo de abstracciones y relaciones (conocimiento)\\nsentiment analysis / opinión mining\\n05\\nmodelado de tópicos /topic detection\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n/docprops/thumbnail.jpeg\\n\\n', 200])"

### Lectura de texto en imágenes
La lectura de texto en imágenes es en si misma una aplicación de machine learning. Tesseract es el motor más usado de reconocimiento óptico de caracteres

In [71]:
!sudo apt install tesseract-ocr

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-460
Use 'sudo apt autoremove' to remove it.
The following additional packages will be installed:
  tesseract-ocr-eng tesseract-ocr-osd
The following NEW packages will be installed:
  tesseract-ocr tesseract-ocr-eng tesseract-ocr-osd
0 upgraded, 3 newly installed, 0 to remove and 62 not upgraded.
Need to get 4,795 kB of archives.
After this operation, 15.8 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-eng all 4.00~git24-0e00fe6-1.2 [1,588 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr-osd all 4.00~git24-0e00fe6-1.2 [2,989 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 tesseract-ocr amd64 4.00~git2288-10f4998a-2 [218 kB]
Fetched 4,795 kB in 1s (5,999 kB/s)
debconf: unable to initi

In [3]:
! pip install pytesseract

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pytesseract
  Downloading pytesseract-0.3.9-py2.py3-none-any.whl (14 kB)
Collecting Pillow>=8.0.0
  Downloading Pillow-9.2.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 9.4 MB/s 
Installing collected packages: Pillow, pytesseract
  Attempting uninstall: Pillow
    Found existing installation: Pillow 7.1.2
    Uninstalling Pillow-7.1.2:
      Successfully uninstalled Pillow-7.1.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
albumentations 0.1.12 requires imgaug<0.2.7,>=0.2.5, but you have imgaug 0.2.9 which is incompatible.[0m
Successfully installed Pillow-9.2.0 pytesseract-0.3.9


In [69]:
import pytesseract
from PIL import Image

In [72]:
imagen="cognitive biases.jpeg"
texto_imagen=pytesseract.image_to_string(Image.open(imagen),lang="eng")
print(texto_imagen)

20 COGNITIVE BIASES THAT SCREW UP YOUR DECISIONS

 

1. Anchoring bias.

People are over-reliant on the
first piece of information they
hear. In a salary negotiation,
whoever makes the first offer
establishes a range of
reasonable possibilities in
each person's mind.

 

5. Choice-supportive

When you choose something,
you tend to feel positive about
it, even if that choice has flaws.
Like how you think your dog is.
awesome — even if it bites
people every once in a while.

9. Information bias.

The tendency to seek
information when it does not
affect action. More information
is not always better. With less
information, people can often
make more accurate predictions.

13. Placebo effect.

When simply believing that
something will have a certain
effect on you causes it to have
that effect. In medicine, people
given fake pills often experience
the same physiological effects
as people given the real thing.

®
7

17. Selective perception.

Allowing our expectations to.
influence how we per

###Textos en html
Otro de los tipos más usados de formato cuando de importar texto se trata es html, el utilzado en las páginas web y que puede ser abierto en navegadores. Importarlo es tan sencillo como un archivo de texto. Sin embargo, el desafío del html es también la limpieza, dados los etiquetados especiales de formato. Por ello existen librerías especializadas para esto.

In [87]:
import bs4
from bs4 import BeautifulSoup
trae=open("spanishText_10000_15000",encoding="latin-1")
wiki=trae.read()
print(type(wiki), len(wiki))

<class 'str'> 20268238


In [88]:
wiki[0:500]

'<doc id="20540" title="658" nonfiltered="1" processed="1" dbindex="10000">\n\n Acontecimientos .\n\n\n Nacimientos .\n\n\n Fallecimientos .\nFulgencio de Écija, santo español.\nErquinoaldo, mayordomo franco de palacio de Neustria. ;\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nENDOFARTICLE.\n</doc>\n<doc id="20541" title="659" nonfiltered="2" processed="2" dbindex="10001">\n\n Acontecimientos .\n\n\n Nacimientos .\n Egilona, última reina visigoda de Hispania.\n\n Fallecimientos'

In [90]:
wikilimpio = BeautifulSoup(wiki, "html.parser").text
#alternativa: lxml. Puede necesitar ser instalado
wikilimpio[0:500]

'\n\n Acontecimientos .\n\n\n Nacimientos .\n\n\n Fallecimientos .\nFulgencio de Écija, santo español.\nErquinoaldo, mayordomo franco de palacio de Neustria. ;\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nENDOFARTICLE.\n\n\n\n Acontecimientos .\n\n\n Nacimientos .\n Egilona, última reina visigoda de Hispania.\n\n Fallecimientos .\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nENDOFARTICLE.\n\n\n\n Acontecimientos .\nFin del Califato Perfecto. Los'

Esta librería permite también navegar la estructura de la página web.

In [92]:
wikitree=BeautifulSoup(wiki, "html.parser")
print(wikitree.title)

None


In [95]:
wikitree.find_all('a')

[<a "coitus="" "continuing="" "contraceptive="" "economic="" "evaluation="" "family="" "fertility,="" "male="" "researchers="" "sexuality:="" "short="" "why="" "withdrawal="" &="" (10):="" (13):="" (18):="" (18th="" (1976).="" (1993).="" (1994).="" (2000).="" (2001).="" (2005).="" (2005-01-17).="" (2006).="" (25).="" (4):="" (5):="" (6):="" (april="" (coitus="" (inactive="" (march="" (national="" (pdf).="" (sixteenth="" (slides="" (withdrawal="" (withdrawal)="" (withdrawal)".="" -="" 0-8290-3171-5.="" 0-9664902-6-6.="" 10.="" 11.="" 11343482.="" 12.="" 12286905.="" 12762415.="" 13.="" 14="" 14.="" 15.="" 154="" 156.="" 157="" 159.="" 16.="" 16035610.="" 164="" 1993.="" 1995).="" 20="" 2002="" 2003).="" 2004).="" 2005-05-10.="" 2006-07-13.="" 2006-09-05.="" 2006-09-14.="" 2007-07-29.="" 2007.="" 2008).="" 2008-03-28.="" 21="" 23="" 2347="" 25="" 285="" 3.="" 4="" 4.="" 437="" 45.="" 494="" 494.pdf.="" 5="" 5.="" 503.="" 53="" 54.="" 56.="" 6="" 6.="" 7.="" 73.="" 774="" 8.="" 824668.=""