In [None]:
#Descarga de herramientas para usar SpaCy
!pip install -U pip setuptools wheel

#Instalar SpaCy
!pip install -U spacy

#Descarga el modelo que permite el analisis de textos en esp.
!python -m spacy download en_core_web_sm

In [None]:
!python -m spacy download es_core_news_sm

In [1]:
#Importa SpaCy para usarlo
import spacy
#Trae oraciones de ejemplo que tiene SpaCy
from spacy.lang.es.examples import sentences 

#Se carga el modelo de procesamiento de lenguaje.
nlp = spacy.load("es_core_news_sm")

#Se realiza la tokenizacion y se clasifican las palabras de acuerdo a su tipo.
doc = nlp(sentences[0])

#Texto al completo
print(doc.text)

#Imprime la palabra y su tipo.
for token in doc:
    print(token.text, token.pos_)

Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.
Apple PROPN
está AUX
buscando VERB
comprar VERB
una DET
startup NOUN
del ADP
Reino PROPN
Unido PROPN
por ADP
mil NUM
millones NOUN
de ADP
dólares NOUN
. PUNCT


In [2]:
#Analisis sobre otro texto
doc2 = nlp("Esta es una frase de prueba. esta es una segunda frase de prueba. Finalmente tenemos una tercera frase de prueba")

In [3]:
#Separacion del texto en oraciones (Delimitados por puntos)
for frase in doc2.sents:
    print(frase)

Esta es una frase de prueba.
esta es una segunda frase de prueba.
Finalmente tenemos una tercera frase de prueba


In [4]:
#Analisis de otro texto
doc3 = nlp("La Universidad del Valle ha abierto una nueva maestria en computacion para el desarrollo de aplicaciones inteligentes")

In [5]:
#Se identifica bloques de sustantivos, posible herramienta para determinar temas(topics)
for parte in doc3.noun_chunks:
    print(parte)

La Universidad del Valle
una nueva maestria
computacion
el desarrollo
aplicaciones inteligentes


## Usando un generador visual para ver dependencias de las palabras en el texto.

In [6]:
#Herramienta de SpaCy para generar graficos. 
from spacy import displacy

In [7]:
doc5 = nlp("Google ha comprado una empresa por 5 millones de euros")

In [8]:
#Muestra sobre doc5, el grafico de dependencia del texto.
displacy.render(doc5, style='dep',options={'distance':100})

## Probando grafico de dependencias con textos del datasheet.

In [None]:
%pip install pandas
%pip install regex
%pip install langdetect

In [10]:
import langdetect
import pandas as pd
import regex as re

In [17]:
df = pd.read_csv('outputs_esp_eng.csv', lineterminator='\n')

langs = []

# Función que aplica un preprocesado básico en los tweets
# Quita saltos de línea, links, hashtags, arrobas y espacios extra
def preprocess(text):
    text = text.replace('\n', ' ')
    text = re.sub('https?://\S+|www\.\S+', ' ', text)
    text = re.sub('#(?!(?:hashtag)\b)[\w-]+(?=(?:\s+#[\w-]+)*\s*$)', '',text)
    text = re.sub('@[\w]+', '',text)
    re.sub("\s\s+", " ", text)
    return text

# Se imprimen un par de tweets para ver su composición
# Luego se imprime su versión preprocesada para ver los cambios
samples = df.sample(3) # Retorna elementos pseudoaleatorios del DataFrame
strings = samples.output_esp.values
sequence = list(strings)
for i in range (0,3):
    try:
        print(sequence[i]+'\n')
        print(preprocess(sequence[i])+'\n')
    except:
        print('')

# Se aplica el preprocesado a cada tweet
df['output_esp']= df['output_esp'].apply(preprocess)

La aversión al riesgo enfría el ánimo en Wall Street y golpea al S&amp;P 500, Covid-19 y elecciones en los Estados Unidos siguen en la mira del mercado #trading #coronavirus #Trump #Biden $SPX    


 a aversión al riesgo enfría el ánimo en Wall Street y golpea al S&amp;P 500, Covid-19 y elecciones en los Estados Unidos siguen en la mira del mercado #trading #coronavirus #Trump #Biden $SPX    

Twitter suspende por varias horas la cuenta de la campaña electoral de Trump         

Twitter suspende por varias horas la cuenta de la campaña electoral de Trump         

Biden y Trump se enfrentaron por separado en cabildos abiertos     

Biden y Trump se enfrentaron por separado en cabildos abiertos     



In [None]:
for tweet in df['output_esp']:
    print("----------------------------------")
    doc = nlp(tweet)
    for part in doc.noun_chunks:
        print(part)
    print("----------------------------------")

In [None]:
for tweet in df['output_esp']:
    tweet_doc = nlp(tweet)
    displacy.render(tweet_doc, style='dep',options={'distance':100})