
<img src="img/viu_logo.png" width="200">

## 01MIAR - Análisis de Datos Textuales

![logo](img/python_logo.png)

*Ivan Fuertes*

# Sumario
- NLTK
- Concordancia
- Frecuencia de palabras
- Seleccionar palabras
- Bigramas y colocaciones
- Stemming y lematización
- Texto online
- Extraer texto de HTML
- Análisis de sentimiento

## NLTK
- Natural Language Toolkit
- *corpora* -> textos de ejemplo

In [None]:
import nltk

In [None]:
# Shell interactivo
# nltk.download_shell()

- Corpus Gutenberg https://www.gutenberg.org/

In [None]:
# Cargar un corpus
nltk.download('gutenberg')

In [None]:
# Ficheros que contiene gutenberg
gb = nltk.corpus.gutenberg
print(gb.fileids())

In [None]:
# Carga un texto
alice = nltk.corpus.gutenberg.words('carroll-alice.txt')

In [None]:
# Longitud del texto en palabras
len(alice)

In [None]:
# Lista con todas las palabras
print(alice)
print(alice[:20])

- Paquete *punkt* para *tokenizar*

In [None]:
# Descargar punkt
nltk.download('punkt')

In [None]:
# Cargar por frases
alice_s = nltk.corpus.gutenberg.sents('carroll-alice.txt')

In [None]:
# Lista de frases
alice_s[1]

### Concordancia
- Ocurrencias de una palabra

In [None]:
# Crear corpus como objeto Text
alice_t = nltk.Text(alice)

In [None]:
# Buscar una palabra
alice_t.concordance('hatter', lines=3)

In [None]:
# Busca una palabra y devuelve una lista
concordance_list = alice_t.concordance_list("hatter", lines=3)
for concordance in concordance_list:
    print(concordance.line)

- Búsqueda por contexto

In [None]:
# Palabra anterior y posterior a la busqueda
alice_t.common_contexts(['hatter'])

In [None]:
# Buscar sinonimos (contexto similar)
alice_t.similar('hatter')

### Frecuencia de las palabras

In [None]:
# Clase FreqDist
fd = nltk.FreqDist(alice)
fd.most_common(10)

- Signos de puntuación

In [None]:
# Eliminar signos de puntuacion
import string
punctuation = set(string.punctuation)
alice_filter_p = [word for word in alice if word.lower() not in punctuation and word.isalpha()]

In [None]:
fd = nltk.FreqDist(alice_filter_p)
fd.most_common(10)

- Stopwords (preposiciones, artículos,...)

In [None]:
# Descargar lista de stopwords
nltk.download('stopwords')

In [None]:
# Ver algunas stopwords en ingles
sw_en = set(nltk.corpus.stopwords.words('english'))
print(len(sw_en))
list(sw_en)[:5]

In [None]:
# Eliminar signos de puntuación y stopwords
alice_filter_p = [word for word in alice if word.lower () not in sw_en and word.lower () not in punctuation and word.isalpha()]

In [None]:
# Distribución filtrada
fd = nltk.FreqDist(alice_filter_p)
fd.most_common(8)

In [None]:
# Visualizar gráfica de distribución
fd.plot(20, cumulative=False)

### Seleccionar palabras

In [None]:
# Palabras largas
long_words = [word for word in alice if len(word)> 12]
sorted(set(long_words))

In [None]:
# Palabras que tengan un sufijo
ious_words = [word for word in alice if word.endswith('ious')]
sorted(set(ious_words))

### Colocaciones
- Bigramas, parejas de palabras habituales (sin duda, buenos dias, albergar esperanzas,...)
- Trigramas

In [None]:
# Buscar bigramas
bigrams = nltk.FreqDist(nltk.bigrams(alice_filter_p))
bigrams.most_common(10)

In [None]:
# Buscar trigramas
trigrams = nltk.FreqDist(nltk.trigrams(alice_filter_p))
trigrams.most_common(10)

### Sinónimos
- Paquete *wordnet*

In [None]:
# Descargar wordnet
nltk.download("wordnet")

In [None]:
# Definicion y ejemplos
from nltk.corpus import wordnet

syn = wordnet.synsets("fun")

print(syn[0].definition())
print(syn[0].examples())

In [None]:
# Sinonimos
synonyms = []

for syn in wordnet.synsets('sorrow'):
    for lemma in syn.lemmas():
        synonyms.append(lemma.name())

print(set(synonyms))

In [None]:
# Antonimos
antonyms = []

for syn in wordnet.synsets("left"):
    for l in syn.lemmas():
        if l.antonyms():
            antonyms.append(l.antonyms()[0].name())

print(set(antonyms))

#### Idioma castellano
- Open Multilingual Wordnet http://compling.hss.ntu.edu.sg/omw/

In [None]:
nltk.download("omw")

In [None]:
# Sinonimos en castellano
synonyms = []

for syn in wordnet.synsets('sorrow'):
    for lemma in syn.lemmas('spa'):
        synonyms.append(lemma.name())

print(set(synonyms))

### Stemming y lematización
- Buscar la raiz de las palabras
- Normalizar palabras
- Simplifica busqueda o tratamiento

In [None]:
# Algoritmo Porter 
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem('deceases'))

In [None]:
# Snowball
from nltk.stem import SnowballStemmer

es_stemmer = SnowballStemmer('spanish')

print(es_stemmer.stem('correr'))

- Buscar el lema de las palabras
- Análisis morfólogico, eliminar sufijos/prefijos
- Minimiza ambigüedad, reduce densidad

In [None]:
# Lemmatizer
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('deceases'))

### Texto online

In [None]:
# Carga html desde url
from urllib import request

url = "http://www.gutenberg.org/files/11/11-0.txt"
response = request.urlopen(url)
raw = response.read().decode('utf-8-sig')

print(raw[:100])

- Tokenizar el texto, dividirlo en palabras

In [None]:
# Tokenizar y convertir a corpus
tokens = nltk.word_tokenize(raw)
webtext = nltk.Text(tokens)
webtext[:11]

### Extraer texto de HTML

In [None]:
# Carga html desde url
url = "https://www.universidadviu.com/es/la-universidad"
html = request.urlopen(url).read().decode('utf-8-sig')
html[:90]

#### Beautiful Soup
- Analizar documentos HTML
- pip install beautifulsoup4
- Parser, analizador sintáctico
- Reconoce etiquetas HTML
- Extrae texto

In [None]:
# Extraer texto de html 
from bs4 import BeautifulSoup
raw = BeautifulSoup(html, "html.parser").get_text()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
print(text[:4])

### Análisis de Sentimiento
- Mineria de opiniones
- Evaluar grado de apreciación o evaluación de comentarios
- Opinión, clasificación
  - Positivo
  - Neutral
  - Negativo

In [None]:
# Descargar corpus con criticas de peliculas
nltk.download('movie_reviews')

In [None]:
# Criticas, categorias
reviews = nltk.corpus.movie_reviews
print(reviews.categories())
id = reviews.fileids('neg')
print(reviews.words(id)[:40])

In [None]:
# Construir conjunto de entrenamiento
import random
# Parejas de elementos (critica, categoria)
documents = [(list(reviews.words(fileid)), category) 
    for category in reviews.categories() 
    for fileid in reviews.fileids(category)]

random.shuffle(documents)

In [None]:
first_review = ' '.join(documents[0][0])
first_evaluation = documents[0][1]
print(f"Eval = {first_evaluation}, Review = {first_review}")

In [None]:
# Distribucion de frecuencia
all_words = nltk.FreqDist(word.lower() for word in reviews.words())
word_features = list(all_words)
print(word_features[:20])

- Si una palabra esta presente más veces en las criticas negativas que en las positivas, se evalúa como una palabra negativa

In [None]:
# Calcular las features, palabras importantes para establecer la opinion
def document_features(document, word_features):
    document_words = set(document)
    features = {}
    for word in word_features:
        features [f'{word}'] = (word in document_words)
    return features

In [None]:
# Conjuntos de features
featuresets = [(document_features (d, word_features), c) for (d, c) in documents]

In [None]:
len(featuresets)

#### Entrenamiento del modelo

In [None]:
# Dividir el dataset en entrenamiento y prueba
train_set, test_set = featuresets[:1500], featuresets[1500:]

In [None]:
# Clasificador Naive Bayes
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [None]:
# Evaluar precisión con dataset de prueba
print(nltk.classify.accuracy(classifier, test_set))

In [None]:
# Palabras con más peso
classifier.show_most_informative_features(10)