<center> <img src="https://www.austral.edu.ar/ingenieria-posgrados/wp-content/uploads/2018/06/ua-ingenieria-color-logo.png"/> </center>

## Text Mining
## Proyecto: Clasificador de TED Talks





### 01.Preprocesamiento

#### 01.00 - Preparación del Entorno

In [None]:
#Instalación de Bibliotecas y recursos
! pip install -U spacy
! pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.0.0/en_core_web_lg-3.0.0.tar.gz
! pip install unidecode

#Generales:
import os
import os.path
import pprint
import string
import unidecode
import re
import bs4
import time
import requests
import json
import random
import warnings
import gc
import pandas as pd
import numpy as np
import plotly.express as px
import ast
import matplotlib.pyplot as plt
import seaborn as sns

#WebScraping
from multiprocessing import Manager, Process
from bs4 import BeautifulSoup
from datetime import datetime
from google.colab import drive

#Particulares
import nltk
from nltk.text import Text
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.collocations import BigramCollocationFinder,BigramAssocMeasures
import spacy
from spacy import displacy

#Modelo
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import StackingClassifier, RandomForestClassifier, AdaBoostClassifier
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import MultiLabelBinarizer

ted_file = 'Ted_Talk.csv'
language = 'english'

warnings.filterwarnings('ignore')

nltk.download('all')
pp = pprint.PrettyPrinter(indent=4, compact=True)
nlp = spacy.load("en_core_web_lg")

language_stops = set(stopwords.words(language))
language_stops.update(string.punctuation)

#### 01.01 - Funciones Principales

In [5]:
def remove_stop_words(text):
  """
    Remueve stop words en inglés

    Attributes
    ----------
    text: list
      lista de palabras (tokens) a filtrar

    Returns
    -------
    list
      lista de palabras sin los stop words
  """
  return [token for token in text if token.lower() not in language_stops]

In [6]:
def lematize_words(text):
  """
    Lematización de palabras - aplica lematización de palabras sobre un set de tokens

    Attributes
    ----------
    text: list
      lista de palabras (tokens) sobre los cuales se aplicará la lematización
    
    Returns
    -------
    list
      lista con todas las lematizaciones de las palabras
  """
  doc = nlp(" ".join(text))
  return [token.lemma_ for token in doc]

In [7]:
def remove_meaningless_words(text):
  """
    Remueve palabras sin significado

    Attributes
    ----------
    text: list
      lista de palabras (tokens) a filtrar
    
    Returns
    -------
    list
      lista de palabras filtrada en base a expresiones regulares
  """
  patterns = [r"(^={1,}=$)", r'\u200b']
  tokens = text
  for pattern in patterns:
    regexp = re.compile(pattern)
    tokens = [token for token in tokens if not regexp.search(token)]
  return tokens

In [8]:
def clean_short_words(text):
  """
    Limpia palabras con longitud 1

    Attributes
    ----------
    text: str
      documento a tokenizar
    
    Returns
    -------
    list
      lista de tokens
  """
  return [word for word in text if len(word) > 1]

In [9]:
def tokenize(text, mode='word'): 
  """
    Tokenización de documento - tokeniza un documento por palabra o por oración

    Attributes
    ----------
    text: str
      documento a tokenizar
    mode: str, optional
      método de tokenización (default: 'word' (por palabra))
    
    Returns
    -------
    list
      lista de tokens 
    
    Raises
    ------
      Exception
        si el mode no es 'word' o 'sentence'
  """
  if mode == 'word':
    return word_tokenize(text, language=language)
  elif mode == 'sentence':
    return sent_tokenize(text, language=language)
  else:
    raise Exception('metodo de tokenizacion no encontrado')

In [10]:
def similarity_btw_docs(matrix):
  """
    Similitud entre documentos - calcula la similitud entre documentos utilizando Similitud del Coseno

    Attributes
    ----------
    matrix: scipy matrix
      Matriz dispersa para calcular la similaridad

    Returns
    -------
    pd.DataFrame
      retorna un dataframe con el grado de similaridad entre documentos (de 0 a 1)
  """
  matrix_simil = cosine_similarity(matrix)
  return pd.DataFrame(matrix_simil)

In [11]:
def pre_procesamiento_texto(text):
  """
    Pre-procesamiento y obtención de las 20 palabras más significativas

    Attributes
    ----------
    text: str
      documento a analizar

    Returns
    -------
    pd.DataFrame
      retorna un dataframe con las 20 palabras que más se repiten y su frecuencia
  """
  tokenized = tokenize(text)
  without_stops = remove_stop_words(tokenized)
  meaningfull_tokens = remove_meaningless_words(without_stops)
  without_short_words = clean_short_words(meaningfull_tokens)
  lematized_words = lematize_words(without_short_words)
  return lematized_words

In [12]:
def remove_character(serie, char):
  """
    Pre-procesamiento y obtención de las 20 palabras más significativas

    Attributes
    ----------
    serie: pd.Serie
      columna de dataframe a modificar
    char: char
      caracter a remover

    Returns
    -------
    pd.Serie
      retorna una serie
  """
  return serie.str.replace(char, '')

In [13]:
def get_urls(page_list):
  """
    Obtencion de las urls de las charlas TED

    Attributes
    ----------
    page_list: list
      lista de paginas de charlas TED

    Returns
    -------
    list
      retorna una lista con todas las urls de las charlas TED
  """
  urls = ["https://www.ted.com" + url.select("div.media__image a.ga-link")[0].get("href") for url in page_list]
  return urls

In [14]:
def get_transcript(url, count):
  """
    Obtiene la transcripcion de una determinada charla ted

    Attributes
    ----------
    url: str
      url de la charla TED
    count: int
      indice de la pagina url

    Returns
    -------
    str
      retorna una cadena de caracteres con la transcripcion de la charla TED
  """
  transcript = ""
  transcript_res = requests.get(url, headers = {'User-agent': 'your bot 0.1'})
  soup = BeautifulSoup(transcript_res.text)
  e = soup.select('div.Grid.Grid--with-gutter.p-b:4')

  for  e_  in e:
    classes = e_.get('class')
    text = e_.select('p')[0].text
    transcript += text.strip().replace('\t', '').replace('\n', ' ')
                                
  if (transcript_res.status_code != 200) or (transcript_res.text == '') or (transcript == ''):
    count_=0
    while  count_ < 3: 
      time.sleep(random.randint(0,900)/1000)
      transcript_res = requests.get(url, headers = {'User-agent': 'your bot 0.1'})
      soup = BeautifulSoup(transcript_res.text)
      e = soup.select('div.Grid.Grid--with-gutter.p-b:4')

      for  e_  in e:
        classes = e_.get('class')
        text = e_.select('p')[0].text
        transcript += text.strip().replace('\t', '').replace('\n', ' ')

      count_ += 1
      if (transcript_res.status_code == 200) and (transcript_res.text != '') and (transcript != ''):
        break

  return transcript

In [15]:
def get__json_obj(url):
  """
    Obtiene el objecto JSON de una respectiva URL

    Attributes
    ----------
    url: str
      url a analizar

    Returns
    -------
    str
      retorna una cadena de caracteres que representa el objeto JSON de la URL
  """
  res = requests.get(url.strip(), headers = {'User-agent': 'your bot 0.1'})
  start_index = res.text.find('<script data-spec="q">q("talkPage.init",')
  end_index = res.text[start_index:].find(')</script>')
  script_tag = res.text[start_index: start_index + end_index]
  return script_tag[len('<script data-spec="q">q("talkPage.init",'):]

In [16]:
def get_value(l, m):
  """
    Obtiene el valor de un elemento HTML

    Attributes
    ----------
    l: list
      elementos
    m: s
      metadata

    Returns
    -------
    str
      retorna el valor del elemento HTML
  """
  for i in l:
    try:
      m = m[i]
    except: 
      return ''
  return m

In [17]:
def html_to_text(html):
  """
    Convierte un valor HTML a cadena de caracteres

    Attributes
    ----------
    html: str
      valor de elemento HTML

    Returns
    -------
    str
      retorna la representacion del valor del elemento HTML en cadena de caracdteres
  """
  if str(html) != 'nan':
    soup = BeautifulSoup(html)
    return soup.get_text()
  else: 
    return html

In [18]:
def get_elements_dict_from_url(count, url, json_obj):
  """
    Generacion de diccionario de elementos de una URL

    Attributes
    ----------
    count: int
      indice de la URL dentro del listado de URLs
    url: str
      url a analizar
    json_obj: str
      objeto JSON de la URL

    Returns
    -------
    dict
      retorna un diccionario que contiene todos los elementos HTML con sus respectivos valores
  """
  metadata = json.loads(json_obj)["__INITIAL_DATA__"]
  language = get_value(["language"], metadata)
  url__transcript = url + "/transcript?language=" + language
  temp = get_value(["talks", 0, "recorded_at"], metadata)
  t = get_value(["talks", 0, "player_talks", 0, "published"], metadata)

  elements_dict = dict()
  elements_dict["language"] = language
  elements_dict["talk__id"] = get_value(["current_talk"], metadata)
  elements_dict["talk__name"] = get_value(["talks", 0, "title"], metadata)
  elements_dict["talk__description"] = get_value(["description"], metadata)
  elements_dict["view_count"] = get_value(["viewed_count"], metadata)
  elements_dict["duration"] = get_value(["talks", 0, "duration"], metadata)
  elements_dict["transcript"] = get_transcript(url__transcript,count)
  elements_dict["video_type_name"] = get_value(["talks", 0, "video_type", "name"], metadata)
  elements_dict["event"] = get_value(["event"], metadata)               
  elements_dict["speaker__id"] = get_value(["speakers", 0, "id"], metadata)                        
  elements_dict["speaker__name"] = get_value(["talks", 0, "speaker_name"], metadata)
  elements_dict["speaker__description"] = get_value(["speakers", 0, "description"], metadata)
  elements_dict["speaker__who_he_is"] = get_value(["speakers", 0, "whotheyare"], metadata)
  elements_dict["speaker__why_listen"] = html_to_text(get_value(["speakers", 0, "whylisten"], metadata))
  elements_dict["all_speakers_details"] = get_value(["speakers"], metadata)                       
  elements_dict["recording_date"] = temp if temp == None else temp[:10]                        
  elements_dict["published_timestamp"] = datetime.utcfromtimestamp(int(t)).strftime('%Y-%m-%d %H:%M:%S')                      
  elements_dict["talks__tags"] = get_value(["talks", 0, "tags"], metadata)
  elements_dict["number_of__tags"] = len(get_value(["talks", 0, "tags"], metadata) or "")                       
  elements_dict["native_language"] = get_value(["talks", 0, "player_talks", 0, "nativeLanguage"], metadata)                   
  elements_dict["url__webpage"] = get_value(["url"], metadata)                    
  elements_dict["talk__more_resources"] = get_value(["talks", 0, "more_resources"], metadata)
  elements_dict["number_of__talk__more_resources"] = len(get_value(["talks", 0, "more_resources"], metadata) or "")
  elements_dict["talk__recommendations__blurb"] = get_value(["talks", 0, "recommendations", "blurb"], metadata)                    
  elements_dict["talk__recommendations"] = get_value(["talks", 0, "recommendations", "rec_lists"], metadata)
  elements_dict["number_of__talk__recommendations"] = len(get_value(["talks", 0, "recommendations", "rec_lists"], metadata) or "")
  elements_dict["related_talks"] = get_value(["talks", 0, "related_talks"], metadata)
  elements_dict["number_of__related_talks"] = len(get_value(["talks", 0, "related_talks"], metadata) or "")

  return elements_dict

In [19]:
def download(urls, id_, csv_list):
  """
    Descarga toda la informacion respecto a las charlas TED

    Attributes
    ----------
    urls: list
      lista de URLs a descargar
    id_: int
      id de cada pagina dentro de la lista
    csv_list: list
      csv donde se guardara la informacion respecto a las charlas ted
  """
  for count, url in enumerate(urls):
    json_obj = get__json_obj(url)

    if not json_obj:
      count=0
      while count < 3:    
        json_obj  =  get__json_obj(url)
        count += 1
        if json_obj:
          break

    if not json_obj:
      continue
    else:
      csv_list.append(get_elements_dict_from_url(count, url, json_obj))

In [20]:
def scrape_ted_urls(urls, file_name):
  """
    Realiza un proceso de web-scraping sobre todas las charlas TED

    Attributes
    ----------
    urls: list
      URL de charlas TED a scrappear
    file_name: list
      nombre de archivo donde se guardara toda la informacion de las charlas TED
  """
  csv_list_ = []
  
  with Manager() as manager:
      csv_list = manager.list()
      Processess = []
      
      urls_  = [urls[(i*(len(urls)//100)):((i+1)*(len(urls)//100))] for i in range(100)]
      
      leftovers = urls[(100*(len(urls)//100)):len(urls)]

      for i in range(len(leftovers)):
        urls_[i] += [leftovers[i]]
      
      for (id_,urls__) in enumerate(urls_):
          p = Process(target=download, args=(urls__,id_,csv_list))
          Processess.append(p)
          p.start()
          
      for t in Processess:
        t.join()
      
      csv_list_ = list(csv_list)

  dataframe_ted = pd.DataFrame(csv_list_).sort_values("view_count", ascending=False)
  dataframe_ted.to_csv(file_name, index=False, encoding='utf-8')

In [21]:
def get_page_text(page_number):
  """
    Obtiene la URL de una charla TED

    Attributes
    ----------
    page_number: int
      numero de pagina

    Returns
    -------
    str
      retorna la URL de una charla TED
  """
  res = requests.get("https://www.ted.com/talks?sort=popular&page=" + str(page_number), headers = {'User-agent': 'your bot 0.1'})
  soup = bs4.BeautifulSoup(res.text)
  element = soup.select("div.container.results div.col")
  return element

In [22]:
def retrieve_pages_url():
  """
    Obtiene las URL de todas las charlas TED en un determinado idioma

    Returns
    -------
    list
      retorna un listado de URL de cada charla TED en un determinado idioma
  """
  urls = []
  page_number=1

  while 1:
    page_list_urls = get_page_text(page_number)
    
    if len(page_list_urls) == 0:    
      break
    
    page_number += 1
    urls += get_urls(page_list_urls)

  file_ted = open('TED_Talk_URLs.txt', 'w')
  file_ted.write('\n'.join(urls))
  file_ted.close()

  return urls

#### 01.02 - Carga de Datos - Web Scrapping

In [23]:
# Activando Google Drive para guardar la información
drive.mount('/content/gdrive')

# Directorio donde se guardara/buscara el archivo que contiene la informacion de las charlas TED
os.chdir('/content/gdrive/My Drive')

Mounted at /content/gdrive


In [25]:
# Si no existe el archivo de TED, hace toda la falopeada de web-scraping asquerosa copy-pasted (toma 6 minutos aprox)
if not os.path.isfile(ted_file):
  ted_urls = retrieve_pages_url()
  scrape_ted_urls(ted_urls, ted_file)

#### 01.03 - Exploración de los Datasets (DS)

In [None]:
tedx_df = pd.read_csv(ted_file)

##### *Dataset (DS):*
 Se genera un DS de trabajo con mas de 5000 observaciones a partir de la aplicación de Web Scrapping en https://www.ted.com/talks?sort=popular&page=1, el ds de trabajo contempla tanto la metadata de las ted talks como las transcripciones.

Variables:

1. talk__id: N° de ID de la Ted Talk
2. talk__name: Nombre de la Ted Talk
3. talk__description: Descripción de la Ted Talk
4. view_count: Cantidad de Vistas (visitas)
5. duration: duración de la Ted Talk en minutos
6. transcript: transcripción de la Ted Talk
7. video_type_name: Tipo de Ted Talk
8. event: evento
9. speaker__id: id del speaker
10. speaker__name: nombre del speaker
11. speaker__description: ocupación del speaker
12. speaker__who_he_is: descripción del Speaker
13. speaker__why_listen: 
14. all_speakers_details: 
15. recording_date: 
16. published_timestamp: 
17. talks__tags: Tags (Variable Target)
18. number_of__tags: cantidad de Tags
19. language: Idioma
20. native_language
21. url__webpage
22. talk__more_resources
23. number_of__talk__more_resources
24. talk__recommendations__blurb
25. talk__recommendations
26. number_of__talk__recommendations
27. related_talks
28. number_of__related_talks

In [None]:
#Dimensiones
print(f"Dimensiones de DS : {tedx_df.shape}")

Dimensiones de DS : (5122, 28)


In [None]:
#Valores Repetidos
tedx_df.loc[: , ["talk__id"]].size - np.unique(tedx_df.loc[: , ["talk__id"]]).size #Se confirma que hay un (1) valor duplicado

1

In [None]:
#Verificamos Observación Repetida
def repetidos(x):
  y = pd.Series(np.sort(x.values.tolist(), axis = None)).value_counts()
  return y[y > 1]

repetidos(tedx_df.loc[: , ["talk__id"]])

36409    2
dtype: int64

In [None]:
tedx_df[tedx_df.talk__id == 36409] #Considerando que la transcripción es de tipo NaN, se eliminará el duplicado en el siguiente paso.

In [None]:
#Verificamos idioma:
def idiomas(x):
  y = pd.Series(np.sort(x.values.tolist(), axis = None)).value_counts()
  return y

idiomas(tedx_df.loc[: , ["language"]])

#Existen Ted Talks en distintos idiomas, seleccionamos solo las Ted Talks en Inglés

In [None]:
tedx_df = tedx_df[tedx_df.language == 'en']

##### *Valores Ausentes / Missing Values:* 

Se observa para las siguientes variables una cantidad de NA's considerable (>= 0.5), por lo que se eliminarán del modelo.

Para la variable principal del modelo se observan 587 observaciones con datos faltantes, por ello se limpia el dataset.

In [None]:
#Todas las variables
tedx_df.isna().sum() / tedx_df.shape[0]

In [None]:
#Eliminamos NA's en transcription
tedx_df = tedx_df.dropna(subset = ['transcript'])
tedx_df.shape

(4509, 28)

In [None]:
y = tedx_df.isna().sum() / tedx_df.shape[0]
y[y >= 0.5].index

In [None]:
#Eliminamos Variables f > 0.5 NA's
tedx_df = tedx_df.drop(columns = y[y >= 0.5].index)

tedx_df.shape

(4509, 26)

#### 01.04 - Preprocesamiento de Dataset

Se toma como referencia el pipeline de: https://medium.com/analytics-vidhya/text-preprocessing-for-nlp-natural-language-processing-beginners-to-master-fd82dfecf95 y se complementa con parte del pipeline de: https://towardsdatascience.com/nlp-text-preprocessing-a-practical-guide-and-template-d80874676e79 (no se corre el tratamiento de contracciones ni de números en forma de texto al no poder instalar pip en Kaggle)

##### *Limpieza URL's:* 
Deberia ser irrelevante debido a que son transcripciones directas de charlas, no deberian existir referencias a URL's dentro del texto. No obstante, se ejecuta este paso de forma preventiva.

In [None]:
def clean_url(text):
    return re.sub(r'http\S+','',text)

tedx_df['CleanTranscript'] = tedx_df['transcript'].apply(clean_url)

##### *Limpieza de Tildes:* 
Deberia ser irrelevante debido a que son textos en Inglés, no obstante, se ejecuta este paso de forma preventiva.

In [None]:
def remove_tildes(text):
    return unidecode.unidecode(text)

tedx_df['CleanTranscript'] = tedx_df['CleanTranscript'].apply(remove_tildes)

##### *Limpieza de Caracteres Irrelevantes:* 

Se eliminan números y signos de puntuación. Hay que considerar el impacto sobre it's, i'm, entre otros...

In [None]:
def clean_non_alphanumeric(text):
   return re.sub('[^a-zA-Z]',' ',text)

tedx_df['CleanTranscript'] = tedx_df['CleanTranscript'].apply(clean_non_alphanumeric)

##### *Estandarización de tamaño de letras:* 

Se convierten todos los caracteres a minusculas

In [None]:
def clean_lowercase(text):
    return str(text).lower()

tedx_df['CleanTranscript'] = tedx_df['CleanTranscript'].apply(clean_lowercase)

#### 01.05 - Tags

Referencia: https://www.kaggle.com/rounakbanik/ted-data-analysis

#### *Segmentación por TAGS:* 

In [117]:
tedx_df = tedx_df[tedx_df['transcript'] != np.nan]
tedx_df = tedx_df[[len(ast.literal_eval(tag)) > 0 for tag in tedx_df['talks__tags']]]

### 02.Modelado

#### 02.00 - Train / Test Split

In [120]:
X_train, X_test, y_train, y_test = train_test_split(tedx_df.transcript, tedx_df.talks__tags, test_size=.10)
X_train = X_train.values.astype('U')
X_test = X_test.values.astype('U')
y_train = [ast.literal_eval(tag) for tag in y_train.values]
y_test = [ast.literal_eval(tag) for tag in y_test.values]
del tedx_df
gc.collect()

1392

In [121]:
tfidf_vectorizer = TfidfVectorizer(tokenizer=pre_procesamiento_texto)

#### 02.01 - Stacking

In [158]:
mlb = MultiLabelBinarizer()

estimators = [
    ('svr', RandomForestClassifier()),
    ('dt', DecisionTreeClassifier()),
    ('ab', AdaBoostClassifier()),
    ('nb', GaussianNB())
]

# Con Stacking de 4 modelos
model = OneVsRestClassifier(StackingClassifier(estimators=estimators))

# Con LinearSVC funciona muy bien y tarda menos que todo el stacking
# model = OneVsRestClassifier(LinearSVC())

In [124]:
class DenseTransformer():
    
    def fit(self, X, y=None, **fit_params):
        return self

    def transform(self, X, y=None, **fit_params):
        return X.todense()

In [159]:
ml_pipeline = Pipeline(steps=[
                              ('preprocessor', tfidf_vectorizer),
                              ('to_dense', DenseTransformer()), 
                              ('classifier', model)
])

In [None]:
ml_pipeline.fit(X_train, mlb.fit_transform(y_train))

In [156]:
# Predice X_test
y_pred = [list(predicted_row) for predicted_row in mlb.inverse_transform(ml_pipeline.predict(X_test))]

In [None]:
y_pred

In [None]:
y_test

In [None]:
# TODO: Aplicar la función de similarity_btw_docs