<a href="https://colab.research.google.com/github/AzulBarr/Aprendizaje-Automatico/blob/main/TPs/tp2/RF2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Carga de librerias y modelos

In [None]:
!pip install ebooklib beautifulsoup4 pandas
!pip install stanza

In [None]:
import torch
from transformers import BertTokenizer, BertModel
import numpy as np
import pandas as pd
from ebooklib import epub
import ebooklib
from bs4 import BeautifulSoup
import re
import stanza
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score,confusion_matrix
from sklearn.model_selection import GridSearchCV

In [None]:
model_name = "bert-base-multilingual-cased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
model.eval()

In [None]:
stanza.download("es")
nlp = stanza.Pipeline("es", processors="tokenize,pos")

# Definición de funciones

In [None]:
def normalize_text_X(t):
    # Convertir a minúsculas y quitar puntuación
    t = t.lower()
    t = re.sub(r'[\u200b-\u200f\uFEFF]', '', t)
    t = re.sub(r"[^a-záéíóúüñ0-9' -]+", ' ', t)
    t = re.sub(r'p\s*\.?\s*e\s*\.?\s*d\s*\.?\s*d\s*\.?\s*o\s*\.?', 'peddo', t, flags=re.IGNORECASE)
    t = re.sub(r's\s*\.?\s*p\s*\.?\s*a\s*\.?\s*d\s*\.?\s*a\.?', 'spada', t, flags=re.IGNORECASE)
    t = re.sub(r'\s+', ' ', t).strip()
    return t

In [None]:
def normalize_text_y(t):
    t = re.sub(r'[\u200b-\u200f\uFEFF]', '', t)
    t = re.sub(r"[^a-zA-ZáéíóúüñÁÉÍÓÚ0-9¿?,.' -]+", ' ', t)
    t = re.sub(r'p\s*\.?\s*e\s*\.?\s*d\s*\.?\s*d\s*\.?\s*o\s*\.?', 'PEDDO', t, flags=re.IGNORECASE)
    t = re.sub(r's\s*\.?\s*p\s*\.?\s*a\s*\.?\s*d\s*\.?\s*a\.?', 'SPADA', t, flags=re.IGNORECASE)
    t = re.sub(r'\s+', ' ', t).strip()
    return t

In [None]:
def convertir_epub_a_pd(archivo_epub='libro.epub'):
  # Cargar el libro
  book = ebooklib.epub.read_epub(archivo_epub)

  # Lista donde se guardarán los párrafos
  parrafos = []

  # Recorremos los ítems del libro
  for item in book.get_items():
      if item.get_type() == ebooklib.ITEM_DOCUMENT:
          # Parseamos el contenido HTML
          soup = BeautifulSoup(item.get_body_content(), 'html.parser')
          # Extraemos los párrafos
          for p in soup.find_all('p'):
            #print("p:",p, 'tipo: ', type(p))
            texto = p.get_text().strip()
            #print("TEXTO:",texto, ' tipo: ', type(texto))
            palabras = texto.split()
            #print("PALABRAS:",palabras, ' tipo: ', type(palabras))
            if len(palabras) < 20 or len(palabras) > 100:  # descartamos párrafos cortos
                continue
            if texto:
                parrafos.append(texto)

  df = pd.DataFrame({'parrafo': parrafos})
  df.to_csv("libro_parrafos.csv", index=False, encoding="utf-8")

  print(f"Se extrajeron {len(parrafos)} párrafos y se guardaron en 'libro_parrafos.csv'.")

  f = pd.read_csv('libro_parrafos.csv')
  parrafos = pd.DataFrame(columns=['default', 'limpio'])
  parrafos['limpio'] = df['parrafo'].apply(normalize_text_X)
  parrafos['default'] = df['parrafo'].apply(normalize_text_y)

  return parrafos

In [None]:
def categoria_gramatical_stanza(palabra):
    doc = nlp(palabra)
    token = doc.sentences[0].words[0]
    return token.upos

upos2id = {
    "NOUN": 0, #Sustantivo común. Ej: gato, casa, libro, profesor
    "PROPN": 1, #Sustantivo propio. Ej: Argentina, Azul, Google
    "VERB": 2, #Verbo léxico. Ej: comer, hablar, correr
    "ADJ": 3, #Adjetivo. Ej: rápido, azul, brillante
    "ADV": 4, #Adverbio. Ej: rápidamente, muy, cerca
    "PRON": 5, #Pronombre. Ej: yo, tú, él, eso, alguien
    "DET": 6, #Determinante / artículo. Ej: el, la, los, un, ese, mi
    "ADP": 7, #Adposición: preposición o posposición. Ej: de, para, con, sin, sobre
    "SCONJ": 8, #Conjunción subordinante. Ej: que, porque, aunque, si
    "CCONJ": 9, #Conjunción coordinante. Ej: y, o, pero, ni
    "NUM": 10, #Numeral. Ej: uno, dos, 50, tercero
    "INTJ": 11, #Interjección. Ej: ay!, hola!, uf, eh
    "PART": 12, #Partícula gramatical (raro en español). Ejemplos típicos en inglés (not, 's), en español casi no se usa, pero aparece en casos como "sí" enfático.
    "AUX": 13, #Verbo auxiliar. Ej: haber, ser (cuando forman tiempos compuestos: “he comido”, “está hablando”)
    "PUNCT": 14, #Signos de puntuación. Ej: , . ; ! ?
    "SYM": 15, #Símbolos. Ej: $, %, +, =, →
    "X": 16 #Otros / desconocidos / extranjeros. Cualquier cosa que no encaja en ninguna categoría.
}

def indice_categoria_stanza(palabra):
    pos = categoria_gramatical_stanza(palabra)
    return upos2id.get(pos,-1)

In [None]:
def crearDataSetRFSinEtiquetas(parrafo):
  data_set_RF_sin_etiquetas = pd.DataFrame(columns = ['instancia_id', 'token', 'token_id', 'posicion_frase',
                                        'categoria_gramatical', 'distancia_al_final',
                                        'id_anterior', 'id_siguiente', 'es_principio',
                                        'es_medio', 'es_final', 'forma_parte'])

  instancia_ids = []
  tokens = []
  token_ids = []
  posiciones_parrafo = []
  categorias_gramaticales = []
  distancias_al_final = []
  ids_anteriores = []
  ids_siguientes = []
  son_principio = []
  son_medio = []
  son_final = []
  forman_parte = []

  for k, parrafo in enumerate(parrafo):
    instancia_id = k
    token_siguiente = -1
    token_anterior = -1
    palabras = parrafo.split()

    inicio_pregunta = False

    for i, palabra in enumerate(palabras):
      #categoria = indice_categoria_stanza(palabra)
      categoria = 0
      tokens_de_palabra = tokenizer.tokenize(palabra)

      for j, token in enumerate(tokens_de_palabra):
        id = tokenizer.convert_tokens_to_ids(token)
        tokens.append(token)
        token_ids.append(id)
        posiciones_parrafo.append(i)
        categorias_gramaticales.append(categoria) #cambiar
        distancias_al_final.append(len(palabras) - i)

        ids_anteriores.append(token_anterior)
        token_anterior = id

        n_tok = len(tokens_de_palabra)
        if j != n_tok - 1:
          id_sig  = tokenizer.convert_tokens_to_ids(tokens_de_palabra[j + 1])
          ids_siguientes.append(id_sig)
        else:
          if i != len(palabras) - 1:
            token_siguiente = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(palabras[i + 1]))[0]
            ids_siguientes.append(token_siguiente)
          else:
            ids_siguientes.append(-1)

        es_medio_id = 0
        es_final_id = 0
        es_principio_id = 0
        if j == 0:
          es_principio_id = 1
        elif j == n_tok - 1:
          es_final_id = 1
        else:
          es_medio_id = 1
        son_principio.append(es_principio_id)
        son_medio.append(es_medio_id)
        son_final.append(es_final_id)

        forma_parte_id = 0
        if n_tok != 1:
          forma_parte_id = 1
        forman_parte.append(forma_parte_id)

        instancia_ids.append(instancia_id)

  data_set_RF_sin_etiquetas['instancia_id'] = instancia_ids
  data_set_RF_sin_etiquetas['token'] = tokens
  data_set_RF_sin_etiquetas['token_id'] = token_ids
  data_set_RF_sin_etiquetas['posicion_frase'] = posiciones_parrafo
  data_set_RF_sin_etiquetas['categoria_gramatical'] = categorias_gramaticales
  data_set_RF_sin_etiquetas['distancia_al_final'] = distancias_al_final
  data_set_RF_sin_etiquetas['id_anterior'] = ids_anteriores
  data_set_RF_sin_etiquetas['id_siguiente'] = ids_siguientes
  data_set_RF_sin_etiquetas['es_principio'] = son_principio
  data_set_RF_sin_etiquetas['es_medio'] = son_medio
  data_set_RF_sin_etiquetas['es_final'] = son_final
  data_set_RF_sin_etiquetas['forma_parte'] = forman_parte

  return data_set_RF_sin_etiquetas

In [None]:
def crearDataSetRFConEtiquetas(parrafos):
  data_set_RF_con_etiquetas = pd.DataFrame(columns = ['palabra_default', 'instancia_id', 'token', 'token_id', 'posicion_frase',
                                        'categoria_gramatical', 'distancia_al_final',
                                        'id_anterior', 'id_siguiente', 'es_principio',
                                        'es_medio', 'es_final', 'forma_parte', 'punt_inicial', 'punt_final', 'capitalización'])

  palabras_default = []

  instancia_ids = []
  tokens = []
  token_ids = []
  posiciones_parrafo = []
  categorias_gramaticales = []
  distancias_al_final = []
  ids_anteriores = []
  ids_siguientes = []
  son_principio = []
  son_medio = []
  son_final = []
  forman_parte = []
  puntuaciones_iniciales = []
  puntuaciones_finales = []
  capitalizaciones = []

  datos_limpios = parrafos['limpio']
  datos_default = parrafos['default']
  for k, parrafo in enumerate(datos_limpios):
    instancia_id = k
    token_siguiente = -1
    token_anterior = -1
    palabras = parrafo.split()

    inicio_pregunta = False

    palabras_d = datos_default.iloc[k].split()
    npal = 0
    for i, palabra in enumerate(palabras):
      palabra_default = ' '
      while palabras_d[npal] == '?' or palabras_d[npal] == '¿' or palabras_d[npal] == '.' or palabras_d[npal] == ',':
        if palabras_d[npal] == '¿':
          inicio_pregunta = True
        npal += 1

      if palabras_d[npal] != '?' and palabras_d[npal] != '¿' and palabras_d[npal] != '.' and palabras_d[npal] != ',':
        palabra_default = palabras_d[npal]

      if palabra_default[0] == "¿":
        inicio_pregunta = True

      if palabra_default[-1] == "?":
        puntuacion_final = 3
      elif palabra_default[-1] == ".":
        puntuacion_final = 1
      elif palabra_default[-1] == ",":
        puntuacion_final = 2
      else:
        if npal != len(palabras_d)-1:
          if palabras_d[npal+1] == '?':
            puntuacion_final = 3
          elif palabras_d[npal+1] == '.':
            puntuacion_final = 1
          elif palabras_d[npal+1] == ',':
            puntuacion_final = 2
          else:
            puntuacion_final = 0
        else:
          puntuacion_final = 0

      #categoria = indice_categoria_stanza(palabra)
      categoria = 0
      tokens_de_palabra = tokenizer.tokenize(palabra)

      if palabra_default.islower():
        capitalizacion = 0
      elif palabra_default.istitle():
        capitalizacion = 1
      elif palabra_default.isupper():
        capitalizacion = 3
      else:
        capitalizacion = 2

      npal += 1
      for j, token in enumerate(tokens_de_palabra):
        id = tokenizer.convert_tokens_to_ids(token)
        tokens.append(token)
        token_ids.append(id)
        posiciones_parrafo.append(i)
        categorias_gramaticales.append(categoria) #cambiar
        distancias_al_final.append(len(palabras) - i)

        ids_anteriores.append(token_anterior)
        token_anterior = id

        n_tok = len(tokens_de_palabra)
        if j != n_tok - 1:
          id_sig  = tokenizer.convert_tokens_to_ids(tokens_de_palabra[j + 1])
          ids_siguientes.append(id_sig)
        else:
          if i != len(palabras) - 1:
            token_siguiente = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(palabras[i + 1]))[0]
            ids_siguientes.append(token_siguiente)
          else:
            ids_siguientes.append(-1)

        es_medio_id = 0
        es_final_id = 0
        es_principio_id = 0
        if j == 0:
          es_principio_id = 1
        elif j == n_tok - 1:
          es_final_id = 1
        else:
          es_medio_id = 1
        son_principio.append(es_principio_id)
        son_medio.append(es_medio_id)
        son_final.append(es_final_id)

        forma_parte_id = 0
        if n_tok != 1:
          forma_parte_id = 1
        forman_parte.append(forma_parte_id)

        if inicio_pregunta:
          puntuaciones_iniciales.append(1)
          inicio_pregunta = False
        else:
          puntuaciones_iniciales.append(0)

        if j == n_tok - 1:
          puntuaciones_finales.append(puntuacion_final)
        else:
          puntuaciones_finales.append(0)

        capitalizaciones.append(capitalizacion)
        instancia_ids.append(instancia_id)
        palabras_default.append(palabra_default)

  data_set_RF_con_etiquetas['palabra_default'] = palabras_default
  data_set_RF_con_etiquetas['instancia_id'] = instancia_ids
  data_set_RF_con_etiquetas['token'] = tokens
  data_set_RF_con_etiquetas['token_id'] = token_ids
  data_set_RF_con_etiquetas['posicion_frase'] = posiciones_parrafo
  data_set_RF_con_etiquetas['categoria_gramatical'] = categorias_gramaticales
  data_set_RF_con_etiquetas['distancia_al_final'] = distancias_al_final
  data_set_RF_con_etiquetas['id_anterior'] = ids_anteriores
  data_set_RF_con_etiquetas['id_siguiente'] = ids_siguientes
  data_set_RF_con_etiquetas['es_principio'] = son_principio
  data_set_RF_con_etiquetas['es_medio'] = son_medio
  data_set_RF_con_etiquetas['es_final'] = son_final
  data_set_RF_con_etiquetas['forma_parte'] = forman_parte
  data_set_RF_con_etiquetas['punt_inicial'] = puntuaciones_iniciales
  data_set_RF_con_etiquetas['punt_final'] = puntuaciones_finales
  data_set_RF_con_etiquetas['capitalización'] = capitalizaciones

  return data_set_RF_con_etiquetas

# Carga de datos y creación de data set

In [None]:
path = 'https://raw.githubusercontent.com/AzulBarr/Aprendizaje-Automatico/main/TPs/tp2'
libro1 = '/Harry_Potter_y_el_caliz_de_fuego_J_K_Rowling.epub'
path = path + libro1

In [None]:
!wget -O libro1.epub $path

In [None]:
parrafos = convertir_epub_a_pd('libro1.epub')

In [None]:
dataSet_RF_con_etiquetas = crearDataSetRFConEtiquetas(parrafos)
dataSet_RF_sin_etiquetas = crearDataSetRFSinEtiquetas(parrafos['limpio'])

In [None]:
dataSet_RF_con_etiquetas

In [None]:
dataSet_RF_sin_etiquetas

## Etiqueta 1: capitalización
* 0: todo en minúsculas (ej: “hola”)
* 1: primera letra en mayúscula (ej: “Hola”) (incluye palabras de 1 letra)
* 2: algunas (pero no todas) letras en mayúscula (ej: “McDonald's”  “iPhone”)
* 3: todo en mayúsculas (ej.: “ONU”, “NASA”, “UBA”) (más de una letra)

## Etiqueta 2: puntuación inicial
* 0: sin puntuación.
* 1: "?"

## Etiqueta 3: puntuación final
* 0: sin puntuación.
* 1: "."
* 2: ","
* 3: "?"

# Separación en test y train

In [None]:
train = dataSet_RF_con_etiquetas[dataSet_RF_con_etiquetas['instancia_id'] <= 2972]
test = dataSet_RF_con_etiquetas[dataSet_RF_con_etiquetas['instancia_id'] > 2972]

In [None]:
X_train = train.drop(columns=['palabra_default', 'token', 'categoria_gramatical', 'capitalización', 'punt_inicial', 'punt_final'])
y_train = train[['capitalización', 'punt_inicial', 'punt_final']]
X_test = test.drop(columns=['palabra_default', 'token', 'categoria_gramatical', 'capitalización', 'punt_inicial', 'punt_final'])
y_test = test[['capitalización', 'punt_inicial', 'punt_final']]

# Random Forest para etiqueta 1

In [None]:
y_train1 = y_train['capitalización']
y_test1 = y_test['capitalización']

In [None]:
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2']
}

rf = RandomForestClassifier()
grid = GridSearchCV(rf, param_grid, cv=5, n_jobs=-1)
grid.fit(X_train, y_train1)

print(grid.best_params_)

In [None]:
'''model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42, min_samples_split=10)
model.fit(X_train, y_train1)'''

In [None]:
y_pred1 = grid.predict(X_test)

In [None]:
f1_score(y_test1, y_pred1, average = "macro")

In [None]:
confusion_matrix(y_test1,y_pred1, labels=[0,1,2,3])

# Random Forest para etiqueta 2

In [None]:
y_train2 = y_train['punt_inicial']
y_test2 = y_test['punt_inicial']

In [None]:
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42, min_samples_split=10)
model.fit(X_train, y_train2)

In [None]:
y_pred2 = model.predict(X_test)

In [None]:
f1_score(y_test2, y_pred2, average = "macro")

In [None]:
confusion_matrix(y_test2, y_pred2, labels=[0,1])

# Random Forest para etiqueta 3

In [None]:
y_train3 = y_train['punt_final']
y_test3 = y_test['punt_final']

In [None]:
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42, min_samples_split=10)
model.fit(X_train, y_train3)

In [None]:
y_pred3 = model.predict(X_test)

In [None]:
f1_score(y_test3, y_pred3, average = "macro")

In [None]:
confusion_matrix(y_test3, y_pred3, labels=[0,1,2,3])