## Importar librerias

In [None]:
import numpy as np
import math
import re # expresiones regulares
import pandas as pd
from bs4 import BeautifulSoup # para trabajar texto en varios formatos

from google.colab import drive

In [None]:
# El código anterior me trae la última versión de keras
try:
  %tensorflow_version 2.x
except Exception:
  pass
  
import tensorflow as tf

from tensorflow.keras import layers # importar layers desde keras

import tensorflow_datasets as tfds # este me trae los tokens

Colab only includes TensorFlow 2.x; %tensorflow_version has no effect.


## Cargar conjunto de datos

In [None]:
#cols=["resultado","mensaje"]
data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/CNN Spam Ham/SMSSpamCollection(Filtrada).csv',
                 sep = ";")



In [None]:
data

In [None]:
data['resultado'] = data['resultado'].apply(lambda x:1 if x == 'ham' else 0) 

In [None]:
data

## Limpieza de datos

In [None]:
def clean_tweet(tweet):

  tweet= BeautifulSoup(tweet,"lxml").get_text() # sirve para trabajar en un formato especial de tratar el texto. hay que usar el get_text para que me lo devuela en un formato legible
  
  # Dejamos todo en minúscula
  tweet = tweet.lower()
  # Reemplazamos puntos por espacios
  tweet = tweet.replace('.',' ')
  # Eliminamos la @ y su mención
  tweet = re.sub(r"@[A-Za-z0-9.]+",' ',tweet) # después del @ puede leer lo que se encuentra en el []. El + significa que puede ser mas de un caracter a los que se hace referencia. 
  # El r significa raw o string y le dice a la sentencia que lea la línea tal cual, por ejemplo si vieniera con hipervinculo que no lo considere.
  # Eliminamos los links de la URLs
  tweet = re.sub(r"https?://[A-Za-z0-9./]+",' ', tweet) # aqui el ? me dice que el caracter anterior puede estar o no
  # Nos quedamos solo con los caracteres
  tweet = re.sub(r"[^a-zA-Z.!?']",' ',tweet)# cualquier cosa que no sea lo que viene después de ^ se va a sustituir por espacios en blanco
  # Eliminamos los sitios web
  tweet = re.sub(r"www[A-Za-z0-9./]+",' ', tweet)
  # Eliminamos espacios en blanco adicionales
  tweet = re.sub(r" +",' ',tweet)# si existe más de un espacio en blanco lo reemplazamos por uno solo. El más me dice eso, si hay más de uno reemplazo
  return tweet

In [None]:
data_clean = [clean_tweet(tweet) for tweet in data.mensaje] # esto me queda en una lista guardado

In [None]:
set(data.resultado) 

{0, 1}

In [None]:
data_clean

## Tokenización

In [None]:
# El corpus es la lista del texto que se va a analizar|

tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    data_clean,target_vocab_size = 2**16
)

data_inputs = [tokenizer.encode(sentence) for sentence in data_clean]

## Padding

In [None]:
MAX_LEN = max(len(sentence) for sentence in data_inputs)
data_inputs = tf.keras.preprocessing.sequence.pad_sequences(
    data_inputs,
    value = 0,
    padding = "post",
    maxlen = MAX_LEN
)

## Dividimos la mjuestra en train y test

In [None]:
y = pd.DataFrame(data.resultado)
x = pd.DataFrame(data_inputs)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(x,y,test_size = 0.3,random_state = 12)

## Construcción del modelo

In [None]:
class DCNN(tf.keras.Model):
  
  def __init__(self,
             vocab_size,
             emb_dim = 128,
             nb_filters = 50, 
             FFN_units = 512,
             nb_classes = 2,
             dropout_rate = 0.1,
             training = False,
             name = "dcnn"):
    
    super(DCNN, self).__init__(name=name)

    self.embedding = layers.Embedding(vocab_size,
        emb_dim)
    
    self.bigram = layers.Conv1D(filters = nb_filters,
    kernel_size = 2,
    padding = "valid",
    activation = "relu")
    
    self.trigram = layers.Conv1D(filters = nb_filters,
                                kernel_size = 3,
                                padding = "valid",
                                activation = "relu")
     
    self.fourgram = layers.Conv1D(filters = nb_filters,
                                kernel_size = 4,
                                padding = "valid",
                                activation = "relu")
    
    self.pool = layers.GlobalMaxPool1D()


    self.dense_1 = layers.Dense(units = FFN_units, activation = "relu")
    self.dropout = layers.Dropout(rate = dropout_rate)
    if nb_classes == 2:
        self.last_dense = layers.Dense(units = 1, activation = "sigmoid")
    else:
      self.last_dense = layers.Dense(units = nb_classes,activation = "softmax") 

  def call(self,inputs, training):
    x = self.embedding(inputs)
    x_1 = self.bigram(x)
    x_1 = self.pool(x_1)       
    x_2 = self.trigram(x)
    x_2 = self.pool(x_2)         
    x_3 = self.fourgram(x)
    x_3 = self.pool(x_3)

    merged = tf.concat([x_1,x_2,x_3], axis = -1)# con el -1 le digo el último eje de la combinacion // batch_size,3*nb_filters
    merged = self.dense_1(merged)
    merged = self.dropout(merged, training)
    output = self.last_dense(merged)

    return output             
 #vocab_size,# tamaño de las palabras a trabajar
  #           emb_dim = 128,# a que espacio vectorial vamos a llevar nuestras palabras (cada una de ellas se irá a un espacio de 128 dimensiones)
   #          nb_filters = 50, # cuantas palabras filtra
    #         FNN_units 512,# numero de neuronas
     #        nb_classes = 2,# categorias de clasificacion
  #dropout_rate = 0.1, evitar el overfitting, el 10% de las neuronas no aprenderan transmitiran lo aprendido

## Aplicación

### Configuración de parámetros

In [None]:
VOCAB_SIZE = tokenizer.vocab_size

EMB_DIM = 200
NB_FILTERS = 100
FFN_UNITS = 256
NB_CLASSES = 2 #LEN(SET(TRAIN_LABELS))

DROPOUT_RATE = 0.4 # razón de no aprendizaje de las neuronas
BATCH_SIZE = 32
NB_EPOCHS = 2

### Entrenamiento

In [None]:
Dcnn = DCNN(vocab_size = VOCAB_SIZE,
            emb_dim = EMB_DIM,
            nb_filters = NB_FILTERS,
            FFN_units = FFN_UNITS,
            nb_classes = NB_CLASSES,
            dropout_rate = DROPOUT_RATE)

In [None]:
if NB_CLASSES == 2:
  Dcnn.compile (loss = "binary_crossentropy",
                optimizer = "adam",
                metrics = ["accuracy"])
else:
  Dcnn.compile(loss= "sparse_categorical_crossentropy",
               optimizer = "adam",
               metrics = ["sparse_categorical_accuracy"])  

In [None]:
#checkpoint_path = '/content/drive/MyDrive/Colab Notebooks/CNN Spam Ham/check_point'

#ckpt = tf.train.Checkpoint(Dcnn = Dcnn)

#ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep = 10)

#if ckpt_manager.latest_checkpoint:
#  ckpt.restore(ckpt_manager.lastest_checkpoint)
 # print("Último checkpoint restaurado")

In [None]:
Dcnn.fit(X_train,
         Y_train,
         batch_size = BATCH_SIZE,
         epochs = NB_EPOCHS)
#ckpt_manager.save()

Epoch 1/2
Epoch 2/2


<keras.callbacks.History at 0x7f3d91e7a0d0>

## Evaluación

In [None]:
results = Dcnn.evaluate(X_test,Y_test,batch_size = BATCH_SIZE)
print(results)

[0.1100362241268158, 0.9689922332763672]


In [None]:
Dcnn(np.array([tokenizer.encode("https: you win game")]),training = False).numpy()

array([[0.21101636]], dtype=float32)

In [None]:
#from sklearn.metrics import classification_report

#clf = grid_search.best_estimator_
#pred_lda = clf.predict(X_test)

#print(classification_report(Y_test, pred_lda))