# Preparación de datos

###### Jesús Germán Ortiz Barajas

### Bibliotecas necesarias

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk import FreqDist

### Lectura y visualización de archivos

In [2]:
spam_data = pd.read_csv('spam.csv')

spam_data['target'] = np.where(spam_data['target']=='spam',1,0)
spam_data.head(10)

Unnamed: 0,text,target
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0
5,FreeMsg Hey there darling it's been 3 week's n...,1
6,Even my brother is not like to speak with me. ...,0
7,As per your request 'Melle Melle (Oru Minnamin...,0
8,WINNER!! As a valued network customer you have...,1
9,Had your mobile 11 months or more? U R entitle...,1


# División de muestras en entrenamiento (train) y prueba (test)

In [3]:
X_train, X_test, y_train, y_test = train_test_split(spam_data['text'], spam_data['target'], random_state=0)
print(len(X_train))

4179


### Pregunta 1

Ajustar los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

¿Cuál es el token más largo en el vocabulario?

*Esta función debería devolver una cadena.*

In [4]:
def respuesta_uno (data):
    # Creación y ajuste del vectorizador #
    vectorizer = CountVectorizer()
    vectorizer.fit_transform(data)
    
    # Obtención del token mas largo del vocabulario #
    vocab = vectorizer.get_feature_names()
    longest_token = max(vocab, key=len)
    
    return longest_token

respuesta_uno(X_train)

'com1win150ppmx3age16subscription'

### Pregunta 2

¿Cuál es el número promedio de caracteres por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # caracteres no es spam, promedio # caracteres spam).*

In [5]:
"""
Función que devuelve una lista con el
numero de caracteres por cada texto de
la lista que recibe como entrada
"""
def count_char(text_list):
    char_counter = []
    for text in text_list:
        char_counter.append(len(text))
    return char_counter            

In [6]:
def respuesta_dos(df):
    # Filtrado el dataframe #
    df_spam = df[(df.target == 1)] 
    df_no_spam = df[(df.target == 0)]
    
    # Conteo de caracteres para textos de spam y no spam #
    spam_counter = count_char(df_spam.text)
    no_spam_counter = count_char(df_no_spam.text)
    
    # Obtención de promedios #
    spam_average = sum(spam_counter)/len(df_spam.index)
    no_spam_average = sum(no_spam_counter)/len(df_no_spam.index)
    
    return (no_spam_average, spam_average)

respuesta_dos(spam_data)

(71.02362694300518, 138.8661311914324)

### Pregunta 3

¿Cuál es el número promedio de dígitos por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # dígitos no es spam, promedio # dígitos spam).*

In [7]:
"""
Función que devuelve una lista con el
numero de caracteres por cada texto de
la lista que recibe como entrada
"""
def digit_counter(text_list):
    digit_tokenizer = RegexpTokenizer(r'[0-9]')
    counter = []
    for text in text_list:
        tokens = digit_tokenizer.tokenize(text)
        counter.append(len(tokens))
    return counter

In [8]:
def respuesta_tres(df):
    # Filtrado el dataframe #
    df_spam = df[(df.target == 1)] 
    df_no_spam = df[(df.target == 0)]
    
    # Conteo de digitos #
    spam_digit_counter = digit_counter(df_spam.text)
    no_spam_digit_counter = digit_counter(df_no_spam.text)
    
    # Obtención de promedios #
    spam_average = sum(spam_digit_counter)/len(df_spam.index)
    no_spam_average = sum(no_spam_digit_counter)/len(df_no_spam.index)
    
    return (no_spam_average, spam_average)
respuesta_tres(spam_data)

(0.2992746113989637, 15.759036144578314)

### Pregunta 4

¿Cuál es el número promedio de caracteres que no son palabras (cualquier cosa que no sea una letra, un dígito o un guión bajo) por documento para los documentos que no son spam y spam?

*Sugerencia: utilice las clases de caracteres `\ w` y` \ W`*

*Esta función debe devolver una tupla (promedio de # caracteres que no son palabras, no spam, promedio de # caracteres que no son palabras, spam).*

In [9]:
"""
Función que devuelve una lista con el
numero de caracteres que no son letras, digitos o guión bajo 
por cada texto de la lista que recibe como entrada
"""
def special_char_counter(text_list):
    special_tokenizer = RegexpTokenizer(r'\W')
    special_counter = []
    for text in text_list:
        tokens = special_tokenizer.tokenize(text)
        special_counter.append(len(tokens))
    return special_counter

In [10]:
def pregunta_cuatro(df):
    # Filtrado el dataframe #
    df_spam = df[(df.target == 1)] 
    df_no_spam = df[(df.target == 0)]
    
    # Conteo de caracteres especiales para textos de spam y no spam #
    spam_counter = special_char_counter(df_spam.text)
    no_spam_counter = special_char_counter(df_no_spam.text)
    
    # Obtención de promedios #
    spam_average = sum(spam_counter)/len(df_spam.index)
    no_spam_average = sum(no_spam_counter)/len(df_no_spam.index)
    
    return (no_spam_average, spam_average)
pregunta_cuatro(spam_data)

(17.29181347150259, 29.041499330655956)

### Pregunta 5

¿Cuál es el tamaño del vocabulario en `X_train` y `X_test`, primero utilizando la función `fit_transform` en ambos (train y test), luego utilizando `fit_transform` sobre el train y solo `transform` en el test



*Esta función debe devolver dos tuplas una con `fit_transform` y la otra con `transform` (vocabulario en `X_train`, vocabulario en `X_test`), (vocabulario en `X_train`, vocabulario en `X_test`).*.*

In [11]:
def respuesta_cinco(x_train, x_test):
    train_test_vectorizer = CountVectorizer()
    train_vectorizer = CountVectorizer()
    
    # Aplicando fit_transform en x_train y x_test #
    train_test_vectorizer.fit_transform(x_train)
    train_vocab_size = len(train_test_vectorizer.vocabulary_)
    train_test_vectorizer.fit_transform(x_test)
    test_vocab_size = len(train_test_vectorizer.vocabulary_)
    train_test_result = (train_vocab_size, test_vocab_size)
    
    # Aplicando fit_transform en x_train y transform en x_test #
    train_vectorizer.fit_transform(x_train)
    train_vocab_size = len(train_vectorizer.get_feature_names())
    train_vectorizer.transform(x_test)
    test_vocab_size = len(train_vectorizer.vocabulary_)
    train_result = (train_vocab_size, test_vocab_size)
    return train_test_result, train_result

respuesta_cinco(X_train, X_test)

((7354, 4170), (7354, 7354))

### Pregunta 6

¿Cuales son las 10 palabras mas frecuentes (sin tener en cuenta *Stopwords*) en los documentos que no son spam y spam?


*Esta función debe devolver una tupla (palabras mas frecuentes, no spam, palabras mas frecuentes, spam).*

In [12]:
# Lista de stopwords en ingles #
sw = list(stopwords.words('english'))

In [13]:
"""
Función para obtener los textos de una lista dada
si el parámetro stopwords_option = False solo se toman
palabras que no se encuentren en la lista de stopwords,
caso contrario, solo se toman en cuenta palabra de la lista
de stopwords
"""
def clean_texts(text_list, stopwords, stopwords_option=False):
    tokenizer = RegexpTokenizer(r'(?u)\b\w\w+\b')
    tokens = []
    for text in text_list:
        text = text.lower()
        tokens.extend(tokenizer.tokenize(text))
    if stopwords_option==False:
        clean_tokens = [token for token in tokens if token not in stopwords]
        return clean_tokens
    else:
        clean_tokens = [token for token in tokens if token in stopwords]
        return clean_tokens

In [14]:
"""
Función que obtiene la lista de los
n tokens mas frecuentes
"""
def get_n_most_freq_words(tokens, n=10):
    frequency = FreqDist(tokens)
    freq_words = []
    for word, freq in frequency.most_common(n):
        freq_words.append(word)
    return freq_words

In [15]:
def pregunta_seis(df):
    # Filtrado el dataframe #
    df_spam = df[(df.target == 1)] 
    df_no_spam = df[(df.target == 0)]
    
    # Obtención de tokens #
    spam_tokens = clean_texts(df_spam.text, sw)
    no_spam_tokens = clean_texts(df_no_spam.text, sw)
    
    # tokens mas frecuentes #
    spam_freq = get_n_most_freq_words(spam_tokens)
    no_spam_freq = get_n_most_freq_words(no_spam_tokens)
    
    return (no_spam_freq, spam_freq) 
pregunta_seis(spam_data)

(['gt', 'lt', 'get', 'ok', 'go', 'ur', 'know', 'call', 'good', 'got'],
 ['call',
  'free',
  'txt',
  'ur',
  'mobile',
  'text',
  'stop',
  'claim',
  'reply',
  'www'])

### Pregunta 7

¿Cuales son las 10 palabras mas frecuentes (solo teniendo en cuenta *Stopwords*) en los documentos que no son spam y spam?


*Esta función debe devolver una tupla (palabras mas frecuentes, no spam, palabras mas frecuentes, spam).*

In [16]:
def pregunta_siete(df):
    # Filtrado el dataframe #
    df_spam = df[(df.target == 1)] 
    df_no_spam = df[(df.target == 0)]
    
    # Obtención de tokens #
    spam_tokens = clean_texts(df_spam.text, sw, stopwords_option=True)
    no_spam_tokens = clean_texts(df_no_spam.text, sw, stopwords_option=True)
    
    # tokens mas frecuentes #
    spam_freq = get_n_most_freq_words(spam_tokens)
    no_spam_freq = get_n_most_freq_words(no_spam_tokens)
    
    return (no_spam_freq, spam_freq)  

pregunta_siete(spam_data)

(['you', 'to', 'the', 'and', 'in', 'me', 'my', 'is', 'it', 'that'],
 ['to', 'you', 'your', 'the', 'for', 'now', 'or', 'is', 'on', 'have'])