# Preparación de datos

In [1]:
import pandas as pd
import numpy as np

spam_data = pd.read_csv('spam.csv')

spam_data['target'] = np.where(spam_data['target']=='spam',1,0)
spam_data.head(10)

Unnamed: 0,text,target
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0
5,FreeMsg Hey there darling it's been 3 week's n...,1
6,Even my brother is not like to speak with me. ...,0
7,As per your request 'Melle Melle (Oru Minnamin...,0
8,WINNER!! As a valued network customer you have...,1
9,Had your mobile 11 months or more? U R entitle...,1


# División de muestras en entrenamiento (train) y prueba (test)

In [2]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(spam_data['text'], 
                                                    spam_data['target'], 
                                                    random_state=0)
print(len(X_train))

4179


### Pregunta 1

Ajustar los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

¿Cuál es el token más largo en el vocabulario?

*Esta función debería devolver una cadena.*

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

def tokenizacion( corpus ):
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus)
    return vectorizer.get_feature_names_out()


def respuesta_uno(  ):
    uno= tokenizacion( X_train )
    return max(uno, key=len)

In [4]:
#print(respuesta_uno( ))   # spam_data['text']: hypotheticalhuagauahahuagahyuhagga
print(respuesta_uno( ))  # X_train: com1win150ppmx3age16subscription

com1win150ppmx3age16subscription


In [5]:
spam= pd.Series(spam_data.groupby('target').get_group(1)['text'])
n_spam= pd.Series(spam_data.groupby('target').get_group(0)['text'])

### Pregunta 2

¿Cuál es el número promedio de caracteres por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # caracteres no es spam, promedio # caracteres spam).*

In [6]:
def respuesta_dos( ):    
    #spam
    count= 0
    for text in spam:
        count+= len(text)
        
    s_spam= count / spam.shape[0]
    
    #no_spam
    count= 0
    for text in n_spam:
        count+= len(text)
        
    s_nspam= count / spam.shape[0]
    
    return s_spam, s_nspam
    
respuesta_dos()

(138.8661311914324, 458.7536813922356)

### Pregunta 3

¿Cuál es el número promedio de dígitos por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # dígitos no es spam, promedio # dígitos spam).*

In [8]:
def respuesta_tres():
    er= "[0-9]"
    
    #Spam
    num_spam= spam.str.count(er).mean()
    
    #No spam
    num_nspam= n_spam.str.count(er).mean()

    return num_spam, num_nspam

respuesta_tres()

(15.759036144578314, 0.2992746113989637)

### Pregunta 4

¿Cuál es el número promedio de caracteres que no son palabras (cualquier cosa que no sea una letra, un dígito o un guión bajo) por documento para los documentos que no son spam y spam?

*Sugerencia: utilice las clases de caracteres `\ w` y` \ W`*

*Esta función debe devolver una tupla (promedio de # caracteres que no son palabras, no spam, promedio de # caracteres que no son palabras, spam).*

In [9]:
def pregunta_cuatro():
    er= "\W"

    #Spam
    num_spam= spam.str.count(er).mean()
    
    #No spam
    num_nspam= n_spam.str.count(er).mean()
    
    return num_spam, num_nspam

pregunta_cuatro()

(29.041499330655956, 17.29181347150259)

### Pregunta 5

¿Cuál es el tamaño del vocabulario en `X_train` y `X_test`, primero utilizando la función `fit_transform` en ambos (train y test), luego utilizando `fit_transform` sobre el train y solo `transform` en el test



*Esta función debe devolver dos tuplas una con `fit_transform` y la otra con `transform` (vocabulario en `X_train`, vocabulario en `X_test`), (vocabulario en `X_train`, vocabulario en `X_test`).*.*

In [10]:
def respuesta_cinco():
    vectorizer= CountVectorizer()
    
    voc_xtrain= vectorizer.fit_transform( X_train )
    voc_xtest= vectorizer.fit_transform( X_test )
    
    voc_xtext2= vectorizer.transform(X_test)

    return voc_xtrain, voc_xtest, voc_xtext2

respuesta_cinco()

(<4179x7354 sparse matrix of type '<class 'numpy.int64'>'
 	with 55130 stored elements in Compressed Sparse Row format>,
 <1393x4170 sparse matrix of type '<class 'numpy.int64'>'
 	with 18786 stored elements in Compressed Sparse Row format>,
 <1393x4170 sparse matrix of type '<class 'numpy.int64'>'
 	with 18786 stored elements in Compressed Sparse Row format>)

### Pregunta 6

¿Cuales son las 10 palabras mas frecuentes (sin tener en cuenta *Stopwords*) en los documentos que no son spam y spam?


*Esta función debe devolver una tupla (palabras mas frecuentes, no spam, palabras mas frecuentes, spam).*

In [11]:
from collections import Counter

def obtener_tokens( texto:str, sklearn= False):
    """
        Regresa una lista de palabras
    """
    if( sklearn ):
        from sklearn.feature_extraction.text import CountVectorizer
        
        vectorizer = CountVectorizer()
        X = vectorizer.fit_transform( texto )
        return vectorizer.get_feature_names_out()
    
    if( type(texto) is not str ):
        texto= ' '.join( list(texto) )
        
    return texto.split(' ')

spam= spam_data.groupby('target')['text'].get_group(1).to_string(index=False)
n_spam= spam_data.groupby('target')['text'].get_group(0).to_string(index=False)

palabras= Counter(obtener_tokens(spam.replace('\n',' ')))

sorted_w= dict(sorted(palabras.items(), key=lambda item: item[1]))
words= list(sorted_w.keys())[:10]
print(words)

palabras= Counter(obtener_tokens(n_spam.replace('\n',' ')))

sorted_w= dict(sorted(palabras.items(), key=lambda item: item[1]))
words= list(sorted_w.keys())[:10]
print(words)

['no...', 'XXXMobileMovieClub:', 'credit,', 'click', 'Macedonia', 'miss', 'goals/team', '07732584351', 'Rodger', 'Burns']
['jurong', 'point,', 'crazy..', 'Available', 'Joking', 'oni...', 'hor...', 'lives', 'DATE', 'SUNDAY']


### Pregunta 7

¿Cuales son las 10 palabras mas frecuentes (solo teniendo en cuenta *Stopwords*) en los documentos que no son spam y spam?


*Esta función debe devolver una tupla (palabras mas frecuentes, no spam, palabras mas frecuentes, spam).*

In [12]:
from nltk.corpus import stopwords # Import the stop word list

stop_words = set(stopwords.words('english')) # creating a set makes the searching faster

spam= spam_data.groupby('target')['text'].get_group(1).to_string(index=False)
n_spam= spam_data.groupby('target')['text'].get_group(0).to_string(index=False)

palabras= Counter(obtener_tokens(spam.replace('\n',' ')))
for sw in stop_words:
    palabras.pop(sw,None)
    
sorted_w= dict(sorted(palabras.items(), key=lambda item: item[1]))
words= list(sorted_w.keys())[:10]
print(words)

palabras= Counter(obtener_tokens(n_spam.replace('\n',' ')))
for sw in stop_words:
    palabras.pop(sw,None)
    
sorted_w= dict(sorted(palabras.items(), key=lambda item: item[1]))
words= list(sorted_w.keys())[:10]
print(words)

['no...', 'XXXMobileMovieClub:', 'credit,', 'click', 'Macedonia', 'miss', 'goals/team', '07732584351', 'Rodger', 'Burns']
['jurong', 'point,', 'crazy..', 'Available', 'Joking', 'oni...', 'hor...', 'lives', 'DATE', 'SUNDAY']
