Analisis de texto

- representa el texto como una matriz de frecuencia de palabras

- partir el texto en tokens

- cuenta las ocurrencias de cada uno de los tokens

- asigna valores de un vector de acuerdo a numero de ocurrencias

https://scikit-learn.org/1.6/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

In [25]:
corpus = [
    "Time is a flat circle.",   
    "The world needs bad men. We keep the other bad men from the door.",
    "I think human consciousness is a tragic misstep in evolution."
]

In [26]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

In [27]:
transformed_vectorizer = vectorizer.fit_transform(corpus)

In [31]:
transformed_vectorizer # Get the feature names after transformation

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 22 stored elements and shape (3, 21)>

In [33]:
transformed_vectorizer.toarray()  # Convert the document-term matrix to an array

array([[0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [2, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 2, 0, 1, 1, 3, 0, 0, 0, 1, 1],
       [0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0]])

In [38]:
print(vectorizer.vocabulary_) # Access the vocabulary dictionary

{'time': 17, 'is': 9, 'flat': 5, 'circle': 1, 'the': 15, 'world': 20, 'needs': 13, 'bad': 0, 'men': 11, 'we': 19, 'keep': 10, 'other': 14, 'from': 6, 'door': 3, 'think': 16, 'human': 7, 'consciousness': 2, 'tragic': 18, 'misstep': 12, 'in': 8, 'evolution': 4}


In [36]:
# se pierde el orden de las palabras
vectorizer.inverse_transform(transformed_vectorizer)

[array(['time', 'is', 'flat', 'circle'], dtype='<U13'),
 array(['the', 'world', 'needs', 'bad', 'men', 'we', 'keep', 'other',
        'from', 'door'], dtype='<U13'),
 array(['is', 'think', 'human', 'consciousness', 'tragic', 'misstep', 'in',
        'evolution'], dtype='<U13')]

In [39]:
modified_count_vectorizer = CountVectorizer(binary=True, max_features=10)
modified_count_vectorizer.fit_transform(corpus).toarray()  # Fit and transform with binary counts and max features

array([[0, 1, 0, 0, 0, 1, 0, 0, 0, 1],
       [1, 0, 0, 1, 0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 1, 0, 0, 1, 1, 1]])

In [None]:
 # Convert the document-term matrix to an array with binary values

#max_df_vectorizer = CountVectorizer(max_df=3) #means ignore terms that appear in more than 3 documents

No es la unica forma para trabajar con texto, pensar en palabras repetitivas como articulos "el" "la" "con" harian muy repetitiva la matriz, ya que los mas importantes serian las palabras que mas se repite, en este caso esas palabras repetitivas que no aportan nada al texto, quitandole prioridad a aquellas que si lo son

- term frequency-inverse document frequency, es la alternativa cuando se pondera la importancia de cada palabra en funcion de la frecuencia con que aparece el corpus

- HashingVectorizer  es util para trabajar con conjuntos de datos muy grandes que no caben en memoria

In [19]:
from sklearn.feature_extraction.text import TfidfTransformer,HashingVectorizer
Tfidvectorizer = TfidfTransformer()

In [41]:
Tfid_transformed = Tfidvectorizer.fit_transform(transformed_vectorizer)

In [42]:
Tfid_transformed

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 22 stored elements and shape (3, 21)>

In [43]:
Tfid_transformed.toarray()  # Convert the TF-IDF matrix to an array

array([[0.        , 0.52863461, 0.        , 0.        , 0.        ,
        0.52863461, 0.        , 0.        , 0.        , 0.40204024,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.52863461, 0.        , 0.        ,
        0.        ],
       [0.40824829, 0.        , 0.        , 0.20412415, 0.        ,
        0.        , 0.20412415, 0.        , 0.        , 0.        ,
        0.20412415, 0.40824829, 0.        , 0.20412415, 0.20412415,
        0.61237244, 0.        , 0.        , 0.        , 0.20412415,
        0.20412415],
       [0.        , 0.        , 0.36325471, 0.        , 0.36325471,
        0.        , 0.        , 0.36325471, 0.36325471, 0.27626457,
        0.        , 0.        , 0.36325471, 0.        , 0.        ,
        0.        , 0.36325471, 0.        , 0.36325471, 0.        ,
        0.        ]])

In [45]:
print(vectorizer.get_feature_names_out())  # Get the feature names after transformation

['bad' 'circle' 'consciousness' 'door' 'evolution' 'flat' 'from' 'human'
 'in' 'is' 'keep' 'men' 'misstep' 'needs' 'other' 'the' 'think' 'time'
 'tragic' 'we' 'world']



Las diferencias principales entre CountVectorizer y TfidfVectorizer son:

- CountVectorizer:
  - Convierte el texto en una matriz de conteo de palabras (frecuencia absoluta de cada palabra en cada documento).
  - No pondera la importancia de las palabras, solo cuenta cuántas veces aparece cada una.
  - Palabras comunes en todos los documentos pueden dominar la representación.

- TfidfVectorizer:
  - Convierte el texto en una matriz de TF-IDF (Term Frequency-Inverse Document Frequency).
  - Pondera cada palabra según su frecuencia en el documento y su rareza en el corpus.
  - Palabras que aparecen en muchos documentos reciben menor peso, resaltando las palabras más informativas de cada documento.

Resumen:
- CountVectorizer solo cuenta palabras.
- TfidfVectorizer cuenta y pondera la importancia de cada palabra en el contexto del corpus.

In [50]:
HashVectorizer = HashingVectorizer(n_features=10, alternate_sign=False)

El parámetro alternate_sign en HashingVectorizer controla si los valores de las características pueden ser positivos o negativos.

Si alternate_sign=True (por defecto), los valores pueden ser positivos o negativos, alternando el signo según el hash.
Si alternate_sign=False, todos los valores serán positivos.
Esto afecta principalmente a algunos algoritmos de aprendizaje automático sensibles al signo de las características.
Si no quieres valores negativos en tu matriz, usa alternate_sign=False.

In [52]:
HashingVectorizerTransformed = HashVectorizer.fit_transform(corpus)
HashingVectorizerTransformed.toarray()  # Convert the hashed document-term matrix to an array

array([[0.81649658, 0.40824829, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.40824829, 0.        , 0.        ],
       [0.1767767 , 0.35355339, 0.53033009, 0.        , 0.        ,
        0.35355339, 0.35355339, 0.        , 0.53033009, 0.1767767 ],
       [0.        , 0.26726124, 0.        , 0.26726124, 0.        ,
        0.26726124, 0.26726124, 0.80178373, 0.        , 0.26726124]])

¿Cuándo es mejor usar cada uno?

- CountVectorizer:
  - Úsalo cuando tienes un vocabulario pequeño o moderado y quieres contar la frecuencia absoluta de cada palabra.
  - Es útil para modelos simples y cuando no te preocupa que palabras muy comunes dominen la representación.

- TfidfVectorizer (o TfidfTransformer):
  - Úsalo cuando quieres ponderar la importancia de las palabras, es decir, que las palabras frecuentes en todos los documentos tengan menos peso.
  - Es mejor para tareas donde la relevancia de las palabras importa, como clasificación de texto, búsqueda o análisis de sentimientos.

- HashingVectorizer:
  - Úsalo cuando tienes un vocabulario muy grande o desconocido, o cuando los datos no caben en memoria.
  - Es útil para procesamiento rápido y eficiente, pero no puedes recuperar el vocabulario original (las columnas no tienen nombres de palabras).
  - Ideal para flujos de datos grandes o cuando la memoria es limitada.
"""