## Machine Learning

### Importación de las librerías necesarias

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

Se utilizarán las librerías sklearn.feature_extraction.text y sklearn.metrics.pairwise para implementar un sistema de recomendación basado en filtrado de contenido en el que se compararán las similitudes entre diferentes elementos de un conjunto de datos. La librería CountVectorizer se utilizará para convertir los datos de texto en una matriz numérica, mientras que cosine_similarity se utilizará para calcular la similitud coseno entre los elementos de la matriz. Esto permitirá generar recomendaciones personalizadas basadas en los patrones de similitud de los datos de entrada.

### Carga de datos

In [2]:
df=pd.read_csv(r"https://raw.githubusercontent.com/JersonGB22/ProyectoIndividual1_Henry/main/Datasets/ML_movie_transformation.csv")
df

Unnamed: 0,title,label
0,toy story,toy stori anim comedi famili led woodi andi to...
1,jumanji,jumanji adventur fantasi famili sibl judi pete...
2,grumpier old men,grumpier old men romanc comedi famili wed reig...
3,waiting to exhale,wait exhal comedi drama romanc cheat mistreat ...
4,father of the bride part ii,father bride part ii comedi just georg bank re...
...,...,...
45357,robin hood,robin hood drama action romanc yet anoth versi...
45358,century of birthing,centuri birth drama artist struggl finish work...
45359,betrayal,betray action drama thriller one hit goe wrong...
45360,satan triumphant,satan triumphant small town live two brother o...


### Matriz de Caracaterísticas

In [3]:
# Visualización del registro con mayor cantidad de palabras
word=df.label.str.split().str.len()
print("Número de Palabras: ",word.max())
df.label.iloc[word.idxmax()]

Número de Palabras:  161


'parent children drama comedi romanc foreign komedi o rodičích dětech chce navázat na nejlepší tradic české filmové komedi vtipné dialog výjimečné herecké výkoni humor spojující diváki napříč generacemi příběh filmu vychází ze zdánlivě banální situac syn david novotný jde na procházku se svým otcem josef somr syn je zralý čtyřicátník žije spokojeně se svou přítelkyní otci je pře sedmdesát je bývalý vědecbiolog klasický intelektuál v dobrém slova smyslu zdánlivě jediné co tyto dva muže spojuj je že se jdou jednou za měsíc společně projít prahou nicméně jsou svázáni poutem čtyřiceti let společného života v brilantně vedeném dialogu se před námi odkrývají dějini dvacátého století všechni absurd s ním spojené odhalují se ta nejhlubší místa lidských vztahů odtajňují se staré resti trápení radosti na scéně se objeví vnuk o kterém syn neměl pře dvacet let ani tušení některé chybi se opakují znovu znovu soundsquar barrandov studio tv nova univers product partner (upp) agana kamkam open field p

In [4]:
# Visualización del registro con menor cantidad de palabras
print("Número de Palabras: ",word.min())
df.label.iloc[word.idxmin()]

Número de Palabras:  1


'superprodukcja'

In [21]:
###
df2=df.head(20000)

In [22]:
cv=CountVectorizer(max_features=300,stop_words="english")
vector=cv.fit_transform(df2.label).toarray()

* Al utilizar max_features=300, estoy seleccionando un número cercano al doble del máximo de palabras presentes en mis registros, que es de 161. Esta elección me permite capturar un rango más amplio de palabras relevantes en mis datos sin agregar un exceso de características irrelevantes. Al limitar el número de características a 300, puedo mantener un equilibrio entre la representatividad de las palabras seleccionadas y la eficiencia del modelo. Además, al eliminar las palabras comunes en inglés con stop_words="english", estoy asegurando que las características restantes sean más significativas y relevantes para mi modelo, lo que puede mejorar la calidad de las predicciones y reducir el ruido en los resultados obtenidos.

In [23]:
# Visualizando el array vector
print(vector.shape)
vector

(20000, 300)


array([[0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 1, 0],
       [2, 0, 0, ..., 0, 0, 0]], dtype=int64)

### Matriz de Similitud

In [19]:
similarity_score=cosine_similarity(vector)

In [20]:
# Visualizando el array similarity_score
print(similarity_score.shape)
similarity_score

(10000, 10000)


array([[1.        , 0.24618298, 0.30151134, ..., 0.19462474, 0.2956562 ,
        0.30338994],
       [0.24618298, 1.        , 0.22680461, ..., 0.24595493, 0.26688026,
        0.3955774 ],
       [0.30151134, 0.22680461, 1.        , ..., 0.30123204, 0.32686023,
        0.186339  ],
       ...,
       [0.19462474, 0.24595493, 0.30123204, ..., 1.        , 0.25318484,
        0.17320508],
       [0.2956562 , 0.26688026, 0.32686023, ..., 0.25318484, 1.        ,
        0.1754116 ],
       [0.30338994, 0.3955774 , 0.186339  , ..., 0.17320508, 0.1754116 ,
        1.        ]])