
**Netflix - Clasificación de la audiencia en Netflix con Python (Pandas)¶**

Vamos a realizar un análisis exploratorio en el DataSet de series y películas Netflix, mediante Python estudiaremos las series y películas mejor valoradas.

El primer paso es importar nuestra liberías **pandas, difflib, sklearn** para que podamos cargar los datos. Una vez tengamos el DataFrame, podemos empezar a trabajar en ellos.


In [None]:
import pandas as pd
import difflib
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [5]:
# Cargue los datos de la película desde el archivo CSV
movies_data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/movies.csv')

In [9]:
# Complete los valores faltantes con cadenas vacías y combine las funciones seleccionadas
combined = ''
selected_features = ['genres', 'keywords', 'tagline', 'cast', 'director']
print(selected_features)

for feature in selected_features:
    movies_data[feature] = movies_data[feature].fillna('')
    combined += movies_data[feature]

print(combined)

['genres', 'keywords', 'tagline', 'cast', 'director']
0       Action Adventure Fantasy Science Fictioncultur...
1       Adventure Fantasy Actionocean drug abuse exoti...
2       Action Adventure Crimespy based on novel secre...
3       Action Crime Drama Thrillerdc comics crime fig...
4       Action Adventure Science Fictionbased on novel...
                              ...                        
4798    Action Crime Thrillerunited states\u2013mexico...
4799    Comedy RomanceA newlywed couple's honeymoon is...
4800    Comedy Drama Romance TV Moviedate love at firs...
4801    A New Yorker in ShanghaiDaniel Henney Eliza Co...
4802    Documentaryobsession camcorder crush dream gir...
Name: genres, Length: 4803, dtype: object


In [10]:
# Inicializar el vectorizador TF-IDF
vectorizer = TfidfVectorizer()


# Transformar el texto combinado en vectores de características
feature_vectorizer = vectorizer.fit_transform(combined)
print(feature_vectorizer)

# Calculate cosine similarity between movies
similarity = cosine_similarity(feature_vectorizer)
print(similarity)
print(similarity.shape)

  (0, 245)	0.07858581760804864
  (0, 444)	0.09109355212252296
  (0, 8936)	0.11806131645084655
  (0, 21836)	0.09966592997173947
  (0, 9304)	0.27385789694599244
  (0, 4456)	0.2179967521551067
  (0, 10193)	0.1653243242081299
  (0, 22916)	0.3366875640692919
  (0, 26334)	0.130597230719163
  (0, 4676)	0.24529097704249617
  (0, 22778)	0.27385789694599244
  (0, 24197)	0.07518543993419267
  (0, 27161)	0.12619886579371511
  (0, 18164)	0.08690831799482268
  (0, 18558)	0.26121683351048536
  (0, 21521)	0.15623566659433683
  (0, 27182)	0.23480088356130557
  (0, 27540)	0.19771357974524179
  (0, 21487)	0.21550128478931552
  (0, 22464)	0.2020708956871175
  (0, 26547)	0.19638671147741735
  (0, 23267)	0.16128139780622522
  (0, 14550)	0.22368093636480682
  (0, 16614)	0.1569607387745327
  (0, 20729)	0.27385789694599244
  :	:
  (4801, 18790)	0.22450140828104795
  (4801, 11776)	0.3005604008026175
  (4801, 758)	0.19369913462690624
  (4801, 8121)	0.2611505149930138
  (4801, 27513)	0.3005604008026175
  (4801, 2

In [11]:
# Obtener la película favorita del usuario
movie_name = input("Ingresa el nombre de tu película favorita: ")


# Encuentra coincidencias cercanas a la entrada del usuario
list_of_all_titles = movies_data['title'].to_list()
find_close_match = difflib.get_close_matches(movie_name, list_of_all_titles)

if not find_close_match:
    print("Lo sentimos, no pudimos encontrar una coincidencia cercana.")
else:
    close_match = find_close_match[0]
    index_of_movie = movies_data[movies_data.title == close_match]['index'].values[0]


    # Obtener puntuaciones de similitud para la película seleccionada
    similarity_score = list(enumerate(similarity[index_of_movie]))


    # Ordenar películas por puntuación de similitud en orden descendente
    sorted_similar_movies = sorted(similarity_score, key=lambda x: x[1], reverse=True)

    print('Películas sugeridas: \n')
    i = 1
    for movie in sorted_similar_movies:
        index = movie[0]
        title_from_index = movies_data[movies_data.index == index]['title'].values[0]
        if i <= 20:
            print(i, title_from_index)
            i += 1

Ingresa el nombre de tu película favorita: Top gun
Películas sugeridas: 

1 Top Gun
2 At First Sight
3 Cold Mountain
4 The Last Samurai
5 The Ghost and the Darkness
6 Highlander: Endgame
7 Inception
8 The Wood
9 Red Tails
10 Ace Ventura: Pet Detective
11 Mission: Impossible II
12 An Education
13 The Color of Money
14 Red Planet
15 The Count of Monte Cristo
16 Parental Guidance
17 MacGruber
18 The Brothers McMullen
19 Saving Private Ryan
20 Soul Plane
