In [5]:
import pandas as pd
from collections import Counter

# Загрузи свой CSV
df = pd.read_csv("movies_list.csv")

# Приводи жанры к списку (если разделены запятой)
all_genres_raw = df['genre'].dropna().apply(lambda x: [g.strip().lower() for g in x.split(',')])

# Подсчёт всех встречающихся "жанров"
flat_genres = [genre for sublist in all_genres_raw for genre in sublist]
genre_counts = Counter(flat_genres)

# Настоящие жанры (можно расширить вручную при необходимости)
valid_genres = {
    'драма', 'комедия', 'боевик', 'документальный', 'мультфильмы', 'биографический',
    'детектив', 'триллер', 'война', 'мелодрама', 'ужасы', 'приключения', 'вестерн',
    'семейный', 'музыка', 'короткометражный', 'фантастика', 'исторический', 'мистика',
    'мюзикл', 'фэнтези', 'нуар', 'реалити-шоу', 'игровое шоу', 'ток-шоу', 'спорт', 'для взрослых'
}

# Преобразуем жанры в списки
def split_genres(g):
    if pd.isna(g):
        return []
    return [x.strip().lower() for x in g.split(',')]

# Отмечаем невалидные жанры
df['invalid_genres'] = df['genre'].apply(
    lambda g: [x for x in split_genres(g) if x not in valid_genres]
)

# Отфильтровываем строки с хотя бы одним невалидным жанром
invalid_rows = df[df['invalid_genres'].apply(len) > 0]

# Выводим результат
print("🔍 Фильмы с невалидными жанрами:")
for _, row in invalid_rows.iterrows():
    print(f"\n🎬 {row['movie_title']}")
    print(f"🔗 URL: {row.get('page_url', '—')}")
    print(f"🏷️ Жанры: {row.get('genre', '')}")
    print(f"⚠️ Невалидные жанры: {', '.join(row['invalid_genres'])}")

🔍 Фильмы с невалидными жанрами:

🎬 Драйв
🔗 URL: https://www.film.ru/movies/drayv-0
🏷️ Жанры: США
⚠️ Невалидные жанры: сша

🎬 Продукты 24
🔗 URL: https://www.film.ru/movies/produkty-24
🏷️ Жанры: Россия
⚠️ Невалидные жанры: россия

🎬 Жизнь
🔗 URL: https://www.film.ru/movies/zhizn-9
🏷️ Жанры: Германия
⚠️ Невалидные жанры: германия

🎬 Американское чтиво
🔗 URL: https://www.film.ru/movies/amerikanskoe-chtivo
🏷️ Жанры: США
⚠️ Невалидные жанры: сша

🎬 Тираннозавр
🔗 URL: https://www.film.ru/movies/tirannozavr
🏷️ Жанры: Великобритания
⚠️ Невалидные жанры: великобритания

🎬 Джекпот!
🔗 URL: https://www.film.ru/movies/dzhekpot-6
🏷️ Жанры: США
⚠️ Невалидные жанры: сша

🎬 Принцесса Аврора
🔗 URL: https://www.film.ru/movies/princessa-avrora
🏷️ Жанры: Франция
⚠️ Невалидные жанры: франция

🎬 Бесплодная земля
🔗 URL: https://www.film.ru/movies/besplodnaya-zemlya
🏷️ Жанры: Великобритания
⚠️ Невалидные жанры: великобритания

🎬 Перелетные свиньи
🔗 URL: https://www.film.ru/movies/pereletnye-svini
🏷️ Жанры: Франц

In [14]:
correct_genres = {
    "Драйв": "боевик, драма, триллер",
    "Продукты 24": "комедия",
    "Жизнь": "биографический, драма",
    "Американское чтиво": "комедия, мелодрама",
    "Тираннозавр": "драма",
    "Джекпот!": "комедия, фэнтези",
    "Принцесса Аврора": "мультфильмы, приключения, семейный",
    "Бесплодная земля": "драма",
    "Перелетные свиньи": "комедия",
    "Без названия": "драма",
    "Смешарики. Начало": "мультфильмы, семейный",
    "Данделион": "драма",
    "Одноклассники": "комедия",
    "Падение в небеса": "приключения, фэнтези",
    "Пальмы в снегу": "мелодрама",
    "Покажи мне Луну": "драма, мелодрама",
    "Красная сирена": "триллер, драма",
    "Ложные признания": "комедия",
    "WTF! Какого черта?": "комедия",
    "Беглец": "боевик, драма",
    "Развод по-французски": "комедия, мелодрама",
    "Щелкунчик и Крысиный король 3D": "мультфильмы, фэнтези",
    "Гадкий я 4": "мультфильмы, комедия",
    "Зачинщики": "комедия",
    "Комната в Риме": "драма",
    "Чистое место": "драма",
    "Шоа": "документальный, исторический",
    "Восемь": "документальный",
    "Роздiловi Наживо": "документальный",
    "Ускользающий нюанс": "документальный",
    "Малевич": "биографический, драма",
    "Бунтарка из Швейцарии": "драма",
    "Севильский цирюльник": "комедия, музыка",
    "Подводная лодка I-57 не сдаётся!": "война, драма",
    "Дамба": "война, драма",
    "The Prodigy - World's On Fire": "музыка",
    "Big Little Brawlers": "комедия",
    "Однажды на Мёрдокское Рождество": "комедия",
    "Север и юг": "мелодрама, исторический",
    "Домой на праздники": "комедия",
    "Шофёр мисс Дэйзи": "драма",
    "Перелёт воробьёв": "мультфильмы, приключения",
    "Захар Беркут": "исторический, приключения",
    "Нико: Путешествие в Магику": "мультфильмы, приключения",
    "Как умирают в больнице": "драма",
    "Порги и Бесс": "мюзикл",
    "День Радио (Спектакль)": "комедия",
    "Пять разбитых камер": "документальный",
    "Под небесами": "документальный",
    "Свояки": "комедия",
    "Оперетта": "мюзикл",
    "Хиросима": "драма",
    "Птица-Гоголь": "драма",
    "Клара Боу: забытая богиня экрана Голливуда": "документальный",
    "Дерево без листьев": "драма",
    "В последний момент": "документальный",
    "Немецкие души. Жизнь после колонии «Достоинство»": "документальный",
    "Крещение": "документальный",
    "Вчерашний день остался в прошлом": "документальный",
    "Россия молодая": "документальный",
    "Молодой пенсионер ищет ребенка": "комедия",
    "Моммо": "драма",
    "Узник Зенды": "приключения",
    "Сейлор Мун Эр: Спешл": "аниме, фэнтези",
    "Путь на арену": "спорт, драма",
    "Москва – Генуя": "документальный",
    "Черный альбом: Несчастный случай": "драма",
    "Избранник": "драма",
    "Берлин Сейчас": "документальный",
    "Десять негритят": "детектив, триллер",
    "Стук незнакомца": "триллер",
    "Шерлок Холмс: Странная история Алисы Фолкнер": "детектив",
    "Боковой ветер": "драма",
    "Как казаки невест выручали": "комедия",
    "Омар": "драма",
    "Вязание": "драма",
    "Когда мы уходим": "драма",
    "В десятку": "спорт",
    "Дамы и господа": "комедия",
    "Королева Христина": "биографический, драма",
    "Людвиг": "биографический, драма",
    "Левый носок": "документальный",
    "Чужая мать": "документальный",
    "Скуки ради": "комедия",
    "Кукай": "драма",
    "Конечная остановка": "драма",
    "Услышь меня": "драма",
    "Девушка": "драма",
    "Анна на тысячу дней": "биографический, исторический",
    "Рангом ниже": "драма",
    "Нацисты на наркотиках: Гитлер и блицкриг": "документальный",
    "Людовик XI: Разбитая власть": "исторический, драма",
    "Возвращение на родину": "документальный",
    "Беги или женись": "комедия",
    "Проверено – мин нет": "военный",
    "Я хочу стать устрицей": "драма",
    "Георгий Саакадзе": "исторический, военный",
    "Дай, король, солдата": "комедия",
    "Кинотеатр 16: Британские короткометражные фильмы": "короткометражный",
    "Исчезнувшее изображение": "документальный",
    "Харакири 3D": "драма, война",
    "Человек из железа": "драма",
    "Мария-Антуанетта": "биографический, драма",
    "Диалог": "документальный",
    "Стеклянный глаз": "драма",
    "Потерпи трошки": "комедия",
    "Обзор зимнего фестиваля 2019": "документальный",
    "Ведьмины сказки": "документальный",
    "В ночь на тринадцатое": "триллер",
    "Воспоминания солдата": "военный",
    "Смелый, как тигр": "военный, исторический",
    "История двух якудза: Хисякаку и Кирацунэ": "криминал",
    "Актриса": "драма",
    "В темноте": "драма",
    "Бокал красного вина": "комедия",
    "Ночь над Чили": "документальный",
    "Золотой храм": "драма",
    "Лизелотта из Пфальца": "мелодрама",
    "Американский институт кино чествует Джеймса Кэгни": "документальный",
    "Ило Ило": "драма",
    "Если все…": "комедия",
    "Барбара": "драма",
    "Эль Сид": "исторический, приключения",
    "Юные морские пехотинцы": "военный",
    "События на острове Хайнань": "военный",
    "Ковальски": "комедия",
    "Я - Джон Фицджеральд Кеннеди-младший": "документальный",
    "Суд должен продолжаться": "документальный",
    "Сердце": "драма",
    "Ящик Пандоры": "драма",
    "Шику Шавьер": "драма",
    "Виолета отправляется на небеса": "музыкальный",
    "Заключенный R": "криминал, драма",
    "Каменный цветок": "мультфильмы",
    "Парк Шанхай": "драма",
    "Нас мало": "драма",
    "Если бы я был королем": "мюзикл, комедия",
    "Дух Сент-Луиса": "музыка"
}

In [15]:
# Обновите жанры, если название фильма есть в словаре
df['genre'] = df['movie_title'].map(correct_genres).fillna(df['genre'])

# Сохраните обратно в CSV
df.to_csv('movies_list.csv', index=False)

In [18]:
df[df['movie_title'] == 'Дух Сент-Луиса']

Unnamed: 0,year,genre,director,time,page_url,movie_title,description,image_url,time_minutes,invalid_genres
14679,1957,музыка,Билли Уайлдер,2 часа 14 минут,https://www.film.ru/movies/duh-sent-luisa,Дух Сент-Луиса,Воссоздание на экране одиночного полета Чарлза...,https://www.film.ru/sites/default/files/styles...,134,[сша]
