# Klasyfikacja stopnia sukcesu filmu

Ilya Pauliuk (217344), Adam Ropelewski (217518), Dawid Rychlik (217264), Jakub
Szala (217367)

## Streszczenie

Wykonany przez nas projekt zajmuję się klasyfikacją filmów ze względu na spodziewaną ocenę przez ich odbiorców. W tym celu wykorzystujemy sprawdzone metody klasyfikacji, które mają swoje implementację w bibliotece scikit-learn. Wymagało to dokładnej obróbki danych. 

[dopisać lekkie wnioseki na podstawie wyniku]

## Słowa kluczowe

filmy, netflix, klasyfikacja metodami x i d, klasteryzacja metodą k-średnich

## Wstęp

W latach osiemdziesiątych obejrzenie filmu wymagało wizyty w kinie lub ograniczenie się do reperteuru proponowanego przez telewizję. W erze, gdy kino było jeszcze ekscytującą nowością, każdy postęp w dziedzinie kinematografii czy to w reżyserii czy w efektach specjalnych sprawiał, że dzieło utrwalało się pozytywnie w pamięci widzów. Te czasy jednak minęły, a coraz to bardziej ekstrawaganckie elementy dokonywane w postprodukcji nie robią już tak dużego wrażenia.


 Teraz dostęp do popkultury jest na wyciągnięcie ręki, kilka kliknięć pozwala nam przeglądać niezliczone biblioteki serwisów streamingowych takich jak Netflix, Max, Hulu, Disney+ etc. Jesteśmy zasypywani rzeszami filmów, wiele z nich zapominamy po tygodniu. Określenie czy dane dzieło kina wzbudzi w przeciętnym odbiorcy pozytywną reakcję, tym samym zasługując by dana platforma go zakupiła jest zadaniem niełatwym. W dodatku biorąc pod uwagę dotychczasową ilość stworzonych ekranizacji i tworzonych co roku - czasochłonynym. 

W celu stworzenia modelu statystycznego wykorzystujemy dane około 26 mln ocen poszczególnych użytkowników platformy Netflix. W owych danych pojawiły się liczne braki wymagające obsłużenia. 

Po przetworzeniu danych zajeliśmy się klasteryzacją przy pomocy metody k-średnich, testując jakie parametry tej metody będą najkorzystniejsze

## Opis danych wejściowych

Dane pozyskaliśmy z serwisu keggel. 26 mln ocen poszczególnych użytkowników platformy Netflix należało zsumować i przydzielić do konkretnych filmów, obliczając średnią. Kluczowym zadaniem było obsłużenie danych brakujących, funkcje biblioteki scikit-learn nie pozwalają na zbiory danych, w których nie ma wszystkich wartości.

W ten sposób uzyskaliśmy dane wyjściowe, które możemy wykorzystać do treningu modelu statystycznego. Każdy film posiada jedenaście cech:

1. Średnia ocena użytkowników
2. Czy to film dla dorosłych
3. Budżet
4. Gatunek
5. Język orginału
6. Data premiery
7. Przychód
8. Ilość dubbingów
9. Czas trwania
10. Kraje produkcji
11. Liczba głosów

### Średnia ocena użytkowników

To wartość liczbowa reprezentująca przeciętną ocenę przyznaną filmowi przez użytkowników na platformie Netflix. Skala wynosi od 0 do 5. Wysoka średnia ocena zazwyczaj przekłada się na pozytywne przyjęcie filmu przez publiczność.

### Czy to film dla dorosłych

Zmienna binarna (tak/nie), która wskazuje, czy film został sklasyfikowany jako przeznaczony wyłącznie dla dorosłych (np. ze względu na treści erotyczne, przemoc, itp.). Zakres wartości: 0 (nie), 1 (tak).

### Budżet

Całkowity koszt produkcji filmu, podany w walucie (najczęściej w dolarach amerykańskich). Zakres wartości: od tysięcy do setek milionów dolarów. Budżet potrafi wpłynąć znacząco na sukces wśród widowni, choć wiele klasyków kina pokazało, że i z niskim budżetem można wywrzeć wrażenie na publiczności. 

### Gatunek

Kategoria tematyczna filmu (np. komedia, dramat, horror, science fiction). Zakres wartości: jeden lub więcej z kilkunastu gatunków filmowych. Można się spodziewać, że pewne gatunki przyciągają większą widownię. 

### Język oryginału

Język, w którym film został pierwotnie nakręcony i wyprodukowany. Zakres wartości: id języka będące liczbą całkowitą dodatnią. Filmy, których orginalny język jest popularny na świecie jak angielski, chiński czy hiszpański zazwyczaj trafiają do większej ilości odbiorców. 

### Data premiery

Dokładna data, kiedy film został po raz pierwszy wyświetlony publicznie. Zakres wartości: format daty (YYYY-MM-DD). Istnieją okresy, w których filmy danej epoki wracają do popularności. 

### Przychód

Całkowity dochód wygenerowany przez film z biletów kinowych i innych źródeł, podany w walucie (najczęściej w dolarach amerykańskich). Zakres wartości: od tysięcy do miliardów dolarów. Przychód jest wskaźnikiem komercyjnego sukcesu filmu, zazwyczaj przekłada się na ocenę filmu.

### Ilość dubbingów

Liczba różnych języków, na które film został przetłumaczony. Zakres wartości: może wynosić od 0 do kilkudziesięciu. Dubbing pozostaje jedną z najbardziej popularnych form odbioru firmu przez obcokrajowców. 

### Czas trwania

Całkowity czas trwania filmu, podany w minutach. Zakres wartości: od około 20 minotwych do nawet ponad 200 minut. Czas trwania bezpośrednio ma spory wpływ na recenzje, filmy stanowczo za długie stają się nużące bez dobrego reżysera, a za krótkie dają uczucie dysatysfkacji. 

### Kraje produkcji

Lista krajów, które brały udział w produkcji filmu. Zakres wartości: jeden lub więcej krajów.

### Liczba głosów

Całkowita liczba ocen oddanych przez użytkowników na platformach recenzujących. Zakres wartości: może wynosić od kilku do milionów. Większa liczba głosów przekłada się na popularność i wiarygodność średniej oceny filmu.

## Wizualizacja danych

Do wizualizacji wykorzystujemy histogramy. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

file_path = "output/movies_relevant_data.csv"
movies_df = pd.read_csv(file_path)

numerical_columns = [
    #"movieId",
    "avg_of_rating",
    "adult",
    "budget",
    "genres",
    "original_language",
    "release_date",
    "revenue",
    "spoken_languages",
    "runtime",
    "production_countries",
    "vote_count",
]
plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_columns, 1):
    plt.subplot(3, 4, i)
    sns.histplot(movies_df[col])
    plt.title(f'Distribution of {col}')
    plt.xlabel(col)
    plt.ylabel('Frequency')

plt.tight_layout()
plt.show()

# Plotting the relationship between budget and worldwide gross revenue
plt.figure(figsize=(12, 6))
sns.scatterplot(x='budget', y='revenue', data=movies_df)
plt.title('Relationship between Budget and Revenue')
plt.xlabel('Budget')
plt.ylabel('Revenue')
plt.show()

# Plotting the relationship between domestic and international gross revenue
plt.figure(figsize=(12, 6))
sns.scatterplot(x='avg_of_rating', y='budget', data=movies_df)
plt.title('Relationship between Budget and Average movie rating')
plt.xlabel('Budget')
plt.ylabel('Avg of Rating')
plt.show()

# Plotting the trend of worldwide gross revenue over the years
plt.figure(figsize=(12, 6))
sns.lineplot(x='release_date', y='revenue', data=movies_df)
plt.title('Trend of Revenue Over the Years')
plt.xlabel('Date')
plt.ylabel('Revenue')
plt.show()

# # Plotting the trend of budget over the years
plt.figure(figsize=(12, 6))
sns.lineplot(x='release_date', y='budget', data=movies_df)
plt.title('Trend of Budget Over the Years')
plt.xlabel('Date')
plt.ylabel('Budget')
plt.show()

## Grupowanie

## Uzyskane wyniki

## Wnioski

## Bibliografia