# Analýza shlukování dat

In [1]:
import pandas as pd # dataframes
import numpy as np # matrices and linear algebra
import matplotlib.pyplot as plt # plotting
import seaborn as sns # another matplotlib interface - styled and easier to use

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

In [None]:
df = pd.read_csv('tmdb_movie_data.csv', sep=',')

## Přehled o datech

In [None]:
with pd.option_context('display.max_columns', None):
    display(df)

In [None]:
# Struktura a typy
df.info()

# Základní popisné statistiky pro číselné sloupce
df.describe()

In [None]:
# Chybějící hodnoty
df.isna().sum()

## Úprava dat

In [None]:
# Převod release_date na datetime
df['release_date'] = pd.to_datetime(df['release_date'])

# Rok a měsíc premiéry
df['release_year'] = df['release_date'].dt.year
df['release_month'] = df['release_date'].dt.month

# ROI (návratnost)
df['roi'] = np.where(df['budget'] > 0, df['revenue'] / df['budget'], np.nan)

display(df)

## Jednoduché vizualizace číselných proměnných

In [None]:
numeric_cols = ['vote_average', 'vote_count', 'popularity', 'budget', 'revenue', 'runtime']

plt.figure(figsize=(10, 5))
sns.boxplot(data=df[numeric_cols])
plt.xticks(rotation=45)
plt.title('Boxplot')
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10, 5))
sns.barplot(data=df, x='title', y='vote_average')
plt.xticks(rotation=45, ha='right')
plt.title('Hodnocení filmů (vote_average)')
plt.ylabel('vote_average')
plt.xlabel('Film')
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(10, 5))
sns.barplot(data=df, x='title', y='popularity')
plt.xticks(rotation=45, ha='right')
plt.title('Popularita filmů')
plt.ylabel('popularity')
plt.xlabel('Film')
plt.tight_layout()
plt.show()

## Vztahy mezi proměnnými (korelace, scatterploty)

In [None]:
corr = df[numeric_cols].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Korelační matice číselných proměnných')
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(7, 5))
sns.scatterplot(data=df, x='vote_average', y='popularity', size='vote_count', hue='vote_count', legend='brief')
plt.title('Vztah mezi hodnocením a popularitou')
plt.xlabel('vote_average')
plt.ylabel('popularity')
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(7, 5))
sns.scatterplot(data=df, x='budget', y='revenue')
plt.title('Vztah mezi rozpočtem a tržbami')
plt.xlabel('budget')
plt.ylabel('revenue')
plt.tight_layout()
plt.show()

## Analýza žánrů

In [None]:
# Rozdělení stringu genres_list na seznam
df['genres_list'] = df['genres'].str.split(', ')

# Každý žánr jako samostatný řádek
genres_exploded = df.explode('genres_list')

display(genres_exploded[['title', 'genres_list']])

In [None]:
plt.figure(figsize=(7, 5))
sns.countplot(data=genres_exploded, x='genres_list')
plt.xticks(rotation=45, ha='right')
plt.title('Počet výskytů jednotlivých žánrů')
plt.xlabel('Žánr')
plt.ylabel('Počet filmů (výskytů)')
plt.tight_layout()
plt.show()

## Analýza jazyků

In [None]:
df['languages_list'] = df['spoken_languages'].str.split(', ')

languages_exploded = df.explode('languages_list')

display(languages_exploded[['title', 'languages_list']])

In [None]:
plt.figure(figsize=(7, 5))
sns.countplot(data=languages_exploded, x='languages_list')
plt.xticks(rotation=45, ha='right')
plt.title('Počet výskytů jednotlivých jazyků')
plt.xlabel('Jazyk')
plt.ylabel('Počet filmů (výskytů)')
plt.tight_layout()
plt.show()

Hodnocení (vote_average) se pohybuje přibližně mezi 4,3 a 7,6, nejlépe hodnocený je „Our Fault“.
Nejčastější žánry jsou … (dopoň podle grafu).
Jazyky jsou převážně English/Spanish.