In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df=pd.read_csv('Animation_Movies.csv')

**CZĘŚĆ 1**

In [None]:
print(f"Rozmiar ramki danych to {df.shape[0]} wierszy i {df.shape[1]} kolumn")

In [None]:
print('Kolumny w ramce danych są następującego typu:')
df.dtypes

In [None]:
print('Ilość braków danych w poszczególnych kolumnach')
df.isna().sum()

**CZĘŚĆ 2**

In [None]:
df.loc[(df['revenue']==df['revenue'].max()),'title'].iloc[0]

In [None]:
print(f"""Średni przychód wygenerowany przez bajki animowane wynosi {np.round(df.loc[df['revenue']>0,'revenue'].mean()/10**6,2)} mln a mediana {np.round(df.loc[df['revenue']>0,'revenue'].median()/10**6,2)} mln. 
Największy przychód odnotował film {df.loc[(df['revenue']==df['revenue'].max()),'title'].iloc[0]} o wartości {np.round(df['revenue'].max(skipna=True)/10**6,2)} mln.""")
print(f"Mediana budżetu na tworzenie animacji to {np.round(df.loc[df['budget']>0,'budget'].median()/10**6,2)} mln, a średnia to {np.round(df.loc[df['budget']>0,'budget'].mean()/10**6,2)} mln.")
print(f"Średni czas trwania bajki to: {np.round(df.loc[df['runtime']>0,'runtime'].mean(),2)} min.")
print(f"Średnia ilość głosów na bajkę to: {np.round(df.loc[df['vote_count']>0,'vote_count'].mean(),0)}.")
print(f'Jedynie {np.round(df.vote_average[(df.vote_count>0) & (df.vote_average>=7.5)].count()*100/df.vote_average[df.vote_count>0].count(),2)}% bajek uzyskało średnią ocenę >=7.5.')
print(f'Wśród bajek animowanych {np.round(df.adult[df.adult==1].count()*100/df.adult.count(),2)}% było odpowiednich dla dorosłych.')

**Wnioski**
Jak widać, nieduża część animacji zyskuje dużą aprobatę wśród publiczności. Jednakże patrząc na średnią i medianę przychodu, budżetu filmów widzimy, że animacje przynoszą spore zyski. Większość animacji trwa niecałe pół godziny, ale ilość pracy potrzebnej na wykonanie tak krótkiego filmu jest z pewnością nieporównywalnie większa stąd wysokość budżetu. Możemy zwrócić uwagę na to, że bajki są przeznaczone praktycznie wyłącznie dla dzieci. Przez to nie zyskują one tak dużego rozgłosu w internecie i generują mniejszą aktywność wśród widzów w postaci głosów. Jednakże, bajki takie jak "Frozen II" pokazują, że animacja także może osiągnąć ogromny sukces. 

**CZĘŚĆ 3**

In [None]:
#Top 10 najpopularniejszych języków
df.groupby('spoken_languages').title.agg("count").sort_values(ascending=False).head(10)

In [None]:
#Top 10 najpopularniejszych krajów produkcji
df.groupby('production_countries').title.agg("count").sort_values(ascending=False).head(10)

In [None]:
#Top 10 najpopularniejszych gatunków filmów
df.groupby('genres').title.agg("count").sort_values(ascending=False).head(10).index

In [None]:
#Top 10 największych średnich budżetów w zależności od kraju produkcji
df.groupby('production_countries').budget.agg("mean").sort_values(ascending=False).head(10)

In [None]:
#Top 10 największych median budżetów w zależności od firmy tworzącej
df.groupby('production_companies').budget.agg("median").sort_values(ascending=False).head(10)

In [None]:
#Top 10 największych średnich zysków w zależności od kraju produkcji
df.groupby('production_countries').revenue.agg("mean").sort_values(ascending=False).head(10)

In [None]:
#Top 10 najdłuższych filmów w danym języku i ich tytuł
df.loc[df.groupby('spoken_languages')['runtime'].idxmax()][['spoken_languages', 'title', 'runtime']].sort_values('runtime', ascending=False).head(10).reset_index(drop=True)

In [None]:
#Mediana liczby głosów na filmy
df.loc[df['vote_count']>0].groupby('adult').vote_count.agg('median')

**Wnioski**
Widoczne jest to, że filmy animowane najczęściej powstają w krajach zachodnich, Chinach czy Japonii. Te kraje mają największe budżety oraz firmy produkujące filmy. Trafiają one do dużej ilości odbiorców na świecie. Ciekawe wydaje się 10 miejsce języka polskiego wśród liczby filmów w danym języku. Pokazuje to, że Polska jest dużym odbiorcą animowanych treści. Polski rynek dubbingowy i lektorów jest też naprawdę duży. Mediana liczby głosów pokazuje, że filmy animowane nie generują dużej aktywności w internecie. Wśród podtypów filmów animowanych przeważają familijne, komedie, co pokazuje, że rynek ten kieruje treści głównie do dzieci.

**CZĘŚĆ 4**

In [None]:
sns.set(rc = {'figure.figsize': (12,7)})
sns.set_style("darkgrid")

In [None]:
top_genres=df.groupby('genres').title.agg("count").sort_values(ascending=False).head(10).index
pop_genres=df.loc[(df['genres'].isin(top_genres)) & (df['vote_count']>0)]

sns.boxplot(pop_genres,x="vote_average",y="genres")

plt.title('Rozkład średniej oceny filmów dla 10 najczęściej występujących gatunków',fontdict={'size':15})
plt.xlabel("Średnia ocena")
plt.ylabel("Gatunek filmu")
plt.show()

Rozkład średniej oceny pokazuje, że filmy dokumentalne filmy animowane cieszą się największym uznaniem. Pozwala z pewnością to na łatwiejsze przyswojenie treści domuntalnej. Dosyć wysokie oceny zbierają również filmy familijne i muzyczne. Co ciekawe, komedie animowane najczęściej mają średnią głosów w okolicach 6. Być może animacja i komedia to dla ludzi przesadne połączenie.

**CZĘŚĆ 5**

In [None]:
df_2=df.loc[(df['budget']>0)]


sns.scatterplot(data=df_2, x='budget', y='revenue',alpha=0.65,color='#4875ee')

plt.xscale('log')
plt.yscale('log')

plt.ylim(None, 0.3*10**10)
plt.xlim(None, 0.3*10**10)

plt.plot(
    [0, 0.3e10],
    [0, 0.3e10],
    color="#da1212",
    linestyle='--',
    linewidth=1,
    label="Linia odniesienia: przychód = budżet"
)

plt.title('Zależność między budżetem a przychodem z filmu',fontdict={'size':15})
plt.xlabel("Budżet")
plt.ylabel("Przychód")
plt.legend()

plt.show()

Wzrost budżetu powoduje wzrost przychodów. Dla większości filmów przychód jest większy niż budżet. Niestety zdarzają się produkcje bardzo niewypłacalne, nawet w setkach tysięcy.


In [None]:
#Wybieram tylko te, które mają więcej niż 5 głosów, żeby była większa próbka
df_3=df.loc[(df['revenue']>0)&(df['vote_count']>3)]


sns.scatterplot(data=df_3, x='revenue', y='vote_average',alpha=0.5,color="#2f5fe3")

plt.xscale('log')

plt.xlim(None, 0.3*10**10)
plt.ylim(0, 10)


plt.title('Zależność między przychodem a średnią oceną filmu',fontdict={'size':15})
plt.xlabel("Przychód")
plt.ylabel("Średnia ocena")

plt.show()

Wielkość budżetu nie gwarantuje wysokich ocen. Filmy o wielomilionowych budżetach potrafią spadać z średnią ocen poniżej 5. Pewnie rozgłos i promocja filmu sprawiają, że wiele osób czuje zawód, gdy produkcja nie jest dopracowana. Niewiele jest filmów, które dostają ocenę powyżej 8. Najczęściej średnia ocena filmów animowanych oscyluje w okolicach 7.