# Bevezetés

A projekt célja a Marvel és DC filmek összehasonlítása, valamint a box office bevételek és filmek sikerességének vizsgálata. Az összehasonlítások és vizsgálatok Python Bokeh környezetben készültek, ahol az adatokat és ábrákat HTML oldalon jelenítjük meg.

Az elemzések során átfogó képet kapunk a két univerzum filmjeinek teljesítményéről, beleértve a bevételeket, költségvetéseket, és a filmek közötti különbségeket. A Bokeh eszköztára lehetővé teszi a dinamikus, interaktív ábrák készítését, amelyek segítenek a részletesebb és hatékonyabb elemzésben.

Az alábbiakban találhatók a projekt különböző részei, amelyek bemutatják a Marvel és DC filmek közötti különbségeket és hasonlóságokat, valamint azok box office bevételeit és sikerességét.

# Dataset Információk

A projekt során használt adatokat a Kaggle adatbázisából töltöttem le. Az adatforrás a következő, ahol a kaggle oldalán részletes információ található a datasetről:

- **Forrás**: [Kaggle](https://www.kaggle.com/datasets/mdtoomey/box-office-of-dc-and-marvel-superhero-movies?resource=download)
- **Dataset neve**: Box office of DC and Marvel superhero movies

## Adatok tartalma

Az adat tartalmazza a Marvel és DC szuperhős filmek box office bevételeit és költségvetéseit. Az adatok részletezik a filmek címét, megjelenési dátumát, költségvetését, box office bevételeit, és más releváns információkat a filmekről, mint például a film univerzuma (Marvel vagy DC), MPAA besorolás, és a Rotten Tomatoes értékelés.

## Használat a projektben

Az adatok fontos szerepet játszanak a projektben, mivel lehetővé teszik a Marvel és DC filmek összehasonlítását a box office bevételek és költségvetések alapján. Az adatok felhasználásával lehetővé válik a filmek sikerességének elemzése és az egyes univerzumok teljesítményének vizsgálata.

# Importok

Az importált modulok és osztályok elengedhetetlenek a Bokeh ábrák és interakciók létrehozásához és megjelenítéséhez. Az összes eszköz együttesen lehetővé teszi a projektben szükséges ábrák és elemzések hatékony létrehozását.

In [1]:
import pandas as pd
import numpy as np
from math import pi
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource, Div, HoverTool, NumberFormatter, NumeralTickFormatter, Whisker, TableColumn, DataTable, FactorRange
from bokeh.layouts import grid, column, row
from bokeh.transform import factor_cmap, jitter, cumsum
from bokeh.palettes import MediumContrast5, Category20

A `dc_marvel_movie_performance.csv` fájl betöltése az adatkeretbe (`df`), majd az első néhány sor megjelenítése.

In [2]:
df = pd.read_csv('dc_marvel_movie_performance.csv')
df.head()

Unnamed: 0,Film,U.S. release date,Box office gross Domestic (U.S. and Canada ),Box office gross Other territories,Box office gross Worldwide,Budget,MCU,Phase,Distributor,MPAA Rating,...,Character Family,Domestic %,Gross to Budget,Rotten Tomatoes Critic Score,Male/Female-led,Year,Inflation Adjusted Worldwide Gross,Inflation Adjusted Budget,2.5x prod,Break Even
0,Superman,15/12/1978,"$134,478,449","$166,000,000","$300,478,449","$55,000,000",False,,Warner Bros.,PG,...,Superman,45%,5.46,94.0,Male,1978.0,"$1,404,237,104","$257,033,544","$137,500,000",Success
1,Superman II,19/06/1981,"$108,185,706","$108,200,000","$216,385,706","$54,000,000",False,,Warner Bros.,PG,...,Superman,50%,4.01,83.0,Male,1981.0,"$725,336,273","$181,010,842","$135,000,000",Success
2,Superman III,17/06/1983,"$59,950,623","$20,300,000","$80,250,623","$39,000,000",False,,Warner Bros.,PG,...,Superman,75%,2.06,29.0,Male,1983.0,"$245,506,947","$119,310,861","$97,500,000",Flop
3,Supergirl,21/11/1984,"$14,296,438",,"$14,296,438","$35,000,000",False,,Tri-Star Pictures,PG,...,Superman,100%,0.41,8.0,Female,1984.0,"$41,926,345","$102,642,497","$87,500,000",Flop
4,Howard the Duck,01/08/1986,"$16,295,774","$21,667,000","$37,962,774","$37,000,000",False,,Universal Pictures,PG,...,Howard the Duck,43%,1.03,13.0,Male,1986.0,"$37,962,774","$37,000,000","$92,500,000",Flop


A megadott oszlopokból eltávolításra kerülnek a `$` és `,` karakterek, majd az oszlopok értékeit numerikus értékekké alakítjuk át.

In [3]:
# oszlopok kiszűrése melyek $ és , karaktereket tartalmaznak
cols = ['Box office gross Domestic (U.S. and Canada )', 'Box office gross Other territories',
        'Box office gross Worldwide', 'Budget', 'Inflation Adjusted Worldwide Gross', 'Inflation Adjusted Budget',
        '2.5x prod']

# $ és , karakterek eltávolítása az oszlopokból
df[cols] = df[cols].replace({'\$': '', ',': ''}, regex=True)
# oszlopokat átalakítása numerikus értékekké
df['Box office gross Domestic (U.S. and Canada )'] = \
    (pd.to_numeric(df['Box office gross Domestic (U.S. and Canada )'], errors='ignore'))
df['Box office gross Other territories'] = \
    (pd.to_numeric(df['Box office gross Other territories'], errors='ignore'))
df['Box office gross Worldwide'] = (pd.to_numeric(df['Box office gross Worldwide'], errors='ignore'))
df['Budget'] = (pd.to_numeric(df['Budget'], errors='ignore'))
df['Inflation Adjusted Worldwide Gross'] = \
    (pd.to_numeric(df['Inflation Adjusted Worldwide Gross'], errors='ignore'))
df['Inflation Adjusted Budget'] = (pd.to_numeric(df['Inflation Adjusted Budget'], errors='ignore'))
df['2.5x prod'] = (pd.to_numeric(df['2.5x prod'], errors='ignore'))

df.head()

  (pd.to_numeric(df['Box office gross Domestic (U.S. and Canada )'], errors='ignore'))
  (pd.to_numeric(df['Box office gross Other territories'], errors='ignore'))
  df['Box office gross Worldwide'] = (pd.to_numeric(df['Box office gross Worldwide'], errors='ignore'))
  df['Budget'] = (pd.to_numeric(df['Budget'], errors='ignore'))
  (pd.to_numeric(df['Inflation Adjusted Worldwide Gross'], errors='ignore'))
  df['Inflation Adjusted Budget'] = (pd.to_numeric(df['Inflation Adjusted Budget'], errors='ignore'))
  df['2.5x prod'] = (pd.to_numeric(df['2.5x prod'], errors='ignore'))


Unnamed: 0,Film,U.S. release date,Box office gross Domestic (U.S. and Canada ),Box office gross Other territories,Box office gross Worldwide,Budget,MCU,Phase,Distributor,MPAA Rating,...,Character Family,Domestic %,Gross to Budget,Rotten Tomatoes Critic Score,Male/Female-led,Year,Inflation Adjusted Worldwide Gross,Inflation Adjusted Budget,2.5x prod,Break Even
0,Superman,15/12/1978,134478449.0,166000000.0,300478449.0,55000000.0,False,,Warner Bros.,PG,...,Superman,45%,5.46,94.0,Male,1978.0,1404237000.0,257033544.0,137500000.0,Success
1,Superman II,19/06/1981,108185706.0,108200000.0,216385706.0,54000000.0,False,,Warner Bros.,PG,...,Superman,50%,4.01,83.0,Male,1981.0,725336300.0,181010842.0,135000000.0,Success
2,Superman III,17/06/1983,59950623.0,20300000.0,80250623.0,39000000.0,False,,Warner Bros.,PG,...,Superman,75%,2.06,29.0,Male,1983.0,245506900.0,119310861.0,97500000.0,Flop
3,Supergirl,21/11/1984,14296438.0,,14296438.0,35000000.0,False,,Tri-Star Pictures,PG,...,Superman,100%,0.41,8.0,Female,1984.0,41926340.0,102642497.0,87500000.0,Flop
4,Howard the Duck,01/08/1986,16295774.0,21667000.0,37962774.0,37000000.0,False,,Universal Pictures,PG,...,Howard the Duck,43%,1.03,13.0,Male,1986.0,37962770.0,37000000.0,92500000.0,Flop


Az eredeti adatkeret (`df`) mentése másolatként (`origin_df`), mert a későbbiekben változtatni fogunk rajta.

A `Marvel`, `DC`, `MCU`, és `non_mcu` adatok szűrése az eredeti adatkeretből. A `non_mcu` az MCU-hoz nem tartozó Marvel filmeket tartalmazza.

Fontos megjegyezni, hogy az `MCU` és `non_mcu` adatok mind a Marvel univerzumhoz tartoznak, de az `MCU` a Marvel Cinematic Universe filmjeit tartalmazza, míg a `non_mcu` az MCU-n kívüli Marvel filmeket.

Az `MCU` filmek a Marvel Studios által készített filmeket tartalmazzák, amelyek egy összekapcsolt univerzum részét képezik. A `non_mcu` filmek a Marvel által létrehozott más stúdiók filmjeit tartalmazzák, amelyek nem tartoznak az MCU univerzumához. A félreértések elkerülése érdekében ezt az értéket az eredeti `df`-en belül az `MCU` oszlopban csak akkor jelöljük `TRUE`-ként, ha egy film mindkét következő kritériumnak megfelel: (a) a megjelenés idején az MCU része volt, (b) a "fő" MCU idővonalhoz tartozik, más néven a „Szent Idővonalhoz”.

In [4]:
#eredeti df-ek mentése
origin_df =df.copy()

# Franchise-ok szerinti szűrés
marvel = df[df['Franchise'] == 'Marvel']
dc = df[df['Franchise'] == 'DC']
mcu = df[df['MCU'] == True]
non_mcu = marvel[marvel['MCU'] == False]

non_mcu.head()

Unnamed: 0,Film,U.S. release date,Box office gross Domestic (U.S. and Canada ),Box office gross Other territories,Box office gross Worldwide,Budget,MCU,Phase,Distributor,MPAA Rating,...,Character Family,Domestic %,Gross to Budget,Rotten Tomatoes Critic Score,Male/Female-led,Year,Inflation Adjusted Worldwide Gross,Inflation Adjusted Budget,2.5x prod,Break Even
4,Howard the Duck,01/08/1986,16295774.0,21667000.0,37962774.0,37000000.0,False,,Universal Pictures,PG,...,Howard the Duck,43%,1.03,13.0,Male,1986.0,37962774.0,37000000.0,92500000.0,Flop
8,The Punisher,05/10/1989,0.0,30000000.0,30000000.0,9000000.0,False,,New World International,R,...,Punisher,0%,3.33,25.0,Male,1989.0,30000000.0,9000000.0,22500000.0,Success
14,Blade,21/08/1998,70087718.0,61123659.0,131211377.0,45000000.0,False,,New Line Cinema,R,...,Blade,53%,2.92,58.0,Male,1998.0,131211377.0,45000000.0,112500000.0,Success
15,X-Men,14/07/2000,157299718.0,139039810.0,296339528.0,75000000.0,False,,Twentieth Century Fox,PG-13,...,X-Men,53%,3.95,82.0,Male,2000.0,296339528.0,75000000.0,187500000.0,Success
16,Blade II,22/03/2002,82348319.0,72661713.0,155010032.0,54000000.0,False,,New Line Cinema,R,...,Blade,53%,2.87,57.0,Male,2002.0,155010032.0,54000000.0,135000000.0,Success


# Oszlopdiagram MCU fázisok szerint

A kódrészletben oszlopdiagramot készítünk az MCU filmek inflációval korrigált világbevételeiről az MCU fázisok szerint. A diagram mutatja a filmek költségvetését, inflációval korrigált bevételeit, és a bevételek arányát a költségvetéshez képest.

In [5]:
#oszlopdiagram mcu fázisok szerint

mcu['Phase'] = mcu['Phase'].astype(float).astype(int).astype(str)
mcu['Film'] = mcu['Film'].astype(str)

pf_group = mcu.groupby(['Phase', 'Film'])

p1 = figure(width=750, height=650, x_range=pf_group, title="MCU Fázisok filmjei és infláció korrigált világbevétele",
           toolbar_location=None, tools="", tooltips=[("Fázis, Film ", "@Phase_Film"),
                                                      ("Költségvetés", "@Budget_mean{$0,0}"),
                                                      ("Infláció korrigált bevétel", "@{Inflation Adjusted Worldwide Gross_mean}{$0,0}"),
                                                      ("Bevétel a költségvetéshez képest", "@{Gross to Budget_mean}{0.00}%")])

index_cmap = factor_cmap('Phase_Film', palette=MediumContrast5, factors=sorted(mcu['Phase'].unique().astype(str)),end=1)
p1.vbar(x='Phase_Film', top='Inflation Adjusted Worldwide Gross_mean', width=1, source=pf_group,
       line_color='white', fill_color=index_cmap)

p1.xgrid.grid_line_color = None
p1.y_range.start = 0
p1.yaxis[0].formatter = NumeralTickFormatter(format="$0,0")
p1.x_range.range_padding = 0.05
p1.xaxis.major_label_orientation = 1.559

div = Div(text="""<h1>MCU Fázisok filmjei</h1> <p> Az alábbi oszlopdiagramon látható az egyes fázisok filmjeinek infláció korrigált összesen szerzett bevétele. Infláció korrigálásra azért van szükség, mert a filmek különböző időpontokban készültek, a pénz értéke pedig változott az időpontok között.""", width = 200)
show(row(p1, div))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mcu['Phase'] = mcu['Phase'].astype(float).astype(int).astype(str)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mcu['Film'] = mcu['Film'].astype(str)


# Kördiagram az univerzumokról

A kód kördiagramot készít az MCU, DC, MARVEL és NON_MCU univerzumokban található filmekről. A diagram ábrázolja a filmek számát, összesített költségvetését, bevételeit, sikeres és sikertelen filmek számát, valamint a legjobb filmeket mindegyik univerzumban. A `hover` eszköz segítségével további információk érhetők el a szeletekről. Az ábrák mellett egy rövid leírást is tartalmaz a div elem.

In [6]:
#kördiagram

x = {'MCU':len(mcu),
     'DC': len(dc),
     'MARVEL': len(marvel),
     'NON_MCU': len(non_mcu)
}
universes = pd.Series(x).reset_index(name='value').rename(columns={'index': 'Universe'})
universes['angle'] = universes['value']/universes['value'].sum() * 2*pi
universes['color'] = [MediumContrast5[4], MediumContrast5[1], MediumContrast5[2], MediumContrast5[3]]   

universes['kiad'] = [mcu["Budget"].sum(), dc["Budget"].sum(), marvel["Budget"].sum(), non_mcu["Budget"].sum()]
universes['bevetel'] = [mcu["Box office gross Worldwide"].sum(), dc["Box office gross Worldwide"].sum(), 
                        marvel["Box office gross Worldwide"].sum(), non_mcu["Box office gross Worldwide"].sum()]
universes['sikeres'] = [data['Break Even'].value_counts().get('Success', 0) for data in [mcu, dc, marvel, non_mcu]]
universes['sikertelen'] = [data['Break Even'].value_counts().get('Flop', 0) for data in [mcu, dc, marvel, non_mcu]]
universes['legjobb'] = [mcu.loc[mcu['Box office gross Worldwide'].idxmax(), 'Film'], dc.loc[dc['Box office gross Worldwide'].idxmax(), 'Film'],
                        marvel.loc[marvel['Box office gross Worldwide'].idxmax(), 'Film'], non_mcu.loc[non_mcu['Box office gross Worldwide'].idxmax(), 'Film']]

tooltips=[("Filmek száma", "@value"), 
          ("Kiadások", "@kiad{$0,0}"), 
          ("Bevételek", "@bevetel{$0,0}"),
          ("Sikeres filmek száma", "@sikeres"), 
          ("Sikertelen filmek száma", "@sikertelen"),
          ("Legtöbbet hozó film", "@legjobb")]

p2 = figure(height=350, title="Filmek Univerzumonként", toolbar_location=None,
           tools="hover", tooltips=tooltips, x_range=(-0.5, 1.0))

p2.wedge(x=0, y=1, radius=0.4,
        start_angle=cumsum('angle', include_zero=True), end_angle=cumsum('angle'),
        line_color="white", fill_color='color', legend_field='Universe', source=universes)

p2.axis.axis_label = None
p2.axis.visible = False
p2.grid.grid_line_color = None

div = Div(text="""<h1>DC vs MARVEL</h1>\n A vizualizáció megmutatja az adott univerzum sajátosságait. A kör egy-egy szelete reprezentál egy-egy univerzumot. Fontos megjegyzni, hogy mcu és non_mcu a marvel része.""", width=300, height=50)
show(row(p2, div))

# Vonalrajzolás franchise-ok bevételei alapján

Az alábbi kód vonaldiagramot készít a franchise-ok bevételeinek alakulásáról az évek során. A diagram az MCU, DC, non_mcu és MARVEL filmek bevételeit mutatja be az USA-ban és Kanadában. A vonalak színeinek `MediumContrast5` palettát használja. A jelmagyarázat segítségével az egyes vonalak elrejthetők az átláthatóság érdekében.

In [7]:
#vonalrajzolás
p3 = figure(width=1000, height=350, x_axis_type="datetime", title="Franchise-ok bevételei az évek folyán")
for data, name, color in zip([mcu, dc, non_mcu, marvel], ["mcu", "dc", "non_mcu", "marvel"], MediumContrast5):
    fr = pd.DataFrame(data)
    fr['date'] = pd.to_datetime(df['U.S. release date'])
    p3.line(fr['date'], fr['Box office gross Domestic (U.S. and Canada )'], line_width=2, color=color, alpha=0.8, legend_label=name)
p3.legend.location = "top_left"
p3.legend.click_policy="hide"
p3.yaxis[0].formatter = NumeralTickFormatter(format="$0,0")
p3.xaxis.axis_label = 'Év'
p3.yaxis.axis_label = 'Franchise bevételek(USA-ban és kanadában)'
p3.xaxis.minor_tick_line_color = 'black'

div = Div(text="""<h1>Franchise-ok bevételei az évek folyán</h1> <p> Az alábbi vonaldiagramon látható a franchise-ok bevételeinek alakulása az évek folyán. A bevételek az USA-ban és Kanadában realizált összegek. A jelmagyarázat segítségével el tudja rejteni az egyes vonalakat, így könnyebben át tekinthető az ábra, és észrevehetőek azok összefüggései. Nem elfelejtenő, hogy az mcu és non_mcu vonal mind a marvel univerzum része.""", width = 800)
show(column(div,p3))

  fr['date'] = pd.to_datetime(df['U.S. release date'])
  fr['date'] = pd.to_datetime(df['U.S. release date'])
  fr['date'] = pd.to_datetime(df['U.S. release date'])
  fr['date'] = pd.to_datetime(df['U.S. release date'])


# Plotting interaktív táblával

A kódrészlet egy interaktív táblát és egy scatter plotot hoz létre a filmek költségvetésének és bevételeinek vizualizálására. Az adatok forrása az eredeti adatkeret (`df`). A táblázat megjeleníti a filmek alapvető információit, míg a scatter plot a filmek költségvetését (kék) és világszintű bevételét (barna) mutatja.

A `HoverTool` eszközök segítségével a táblázat és a scatter plot interaktív, lehetővé téve a felhasználóknak az egyes filmek információinak megjelenítését a kijelölés és a tooltip használatával.

In [8]:
#plotting interaktív táblával

source = ColumnDataSource(df)
columns = [TableColumn(field="Film", title="Film"),
           TableColumn(field="U.S. release date", title="U.S. release date"),
           TableColumn(field="Franchise", title="Franchise"),
           TableColumn(field="Box office gross Worldwide", title="BO gross Worldwide", formatter = NumberFormatter(format="$0,0")),
           TableColumn(field="Budget", title="Budget", formatter = NumberFormatter(format="$0,0")),
           TableColumn(field="Distributor", title="Distributor"),
           TableColumn(field="MPAA Rating", title="MPAA Rating"),
           TableColumn(field="Minutes", title="Minutes"),
           TableColumn(field="Character Family", title="Character family"),
           TableColumn(field="Rotten Tomatoes Critic Score", title="Rotten Tomatoes Critic Score"),
           TableColumn(field="Break Even", title="Break Even")
           ]

data_table = DataTable(source=source, columns=columns, editable=False, width=1000,
                       index_position=-1, index_header="row index", index_width=60)

p4 = figure(width=1000, height=300, tools="pan,wheel_zoom,xbox_select,reset", active_drag="xbox_select", title="Filmek költségvetése és bevétele")

bu = p4.scatter(x="index", y="Budget", fill_color=MediumContrast5[1], size=8, alpha=0.5, source=source)
boww = p4.scatter(x="index", y="Box office gross Worldwide", fill_color=MediumContrast5[4], size=8, alpha=0.5, source=source)

tooltips = [
    ("Film", "@Film"),
    ("USA-ban megjelenési dátum", "@{U.S. release date}"),
    ("Franchise", "@Franchise"),
    ("Stúdió", "@Distributor"),
    ("Korhatár besorolás", "@{MPAA Rating}"),
    ("Perc", "@Minutes"),
    ("Karakter család", "@{Character Family}"),
    ("Rotten Tomatoes kritika", "@{Rotten Tomatoes Critic Score}"),
    ("Sikeresség", "@{Break Even}")
]

budget_ht = HoverTool(renderers=[bu], tooltips=[*tooltips, ("Budget", "@Budget{$0,0}")]) 
boww_ht = HoverTool(renderers=[boww], tooltips=[*tooltips, ("Box office gross Worldwide", "@{Box office gross Worldwide}{$0,0}")])
p4.add_tools(budget_ht, boww_ht)
p4.yaxis[0].formatter = NumeralTickFormatter(format="$0,0")
p4.xaxis.axis_label = 'Filmek'
p4.yaxis.axis_label = 'Kiadások és bevétel'
div4txt = """<h1>Vizualizáció táblával</h1>\n Válogasson az alábbi filmek közül, melyek mindegyike megtalálható az ábra alatti táblán. \nAz ábrán 113 film közül van megjelenítve mindegyikhez annak költségvetése(kék), és bevétele(sárga).
Az ábrán kijelölhetőek az egyes filmek, vagy a táblán adott sorra kattintva látható az adott Film elhelyezkedése az ábrán."""
div4 = Div(text=div4txt, width=200, height=300)
show(grid([[p4, div4], [data_table, None]]))

# Whisker ábra stúdiók szerint

A kód whisker ábrát készít a stúdiók bevételeinek vizualizálására. Az ábra megmutatja a különböző stúdiók által készített filmek inflációval korrigált világszintű bevételeit. A whisker ábra ábrázolja a stúdiók bevételeinek 20 és 80 százalék közötti Quartiliseit, míg a scatter pontok egy-egy filmet képviselnek a stúdióknál.

A `HoverTool` eszközzel interaktív információk jelennek meg a filmekkel kapcsolatban, például a film címével, franchise-zal, stúdióval és MPAA értékeléssel.

In [9]:
#whisker stúdió szerint

studios = list(sorted(df["Distributor"].astype(str).unique()))

p5 = figure(height=500, x_range=studios[:-1], title="Stúdiók filmenkénti bevételei")
p5.xgrid.grid_line_color = None

g = df.groupby("Distributor")
upper = g['Inflation Adjusted Worldwide Gross'].quantile(0.80)
lower = g['Inflation Adjusted Worldwide Gross'].quantile(0.20)

source = ColumnDataSource(data=dict(base=studios[:-1], upper=upper, lower=lower))

error = Whisker(base="base", upper="upper", lower="lower", source=source,
                level="annotation", line_width=2)
error.upper_head.size=20
error.lower_head.size=20
p5.add_layout(error)

p5.scatter(jitter("Distributor", 0.5, range=p5.x_range), "Inflation Adjusted Worldwide Gross", source=df,
          alpha=0.5, size=13, line_color="white",
          color=factor_cmap("Distributor", Category20[14], studios))
tooltips = [
    ("Film", "@Film"),
    ("Franchise", "@Franchise"),
    ("Stúdió", "@Distributor"),
    ("MPAA értékelés", "@{MPAA Rating}"),
    ("Év", "@Year")
    ]

p5.add_tools(HoverTool(tooltips=tooltips))
p5.xaxis.major_label_orientation = 1.559
p5.yaxis[0].formatter = NumeralTickFormatter(format="$0,0")
p5.xaxis.axis_label = 'Bevételek'
p5.yaxis.axis_label = 'Stúdiók'

div = Div(text="""<h1>Stúdiók bevételei</h1>\n A vizualizáció megmutatja a stúdiók bevételeit (és pár adatot adott filmről). A stúdiók bevételeinek qartilisei láthatóak boxplot formában, az adott pontok egy-egy filmet ábrázolnak, valamint a berajzolt quartilisek határai 20 és 80%.  """, width=300, height=50)
show(row(p5, div))

# Horizontális oszlopdiagram korhatár besorolás és főszereplők neme szerint

A kódban horizontális oszlopdiagramot hozunk létre, amely a filmek bevételeit ábrázolja az amerikai korhatár besorolások és a főszereplők neme alapján. Az oszlopdiagram segítségével megfigyelhetjük a bevételeket a filmek főszereplői nemének és a korhatár besorolásoknak megfelelően.

In [10]:
#oszlopdiagram horizontálisan korhatár besorolás és főszereplők neme szerint

df = df.iloc[:-1]
df['MPAA Rating'] = df['MPAA Rating'].astype(str)
df['Male/Female-led'] = df['Male/Female-led'].astype(str)

rmf_group = df.groupby(['MPAA Rating', 'Male/Female-led'])

p6 = figure(width=750, height=650, y_range=rmf_group, title="Adott korhatár és főszereplők neme szerinti filmek bevételei",
           toolbar_location=None, tools="", tooltips=[("Költségvetés", "@Budget_mean{$0,0}"),
                                                      ("Összbevétel", "@{Box office gross Worldwide_std}{$0,0}"),
                                                      ("Bevétel a költségvetéshez képest", "@{Gross to Budget_mean}{0.00}%")])

index_cmap = factor_cmap('MPAA Rating_Male/Female-led', palette=MediumContrast5, factors=sorted(df['MPAA Rating'].unique()),end=1)

p6.hbar(y='MPAA Rating_Male/Female-led', right="Box office gross Worldwide_std", height=1, source=rmf_group,
       line_color='white', fill_color=index_cmap)

p6.ygrid.grid_line_color = None
p6.x_range.start = 0
p6.xaxis[0].formatter = NumeralTickFormatter(format="$0,0")
p6.y_range.range_padding = 0.05
div = Div(text="""<h1>Bevételek korhatár besorolások és főszereplő neme alapján</h1> <p> Az oszlopdiagramon korhatár besorolások szerint láthatjuk a női, férfi és társas főszerep(férfi és női) alapján. 
          Az adott amerikai korhatár besorolások a következőképpen felelnek meg az általunk használt besorolásoknak:
          <p> PG: 7 éven aluliak számára nem ajánlott
          <p> PG-13: 12 éven aluliak számára nem ajánlott
          <p> R: 18 éven aluliak számára nem ajánlott
          <p> Az ábrán jól mefigyelhető, hogy mely korosztályoknak milyen főszereplőjű filmeket céloznak meg.""", width = 200)
show(row(p6, div))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['MPAA Rating'] = df['MPAA Rating'].astype(str)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Male/Female-led'] = df['Male/Female-led'].astype(str)
