## IMPORTAR LIBRERÍAS

In [None]:
import pandas as pd

### Cargar datos

In [None]:
raw_data = pd.read_excel('./SW vs Avengers/Recaudaciones.xlsx')
raw_data

Unnamed: 0,PELICULA,PRESUPUESTO,RECAUDACION (millones de dolares),ESTRENO
0,Star Wars : Episodio IV - Una nueva esperanza,11000000,775.398007,1977
1,Star Wars: Episodio V - EL imperio contraataca,18000000,538.375067,1980
2,Star Wars : Episodio VI - El retorno del Jedi,32500000,475.106177,1983
3,Star Wars: Episodio I - La Amenaza fantasma,115000000,1027.082707,1999
4,Star Wars: Episodio II - El ataque de los clones,115000000,653.77997,2002
5,Star Wars: Episodio III - La venganza de los Sith,113000000,868.39056,2005
6,The Avengers,220000000,15188.115515,2012
7,Star Wars : Episodio VII - El despertar de la...,245000000,2069.5217,2015
8,The Avengers: Age of Ultron,250000000,1402.80954,2015
9,Star Wars : Episodio VIII - Los últimos Jedi,317000000,1332.69883,2017


## Descripcion de la base de datos

La tabla muestra los presupuestos de las películas correspondientes a las sagas de Star Wars y de Avengers. Se tienen en cuenta las recaudaciones a nivel mundial sin añadir o contabilizar los preestrenos o estrenos "en casa". La moneda usada es el Dólar Estadounidense
fuente https://www.boxofficemojo.com/

Al mirar la tabla de datos podemos observar varias cosas: La primera es que las columnas de PRESUPUESTO Y RECAUDACIÓN están en unidades diferentes: mientras que el presupuesto se indica en unidades absolutas, la recaudación está en millones de dólares, por lo que habrá que tenerlo todo en las mismas unidades.Lo segundo es que podemos ver que los años de estreno y por tanto recaudación son distintos, así que para realizar comparaciones habrá que ponderar las cantidades segúon la inflación actual (a última fecha disponible).
Se observa además lo que podría ser una dificultad añadida, y es que  en algunos títulos hay un especio entre la palabra "Wars" y ":" y en otros no. Deberemos tenerlo en cuenta si necesitamos hacer un split para una posterior clasificación de dichas películas.

Para este análisis de datos se consideran las recaudaciones de las peliculas en su estreno mundial, así como la ponderacion por inflacion a Enero de 2022

#### Limpieza de datos

De forma preventiva, voy a eliminar espacios en blanco en los nombres de las columnas

In [None]:
raw_data.columns=[column.strip() for column in raw_data.columns]

No me convence que el año de estreno esté al final, voy a ponerlo justo después del título de la película.

In [None]:
raw_data=raw_data[['PELICULA', 'ESTRENO', 'PRESUPUESTO', 'RECAUDACION (millones de dolares)']]

#### AJUSTE DE LAS UNIDADES DE LA COLUMNA PRESUPUESTO

Para realizar este ajuste, dividiré la columna entre 1.000.000 para establecerlo como "millones de dólares"

In [None]:
raw_data.describe()

Unnamed: 0,ESTRENO,RECAUDACION (millones de dolares)
count,13.0,13.0
mean,2004.692308,2327.336288
std,15.520871,3924.590541
min,1977.0,475.106177
25%,1999.0,775.398007
50%,2012.0,1078.232589
75%,2017.0,2048.359754
max,2019.0,15188.115515


Observamos que ni la columna PELICULA ni la columna RECAUDACIÓN aparecen en el describe, me hace sospechar que RECAUDACION no es tipo numérico y es algo que habría que solucionar primero

In [None]:
raw_data.dtypes

PELICULA                              object
ESTRENO                                int64
PRESUPUESTO                           object
RECAUDACION (millones de dolares)    float64
dtype: object

Efectivamente, comprobamos que ni PELICULA ni PRESUPUESTO son columnas numéricas. El primer paso será entonces cambiar el tipo de dato de la columna PRESUPUESTO. aplicamos una función lambda para cambiar el tipo de dato y además aplicar este cambio de unidades.

In [None]:
raw_data

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,RECAUDACION (millones de dolares)
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,775.398007
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,538.375067
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,475.106177
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,1027.082707
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,653.77997
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,868.39056
6,The Avengers,2012,220000000,15188.115515
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,2069.5217
8,The Avengers: Age of Ultron,2015,250000000,1402.80954
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,1332.69883


In [None]:
raw_data.insert(3,'PRESUPUESTO (millones de dólares)', raw_data['PRESUPUESTO'].apply(lambda x: float(x.replace(',',''))/1000000))

In [None]:
raw_data

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),RECAUDACION (millones de dolares)
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,11.0,775.398007
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,18.0,538.375067
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,32.5,475.106177
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,115.0,1027.082707
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,115.0,653.77997
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,113.0,868.39056
6,The Avengers,2012,220000000,220.0,15188.115515
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,245.0,2069.5217
8,The Avengers: Age of Ultron,2015,250000000,250.0,1402.80954
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,317.0,1332.69883


### PONDERACION DE MONEDAS POR INFLACION

Para el siguiente punto deberé de realizar una investigación y averiguar cuál es el último dato de inflación disponible a fecha 15.02.2022

la última cifra de la inflación disponible para EEUU (que usa el dólar) es del 7'5% (Enero de 2022)

In [None]:
inflacion = 1+7.5/100
inflacion

1.075

In [None]:
raw_data.columns

Index(['PELICULA', 'ESTRENO', 'PRESUPUESTO',
       'PRESUPUESTO (millones de dólares)',
       'RECAUDACION (millones de dolares)'],
      dtype='object')

In [None]:
raw_data

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),RECAUDACION (millones de dolares)
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,11.0,775.398007
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,18.0,538.375067
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,32.5,475.106177
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,115.0,1027.082707
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,115.0,653.77997
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,113.0,868.39056
6,The Avengers,2012,220000000,220.0,15188.115515
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,245.0,2069.5217
8,The Avengers: Age of Ultron,2015,250000000,250.0,1402.80954
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,317.0,1332.69883


Para ponderar tanto el presupuesto como la recaudación, calculamos el 7'5% de cada cantidad y se lo restamos al total. 

In [None]:
raw_data.insert(4,'PRESUPUESTO PONDERADO POR INFLACION',raw_data['PRESUPUESTO (millones de dólares)'].apply(lambda x: x*inflacion))
raw_data

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares)
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,11.0,11.825,775.398007
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,18.0,19.35,538.375067
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,32.5,34.9375,475.106177
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,115.0,123.625,1027.082707
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,115.0,123.625,653.77997
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,113.0,121.475,868.39056
6,The Avengers,2012,220000000,220.0,236.5,15188.115515
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,245.0,263.375,2069.5217
8,The Avengers: Age of Ultron,2015,250000000,250.0,268.75,1402.80954
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,317.0,340.775,1332.69883


Hacemos la operación homónima para las recaudaciones: 

In [None]:
raw_data.insert(6,'RECAUDACION PONDERADA POR INFLACION', raw_data['RECAUDACION (millones de dolares)'].apply(lambda x: x*inflacion))
raw_data

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,11.0,11.825,775.398007,833.552858
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,18.0,19.35,538.375067,578.753197
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,32.5,34.9375,475.106177,510.73914
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,115.0,123.625,1027.082707,1104.11391
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,115.0,123.625,653.77997,702.813468
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,113.0,121.475,868.39056,933.519852
6,The Avengers,2012,220000000,220.0,236.5,15188.115515,16327.224179
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,245.0,263.375,2069.5217,2224.735827
8,The Avengers: Age of Ultron,2015,250000000,250.0,268.75,1402.80954,1508.020255
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,317.0,340.775,1332.69883,1432.651242


Nota: habiendo consultado varias fuentes de datos, he visto que los datos con respecto al presupuesto y la recaudación son los mismo, pero no he encontrado definición alguna sobre lo que se muestra con estas cantidades, lo que me hace preguntarme si la recaudación tiene en cuenta el presupuesto, es decir, está calculada como beneficio neto(recaudación menos presupuesto), o si bien es la recaudación en bruto(sin tener en cuenta el prespuesto de la película). La intuición me dice que es recaudación en bruto, lo cual lo tendré en cuenta en objetivos posteriores.

#### Categorización de los datos

Para facilitar el análisis de datos, voy a crear dos categorías dependiendo de si la película pertenece a la saga de Star Wars, o a la saga de Avengers

In [None]:
def seek_word(my_string,word):
    splited_string=my_string.split()
    result=None
    for i in splited_string:
        result=word in splited_string
    return result

In [None]:
def cat_film(string):
    word='Star'
    if seek_word(string,word):
        category = 'STAR WARS'
    else:
        category = 'AVENGERS'
    return category


In [None]:
raw_data['SAGA']=raw_data['PELICULA'].apply(lambda x: cat_film(x))
raw_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raw_data['SAGA']=raw_data['PELICULA'].apply(lambda x: cat_film(x))


Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION,SAGA
0,Star Wars : Episodio IV - Una nueva esperanza,1977,11000000,11.0,11.825,775.398007,833.552858,STAR WARS
1,Star Wars: Episodio V - EL imperio contraataca,1980,18000000,18.0,19.35,538.375067,578.753197,STAR WARS
2,Star Wars : Episodio VI - El retorno del Jedi,1983,32500000,32.5,34.9375,475.106177,510.73914,STAR WARS
3,Star Wars: Episodio I - La Amenaza fantasma,1999,115000000,115.0,123.625,1027.082707,1104.11391,STAR WARS
4,Star Wars: Episodio II - El ataque de los clones,2002,115000000,115.0,123.625,653.77997,702.813468,STAR WARS
5,Star Wars: Episodio III - La venganza de los Sith,2005,113000000,113.0,121.475,868.39056,933.519852,STAR WARS
6,The Avengers,2012,220000000,220.0,236.5,15188.115515,16327.224179,AVENGERS
7,Star Wars : Episodio VII - El despertar de la...,2015,245000000,245.0,263.375,2069.5217,2224.735827,STAR WARS
8,The Avengers: Age of Ultron,2015,250000000,250.0,268.75,1402.80954,1508.020255,AVENGERS
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,317000000,317.0,340.775,1332.69883,1432.651242,STAR WARS


In [None]:
raw_data=raw_data[['PELICULA','SAGA', 'ESTRENO', 'PRESUPUESTO',
       'PRESUPUESTO (millones de dólares)',
       'PRESUPUESTO PONDERADO POR INFLACION',
       'RECAUDACION (millones de dolares)',
       'RECAUDACION PONDERADA POR INFLACION',]]

In [None]:
raw_data

Unnamed: 0,PELICULA,SAGA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION
0,Star Wars : Episodio IV - Una nueva esperanza,STAR WARS,1977,11000000,11.0,11.825,775.398007,833.552858
1,Star Wars: Episodio V - EL imperio contraataca,STAR WARS,1980,18000000,18.0,19.35,538.375067,578.753197
2,Star Wars : Episodio VI - El retorno del Jedi,STAR WARS,1983,32500000,32.5,34.9375,475.106177,510.73914
3,Star Wars: Episodio I - La Amenaza fantasma,STAR WARS,1999,115000000,115.0,123.625,1027.082707,1104.11391
4,Star Wars: Episodio II - El ataque de los clones,STAR WARS,2002,115000000,115.0,123.625,653.77997,702.813468
5,Star Wars: Episodio III - La venganza de los Sith,STAR WARS,2005,113000000,113.0,121.475,868.39056,933.519852
6,The Avengers,AVENGERS,2012,220000000,220.0,236.5,15188.115515,16327.224179
7,Star Wars : Episodio VII - El despertar de la...,STAR WARS,2015,245000000,245.0,263.375,2069.5217,2224.735827
8,The Avengers: Age of Ultron,AVENGERS,2015,250000000,250.0,268.75,1402.80954,1508.020255
9,Star Wars : Episodio VIII - Los últimos Jedi,STAR WARS,2017,317000000,317.0,340.775,1332.69883,1432.651242


Aunque podríamos empezar ya comparando recaudaciones, me gustaría obtener una columna beneficios donde reflejaría los beneficios como la diferencia entre el presupuesto(lo que costó la película) y la recaudacion y otra columna que reflejaría el beneficio relativo en tanto por ciento ya que puede darse el caso de que una película/saga tenga una recaudación mayor, pero también es posible que haya un mayor presupuesto.

In [None]:
raw_data['BENEFICIO NETO']=raw_data['RECAUDACION PONDERADA POR INFLACION']-raw_data['PRESUPUESTO PONDERADO POR INFLACION']
raw_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raw_data['BENEFICIO NETO']=raw_data['RECAUDACION PONDERADA POR INFLACION']-raw_data['PRESUPUESTO PONDERADO POR INFLACION']


Unnamed: 0,PELICULA,SAGA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION,BENEFICIO NETO
0,Star Wars : Episodio IV - Una nueva esperanza,STAR WARS,1977,11000000,11.0,11.825,775.398007,833.552858,821.727858
1,Star Wars: Episodio V - EL imperio contraataca,STAR WARS,1980,18000000,18.0,19.35,538.375067,578.753197,559.403197
2,Star Wars : Episodio VI - El retorno del Jedi,STAR WARS,1983,32500000,32.5,34.9375,475.106177,510.73914,475.80164
3,Star Wars: Episodio I - La Amenaza fantasma,STAR WARS,1999,115000000,115.0,123.625,1027.082707,1104.11391,980.48891
4,Star Wars: Episodio II - El ataque de los clones,STAR WARS,2002,115000000,115.0,123.625,653.77997,702.813468,579.188468
5,Star Wars: Episodio III - La venganza de los Sith,STAR WARS,2005,113000000,113.0,121.475,868.39056,933.519852,812.044852
6,The Avengers,AVENGERS,2012,220000000,220.0,236.5,15188.115515,16327.224179,16090.724179
7,Star Wars : Episodio VII - El despertar de la...,STAR WARS,2015,245000000,245.0,263.375,2069.5217,2224.735827,1961.360827
8,The Avengers: Age of Ultron,AVENGERS,2015,250000000,250.0,268.75,1402.80954,1508.020255,1239.270255
9,Star Wars : Episodio VIII - Los últimos Jedi,STAR WARS,2017,317000000,317.0,340.775,1332.69883,1432.651242,1091.876242


In [None]:
raw_data['BENEFICIO RELATIVO %']=(raw_data['BENEFICIO NETO']/raw_data['RECAUDACION PONDERADA POR INFLACION'])*100
raw_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raw_data['BENEFICIO RELATIVO %']=(raw_data['BENEFICIO NETO']/raw_data['RECAUDACION PONDERADA POR INFLACION'])*100


Unnamed: 0,PELICULA,SAGA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION,BENEFICIO NETO,BENEFICIO RELATIVO %
0,Star Wars : Episodio IV - Una nueva esperanza,STAR WARS,1977,11000000,11.0,11.825,775.398007,833.552858,821.727858,98.581374
1,Star Wars: Episodio V - EL imperio contraataca,STAR WARS,1980,18000000,18.0,19.35,538.375067,578.753197,559.403197,96.656606
2,Star Wars : Episodio VI - El retorno del Jedi,STAR WARS,1983,32500000,32.5,34.9375,475.106177,510.73914,475.80164,93.159424
3,Star Wars: Episodio I - La Amenaza fantasma,STAR WARS,1999,115000000,115.0,123.625,1027.082707,1104.11391,980.48891,88.803239
4,Star Wars: Episodio II - El ataque de los clones,STAR WARS,2002,115000000,115.0,123.625,653.77997,702.813468,579.188468,82.409984
5,Star Wars: Episodio III - La venganza de los Sith,STAR WARS,2005,113000000,113.0,121.475,868.39056,933.519852,812.044852,86.987422
6,The Avengers,AVENGERS,2012,220000000,220.0,236.5,15188.115515,16327.224179,16090.724179,98.551499
7,Star Wars : Episodio VII - El despertar de la...,STAR WARS,2015,245000000,245.0,263.375,2069.5217,2224.735827,1961.360827,88.161516
8,The Avengers: Age of Ultron,AVENGERS,2015,250000000,250.0,268.75,1402.80954,1508.020255,1239.270255,82.178621
9,Star Wars : Episodio VIII - Los últimos Jedi,STAR WARS,2017,317000000,317.0,340.775,1332.69883,1432.651242,1091.876242,76.213681


Parece que habríamos terminado de limpiar la tabla; en un primer vistazo vemos que hay 2 películas de la Saga Vengadores que coinciden en el año de estreno. Será intersante poner cierto foco en este suceso, ya que considero que no es lo mismo que en el mismo año se tenga la opción de ver una u otra pelicula, que solamente de tener una opción. En el año 2019 "Endgame" y "el ascenso de Skywalker" se estrenaron con presupuesto bastante parecidos, no obstante, la diferencia de ganancias entre estos dos cierres de saga es más que edvidente con un 87% de beneficio neto para la saga de los superhéroes frente a un modesto 74% para la saga de los jedis.

# ANÁLISIS DESCRIPTIVO

## ANÁLISIS DE LOS RESUPUESTOS

In [None]:
import altair as alt

In [None]:
raw_data

Unnamed: 0,PELICULA,SAGA,ESTRENO,PRESUPUESTO,PRESUPUESTO (millones de dólares),PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION (millones de dolares),RECAUDACION PONDERADA POR INFLACION,BENEFICIO NETO,BENEFICIO RELATIVO %
0,Star Wars : Episodio IV - Una nueva esperanza,STAR WARS,1977,11000000,11.0,11.825,775.398007,833.552858,821.727858,98.581374
1,Star Wars: Episodio V - EL imperio contraataca,STAR WARS,1980,18000000,18.0,19.35,538.375067,578.753197,559.403197,96.656606
2,Star Wars : Episodio VI - El retorno del Jedi,STAR WARS,1983,32500000,32.5,34.9375,475.106177,510.73914,475.80164,93.159424
3,Star Wars: Episodio I - La Amenaza fantasma,STAR WARS,1999,115000000,115.0,123.625,1027.082707,1104.11391,980.48891,88.803239
4,Star Wars: Episodio II - El ataque de los clones,STAR WARS,2002,115000000,115.0,123.625,653.77997,702.813468,579.188468,82.409984
5,Star Wars: Episodio III - La venganza de los Sith,STAR WARS,2005,113000000,113.0,121.475,868.39056,933.519852,812.044852,86.987422
6,The Avengers,AVENGERS,2012,220000000,220.0,236.5,15188.115515,16327.224179,16090.724179,98.551499
7,Star Wars : Episodio VII - El despertar de la...,STAR WARS,2015,245000000,245.0,263.375,2069.5217,2224.735827,1961.360827,88.161516
8,The Avengers: Age of Ultron,AVENGERS,2015,250000000,250.0,268.75,1402.80954,1508.020255,1239.270255,82.178621
9,Star Wars : Episodio VIII - Los últimos Jedi,STAR WARS,2017,317000000,317.0,340.775,1332.69883,1432.651242,1091.876242,76.213681


#### Gráfico de barras

#### Comparación de presupuesto  de las películas

Estudiemos la distribución de los presupuestos de las películas. En primer lugar compararé los presupuestos de todas las películas sin diferenciar si es la saga Star Wars o Avengers. En segundo lugar, estudiaré las posibles diferencias que existan entre los grupos de películas de estas sagas.
Como es sabido, la compañía Disney adquirió ambos estudios (LucasFilm y Marvel Studios) en fechas parecidas, lo cual pudo suponer un incremento de los presupuestos.

In [None]:
mean_by_groups=raw_data.groupby('SAGA').mean()[['PRESUPUESTO PONDERADO POR INFLACION','RECAUDACION PONDERADA POR INFLACION','BENEFICIO NETO','BENEFICIO RELATIVO %']]
mean_by_groups

Unnamed: 0_level_0,PRESUPUESTO PONDERADO POR INFLACION,RECAUDACION PONDERADA POR INFLACION,BENEFICIO NETO,BENEFICIO RELATIVO %
SAGA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVENGERS,306.9125,5761.136274,5454.223774,88.144375
STAR WARS,148.290278,1053.331059,905.040781,87.274283


In [None]:
source = raw_data
alt.Chart(source).mark_bar().encode(
    y = alt.Y('PELICULA',sort='-x'),
    x = alt.X('PRESUPUESTO PONDERADO POR INFLACION'),
    #title='RELACION DE PELICULAS SEGÚN SU PRESUPUESTO',
     # The highlight will be set on the result of a conditional statement
    color= 'SAGA'
    #alt.condition(
#        alt.datum.SAGA == 'STAR WARS',  
#        alt.value('steelblue'),     
#        alt.value('red')   
    ).properties(width=600,title='Relación de películas por presupuesto')

Se observa que la película con mayor presupuesto es el cierre de saga the "Los vengadores", "The Avengers: Endgame", seguida de "Star Wars VIII: Los últimos jedi" y "The Avengers: Infinity War".  Se observan presupuestos muy parecidos para los episodios I, II y III de la saga Galáctica que fueron estrenados entre 1999 y 2005. En la cola estarían las primeras películas de Star Wars, los episodios IV, V y VI.

### Comparación de presupuestos por categorías

In [None]:
raw_data_average = raw_data[['PELICULA','SAGA','PRESUPUESTO PONDERADO POR INFLACION']].groupby('SAGA').mean()
raw_data_average.columns = ['PRESUPUESTO MEDIO']
raw_data_average

Unnamed: 0_level_0,PRESUPUESTO MEDIO
SAGA,Unnamed: 1_level_1
AVENGERS,306.9125
STAR WARS,148.290278


Como podemos observar, el presupuesto medio para las películas de la saga Avengers es bastante superior. No obstante, recordemos que Disney adquirió ambos estudios y eso pudo generar diferencias; veamos, por separado, la distribución de presupuestos en gráficos separados por sagas.

In [None]:
source_aven = raw_data[raw_data['SAGA']=='AVENGERS']
chart_aven = alt.Chart(source_aven).mark_bar().encode(
    y = alt.Y('PELICULA',sort='-x'),
    x = alt.X('PRESUPUESTO PONDERADO POR INFLACION'),
    #title='RELACION DE PELICULAS SEGÚN SU PRESUPUESTO',
     # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=300,title='Distribución del presupuesto de las películas de Avengers')


source_sw = raw_data[raw_data['SAGA']=='STAR WARS']
chart_sw = alt.Chart(source_sw).mark_bar().encode(
    y = alt.Y('PELICULA',sort='-x'),
    x = alt.X('PRESUPUESTO PONDERADO POR INFLACION'),
    #title='RELACION DE PELICULAS SEGÚN SU PRESUPUESTO',
     # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=300,title='Distribución del presupuesto de las películas de Star Wars')

chart_aven | chart_sw

Como podemos observar, todas las películas de Avengers superaron los 200 millones de dólares de presupuesto, mientras que en el caso de las películsa de Star Wars, sólo superaron este presupuesto las películas más recientes(los episodios VII, VIII y IX). Veamos los años de estreno de estas películas:

In [None]:
source_aven[['PELICULA','ESTRENO','PRESUPUESTO PONDERADO POR INFLACION']]

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO PONDERADO POR INFLACION
6,The Avengers,2012,236.5
8,The Avengers: Age of Ultron,2015,268.75
10,The Avengers: Infinity War,2018,339.7
12,The Avengers: Endgame,2019,382.7


In [None]:
source_sw[source_sw['PRESUPUESTO PONDERADO POR INFLACION']>=200][['PELICULA','ESTRENO','PRESUPUESTO PONDERADO POR INFLACION']]

Unnamed: 0,PELICULA,ESTRENO,PRESUPUESTO PONDERADO POR INFLACION
7,Star Wars : Episodio VII - El despertar de la...,2015,263.375
9,Star Wars : Episodio VIII - Los últimos Jedi,2017,340.775
11,Star Wars: Episodio IX -El ascenso de Skywalker,2019,295.625


Podemos observar que tienen años de estreno muy similares, haciendo una breve investigación observamos que Disney adquirió Marvel Studios 2009 en el año y LucasFilm en el año 2012.
- https://en.wikipedia.org/wiki/Marvel_Studios#Disney_conglomerate_subsidiary
- https://en.wikipedia.org/wiki/Star_Wars  

Se confirma entonces que tras la adquisición de los estudios, la saga Star Wars recibió una inyección de presupuesto mayor que la de las películas anteriores.

Además se observa cierto patrón en lo que a la cadencia de los estrenos se refiere: la primera película de cada una de las sagas fue estrenadas 3 años después de la adquisión del estudio de grabación correspondiente, y luego todas las películas fueron estrenadas con cierta cadencia: en el caso de los vengadores cada 3 años(excepto la última parte, divididada en 2 que se estrenó en años consecutivos).

Ahora, si estudiamos las medias de estos grupos, veremos que son un poco más similares.

In [None]:
raw_data_average_by_groups = raw_data[raw_data['PRESUPUESTO PONDERADO POR INFLACION']>=200][['PELICULA','SAGA','PRESUPUESTO PONDERADO POR INFLACION']].groupby('SAGA').mean()
raw_data_average_by_groups.columns = ['PRESUPUESTO MEDIO']
raw_data_average_by_groups

Unnamed: 0_level_0,PRESUPUESTO MEDIO
SAGA,Unnamed: 1_level_1
AVENGERS,306.9125
STAR WARS,299.925


In [None]:
raw_data_average_by_groups = raw_data[raw_data['PRESUPUESTO PONDERADO POR INFLACION']<200][['PELICULA','SAGA','PRESUPUESTO PONDERADO POR INFLACION']].groupby('SAGA').mean()
raw_data_average_by_groups.columns = ['PRESUPUESTO MEDIO']
raw_data_average_by_groups

Unnamed: 0_level_0,PRESUPUESTO MEDIO
SAGA,Unnamed: 1_level_1
STAR WARS,72.472917


Como podemos observar, la diferencia de las medias son mucho menos evidentes, es más, separando el grupo de los 200 millones de dólares, vemos que la media de la saga Star Wars es mucho menor, lo cual hace pensar en una distribución un poco más aplanada

## Análisis de los beneficios

Es el momento de analizar los beneficios que obtuvieron estas dos franquicias: la - investigación vendrá dirigida por las siguientes hipótesis:
- Hay diferencias significativas entre los beneficios absolutos de las películas las sagas
- Hay diferencias significativas entre los beneficios relativos  de las películas de las sagas.
- Hay diferencias significativas entre los beneficios absolutos medios de las sagas
- Hay diferencais significativas entre los beneficios relativos medios de las sagas.

### Análisis de los beneficios absolutos de las películas de las sagas

In [36]:
source_aven = raw_data[raw_data['SAGA']=='AVENGERS']
chart_aven = alt.Chart(source_aven).mark_bar().encode(
    y = alt.Y('PELICULA',sort='-x'),
    x = alt.X('BENEFICIO NETO'),
    #title='RELACION DE PELICULAS SEGÚN SU PRESUPUESTO',
     # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=300,title='Distribución del presupuesto de las películas de Avengers')


source_sw = raw_data[raw_data['SAGA']=='STAR WARS']
chart_sw = alt.Chart(source_sw).mark_bar().encode(
    y = alt.Y('PELICULA',sort='-x'),
    x = alt.X('BENEFICIO NETO'),
    #title='RELACION DE PELICULAS SEGÚN SU PRESUPUESTO',
     # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=300,title='Distribución del presupuesto de las películas de Star Wars')

chart_aven | chart_sw

In [40]:
source = raw_data
alt.Chart(source).mark_bar().encode(
    x=alt.X('PELICULA',sort='-y'),
    y=alt.Y('BENEFICIO NETO',),
         # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=600,title='Relación de peliculas por beneficio neto')

In [41]:
source = raw_data

alt.Chart(source).mark_bar().encode(
    alt.X('PELICULA',sort='-y'),
    y='BENEFICIO RELATIVO %',
         # The highlight will be set on the result of a conditional statement
    color='SAGA'
).properties(width=600,title='relación de películas por beneficio relativo')

La pelicula de Star Wars : "Una nueva esperanza" tuvo mucho menor presupuesto que la peícula de "The Avengers", tuvo menos beneficio neto, pero en cuanto a BENEFICIO RELATIVO, ambas tuvieron en torno al 98'5% de Beneficio

Se observar que aunque la curva de beneficio neto es muy desigual(con una clara ventaja de la primera película de los vengadores), la del  beneficio relativo no tiene estos picos.

In [None]:
El presupuesto en total para las películas de "Avengers", que son 4, supera al del total de presupuesto de Star Wars.

SyntaxError: invalid syntax (132123844.py, line 1)

In [None]:
çraw_data.groupby(['SAGA']).mean()['PRESUPUESTO PONDERADO POR INFLACION'].Series()