**VISUALIZACIONES**

En esta parte, procedemos a analizar algunos temas a través de librerías para la visualización de datos. 
Los análisis los hemos hecho con Plotly Express dado que es más interactivo.

Para ello, hemos sacado información e ideas de la coumentación de Plotly: [Documentación Plotly](https://plotly.com/python/)

In [37]:
#Importamos las librerías correspondientes

import numpy as np
import pandas as pd
import plotly.express as px
from datetime import datetime 


In [38]:
#Importamos el csv extraído de Airtable


df=pd.read_csv('The_final_df.csv')

df.head(2)

Unnamed: 0.1,Unnamed: 0,Título,Título_original,Reparto,Saga,Duración(min),Lanzamiento,Estado,Generos,Pais_origen,Idiomas,Nota,Votos,Ingresos,Presupuesto,Beneficios,id
0,0,Godzilla y Kong: El nuevo imperio,Godzilla x Kong: The New Empire,"Rebecca Hall, Brian Tyree Henry, Dan Stevens, ...",True,115,2024-03-27,Ya en cines,"Acción, Ciencia ficción, Aventura",US,English,6.466,957,546503756,150000000,396503756,823464
1,1,Ape vs. Mecha Ape,Ape vs. Mecha Ape,"Tom Arnold, Eugenia Kuzmina, Corbin Timbrook, ...",True,80,2023-03-24,Ya en cines,"Acción, Ciencia ficción",US,English,5.214,117,0,0,0,1094844


In [39]:
#Eliminamos la columna 'Unnamed: 0' que se genera al importar el csv

df=df.drop('Unnamed: 0', axis=1)

df.head(2)

Unnamed: 0,Título,Título_original,Reparto,Saga,Duración(min),Lanzamiento,Estado,Generos,Pais_origen,Idiomas,Nota,Votos,Ingresos,Presupuesto,Beneficios,id
0,Godzilla y Kong: El nuevo imperio,Godzilla x Kong: The New Empire,"Rebecca Hall, Brian Tyree Henry, Dan Stevens, ...",True,115,2024-03-27,Ya en cines,"Acción, Ciencia ficción, Aventura",US,English,6.466,957,546503756,150000000,396503756,823464
1,Ape vs. Mecha Ape,Ape vs. Mecha Ape,"Tom Arnold, Eugenia Kuzmina, Corbin Timbrook, ...",True,80,2023-03-24,Ya en cines,"Acción, Ciencia ficción",US,English,5.214,117,0,0,0,1094844


In [40]:
df.columns

Index(['Título', 'Título_original', 'Reparto', 'Saga', 'Duración(min)',
       'Lanzamiento', 'Estado', 'Generos', 'Pais_origen', 'Idiomas', 'Nota',
       'Votos', 'Ingresos', 'Presupuesto', 'Beneficios', 'id'],
      dtype='object')

In [41]:
df3=df


####################################################################

df3['Pais_origen'] = df3['Pais_origen'].fillna('') 
df3['Pais_origen'] = df3['Pais_origen'].apply(lambda x : x.split(',') if isinstance(x, str) else [])


###################################################################


df3['Pais'] = df3['Pais_origen'].apply(lambda x: x[0])
df3.head(2)

Unnamed: 0,Título,Título_original,Reparto,Saga,Duración(min),Lanzamiento,Estado,Generos,Pais_origen,Idiomas,Nota,Votos,Ingresos,Presupuesto,Beneficios,id,Pais
0,Godzilla y Kong: El nuevo imperio,Godzilla x Kong: The New Empire,"Rebecca Hall, Brian Tyree Henry, Dan Stevens, ...",True,115,2024-03-27,Ya en cines,"Acción, Ciencia ficción, Aventura",[US],English,6.466,957,546503756,150000000,396503756,823464,US
1,Ape vs. Mecha Ape,Ape vs. Mecha Ape,"Tom Arnold, Eugenia Kuzmina, Corbin Timbrook, ...",True,80,2023-03-24,Ya en cines,"Acción, Ciencia ficción",[US],English,5.214,117,0,0,0,1094844,US


**Gráfico 1, estudio de relación entre ingreso-presupuestos con pais**

El primer gráfico _fig1_ muestra la relación entre ingresos y presupuesto de cada país productor de películas.

- Podemos ver que el país predominante es US, con mayor número de películas y los ingresos/presupuesto más altos. 
- Hemos aplicado un filtro para poder seleccionar países individualmente para analizar en detalle cada uno de ellos o hacer comparativas entre unos pocos al mismo tiempo.


In [42]:
#Gráfico 1, estudio de relación entre ingreso-presupuestos con pais

fig1 = px.strip(data_frame = df3,
            x          = 'Presupuesto',
            y          = 'Ingresos',
            color      = 'Pais',
            hover_data = ('Presupuesto','Título','Saga','Beneficios','Ingresos'),
            title='Relación ingreso-presupuesto por país')
         
# Aplicamos un filtro para poder visualizar los datos de los países uno por uno o hacer comparativas entre países de un modo más visual:

pais = 'US'
for trace in fig1.data:
    if trace.name != pais:
        trace.visible = 'legendonly'

fig1.update_layout(legend=dict(itemsizing='constant'))

fig1.show()


In [43]:
#Para poder trabajar con la columna lanzamiento, la pasamos a formato datetime

df3['Lanzamiento'] = df3['Lanzamiento'].astype(str)

df3['Lanzamiento'] = pd.to_datetime(df3['Lanzamiento'], errors='coerce')

df3["Año"] = df3["Lanzamiento"].dt.strftime("%Y")

df3.head(2)


Unnamed: 0,Título,Título_original,Reparto,Saga,Duración(min),Lanzamiento,Estado,Generos,Pais_origen,Idiomas,Nota,Votos,Ingresos,Presupuesto,Beneficios,id,Pais,Año
0,Godzilla y Kong: El nuevo imperio,Godzilla x Kong: The New Empire,"Rebecca Hall, Brian Tyree Henry, Dan Stevens, ...",True,115,2024-03-27,Ya en cines,"Acción, Ciencia ficción, Aventura",[US],English,6.466,957,546503756,150000000,396503756,823464,US,2024
1,Ape vs. Mecha Ape,Ape vs. Mecha Ape,"Tom Arnold, Eugenia Kuzmina, Corbin Timbrook, ...",True,80,2023-03-24,Ya en cines,"Acción, Ciencia ficción",[US],English,5.214,117,0,0,0,1094844,US,2023


In [44]:
#Creamos un df con la media de la nota y el número de votos alo largo del tiempo

df_medias = df3.groupby(df3['Año']).agg({'Año' : 'unique', 'Nota' : 'mean', 'Votos' : 'mean'})

df_medias['Año'] = df_medias['Año'].apply(lambda x: ''.join(map(str, x)))

In [45]:
#A continuación vemos el df resultante: 

df_medias

Unnamed: 0_level_0,Año,Nota,Votos
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1921,1921,8.200000,1991.000000
1922,1922,7.651500,1120.500000
1925,1925,7.538500,923.500000
1926,1926,7.961000,1168.000000
1927,1927,7.669000,1428.000000
...,...,...,...
2023,2023,6.471257,464.770138
2024,2024,4.790281,125.383929
2025,2025,0.000000,0.000000
2026,2026,0.000000,0.000000


**Gráfico 2, estudio que presenta la relación entre numero de votos y nota a lo largo del tiempo**

- En la _fig2_ observamos que, en líneas generales, las películas más antiguas, tienen menor número de votos y una nota media más alta en comparación con las películas actuales. 
- La escala de colores indica el número de votos de cada película. 

In [46]:
#Gráfico que estudia la nota media de las películas y los votos a lo largo del tiempo

fig2 = px.bar(data_frame=df_medias, x='Año', y='Nota', hover_data=['Año'], color='Votos', title='Histórico de número de votos y nota media')

fig2.show()

Procedemos a manipular la columna 'Generos' para poder extraer cada género por separado. Los añadioms en otra columna. 

In [47]:
#Divididmos los valores de la columna 'Generos' por comas para convertirlos en listas de géneros.

for index, generos in df3['Generos'].items():
    if isinstance(generos,str):
        lista_generos = generos.split(',')
        df3.at[index,'Generos']=lista_generos

print(df3['Generos'])

0                   [Acción,  Ciencia ficción,  Aventura]
1                              [Acción,  Ciencia ficción]
2                     [Ciencia ficción,  Terror,  Acción]
3                            [Acción,  Terror,  Suspense]
4       [Animación,  Acción,  Familia,  Comedia,  Fant...
                              ...                        
7130                          [Crimen,  Drama,  Suspense]
7131    [Suspense,  Aventura,  Fantasía,  Ciencia ficc...
7132                        [Comedia,  Suspense,  Crimen]
7133                       [Suspense,  Misterio,  Crimen]
7134                                  [Comedia,  Familia]
Name: Generos, Length: 7135, dtype: object


In [48]:
#Se añade una nueva columna al df llamada 'Genero'

df3['Genero'] = df3['Generos'].apply(lambda x: x[0] if isinstance(x, list) and len(x) > 0 else None)

df3.head(1)

Unnamed: 0,Título,Título_original,Reparto,Saga,Duración(min),Lanzamiento,Estado,Generos,Pais_origen,Idiomas,Nota,Votos,Ingresos,Presupuesto,Beneficios,id,Pais,Año,Genero
0,Godzilla y Kong: El nuevo imperio,Godzilla x Kong: The New Empire,"Rebecca Hall, Brian Tyree Henry, Dan Stevens, ...",True,115,2024-03-27,Ya en cines,"[Acción, Ciencia ficción, Aventura]",[US],English,6.466,957,546503756,150000000,396503756,823464,US,2024,Acción


In [49]:
#Creamos un df con las medias de duración de las películas agrupándolas por género

df_genero = df3.groupby('Genero', as_index=False).agg({'Duración(min)' : 'mean'})

df_genero

Unnamed: 0,Genero,Duración(min)
0,Acción,107.308237
1,Animación,79.123932
2,Aventura,111.329815
3,Bélica,120.765625
4,Ciencia ficción,103.071429
5,Comedia,100.713358
6,Crimen,112.12987
7,Documental,88.973684
8,Drama,113.294118
9,Familia,91.307292


In [50]:
#Ordenamos la lista de mayor a menor duración

df_genero= df_genero.sort_values(by='Duración(min)', ascending=False)

Gráfico 3: Duración media de las películas según el género

In [51]:
#En este gráfico analizamos la duración media por cada género cinematográfico.
#Podemos ver que las películas que más duran son las de la categoría 'Historia' con una duración media de 124 minutos mientras que las más cortas son las de 'Animación' con una media de 79 minutos.

fig3= px.bar(data_frame=df_genero, x='Genero', y= 'Duración(min)', color='Genero', title='Duración media por géneros')
fig3.show()

**Gráfico 4: Histograma que estudia el total de beneficios de las películas**

Calculamos en él la media, la mediana y los cuartiles

In [52]:
#Histograma con los beneficios

#Calculamos la media, mediana y cuartiles para añadir al gráfico

media = round(df["Presupuesto"].mean(),2)

mediana = df["Presupuesto"].median()

q1 = df["Presupuesto"].quantile(0.25)
q3 = df["Presupuesto"].quantile(0.75)

print("Media:", media)
print("Mediana:", mediana)
print("Cuartil 1 (Q1):", q1)
print("Cuartil 3 (Q3):", q3)

fig4 = px.histogram(df, x="Beneficios", title='Análisis estadístico del presupuesto')

fig4.add_vline(x=media, line_dash="dash", line_color="green", annotation_text=f'Media: {media:.2f}', annotation_position="top right")
fig4.add_vline(x=mediana, line_dash="dash", line_color="magenta", annotation_text=f'Mediana: {mediana:.2f}', annotation_position="top left")
fig4.add_vline(x=q1, line_dash="dash", line_color="blue", annotation_text=f'Cuartil 1: {q1:.2f}', annotation_position="bottom right")
fig4.add_vline(x=q3, line_dash="dash", line_color="orange", annotation_text=f'Cuartil 3: {q3:.2f}', annotation_position="bottom left")

fig4.show()

Media: 22483893.82
Mediana: 5000000.0
Cuartil 1 (Q1): 0.0
Cuartil 3 (Q3): 26000000.0


Procedemos a manipular los datos de reparto para su posterior estudio:

In [53]:
#Dividimos los valores de la columna 'Reparto' por comas para convertirlos en listas de actores

for index, actores in df3['Reparto'].items():
    if isinstance(actores,str):
        lista_actores = actores.split(',')
        df3.at[index,'Reparto']=lista_actores

print(df3['Reparto'])

0       [Rebecca Hall,  Brian Tyree Henry,  Dan Steven...
1       [Tom Arnold,  Eugenia Kuzmina,  Corbin Timbroo...
2       [Ryunosuke Kamiki,  Minami Hamabe,  Yuki Yamad...
3       [Colm Meaney,  Phyllis Logan,  Sophie McIntosh...
4       [Jack Black,  Awkwafina,  Viola Davis,  Dustin...
                              ...                        
7130    [Chloë Sevigny,  Kim Dickens,  Kristen Stewart...
7131    [Rod Taylor,  Alan Young,  Yvette Mimieux,  Se...
7132    [Guillermo Francella,  Diego Peretti,  Luis Lu...
7133    [John Travolta,  Nancy Allen,  John Lithgow,  ...
7134    [Zachary Gordon,  Robert Capron,  Devon Bostic...
Name: Reparto, Length: 7135, dtype: object


In [54]:
#Hacemos un recuendo de la aparicion de los actores para estudiar los más populares

lista_actores = [actor for lista in df3['Reparto'] for actor in lista]
conteo_actores = pd.Series(lista_actores).value_counts()
print(conteo_actores)

 Morgan Freeman       52
 Samuel L. Jackson    52
 John Leguizamo       49
 Willem Dafoe         48
Nicolas Cage          47
                      ..
 You Tianyi            1
 Rita Taggart          1
 Aron Eisenberg        1
 Thom Bray             1
 David Oliver          1
Name: count, Length: 35573, dtype: int64


In [55]:
#Pasamos la información a un df para poder estudiarlo en un gráfico

df_actores = pd.DataFrame(conteo_actores.reset_index())

df_actores

Unnamed: 0,index,count
0,Morgan Freeman,52
1,Samuel L. Jackson,52
2,John Leguizamo,49
3,Willem Dafoe,48
4,Nicolas Cage,47
...,...,...
35568,You Tianyi,1
35569,Rita Taggart,1
35570,Aron Eisenberg,1
35571,Thom Bray,1


**Gráfico 5: análisis de la popularidad de los actores**

Para ello nos basamos en el número de apariciones en las películas. 

In [73]:
#Generamos una gráfica de barras con el top 50 de actores para analizar su popularidad
#Concluímos que el actor que más veces ha participado en las películas que estamos estudiando es Morgan Freeman con un total de 52 apariciones

fig5 = px.bar(data_frame=df_actores.head(20), x='count', y='index', color='count',  labels={'count': 'Recuento de apariciones', 'index': 'Actores'},
              title='Top 20 actores más populares')
fig5.update_layout(height=600)

fig5.show()

SUCIO

In [57]:
# px.scatter(data_frame  = df3,
#            x           = "Año",
#            y           = "Presupuesto",
#            color       = "Fuel Type",
#            hover_name  = "Model",
#            opacity     = 0.1,
#            size        = "Engine Size",
#            size_max    = 30,)

In [58]:

df_exploded = df3.explode('Generos')
conteo_generos = df_exploded['Generos'].value_counts()
print(conteo_generos)

Generos
 Suspense           1625
 Drama              1547
Drama               1462
Acción              1129
 Comedia            1120
Comedia             1078
 Aventura            912
 Romance             863
 Acción              816
 Crimen              781
 Fantasía            713
Terror               655
 Ciencia ficción     648
 Familia             648
 Misterio            545
Animación            468
 Terror              425
Suspense             389
Aventura             379
Crimen               308
 Historia            288
Ciencia ficción      266
 Animación           255
Romance              216
Familia              192
 Bélica              174
Fantasía             156
 Música              138
 Película de TV      114
Misterio              98
Western               77
Documental            76
Bélica                64
 Western              61
Música                58
Historia              45
Película de TV        13
 Documental           10
Name: count, dtype: int64


In [59]:
lista_actores = [actor for lista in df3['Reparto'] for actor in lista]
conteo_actores = pd.Series(lista_actores).value_counts()
print(conteo_actores)

 Morgan Freeman       52
 Samuel L. Jackson    52
 John Leguizamo       49
 Willem Dafoe         48
Nicolas Cage          47
                      ..
 You Tianyi            1
 Rita Taggart          1
 Aron Eisenberg        1
 Thom Bray             1
 David Oliver          1
Name: count, Length: 35573, dtype: int64


In [60]:
df_actores = pd.DataFrame(conteo_actores.reset_index())

df_actores

Unnamed: 0,index,count
0,Morgan Freeman,52
1,Samuel L. Jackson,52
2,John Leguizamo,49
3,Willem Dafoe,48
4,Nicolas Cage,47
...,...,...
35568,You Tianyi,1
35569,Rita Taggart,1
35570,Aron Eisenberg,1
35571,Thom Bray,1


In [61]:
df3['Reparto']

0       [Rebecca Hall,  Brian Tyree Henry,  Dan Steven...
1       [Tom Arnold,  Eugenia Kuzmina,  Corbin Timbroo...
2       [Ryunosuke Kamiki,  Minami Hamabe,  Yuki Yamad...
3       [Colm Meaney,  Phyllis Logan,  Sophie McIntosh...
4       [Jack Black,  Awkwafina,  Viola Davis,  Dustin...
                              ...                        
7130    [Chloë Sevigny,  Kim Dickens,  Kristen Stewart...
7131    [Rod Taylor,  Alan Young,  Yvette Mimieux,  Se...
7132    [Guillermo Francella,  Diego Peretti,  Luis Lu...
7133    [John Travolta,  Nancy Allen,  John Lithgow,  ...
7134    [Zachary Gordon,  Robert Capron,  Devon Bostic...
Name: Reparto, Length: 7135, dtype: object

In [62]:
df_exploded = df3.explode('Reparto')
conteo_actores = df_exploded['Reparto'].value_counts()
print(conteo_actores)

Reparto
 Morgan Freeman       52
 Samuel L. Jackson    52
 John Leguizamo       49
 Willem Dafoe         48
Nicolas Cage          47
                      ..
 You Tianyi            1
 Rita Taggart          1
 Aron Eisenberg        1
 Thom Bray             1
 David Oliver          1
Name: count, Length: 35573, dtype: int64


In [None]:
px.scatter(data_frame  = df3,
           x           = "",
           y           = "",
           color       = "",
           hover_name  = "",
           opacity     = 0.1,
           size        = "Engine Size",
           size_max    = 30,
          )

Unnamed: 0,Año,Duración(min)
0,1921,68.000000
1,1922,98.000000
2,1925,101.000000
3,1926,74.000000
4,1927,148.500000
...,...,...
99,2023,102.390963
100,2024,83.218750
101,2025,0.000000
102,2026,0.000000


In [72]:
fig7 = px.line(data_frame=df_hist_min, x='Año', y='Duración(min)')

fig7.show()