<a href="https://colab.research.google.com/github/joseasequeira/Andres21-ctrl/blob/main/Imdb_Project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [32]:
#En este proyecto, realicé un análisis exploratorio de un dataset de películas destacadas en IMDB utilizando SQL dentro de Python,
#implementado en Google Colab. Elegí Google Colab como entorno de desarrollo debido a su accesibilidad desde cualquier dispositivo, su capacidad
#para trabajar con bibliotecas preinstaladas y su integración con bases de datos y herramientas de análisis de datos.

In [31]:
#Vamos a comenzar nuestro proyecto importando las librerias necesarias para manipular nuestros datos
import pandas as pd
import numpy as np
import pandasql as ps
pd.options.display.max_rows = 200

In [4]:
# Importamos el módulo 'files' de Google Colab para manejar archivos.
# Subimos archivos desde la computadora al entorno de Colab y los guardamos en 'uploaded'
from google.colab import files
uploaded = files.upload()

Saving imdb_movies.csv to imdb_movies.csv


In [5]:
# Leemos el archivo 'imdb_movies.csv' que subimos previamente y lo cargamos como un DataFrame de pandas.
import io
top_movies = pd.read_csv(io.BytesIO(uploaded['imdb_movies.csv']))

In [6]:
# Mostramos las primeras 10 filas del DataFrame 'data' para visualizar un resumen de los datos cargados.
top_movies.head(5)

Unnamed: 0,names,date_x,score,genre,overview,crew,orig_title,status,orig_lang,budget_x,revenue,country
0,Creed III,03/02/2023,73,"Drama, Action","After dominating the boxing world, Adonis Cree...","Michael B. Jordan, Adonis Creed, Tessa Thompso...",Creed III,Released,English,75000000.0,271616700.0,AU
1,Avatar: The Way of Water,12/15/2022,78,"Science Fiction, Adventure, Action",Set more than a decade after the events of the...,"Sam Worthington, Jake Sully, Zoe Saldaña, Neyt...",Avatar: The Way of Water,Released,English,460000000.0,2316795000.0,AU
2,The Super Mario Bros. Movie,04/05/2023,76,"Animation, Adventure, Family, Fantasy, Comedy","While working underground to fix a water main,...","Chris Pratt, Mario (voice), Anya Taylor-Joy, P...",The Super Mario Bros. Movie,Released,English,100000000.0,724459000.0,AU
3,Mummies,01/05/2023,70,"Animation, Comedy, Family, Adventure, Fantasy","Through a series of unfortunate events, three ...","Óscar Barberán, Thut (voice), Ana Esther Albor...",Momias,Released,"Spanish, Castilian",12300000.0,34200000.0,AU
4,Supercell,03/17/2023,61,Action,Good-hearted teenager William always lived in ...,"Skeet Ulrich, Roy Cameron, Anne Heche, Dr Quin...",Supercell,Released,English,77000000.0,340942000.0,US


In [7]:
# Mostramos los nombres de todas las columnas del DataFrame 'data'
# para conocer la estructura y los datos disponibles.
top_movies.columns

Index(['names', 'date_x', 'score', 'genre', 'overview', 'crew', 'orig_title',
       'status', 'orig_lang', 'budget_x', 'revenue', 'country'],
      dtype='object')

In [10]:
#Vamos a comenzar a explorar le información contenida en nuestra base de datos

In [11]:
# Configurar pandas para que muestre todos los números sin notación científica
pd.set_option('display.float_format', '{:,.0f}'.format)

In [12]:
# ¿Cuales son las 10 peliculas con los ingresos más altos en la base de datos de IMDB?
consulta = """
SELECT DISTINCT names, revenue
FROM top_movies
ORDER BY revenue DESC
LIMIT 10;
"""
resultado = ps.sqldf(consulta, locals())
print("Las 10 peliculas que más dinero han recaudado son:")
print(resultado)

Las 10 peliculas que más dinero han recaudado son:
                                    names       revenue
0                                  Avatar 2,923,706,026
1                       Avengers: Endgame 2,794,731,755
2                Avatar: The Way of Water 2,316,794,914
3                                 Titanic 2,222,985,568
4    Louis Tomlinson: All of Those Voices 2,081,794,006
5            Star Wars: The Force Awakens 2,068,223,624
6                  Avengers: Infinity War 2,048,359,754
7                           Rathinirvedam 1,916,346,675
8                 Spider-Man: No Way Home 1,910,048,245
9  BTS: Permission to Dance on Stage - LA 1,748,017,438


In [13]:
# ¿Cúal es la pelicula con el presupuesto mas alto de nuestra base de datos?
consulta = """
SELECT names, budget_x
FROM top_movies
ORDER BY budget_x DESC
LIMIT 1;
"""
resultado = ps.sqldf(consulta, locals())
print("La pelicula con el presupuesto más alto de la historia es:")
print(resultado)

La pelicula con el presupuesto más alto de la historia es:
                      names    budget_x
0  Avatar: The Way of Water 460,000,000


In [20]:
#En qué día se estrenaron más peliculas?
consulta = """
SELECT date_x, COUNT(*) AS movie_count
FROM top_movies
GROUP BY date_x
ORDER BY COUNT(*) DESC
LIMIT 1;
"""
resultado = ps.sqldf(consulta, locals())
print("El día en que se estrenaron más peliculas fue:")
print(resultado)

El día en que se estrenaron más peliculas fue:
        date_x  movie_count
0  04/07/2023            41


In [15]:
#¿Cúales son los 5 generos con más ingresos?
consulta = """
SELECT genre, AVG(revenue) AS avg_revenue
FROM top_movies
GROUP BY genre
ORDER BY avg_revenue DESC
LIMIT 5;
"""
resultado = ps.sqldf(consulta, locals())
print("Los 5 generos con más ingresos son:")
print(resultado)

Los 5 generos con más ingresos son:
                                               genre   avg_revenue
0        Adventure, Action, Science Fiction, Fantasy 2,068,223,624
1      Family, Animation, Adventure, Comedy, Fantasy 1,437,862,795
2                           Family, Animation, Drama 1,316,963,710
3  Animation, Action, Comedy, Mystery, Crime, Fan... 1,213,425,727
4  TV Movie, Animation, Science Fiction, Action, ... 1,180,869,058


In [19]:
#-- ¿Cúales son los ingresos promedio anuales generados por peliculas en cada país?
consulta = """
SELECT country, AVG(revenue) AS Total_revenue
FROM top_movies
GROUP BY country;
"""
resultado = ps.sqldf(consulta, locals())
print("Los ingresos por país son:")
print(resultado)

Los ingresos por país son:
   country  Total_revenue
0       AR    456,560,785
1       AT     72,282,768
2       AU    192,945,447
3       BE    328,309,975
4       BO    638,332,463
5       BR    367,192,509
6       BY    175,269,999
7       CA    253,273,459
8       CH    297,093,649
9       CL    376,139,634
10      CN    296,076,152
11      CO    534,571,540
12      CZ    316,265,039
13      DE    358,353,693
14      DK    239,348,748
15      DO    400,066,522
16      ES    345,563,529
17      FI     66,214,266
18      FR    305,631,854
19      GB    295,877,850
20      GR    154,849,503
21      GT    655,664,752
22      HK    330,804,782
23      HU    370,750,873
24      ID    313,651,704
25      IE    270,712,673
26      IL    254,504,167
27      IN    285,128,163
28      IR    193,600,405
29      IS    443,980,387
30      IT    357,659,815
31      JP    408,106,272
32      KH    175,269,999
33      KR    350,030,132
34      LV    542,233,172
35      MU    728,608,266
36      MX 

In [23]:
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.width', 1000)  # Ajustar el ancho de la tabla

In [24]:
#-- ¿Cúales son las peliculas más caras por idioma?
consulta = """
SELECT orig_lang, names, MAX(budget_x) AS highest_budget
FROM top_movies
GROUP BY orig_lang
ORDER BY highest_budget DESC;
"""
resultado = ps.sqldf(consulta, locals())
print("Las peliculas más caras de producir por cada idioma son:")
print(resultado)

Las peliculas más caras de producir por cada idioma son:
                               orig_lang                                      names  highest_budget
0                                English                   Avatar: The Way of Water     460,000,000
1                                   Thai                              Tiger Running     264,940,000
2                                  Tamil                            August 16, 1947     264,940,000
3                                Tagalog                       Here Comes the Groom     264,940,000
4                     Spanish, Castilian                GyG 2: El Hotel de los Líos     264,940,000
5                                Russian                            Я хочу! Я буду!     264,940,000
6                             Portuguese                            Hora de Brilhar     264,940,000
7                              Malayalam                        Charles Enterprises     264,940,000
8                               Japanese   

In [27]:
#Países con más películas producidas
consulta = """
SELECT country, COUNT(*) AS movie_count
FROM top_movies
GROUP BY country
ORDER BY movie_count DESC;
"""
resultado = ps.sqldf(consulta, locals())
print("Países con más películas producidas")
print(resultado)

Países con más películas producidas
   country  movie_count
0       AU         4885
1       US         2750
2       JP          538
3       KR          361
4       FR          222
5       GB          174
6       ES          153
7       HK          125
8       IT          123
9       MX          105
10      CN           93
11      DE           88
12      CA           67
13      RU           52
14      PH           43
15      IN           43
16      AR           41
17      BR           38
18      TH           30
19      DK           24
20      PL           22
21      TR           20
22      NO           16
23      NL           16
24      CO           14
25      TW           13
26      ID           12
27      IE           11
28      SE            9
29      CL            9
30      PE            7
31      BE            7
32      GR            6
33      FI            6
34      SU            5
35      CH            5
36      UA            4
37      SG            4
38      ZA            3
39  

In [30]:
# Películas con mayor diferencia entre ingresos y presupuesto
consulta = """
SELECT DISTINCt names, genre, revenue, budget_x, (revenue - budget_x) AS profit
FROM top_movies
WHERE revenue > budget_x -- Aseguramos que solo sean ganancias
ORDER BY profit DESC
LIMIT 10;
"""
resultado = ps.sqldf(consulta, locals())
print("#Películas con mayor diferencia entre ingresos y presupuesto")
print(resultado.to_string(index=False))

#Películas con mayor diferencia entre ingresos y presupuesto
                               names                                       genre       revenue    budget_x        profit
                              Avatar Action, Adventure, Fantasy, Science Fiction 2,923,706,026 237,000,000 2,686,706,026
                   Avengers: Endgame          Adventure, Science Fiction, Action 2,794,731,755 400,000,000 2,394,731,755
                             Titanic                              Drama, Romance 2,222,985,568 200,000,000 2,022,985,568
Louis Tomlinson: All of Those Voices                          Documentary, Music 2,081,794,006 178,800,000 1,902,994,006
            Avatar: The Way of Water          Science Fiction, Adventure, Action 2,316,794,914 460,000,000 1,856,794,914
        Star Wars: The Force Awakens Adventure, Action, Science Fiction, Fantasy 2,068,223,624 245,000,000 1,823,223,624
              Avengers: Infinity War          Adventure, Action, Science Fiction 2,048,359,7

In [34]:
#Película más antigua
consulta = """
SELECT names, MIN(date_x) AS earliest_date
FROM top_movies;
"""
resultado = ps.sqldf(consulta, locals())
print("#La Película más antigua es:")
print(resultado.to_string(index=False))

#La Película más antigua es:
               names earliest_date
Beauty and the Beast   01/01/1952 
