## ANALISIS DE DATOS DE FILMAFFINITY

In [None]:
import pandas as pd
import sqlite3

# ruta del csv
ruta_csv = "../data/raw/filmaffinity_dataset.csv"

# Cargar el csv en un dataframe
df = pd.read_csv(ruta_csv)

# Conexi√≥n SQLite
conexion = sqlite3.connect("../data/raw/filmaffinity.db")

# Guardar el DataFrame como tabla en SQLite
df.to_sql("filmaffinity_tb", conexion, if_exists="replace", index=False)

print("Base de datos SQLite creada y datos importados")

cursor = conexion.cursor()

Base de datos SQLite creada y datos importados


In [3]:
consulta = """
           SELECT *
           FROM filmaffinity_tb
           LIMIT 10;
           """
resultado = pd.read_sql_query(consulta, conexion)
resultado

Unnamed: 0.1,Unnamed: 0,T√≠tulo,A√±o,Pa√≠s,Direcci√≥n,Reparto,Nota,Tipo filme,G√©nero
0,0,'49-'17,1917,Estados Unidos,Ruth Ann Baldwin,"Joseph W. Girard, Leo Pierson, William Dyer, M...",--,Pel√≠cula,Western
1,1,"10,000 Years B.C. (C)",1916,Estados Unidos,Willis H. O'Brien,,51,Cortometraje,Comedia
2,2,1812,1912,Rusia,"Vasili Goncharov, Kai Hansen, Aleksandr Uralsky","Pavel Knorr, Vasili Goncharov, Aleksandra Gonc...",--,Pel√≠cula,Drama
3,3,20.000 leguas de viaje submarino (C),1907,Francia,Georges M√©li√®s,Georges M√©li√®s,60,Cortometraje,Fant√°stico
4,4,A Bad Case (C),1909,Francia,√âmile Cohl,,53,Cortometraje,Comedia
5,5,A Bath Tub Elopement (C),1916,Estados Unidos,Marcel Perez,Marcel Perez,--,Cortometraje,Comedia
6,6,A Beast at Bay (C),1912,Estados Unidos,D.W. Griffith,"Mary Pickford, Edwin August, Alfred Paget, Mae...",54,Cortometraje,Drama
7,7,A Busy Night (C),1916,Estados Unidos,Marcel Perez,"Marcel Perez, Nilde Baracchi, Tom Murray",--,Cortometraje,Comedia
8,8,A Calamitous Elopement (C),1908,Estados Unidos,D.W. Griffith,"Harry Solter, Linda Arvidson, Charles Inslee, ...",46,Cortometraje,Comedia
9,9,A Child of the Ghetto (C),1910,Estados Unidos,D.W. Griffith,"Dorothy West, Kate Bruce, Dell Henderson, Char...",--,Cortometraje,Drama


# 1. Limpieza de data
En esta face haremos lo siguiente:

 1. Hacer un copia de la base de datos original para luego poder trabajar en esta copia y no afectar a la original.
 2. Luego pasamos a hacer la limpieza que consiste en:
      
      ‚úÖ Datos faltantes (Nulos).

      ‚úÖ Registros duplicados.

      ‚úÖ Formatos inconsistentes (fechas, nombres, n√∫meros).
      
      ‚úÖ Valores at√≠picos (outliers).

### Hacer una copia de la db original para trabajar con esta copia

In [None]:
# Nombre de la nueva base de datos
copia_db = "../data/processed/copia.db"

# Ejecutar SQL para hacer la copia
consulta = f"""
ATTACH DATABASE '{copia_db}' AS copia;
SELECT sql FROM sqlite_master WHERE type='table';
"""
cursor.executescript(consulta)

# Copiar cada tabla a la base de datos de respaldo
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tablas = cursor.fetchall()

for tabla in tablas:
    nombre_tabla = tabla[0]
    consulta_copia = f"CREATE TABLE copia.{nombre_tabla} AS SELECT * FROM {nombre_tabla};"
    cursor.execute(consulta_copia)

print("Copia de seguridad creada con SQL.")

Copia de seguridad creada con SQL.


In [5]:
consulta = "SELECT * FROM copia.filmaffinity_tb LIMIT 5;"
df_copia = pd.read_sql_query(consulta, conexion)
df_copia

Unnamed: 0.1,Unnamed: 0,T√≠tulo,A√±o,Pa√≠s,Direcci√≥n,Reparto,Nota,Tipo filme,G√©nero
0,0,'49-'17,1917,Estados Unidos,Ruth Ann Baldwin,"Joseph W. Girard, Leo Pierson, William Dyer, M...",--,Pel√≠cula,Western
1,1,"10,000 Years B.C. (C)",1916,Estados Unidos,Willis H. O'Brien,,51,Cortometraje,Comedia
2,2,1812,1912,Rusia,"Vasili Goncharov, Kai Hansen, Aleksandr Uralsky","Pavel Knorr, Vasili Goncharov, Aleksandra Gonc...",--,Pel√≠cula,Drama
3,3,20.000 leguas de viaje submarino (C),1907,Francia,Georges M√©li√®s,Georges M√©li√®s,60,Cortometraje,Fant√°stico
4,4,A Bad Case (C),1909,Francia,√âmile Cohl,,53,Cortometraje,Comedia


In [None]:
eliminar_tabla = "DROP TABLE filmaffinity_copia;"
eliminar_tabla = pd.read_sql_query(eliminar_tabla, conexion)
eliminar_tabla

In [7]:
consulta_renombrar = "ALTER TABLE copia.filmaffinity_tb RENAME TO filmaffinity_copia;"
conexion.execute(consulta_renombrar)
conexion.commit()  # Guardar los cambios
print("Tabla renombrada correctamente.")

Tabla renombrada correctamente.


### ‚úÖ Revisar datos faltantes (Nulos)

In [8]:
revisar_nulos = """
                SELECT COUNT(*) AS nulos -- Para que no ingore los NULL
                FROM copia.filmaffinity_copia
                WHERE Nota LIKE "%--%" OR Nota IS NULL OR TRIM(Nota) = '';
                """
resultado = pd.read_sql_query(revisar_nulos, conexion)
resultado

# Reemplazar las inconsistencias de notas por 0
#reemplazar = """
#            SELECT REPLACE(Nota, "--", "Sin_Calificar") AS Nota_Actualizada FROM copia.filmaffinity_copia;
#            """
#resultado_2 = pd.read_sql_query(reemplazar, conexion)
#resultado_2

Unnamed: 0,nulos
0,50709


In [9]:
info_tabla = "PRAGMA table_info(filmaffinity_copia);"
info_tabla = pd.read_sql_query(info_tabla, conexion)
info_tabla

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,Unnamed: 0,INT,0,,0
1,1,T√≠tulo,TEXT,0,,0
2,2,A√±o,INT,0,,0
3,3,Pa√≠s,TEXT,0,,0
4,4,Direcci√≥n,TEXT,0,,0
5,5,Reparto,TEXT,0,,0
6,6,Nota,TEXT,0,,0
7,7,Tipo filme,TEXT,0,,0
8,8,G√©nero,TEXT,0,,0


In [10]:
revisar_nulos = """
                SELECT COUNT(*) AS nulos -- Para que no ingore los NULL
                FROM copia.filmaffinity_copia
                WHERE Nota LIKE "%--%" OR Nota IS NULL OR TRIM(Nota) = '';
                """
resultado = pd.read_sql_query(revisar_nulos, conexion)
resultado

Unnamed: 0,nulos
0,50709


In [11]:
actualizar = """
            UPDATE copia.filmaffinity_copia
            SET Nota = "Sin Calificar"
            WHERE Nota = "--"
            """
conexion.execute(actualizar)
conexion.commit()
print("Notas actualizadas correctamente")

Notas actualizadas correctamente


In [12]:
actualizar_n = """
               UPDATE copia.filmaffinity_copia
               SET Nota = REPLACE(Nota, ",", ".")
               WHERE Nota LIKE "%,%";
               """
conexion.execute(actualizar_n)
conexion.commit()
print("Valores Actualizados correctamente")

Valores Actualizados correctamente


In [15]:
# Valores Nulos en la columna Reparto
reparto_nulos = """
                SELECT COUNT(*) as total_nulos
                FROM copia.filmaffinity_copia
                WHERE Reparto IS NULL;
               """
reparto_nulos = pd.read_sql_query(reparto_nulos, conexion)
reparto_nulos # Y lo dejamos como NULL porque no afecta al an√°lisis

Unnamed: 0,total_nulos
0,24478


In [16]:
total_nulos = """
              SELECT COUNT(*) AS total_nulos
              FROM copia.filmaffinity_copia
              WHERE T√≠tulo IS NULL
                OR A√±o IS NULL
                OR Pa√≠s IS NULL
                OR Direcci√≥n IS NULL
                OR Reparto IS NULL
                OR Nota IS NULL
                OR `Tipo filme` IS NULL
                OR G√©nero IS NULL
              """
total_nulos = pd.read_sql_query(total_nulos, conexion)
total_nulos

Unnamed: 0,total_nulos
0,24963


### ‚úÖ Registros duplicados.

In [17]:
revisar_registros = """
                    SELECT COUNT(DISTINCT T√≠tulo) AS distintos_registros
                    FROM copia.filmaffinity_copia;
                     """
revisar_registros= pd.read_sql_query(revisar_registros, conexion)
revisar_registros

Unnamed: 0,distintos_registros
0,111096


In [18]:
total_registros = """
                  SELECT COUNT(T√≠tulo) AS registros_totales
                  FROM copia.filmaffinity_copia;
                  """
total_registros = pd.read_sql_query(total_registros, conexion)
total_registros

Unnamed: 0,registros_totales
0,119003


In [19]:
registros_totales = 119003
registros_unicos = 111096
total_duplicados = registros_totales - registros_unicos
total_duplicados

7907

In [20]:
identifar_duplicados = """
                    SELECT *,
                    ROW_NUMBER() OVER(PARTITION BY T√≠tulo ORDER BY T√≠tulo) AS num_fila
                    FROM copia.filmaffinity_copia;
                    """
identifar_duplicados = pd.read_sql_query(identifar_duplicados, conexion)
identifar_duplicados                    

Unnamed: 0.1,Unnamed: 0,T√≠tulo,A√±o,Pa√≠s,Direcci√≥n,Reparto,Nota,Tipo filme,G√©nero,num_fila
0,44167,Beasts of Prey,1985,Corea del Sur,Kim Ki-young,Kim Seong-gyeom,Sin Calificar,Pel√≠cula,Romance,1
1,22992,Dos contra Al Capone,1966,Italia,Giorgio Simonelli,"Franco Franchi, Ciccio Ingrassia, Jos√© Calvo, ...",Sin Calificar,Pel√≠cula,Comedia,1
2,91468,El Criptozo√≥logo (C),2015,Espa√±a,Vicente Mallols,,5.0,Cortometraje,"Animaci√≥n, Aventuras, Fant√°stico",1
3,103892,El Criptozo√≥logo (C),2015,Espa√±a,Vicente Mallols,,5.0,Cortometraje,"Animaci√≥n, Aventuras, Fant√°stico",2
4,44168,El retorno de Godzilla,1984,Jap√≥n,Koji Hashimoto,"Ken Tanaka, Yasuko Sawaguchi, Keiju Kobayashi,...",5.5,Pel√≠cula,"Ciencia ficci√≥n, Fant√°stico",1
...,...,...,...,...,...,...,...,...,...,...
118998,44164,‚ÄéAu c≈ìur du cristal (C),1980,Francia,Ga√´l Badaud,Teo Hern√°ndez,Sin Calificar,Cortometraje,Documental,1
118999,44165,‚Äî ‚Äî‚Äî‚Äì (Rock and Roll Movie) (C),1967,Estados Unidos,"Thom Andersen, Malcolm Brodwick",,Sin Calificar,Cortometraje,Documental,1
119000,44166,‚Äò36 to ‚Äò77,1978,Reino Unido,"Marc Karlin, Jon Sanders, James Scott, Humphre...",,Sin Calificar,Documental,Documental,1
119001,103891,‚Äò71,2014,Reino Unido,Yann Demange,"Jack O'Connell, Paul Anderson, Valene Kane, Se...",6.6,Pel√≠cula,"Acci√≥n, Drama",1


In [21]:
duplicados = """
            SELECT *
            FROM (
                SELECT *,
                ROW_NUMBER() OVER(PARTITION BY T√≠tulo ORDER BY T√≠tulo) AS num_fila
                FROM copia.filmaffinity_copia
            ) subconsulta
            WHERE num_fila > 1;
             """
duplicados = pd.read_sql_query(duplicados, conexion)
duplicados

Unnamed: 0.1,Unnamed: 0,T√≠tulo,A√±o,Pa√≠s,Direcci√≥n,Reparto,Nota,Tipo filme,G√©nero,num_fila
0,103892,El Criptozo√≥logo (C),2015,Espa√±a,Vicente Mallols,,5.0,Cortometraje,"Animaci√≥n, Aventuras, Fant√°stico",2
1,103894,#Horror,2015,Estados Unidos,Tara Subkoff,"Chlo√´ Sevigny, Timothy Hutton, Balthazar Getty...",3.6,Pel√≠cula,Terror,2
2,103902,(Des)honestos,2015,Estados Unidos,Yael Melamede,Dan Ariely,6.6,Documental,Documental,2
3,91481,1,2013,Estados Unidos,Paul Crowder,"Niki Lauda, Mario Andretti, Michael Schumacher...",7.3,Documental,Documental,2
4,103912,10000 Years Later,2015,China,Yi Li,,Sin Calificar,Pel√≠cula,Fant√°stico,2
...,...,...,...,...,...,...,...,...,...,...
7902,70981,√âxtasis,1995,Espa√±a,Mariano Barroso,"Javier Bardem, Federico Luppi, Leire Berrocal,...",6.2,Pel√≠cula,Drama,2
7903,114225,√ìrf√£os do Eldorado,2015,Brasil,Guilherme Coelho,"Milton Aires, Adriano Barroso, Henrique da Paz...",Sin Calificar,Pel√≠cula,Intriga,2
7904,91460,√öltima llamada,2002,Estados Unidos,Joel Schumacher,"Colin Farrell, Kiefer Sutherland, Forest Whita...",6.5,Pel√≠cula,"Acci√≥n, Thriller",2
7905,114226,√öltima oportunidad (Miniserie de TV),2015,Francia,Fran√ßois Velle,"Alexandra Lamy, Pascal Elb√©, Lionel Abelanski,...",5.5,Miniserie,Thriller,2


In [None]:
## Eliminamos duplicados
eliminar = """
            WITH duplicados AS (
                SELECT ROWID, ROW_NUMBER() OVER(PARTITION BY T√≠tulo ORDER BY ROWID) AS num_fila
                FROM copia.filmaffinity_copia
            )
            DELETE FROM copia.filmaffinity_copia
            WHERE ROWID IN (
                SELECT ROWID FROM duplicados WHERE num_fila > 1
            );
           """
eliminar = pd.read_sql_query(eliminar, conexion)
eliminar

### ‚úÖ Formatos inconsistentes (fechas, nombres, n√∫meros).

In [23]:
# ‚úÖ Inconsistencias en fechas:
# En este caso como es un a√±o no hay problemas

# ‚úÖ Inconsistencias en nombres
inco_nombres = """
                SELECT DISTINCT Pa√≠s FROM copia.filmaffinity_copia;
               """
inco_nombres = pd.read_sql_query(inco_nombres, conexion)
inco_nombres
# No hay inconsistencias en los nombres


# ‚úÖ Inconsistencias en los n√∫meros
# pues no hay inconsistencias ya que anteriormente actualizamos por ejemplo la "," por "."


Unnamed: 0,Pa√≠s
0,Estados Unidos
1,Rusia
2,Francia
3,Suecia
4,Dinamarca
...,...
181,Brunei
182,Islas Caim√°n
183,Ruanda
184,Kosovo


### ‚úÖ Cambiar tipos de datos

El archivo copia.db-journal es un archivo temporal de journaling que crea SQLite cuando se ejecuta una transacci√≥n. Sirve para garantizar la integridad de la base de datos en caso de fallos o interrupciones inesperadas.

Si este archivo qued√≥ atascado o la consulta no se ejecut√≥ bien, puedes solucionarlo:

‚úÖ SOLUCI√ìN: Asegurar el COMMIT de la transacci√≥n
Si est√°s usando pd.read_sql_query(), este m√©todo solo se usa para consultas SELECT. Como UPDATE modifica datos, debes usar conexion.execute() y hacer commit() manualmente:

In [24]:
actualizar_d = """
    UPDATE copia.filmaffinity_copia
    SET Nota = CAST(Nota AS REAL)
    WHERE Nota NOT LIKE '%[^0-9.]%';
"""

conexion.execute(actualizar_d)  # Ejecutar la consulta
conexion.commit()  # Confirmar los cambios en la base de datos
print("Datos actualizados correctamente.")

Datos actualizados correctamente.


In [25]:
agregar_columna = "ALTER TABLE copia.filmaffinity_copia ADD COLUMN Nota_Nueva REAL";
conexion.execute(agregar_columna)
conexion.commit()
print("Nueva columna creada con √©xito")

Nueva columna creada con √©xito


In [26]:
# Copiar data de la columna Nota a Nota_nueva
copiar = """
        UPDATE copia.filmaffinity_copia
        SET Nota_Nueva = CAST(Nota AS REAL)
        WHERE Nota NOT LIKE '%[^0-9.]%'
         """
conexion.execute(copiar)
conexion.commit()
print("Datos copiados correctamente")

Datos copiados correctamente


In [27]:
# Crear una nueva tabla con los valores actualizados
crear_tabla = """
            CREATE TABLE copia.f_copia AS
            SELECT T√≠tulo, A√±o, Pa√≠s, Direcci√≥n, Reparto, Nota_Nueva AS Nota, `Tipo filme`, G√©nero
            FROM copia.filmaffinity_copia;
              """
conexion.execute(crear_tabla)
conexion.commit()
print("Tabla nueva creada correctamente")

Tabla nueva creada correctamente


In [28]:
# ELiminar tabla original
eliminar_tabla = "DROP TABLE copia.filmaffinity_copia;"
conexion.execute(eliminar_tabla)
conexion.commit()
print("Tabla eliminada con √©xito")

Tabla eliminada con √©xito


In [29]:
# Renombrar tabla
renombrar_tabla = "ALTER TABLE copia.f_copia RENAME TO filmaffinity_copia;"
conexion.execute(renombrar_tabla)
conexion.commit()
print("Tabla renombrada con √©xito")

Tabla renombrada con √©xito


In [30]:
# Veamos los tipos de datos:
tipos_datos = "PRAGMA table_info(filmaffinity_copia);"
tipos_datos = pd.read_sql_query(tipos_datos, conexion)
tipos_datos

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,T√≠tulo,TEXT,0,,0
1,1,A√±o,INT,0,,0
2,2,Pa√≠s,TEXT,0,,0
3,3,Direcci√≥n,TEXT,0,,0
4,4,Reparto,TEXT,0,,0
5,5,Nota,REAL,0,,0
6,6,Tipo filme,TEXT,0,,0
7,7,G√©nero,TEXT,0,,0


### ‚úÖ Normalizar datos

In [None]:
# Se deja para otro proyecto, porque en este no lo necesitamos


---

### **4Ô∏è‚É£ Exploraci√≥n y An√°lisis Descriptivo**  
üìå **¬øQu√© nos dicen los datos?**  
- Calcular m√©tricas b√°sicas (media, mediana, moda, percentiles).  
- Identificar distribuciones y tendencias.  
- Visualizar con histogramas, gr√°ficos de dispersi√≥n, boxplots, etc.  

---
 

#### **Como no nos sirve de nada calcular m√©tricas b√°sicas por ello vamos a responder las preguntas que nos planteamos y queremos responder con el an√°lisis**

üìå	¬øQu√© pa√≠s tiene m√°s filmes estrenados?

üìå	Ver los cinco a√±os en los que se estrenaron m√°s filmes.

üìå	Identificar cual es el g√©nero con m√°s filmes.

üìå	Determinar cual es el g√©nero con mayor promedio de calificaci√≥n o nota o valoraci√≥n.

üìå	Determinar cual tipo de filme es mejor.

In [31]:
# HACER UNA BREVE EXPLORACI√ìN
datos = """
        SELECT *
        FROM copia.filmaffinity_copia
        LIMIT 3;
        """
datos = pd.read_sql_query(datos, conexion)
datos

Unnamed: 0,T√≠tulo,A√±o,Pa√≠s,Direcci√≥n,Reparto,Nota,Tipo filme,G√©nero
0,'49-'17,1917,Estados Unidos,Ruth Ann Baldwin,"Joseph W. Girard, Leo Pierson, William Dyer, M...",0.0,Pel√≠cula,Western
1,"10,000 Years B.C. (C)",1916,Estados Unidos,Willis H. O'Brien,,5.1,Cortometraje,Comedia
2,1812,1912,Rusia,"Vasili Goncharov, Kai Hansen, Aleksandr Uralsky","Pavel Knorr, Vasili Goncharov, Aleksandra Gonc...",0.0,Pel√≠cula,Drama


### üìå ¬øQu√© pa√≠s tiene m√°s filmes estrenados?

In [32]:
# üìå ¬øQu√© pa√≠s tiene m√°s filmes estrenados?
pais_filmes = """
            SELECT Pa√≠s, COUNT(T√≠tulo) AS total_filmes
            FROM copia.filmaffinity_copia
            GROUP BY Pa√≠s
            ORDER BY total_filmes DESC
            LIMIT 10;
              """
pais_filmes = pd.read_sql_query(pais_filmes, conexion)
pais_filmes

Unnamed: 0,Pa√≠s,total_filmes
0,Estados Unidos,42387
1,Espa√±a,9023
2,Jap√≥n,8477
3,Reino Unido,8053
4,Francia,7205
5,Italia,5156
6,M√©xico,3184
7,Canad√°,2791
8,Argentina,2612
9,Alemania,2220


In [None]:
# Instalar openpyxl si no est√° instalado
import sys
!{sys.executable} -m pip install openpyxl

# Consulta SQL para obtener los 10 pa√≠ses con m√°s filmes
pais_filmes = """
    SELECT Pa√≠s, COUNT(T√≠tulo) AS total_filmes
    FROM copia.filmaffinity_copia
    GROUP BY Pa√≠s
    ORDER BY total_filmes DESC
    LIMIT 10;
"""
pais_filmes_df = pd.read_sql_query(pais_filmes, conexion)

# Guardar en Excel
ruta_excel = "./data/tablas/diez_paises_filmes.xlsx"
pais_filmes_df.to_excel(ruta_excel, index=False, engine="openpyxl")

print(f"Archivo guardado en: {ruta_excel}")

Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Archivo guardado en: ./data/diez_paises_filmes.xlsx


### üìå Ver los cinco a√±os en los que se estrenaron m√°s filmes.

In [None]:
# üìå Ver los cinco a√±os en los que se estrenaron m√°s filmes.
cinco_filmes = """
                SELECT A√±o, COUNT(T√≠tulo) AS total_filmes
                FROM copia.filmaffinity_copia
                GROUP BY A√±o
                ORDER BY total_filmes DESC
                LIMIT 5;
               """
cinco_filmes = pd.read_sql_query(cinco_filmes, conexion)
cinco_filmes

Unnamed: 0,A√±o,total_peliculas
0,2017,2476
1,2016,2416
2,2015,2398
3,2018,2383
4,2014,2369


In [None]:
# Guardar en una tabla excel
cinco_filmes = """
                SELECT A√±o, COUNT(T√≠tulo) AS total_filmes
                FROM copia.filmaffinity_copia
                GROUP BY A√±o
                ORDER BY total_filmes DESC
                LIMIT 5;
               """
               
cinco_filmes = pd.read_sql_query(cinco_filmes, conexion)

ruta_archivo = "../data/processed/total_filmes_ultimos_cinco_years.xlsx"
cinco_filmes.to_excel(ruta_archivo, index=False, engine="openpyxl")
print(f"Archivo guardado en: {ruta_archivo}")

Archivo guardado en: ./data/tablas/total_filmes_ultimos_cinco_years.xlsx


### üìå Identificar cual es el g√©nero con m√°s filmes.

In [40]:
# üìå Identificar cual es el g√©nero con m√°s filmes.
genero_mas_filmes = """
                    SELECT G√©nero, COUNT(T√≠tulo) AS total_filmes_por_genero
                    FROM copia.filmaffinity_copia
                    GROUP BY G√©nero
                    ORDER BY total_filmes_por_genero DESC
                    LIMIT 5;
                    """
genero_mas_filmes = pd.read_sql_query(genero_mas_filmes, conexion)
genero_mas_filmes

Unnamed: 0,G√©nero,total_filmes_por_genero
0,Drama,15565
1,Documental,13150
2,Comedia,12349
3,Romance,5137
4,Acci√≥n,3899


In [None]:
# Guardar en un excel
genero_mas_filmes = """
                    SELECT G√©nero, COUNT(T√≠tulo) AS total_filmes_por_genero
                    FROM copia.filmaffinity_copia
                    GROUP BY G√©nero
                    ORDER BY total_filmes_por_genero DESC
                    LIMIT 5;
                    """
genero_mas_filmes = pd.read_sql_query(genero_mas_filmes, conexion)

ruta_archivo = "../data/processed/genero_con_mas_filmes.xlsx"
genero_mas_filmes.to_excel(ruta_archivo, index=False, engine="openpyxl")
print(f"Archivo guardado con √©xito en: {ruta_archivo}")

Archivo guardado con √©xito en: ./data/tablas/genero_con_mas_filmes.xlsx


### üìå	Determinar cual es el g√©nero con mayor promedio de calificaci√≥n o nota o valoraci√≥n.

In [55]:
genero_mas_aceptado = """
                    WITH GenerosSeparados AS (
                        SELECT TRIM(value) AS G√©nero, Nota
                        FROM copia.filmaffinity_copia, 
                        json_each('["' || REPLACE(G√©nero, ', ', '","') || '"]') -- Estariamos evitando esto si hubieramos normalizado los datos
                    )
                    SELECT G√©nero, AVG(Nota) AS promedio_calificacion
                    FROM GenerosSeparados
                    WHERE Nota IS NOT NULL AND Nota > 0
                    GROUP BY G√©nero
                    ORDER BY promedio_calificacion DESC
                    LIMIT 5;
                    """
genero_mas_aceptado = pd.read_sql_query(genero_mas_aceptado, conexion)
genero_mas_aceptado

Unnamed: 0,G√©nero,promedio_calificacion
0,Documental,6.573252
1,Drama,6.08257
2,Animaci√≥n,5.653979
3,Intriga,5.579887
4,Romance,5.446851


In [None]:
# Guardar en un excel
genero_mas_aceptado = """
                    WITH GenerosSeparados AS (
                        SELECT TRIM(value) AS G√©nero, Nota
                        FROM copia.filmaffinity_copia, 
                        json_each('["' || REPLACE(G√©nero, ', ', '","') || '"]') -- Estariamos evitando esto si hubieramos normalizado los datos
                    )
                    SELECT G√©nero, AVG(Nota) AS promedio_calificacion
                    FROM GenerosSeparados
                    WHERE Nota IS NOT NULL AND Nota > 0
                    GROUP BY G√©nero
                    ORDER BY promedio_calificacion DESC
                    LIMIT 5;
                    """
genero_mas_aceptado = pd.read_sql_query(genero_mas_aceptado, conexion)

ruta = "../data/processed/mejores_generos.xlsx"
genero_mas_aceptado.to_excel(ruta, index=False, engine="openpyxl")
print(f"Archivo guardado con √©xito en: {ruta}")

Archivo guardado con √©xito en: ./data/tablas/mejores_generos.xlsx


### üìå	Determinar cual tipo de filme es mejor.

In [56]:
mejor_tipo_filme = """
                   WITH GenerosSeparados AS (
                        SELECT TRIM(value) AS G√©nero, Nota, `Tipo filme`
                        FROM copia.filmaffinity_copia,
                            json_each('["' || REPLACE(G√©nero, ', ', '","') || '"]') -- Estariamos evitando esto si hubieramos normalizado los datos
                    )
                   SELECT `Tipo filme`, COUNT(G√©nero) AS filmes, AVG(Nota) AS promedio_calificacion
                   FROM GenerosSeparados
                   WHERE Nota IS NOT NULL AND Nota > 0
                   GROUP BY `Tipo filme`
                   ORDER BY promedio_calificacion DESC
                   LIMIT 5;
                   """
mejor_tipo_filme = pd.read_sql_query(mejor_tipo_filme, conexion)
mejor_tipo_filme

Unnamed: 0,Tipo filme,filmes,promedio_calificacion
0,Documental,4705,6.727566
1,Miniserie,1405,6.103488
2,Serie,12135,5.661788
3,Cortometraje,13320,5.515706
4,Pel√≠cula,60937,5.425021


In [None]:
# Guardar en un excel
mejor_tipo_filme = """
                   WITH GenerosSeparados AS (
                        SELECT TRIM(value) AS G√©nero, Nota, `Tipo filme`
                        FROM copia.filmaffinity_copia,
                            json_each('["' || REPLACE(G√©nero, ', ', '","') || '"]') -- Estariamos evitando esto si hubieramos normalizado los datos
                    )
                   SELECT `Tipo filme`, COUNT(G√©nero) AS filmes, AVG(Nota) AS promedio_calificacion
                   FROM GenerosSeparados
                   WHERE Nota IS NOT NULL AND Nota > 0
                   GROUP BY `Tipo filme`
                   ORDER BY promedio_calificacion DESC
                   LIMIT 5;
                   """
mejor_tipo_filme = pd.read_sql_query(mejor_tipo_filme, conexion)

ruta = "../data/processed/mejor_tipo_filme.xlsx"
mejor_tipo_filme.to_excel(ruta, index=False, engine="openpyxl")
print(f"Archivo guardado en: {ruta}")

Archivo guardado en: ./data/tablas/mejor_tipo_filme.xlsx


In [None]:
# Cerrar conexi√≥n con al terminar
# conexion.close()