# **<center>Analisis de datos de IMDb</center>**

En este proyecto, se trabaja con una base de datos inspirada en IMDb, una de las plataformas más reconocidas para consultar información sobre películas, series y miniseries. Este conjunto de datos incluye detalles clave como puntajes, cantidad de votos, años de lanzamiento y géneros, ofreciendo una rica oportunidad para explorar patrones, tendencias y relaciones dentro de la industria cinematográfica.

### **Objetivo general**

El objetivo principal de este proyecto es realizar un análisis profundo de los datos proporcionados mediante consultas SQL, con el fin de identificar información relevante, como:

- Las películas y series mejor valoradas.
- La relación entre los votos recibidos y el puntaje obtenido.
- La distribución y popularidad de géneros a lo largo del tiempo.

### **Objetivos específicos**

1. Comprender cómo las calificaciones y votos reflejan la percepción del público.
2. Identificar tendencias en la producción de contenido a lo largo de los años.
3. Optimizar la extracción y procesamiento de datos mediante consultas SQL eficientes.

### **Relevancia del proyecto**

Este análisis no solo proporciona un caso práctico para desarrollar habilidades en SQL, sino que también ilustra cómo las herramientas de análisis pueden apoyar la toma de decisiones en industrias creativas. Por ejemplo, los hallazgos podrían ser aplicados para:

- Informar a plataformas de streaming sobre géneros populares para nuevas producciones.
- Ayudar a investigadores en estudios sobre tendencias culturales y de consumo.

Con este informe, se espera demostrar el potencial de SQL como una herramienta para el análisis de grandes volúmenes de datos, utilizando un enfoque estructurado y eficiente.

## **Definicion de tipos de datos**

### **Descripción general**

La base de datos utilizada para este proyecto fue creada a partir de un dataset descargado de Kaggle, el cual contiene información detallada sobre películas, series y miniseries disponibles en IMDb. El datasete original contaba con las siguientes columnas, a excepcion de las 3 columnas de generos, que estaban incluidas en una unica columna pudiendo contener desde 1 hasta 3 generos que por cuestiones de buscar un mejor analisis se decidio dividir en 3 columnas distintas:

| Columna       | Descripción | 
|---------------|-------------|
| id            | Identificador único de cada producción.|
| title         | Título de la película, serie o miniserie.|
| type          | Tipo de producción: película, serie o miniserie.|
| average_rating| Calificación promedio otorgada por los usuarios de IMDb.|
| num_votes     | Número total de votos recibidos por la producción.|
| release_year  | Año en que se lanzó la producción.|
| genre1        | Géneros asociados a la producción, pudiendo haber más de uno (separados por comas).|
| genre2        | Géneros asociados a la producción, pudiendo haber más de uno (separados por comas).|
| genre3        | Géneros asociados a la producción, pudiendo haber más de uno (separados por comas).|

### **Decisión de los tipos de datos**

La tabla fue diseñada en MySQL utilizando los siguientes tipos de datos para optimizar el almacenamiento y la velocidad de las consultas:

| Columna       | Tipo de dato | Motivo de eleccion|
|---------------|--------------|-------------------|
| id            | VARCHAR(20)  | Optimiza espacio, eficiente para búsquedas.|
| title         | VARCHAR(255) | Soporta títulos largos.|
| type          | ENUM('movie', 'tvSeries', 'tvMiniSeries') | Limita los valores posibles|
| average_rating| FLOAT        | Representa calificaciones con decimales.|
| num_votes     | INT          | Maneja números enteros grandes para los votos.|
| release_year  | YEAR         | Tipo optimizado para almacenar años.|
| genre1        | VARCHAR(255) | Soporta generos largos.|
| genre2        | VARCHAR(255) | Soporta generos largos.|
| genre3        | VARCHAR(255) | Soporta generos largos.|

### **Esquema SQL**

A continuación, se muestra el esquema de creación de la tabla:

```sql
    CREATE TABLE producciones (
        id VARCHAR(20) PRIMARY KEY NOT NULL,
        title VARCHAR(255) NOT NULL, 
        type ENUM('movie', 'tvSeries', 'tvMiniSeries') NOT NULL, 
        genres VARCHAR(255) NOT NULL, 
        average_rating FLOAT NOT NULL, 
        num_votes INT NOT NULL, 
        release_year YEAR NOT NULL
        );
        
```