# EDA
---

### 1. Problema de Negocio:
+  Se necesita desarrollar un modelo de machine learning, para satisfacer la necesidad de tener un sistema de recomendacion de peliculas, que puede tener diverssas finalidades. Como Data Scientist mi rol es determinal cual es la manera mas efectiva y eficiente de entregar un mvp, de acuerdo a la problematica. Primero es necesario determinar que datos son los mas apropiados para el modelo de recomendacion.
#### **`¿Que lista de peliculas son las mas recomendables a partir de una pelicula?`**

### 2. El set de datos despues de la limpieza
+  La informacion disponible se encuentra en un archivo csv(Dataset_For_Eda) con 45451 filas y 23 columnas.
+  Cada registro tiene 23 caracteristicas:

    1. **`"belongs_to_collection"`**:Un diccionario que indica a que franquicia o serie de películas pertenece la película.
    2. **`"budget"`**:El presupuesto de la película, en dólares(int)
    3. **`"genres"`**:Un diccionario que indica todos los géneros asociados a la película.(Dict)
    4. **`"id"`**: ID de la pelicula.(Int)
    5. **`"original_language"`**: Idioma original en la que se grabo la pelicula.(Object)
    6. **`"overview"`**: Pequeño resumen de la película.(Object)
    7. **`"populrity"`**: Puntaje de popularidad de la película, asignado por TMDB (TheMoviesDataBase).(Float)
    8. **`"production_companies"`**: Lista con las compañias productoras asociadas a la película.(list)
    9. **`"production_countries"`**: Lista con los países donde se produjo la película.(list)
    10. **`"release_date"`**: Fecha de estreno de la película.(Object)
    11. **`"revenue"`**:Recaudación de la pelicula, en dolares.(Float)
    12. **`"runtime"`**: Duración de la película, en minutos.(Float)
    13. **`"spoken_languages"`**: Lista con los idiomas que se hablan en la pelicula.(Object)
    14. **`"status"`**: Estado de la pelicula actual (si fue anunciada, si ya se estreno, etc).(Object)
    15. **`"tagline"`**: Frase celebre asociada la pelicula.(Object)
    16. **`"title"`**: Titulo de la pelicula.(Object)
    17. **`"vote_average"`**: Puntaje promedio de reseñas de la pelicula.(Float)
    18. **`"vote_count"`**: Numeros de votos recibidos por la pelicula, en TMDB.(Int)
    19. **`"name_genre"`**: lista filtrada de los Generos relacionados con la pelicula.(Object)
    20. **`"Collections"`**: Nombre de la coleccion a la que pertenece.(Object)
    21. **`"release_year"`**: Año de estreno(Object)
    22. **`"return"`**: Roi, retorno de inversion de la pelicula.(Int)
    23. **`"director"`**: Director de la pelicula.(Object)

### 3. Lectura del Dataset:
+ ##### 3.1 Heatmap

In [48]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [49]:
Eda_dataset=pd.read_csv('Dataset/Dataset_For_Eda.csv')

In [50]:
Eda_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45451 entries, 0 to 45450
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   belongs_to_collection  4497 non-null   object 
 1   budget                 45451 non-null  float64
 2   genres                 45451 non-null  object 
 3   id                     45451 non-null  int64  
 4   original_language      45440 non-null  object 
 5   overview               44510 non-null  object 
 6   popularity             45451 non-null  float64
 7   production_companies   45451 non-null  object 
 8   production_countries   45451 non-null  object 
 9   release_date           45451 non-null  object 
 10  revenue                45451 non-null  float64
 11  runtime                45205 non-null  float64
 12  spoken_languages       45451 non-null  object 
 13  status                 45371 non-null  object 
 14  tagline                20425 non-null  object 
 15  ti

In [51]:


# Crear una copia del DataFrame sin la columna 'id'
Eda_dataset_tmp = Eda_dataset.drop('id', axis=1)

# Seleccionar las columnas numéricas del DataFrame temporal
data_num = Eda_dataset_tmp.select_dtypes(exclude=['object'])

# Codificar las columnas categóricas utilizando one-hot encoding
data_cat = pd.get_dummies(Eda_dataset_tmp[['title', 'name_genre']])

# Combinar las columnas numéricas y categóricas
data_combined = pd.concat([data_num, data_cat], axis=1)

# Calcular la matriz de correlación
correlation_matrix = data_combined.corr()

# Visualizar la matriz de correlación con un mapa de calor
plt.figure(figsize=(16, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()



##### A simple vista, ciertos campos no aportan ninguna informacion para predecir la lista o por lo menos no tan significativamente, dado que se requiere un MVP(Minimal Viable proyect). las Columnas son: budget, belongs_to_collection, orifinal_language, release_date, status, tagline, Collections, release_year,return, director,overview,revenue,runtime,spoken_languagues,genres.
+ #### Se eliminaron por:
    1. **`"belongs_to_collection"`**: el 85% de la columna son nulos y no es tan significativa la informacion que aporta para el modelo.
    2. **`"original_language"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    3. **`"release_date"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    4. **`"status"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    5. **`"tagline"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    6. **`"Collections"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    7. **`"release_year"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    8. **`"return"`**: Podria ser util, pero para el MVP decidi optar por otro enfoque.
    9. **`"director"`**: Podria ser util, pero para el MVP decidi optar por otro enfoque.
    10. **`"overview"`**: Aportaria mucha informacion, pero es un dato un variable, y se va del alcance para el MVP.
    11. **`"revenue"`**: Podria ser util, pero para el MVP decidi optar por otro enfoque.
    12. **`"runtime"`**: Podria ser util, pero para el MVP decidi optar por otro enfoque.
    13. **`"spoken_languages"`**: Es irrelevante al modelo, ya que no determina en gran medida la recomendacion.
    14. **`"genres"`**: Se creo una columna con una mejor estructura y con la misma informacion.

In [None]:
Eda_dataset.drop(['belongs_to_collection', 'original_language', 'release_date', 'status', 'tagline', 'Collections', 'release_year', 'return', 'director', 'overview', 'revenue', 'runtime', 'spoken_languages', 'genres'], axis=1, inplace=True)

In [None]:
Eda_dataset.info()

### 4. Analisis Exploratorio
##### La idea es utilizar herramientas estadisticas y de visualizacion para:
+ Crear un mapa mental del set de datos (entenderlo)
+ Empezar a encontrar respuestas a la pregunta planteada inicialmente (**`"¿Que lista de peliculas son las mas recomendables a partir de una pelicula?"`**)

Llevare a cabo estas fases:
1. Analisis de cada variable de Manera **`individual`**.
2. Analisis univariado: relacion de cada  **`variable predictora`** con la variable **`target`**.
3. Analisis bivariado: relacion de **`pares`** de **`variables predictoras`** con la variable target.

### 4.1 Analisis de cada variable de manera individual

In [None]:
# Histograma de una variable numérica
sns.histplot(Eda_dataset['vote_average'], kde=True)
plt.xlabel('Puntuación promedio')
plt.ylabel('Frecuencia')
plt.show()
# Diagrama de dispersión de dos variables numéricas
sns.scatterplot(x='vote_average', y='vote_count', data=Eda_dataset)
plt.xlabel('Puntuación promedio')
plt.ylabel('Número de votos')
plt.show()

In [None]:
# Obtener las características de género
genre_counts = Eda_dataset['name_genre'].str.get_dummies(',').sum()
genre_counts.sort_values(ascending=False, inplace=True)
print(genre_counts)

# Visualizar las características de género
sns.barplot(x=genre_counts.index, y=genre_counts.values)
plt.xlabel('Género')
plt.ylabel('Número de películas')
plt.xticks(rotation=90)
plt.show()
