# Proyecto N°1 con Pandas - Análisis de datos exploratorios en un set de datos de Películas

## Importación de datos e inspección preliminar

In [1]:
import pandas as pd # Importa la libreria de pandas, atplotlib y numpy
import matplotlib.pyplot as plt
import numpy as np
pd.options.display.max_columns = 30 #aumenta las columnas a mostrar a 30
pd.options.display.float_format = '{:.2f}'.format #selecciono que se muestren 2 decimales

In [2]:
df=pd.read_csv('movies_complete.csv', parse_dates=['release_date'])
#asigno a df el csv con la base de datos de películas y transformo a fecha la columna 'release_date'

In [None]:
df.head()
#muestro las 5 primeras filas del DataFrame

In [None]:
df.info()
#revisamos la información básica del DataFrame

#### Descripción de cada columna
* **id:** The ID of the movie (clear/unique identifier).
* **title:** The Official Title of the movie.
* **tagline:** The tagline of the movie.
* **release_date:** Theatrical Release Date of the movie.
* **genres:** Genres associated with the movie.
* **belongs_to_collection:** Gives information on the movie series/franchise the particular film belongs to.
* **original_language:** The language in which the movie was originally shot in.
* **budget_musd:** The budget of the movie in million dollars.
* **revenue_musd:** The total revenue of the movie in million dollars.
* **production_companies:** Production companies involved with the making of the movie.
* **production_countries:** Countries where the movie was shot/produced in.
* **vote_count:** The number of votes by users, as counted by TMDB.
* **vote_average:** The average rating of the movie.
* **popularity:** The Popularity Score assigned by TMDB.
* **runtime:** The runtime of the movie in minutes.
* **overview:** A brief blurb of the movie.
* **spoken_languages:** Spoken languages in the film.
* **poster_path:** The URL of the poster image.
* **cast:** (Main) Actors appearing in the movie.
* **cast_size:** number of Actors appearing in the movie.
* **director:** Director of the movie.
* **crew_size:** Size of the film crew (incl. director, excl. actors).

In [None]:
df.describe()
# Realiza un análisis descriptivo general de los atos numéricos del DataFrame

In [None]:
df.hist(figsize=(20,12),bins=100)
plt.show
# creamos un histograma de los datos, así entendemos la distribución del los datos

In [None]:
df.budget_musd.value_counts(dropna=False).head(10)
# Con esto buscamos los presupuestos más comunes en nuestro DataFrame y mostramos los 10 primeros 
#budget - N° valores

In [None]:
df.revenue_musd.value_counts(dropna=False).head(10)

In [None]:
df.vote_count.value_counts(dropna=False).head(10)

In [None]:
df.vote_average.value_counts(dropna=False).head(10)

In [None]:
df.describe(include=object)
# Veo las columnas no numéricas y puedo ver valores no nulos, valores únicos, etc.

In [None]:
#Con lo anterior, vimos que el title más repetido es 'Cinderella', vamos a comprobarlo
df[df.title=='Cinderella']

## La mejor y la peor película

In [31]:
from IPython.display import HTML
#Con esto permitimos mostrar contenido HTML en el notebook

In [None]:
df_best = df[["poster_path", "title", "budget_musd", "revenue_musd",
              "vote_count", "vote_average", "popularity"]].copy()
df_best
# Creamos un nuevo DataFrame copiando ciertas columnas desde el DataFrame principal 

In [36]:
df_best['profit_musd']=df.revenue_musd.sub(df.budget_musd)
df_best['return']=df.revenue_musd.div(df.budget_musd)
# Creo 2 nuevas columnas en el DataFrame 'df_best', en la primera resto y en la otra divido.

In [None]:
df_best

In [38]:
df_best.columns = ["", "Title", "Budget", "Revenue", "Votes", 
                   "Average Rating", "Popularity", "Profit", "ROI"]
# Renombramos las columnas con fines estéticos

In [39]:
df_best.set_index('Title', inplace=True )
# Elegimos el 'Title' como index del DataFrame

In [None]:
df_best

**Solo con fines de demostrar las imágenes**

In [None]:
subset = df_best.iloc[:5, :2]
subset
# separamos solamente las columnas  Title, la que contiene las url de las img y el budget.

In [None]:
HTML(subset.to_html(escape=False))
# Muestra en HTML las imágenes

---

In [None]:
df_best.loc[df_best.Budget >= 5].sort_values(by = "ROI", ascending = False)
# Selecciono las películas con un budget mayor a 5 y ordeno por ROI

In [51]:
# Ya que existían mucho null, rellenamos las columnas de Budget y Votes con valores 0
df_best.Budget.fillna(0, inplace = True)
df_best.Votes.fillna(0, inplace = True)
#inplace= rue se usa para reemplazar en el DataFrame original, en caso contrario debemos asignar a nueva variable

In [None]:
df_best.info() # revisamos lo anterior

In [55]:
# se crea una función para determinar la mejor y peor. n: número de peliculas; by: criterio;
# ascending: peor o mejor; min_bud: presupuesto minimo; min_votes: votos mínimos.
def best_worst(n, by, ascending = False, min_bud = 0, min_votes = 0):
    
    
    df2 = df_best.loc[(df_best.Budget >= min_bud) & (df_best.Votes >= min_votes), 
                      ["", by]].sort_values(by = by, ascending = ascending).head(n).copy()
    
    return HTML(df2.to_html(escape=False))

**Top 5 películas con mayor Revenue**

In [None]:
best_worst(n = 5, by = "Revenue")

**Top 5 películas con mayor Budget**

In [None]:
best_worst(5, "Budget")

**Top 5 con mayores Profit**

In [None]:
best_worst(5, "Profit")

**Top 5 con menor Rating** (Min 20 votos y Min 20 musd)

In [None]:
best_worst(5, "Average Rating", ascending = True, min_votes = 20, min_bud = 20)

**Top 5 más populares**

In [None]:
best_worst(5, "Popularity")