# Ejercicio - Regresión lineal

Para prácticar el Análisis Exploratorio de Datos, vamos a usar una versión modificada del dataset [The Movies Dataset](https://www.kaggle.com/rounakbanik/the-movies-dataset) que contiene información sobre películas, información relacionada con el éxito de dichas películas en cuanto a popularidad y venta de entradas.

El dataset se encuentra en el archivo `data/movies.csv`, y consta de las siguientes columnas:

```
    belongs_to_collection (franquicia): Nombre de la franquicia a la cual pertenece la película.
    budget (presupuesto): Presupuesto de la película en dólares.
    genres (genero): Género de la pelicula.
    homepage (pagina_web): Página Web oficial de la película.
    imdb_id: ID de la película en IMDB.
    original_language (lenguaje): El lenguage original en el que se rodó la película.
    overview: Descripción de la película.
    popularity (popularidad): Puntuación de Popularidad.
    poster_path (poster): url del poster de la película
    production_companies (productores): Lista de compañias que produjeron la pelicula
    production_countries (pais): Pais de produccion de la película
    release_date (fecha_estreno): Fecha del estreno  de la película
    revenue (ventas): Ventas de entradas en dólares de la película.
    runtime (duracion): Duración en minutos de la película.
    status (estado): Estado de la película (estrenada, en producción, etc).
    tagline: Frase descriptiva de la película.
    title (titulo): Título de la película.
    vote_average (puntuacion): Puntuación media de la película.
    vote_count (n_votos): Número de votos.
```



Para este ejercicio la variable objetivo es las ventas en taquilla de la película (la columna `venta`)

In [1]:
import pandas as pd

import numpy as np

In [2]:
pelis = pd.read_csv("data/movies.csv")

In [3]:
pelis.head()

Unnamed: 0,franquicia,presupuesto,genero,pagina_web,imdb_id,lenguaje,popularidad,productores,pais,fecha_estreno,ventas,duracion,estado,titulo,puntuacion,n_votos
0,Father of the Bride Collection,,Comedy,,tt0113041,en,8.387519,Sandollar Productions,United States of America,1995-02-10,76578911.0,106.0,Released,Father of the Bride Part II,5.7,173.0
1,,,Drama,,tt0112749,en,0.894647,Miramax,South Africa,1995-12-15,676525.0,106.0,Released,"Cry, the Beloved Country",6.7,13.0
2,Friday Collection,3500000.0,Comedy,http://www.newline.com/properties/friday.html,tt0113118,en,14.56965,New Line Cinema,United States of America,1995-04-26,28215918.0,91.0,Released,Friday,7.0,513.0
3,,,Comedy,,tt0115697,en,8.963037,Paramount Pictures,United States of America,1996-02-01,32.0,87.0,Released,Black Sheep,6.0,124.0
4,,12000000.0,Comedy,,tt0116483,en,9.592265,Universal Pictures,United States of America,1996-02-16,41205099.0,92.0,Released,Happy Gilmore,6.5,767.0


### Seleccionar las columnas numéricas sólo. Eliminar los valores nulos y reemplazarlos con 0 

*(pista, usar los metodos `select_dtypes` y `fillna`)*

In [4]:
#Seleccion solo de las columnas con valores numericos y remplazar los valores faltantes con ceros
pelis_numericas=pelis.select_dtypes(include=["int","float"]).fillna(0)
pelis_numericas.head()

Unnamed: 0,presupuesto,popularidad,ventas,duracion,puntuacion,n_votos
0,0.0,8.387519,76578911.0,106.0,5.7,173.0
1,0.0,0.894647,676525.0,106.0,6.7,13.0
2,3500000.0,14.56965,28215918.0,91.0,7.0,513.0
3,0.0,8.963037,32.0,87.0,6.0,124.0
4,12000000.0,9.592265,41205099.0,92.0,6.5,767.0


### Crear un modelo de regresion lineal (con scikit-learn) y entrenarlo en el dataset numéricos. La variable objetivo es `ventas`

In [5]:
variable_objetivo="ventas"
variables_independientes=pelis_numericas.drop(columns=variable_objetivo).columns

### Asignar una columna nueva con las predicciones al dataset original llamada `ventas_pred`

In [6]:
#importamos LinearRegresion desde sklearn.linear_model 
from sklearn.linear_model import  LinearRegression

In [7]:
#Creamos el objeto LinearRegresion
modelo=LinearRegression()

In [8]:
#Ajustamos el modelo con los parametros
modelo.fit(X=pelis_numericas[variables_independientes],y=pelis_numericas[variable_objetivo])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [9]:
#Vector con los coeficiente independientes, betas
modelo.coef_ 

array([ 1.22671818e+00, -2.86498152e+05,  4.72544841e+04,  5.48802981e+05,
        6.68634838e+04])

In [10]:
#Termino independiete alpha
modelo.intercept_

-3795284.4556202143

In [18]:
#Predicciones del modelo
pelis_numericas["ventas_pred"]=modelo.predict(pelis_numericas[variables_independientes])
pelis_numericas.head()

Unnamed: 0,presupuesto,popularidad,ventas,duracion,puntuacion,n_votos,ventas_pred
0,0.0,8.387519,76578911.0,106.0,5.7,173.0,13506240.0
1,0.0,0.894647,676525.0,106.0,6.7,13.0,5503581.0
2,3500000.0,14.56965,28215918.0,91.0,7.0,513.0,38766800.0
3,0.0,8.963037,32.0,87.0,6.0,124.0,9331852.0
4,12000000.0,9.592265,41205099.0,92.0,6.5,767.0,67376090.0


Tabla comparativa modelo prediccion

In [21]:
ventas=pelis_numericas[["ventas","ventas_pred"]]
ventas

Unnamed: 0,ventas,ventas_pred
0,76578911.0,1.350624e+07
1,676525.0,5.503581e+06
2,28215918.0,3.876680e+07
3,32.0,9.331852e+06
4,41205099.0,6.737609e+07
5,209935.0,2.332946e+06
6,185260553.0,6.183622e+07
7,355237933.0,1.746963e+08
8,1275000.0,4.881519e+06
9,3174695.0,9.708975e+06
