# Repaso Módulo 1 y Módulo 2 

En esta Notebook vamos a hacer un repaso de lo visto en la primera parte del curso. Vamos a realizar cada paso de un Proyecto de Ciencia de Datos:

1. Definición del Problema
2. Búsqueda de datos 
3. Exploración y Limpieza de Datos
4. Dividisión de los datos en **X** (variables predictoras) e **y** (variable a predecir). División de los datos en entrenamiento y testo con el méodo *train_test_split*
5. Entrenamiento del modelo
6. Testeo del Modelo 

### Definición del problema

**¿Cuál será la edad de una zarigüeya en base a determinadas características?**

### Búsqueda de datos

El dataset que se utilizará es sobre zarigüeyas, consta de nueve medidas morfométricas en 104 zarigüeyas, atrapadas en siete sitios desde el sur de Victoria hasta el centro de Queensland (Australia). En base a estas características es posible predecir la edad.
Esta basado en el dataset descargable en [Kaggle](https://www.kaggle.com/abrambeyer/openintro-possum) pero tiene realizadas algunas modificaciones por lo que debe ser tomado desde el archivo csv descargado desde la plataforma. 

### Regresión

Dado que la variable a predecir es numérica, el modelo de aprendizaje supervisado que entrenaremos será un modelo de **Regresión**, en este caso realizaremos una **Regresión Lineal Multiple** como hicimos en el Módulo 2.

In [None]:
# Iportamos las librerías que utilizaremos
import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns


In [None]:
# Definiremos data con el dataset con el método pd.read_csv

data = pd.read_csv("dataset_zarigueya.csv")

## Exploración del dataset

Realizaremos la primer exploración del dataset utilizando distintos métodos de la librería Pandas:
- Los primero registros del Dataset
- El tamaño del dataset
- Los tipos de datos de las columnas
- Las características de las variable numéricas
- La correlación de las variables numéricas

In [None]:
data.head(3)

In [None]:
data.shape

In [None]:
data.dtypes

In [None]:
data.describe()

In [None]:
data.corr()

#### Variable a predecir

La variable a Predecir es *edad* por lo que realizaremos una pequeña exploración de esta variable con librería Pandas y realizando algunas visualizaciones con las librerías Matplotplib y Seaborn.

- Mínimo valor de la columna
- Máximo valor de la columna
- Promedio de los valores de la columna (mean)
- Gráfico displot

In [None]:
data["edad"].min()

In [None]:
data["edad"].max()

In [None]:
data["edad"].mean()

In [None]:
sns.displot(data["edad"])

### Limpieza de datos

Realizaremos la limpieza de los datos con distintos métodos de la librería Pandas:
- ELiminaremos columnas inecesarias para el entrenamiento del modelo
- Realizaremos la limpieza de los datos nulos con algunas de las posibles estrategias: marcar, eliminar o imputar
- Realizaremos la identificación y modificación de las variables categóricas

##### Eliminar columnas

In [None]:
data.drop(columns=["id", "populacion"], inplace=True)

##### Limpieza de datos - nulos

In [None]:
data.isnull().sum()

In [None]:
nulo_cabeza = data["cabeza"].isnull()
data.loc[nulo_cabeza]

In [None]:
# Qué datos toma la variable

data.dropna(axis=0, thresh=7, inplace=True)

In [None]:
# Comprobamos el tamaño del dataset y la cantidad de nulos

print(data.shape)
data.isnull().sum()

In [None]:
nulo_pie = data["pie"].isnull()
data.loc[nulo_pie]

In [None]:
promedio = data["pie"].mean()
promedio

In [None]:
data.loc[nulo_pie, "pie"] = round(promedio,2)

In [None]:
# Comprobamos que este correctamente imputado y que no haya más datos nulos en lluvia

data.isnull().sum()

### Variables categóricas y numéricas

In [None]:
data.dtypes

In [None]:
data = pd.get_dummies(data,  drop_first=True)
data

In [None]:
data.columns

### Regresión Lineal Multiple
 
Ahora que ya hemos realizado la exploración y limpieza del Dataset, vamos a entrenar unaRegresión Lineal Multiple como vimos en la primera parte del año, para poder generar un modelo que sirva para predecir la *edad* de las zarigüeyas.

Realizaremos los siguientes pasos:

1. Dividir los datos en **X** (variables predictoras) e **y** (variable a predecir)
2. Dividir los datos en entrenamiento y testo con el méodo *train_test_split*
3. Importar e instanciar el modelo que utilizaremos y definir hiperparámetros
4. Entrenar el modelo con el método *fit*
5. Testear el modelo con el método *predict*
6. Ver la performance con una métrica 

In [None]:
# Definimos X e y siendo X las variables predictoras e y la variable a predecir

X=data.drop(columns="edad")
y=data["edad"]

In [None]:
# Importamos train_test_split de la libreria scikit-learn

from sklearn.model_selection import train_test_split 

In [None]:
# Definimos X de entrenamiento y de testeo e y de entrenamiento y testeo

X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=48)

In [None]:
# Revisamos que esté correctamente realizada la operación

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

##### Entrenamiento del modelo

Primero vamos a instanciar el modelo definiendo los hiperárametros por default y entrenaremos el modelo con el método *fit*

In [None]:
# Importamos el modelo que utilizaremos. Regresión lineal

from sklearn.linear_model import LinearRegression

In [None]:
# Definimos un objeto con el modelo importado, en este caso los hiperparametros son por default por lo que el parentesis está vacio

modelo = LinearRegression()


In [None]:
# Realizamos el entrenamiento del modelo con el método fit y los datos de entrenamiento 

modelo.fit(X_train, y_train)

In [None]:
# Observamos los parámetros del modelo entrenado
# Coeficiente (la pendiente de la recta)

modelo.coef_

In [None]:
# Intercepto (el punto de comienzo de la recta en el eje y)

modelo.intercept_

##### Testeo del modelo

Utilizaramos el método *predict* para probar nuestro modelo con los datos de Testeo reservados previamente. Realizaremos la comparación del resultado de la predición de nuestro modelo con los datos conocidos.
Utilizaremos la métrica **r2**

In [None]:
# Probamos nuestro modelo con predict y los datos de test

y_pred = modelo.predict(X_test)

In [None]:
# Importamos una métrica para medir la performance modelo de regresión lineal: R2

from sklearn.metrics import r2_score


In [None]:
# Utilizamos R2 para medir la performance del modelo

r2 = r2_score(y_test, y_pred)
r2

##### Entrenamiento del modelo cambiando el hiperparámetro

Vamos a entrenar un segundo modelo de Regresión Lineal Multiple pero en este caso modificaremos el hiperparámetro *fit_intercept* para comparar los resultados con el modelo entrenado previamente.

In [None]:
# Definimos un objeto con el modelo importado, en este caso los hiperparametros son por default por lo que el parentesis está vacio

modelo_sin_inter = LinearRegression(fit_intercept=False)


In [None]:
# Realizamos el entrenamiento del modelo con el método fit y los datos de entrenamiento 

modelo_sin_inter.fit(X_train, y_train)

In [None]:
# Observamos los parámetros del modelo entrenado
# Coeficiente (la pendiente de la recta)

modelo_sin_inter.coef_

In [None]:
# Intercepto (el punto de comienzo de la recta en el eje y)

modelo_sin_inter.intercept_

##### Testeo del modelo

Utilizaramos el método *predict* para probar nuestro modelo con los datos de Testeo reservados previamente. Realizaremos la comparación del resultado de la predición de nuestro modelo con los datos conocidos.
Utilizaremos la métrica **r2** para poder comparar el resultado con el modelo entrenado anteriormente (sin intercepto)

In [None]:
# Probamos nuestro modelo con predict y los datos de test

y_pred_sin_inter = modelo.predict(X_test)

In [None]:
# Utilizamos R2 para medir la performance del modelo

r2_sin_inter = r2_score(y_test, y_pred_sin_inter)
r2_sin_inter

In [None]:
print("El R2 del modelo con hiperparametros por default: ", round(r2,2))
print("El R2 del modelo con hiperparametros fit_intercept=False: ", round(r2_sin_inter,2))



##### ¿Qué podríamos hacer para mejorar estos resultados?