# Proyecto

En este modulo vamos a hacer un proyecto entero de aprendizaje supervisado, pasando por todos los pasos del mismo, los cuales son:

* Definición del problema.
* Búsqueda de datos. 
* Análisis exploratorio y limpieza.
* Separación de entrenamiento y validación.
* Entrenamiento.
* Prueba.
* Presentación de resultados. 

## Definición del problema

Todo proyecto de aprendizaje automático parte de una pregunta que se quiere responder, en este caso la pregunta es:

**¿Cuál será la fuerza de combate máxima en el nivel 40 un Pokemon dadas determinadas caracerísticas?**

## Búsqueda de datos

El dataset que se utilizará es de Pokemon, donde describe las características de cada Pokemon (resistencia, ataque, defensa, salud, peso, altura, etc.) de acuerdo a las mismas se puede predecir la fuerza de combate máxima en el nivel 40 que va a alcanzar.

Esta basado en el dataset descargable en [Kaggle](https://www.kaggle.com/datasets/netzuel/pokmon-go-dataset-15-generations) pero tiene realizadas algunas modificaciones por lo que debe ser tomado desde el archivo csv descargado desde la plataforma. 


## Hipótesis

En primer lugar es necesario elaborar una **hipótesis** de qué variables consideran que pueden ser relevantes para predecir la fuerza de combate máxima que va a alcanzar un Pokemon en el nivel 40.





## Exploración del dataset

Realizaremos la primer exploración y limpieza del dataset. 
La variable a predecir es *fuerza_combate*.  


Debemos: 
- Ver los primeros tres registros

- Ver el tamaño del dataset

- Ver los tipos de datos de cada columna

- Ver las columnas que toma y escribir una pequeña descripción de cada una:

    - nombre:

    - indice_guia:
    
    - resistencia:
    
    - ataque:
    
    - defensa:
    
    - tipo_primario:
    
    - tipo_secundario:
    
    - max_salud:
    
    - tasa_captura:
    
    - tasa_escape:
    
    - Weight:
    
    - Height:
    
    - legendario
    
    - generacion:
    
    - fuerza_combate:

- Renombrar las columnas *Weight* (peso) y *Height* (altura) para que esten en español

- Usar el métdoo *describe()* para ver las variables numéricas

- Usar el método *corr()* para ver la correlación entre las variables

- De la variable a predecir **fuerza_combate** ver los valores máximo, mínimo y promedio y hacer un gráfico *displot* para ver la distribución

- De la variable **resistencia** ver los valores máximo, mínimo y promedio y hacer un gráfico *displot* para ver la distribución

- De la variable **tipo_primario** ver los valores que toma y cuántos registros de cada uno y hacer un gráfico *countplot* para visualizarlo

- De la variable **legendario** ver los valores que toma y cuántos registros de cada uno y hacer un gráfico *countplot* para visualizarlo

- Luego de realizar la exploración, pensar que variables no serían necesarias en un modelo y eliminarlas
   

In [39]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

In [40]:
data = pd.read_csv("/content/pokemon.csv")
data.head()

Unnamed: 0,nombre,indice_guia,resistencia,ataque,defensa,tipo_primario,tipo_secundario,max_salud,tasa_captura,tasa_escape,Weight,Height,Legendario,generacion,fuerza_combate
0,Bulbasaur,1,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,Ivysaur,2,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,Venusaur,3,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,Charmander,4,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,Charmeleon,5,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


### Limpieza de datos - nulos

- Revisar si el dataset tiene datos nulos y cuántos por columnas

- En cada caso definir si se debe **imputar**, **eliminar** o **marcar** los datos nulos de acuerdo a los criterios vistos en clase. Se pueden reemplazar valores con datos específicos o con una lista creada de manera aleatoria, usar métodos de pandas como *fillna* o *dropna*

In [41]:
print (data.shape)
display (data.isna().sum())
display (data.describe())

(649, 15)


nombre             0
indice_guia        0
resistencia        5
ataque             5
defensa            5
tipo_primario      5
tipo_secundario    5
max_salud          5
tasa_captura       5
tasa_escape        5
Weight             0
Height             4
Legendario         1
generacion         0
fuerza_combate     0
dtype: int64

Unnamed: 0,indice_guia,resistencia,ataque,defensa,max_salud,tasa_captura,tasa_escape,Weight,Height,generacion,fuerza_combate
count,649.0,644.0,644.0,644.0,644.0,644.0,644.0,649.0,645.0,649.0,649.0
mean,325.0,168.700311,161.083851,140.324534,144.714286,0.243137,0.083789,57.493374,1.150589,3.052388,1918.006163
std,187.494444,45.648859,56.703088,49.09215,36.012643,0.173944,0.055595,90.558634,1.039428,1.49496,901.85603
min,1.0,1.0,17.0,32.0,12.0,0.0,0.0,0.1,0.1,1.0,274.0
25%,163.0,137.0,118.0,99.0,120.0,0.1,0.06,10.1,0.6,2.0,1144.0
50%,325.0,163.0,159.0,136.5,140.0,0.2,0.07,29.0,1.0,3.0,1859.0
75%,487.0,190.0,204.25,174.0,162.0,0.3,0.1,61.0,1.4,4.0,2564.0
max,649.0,496.0,345.0,396.0,403.0,1.0,0.99,950.0,14.5,5.0,4431.0


In [42]:
data.drop(columns=['indice_guia','nombre'], inplace=True)
dict_nombres = {'tipo_primario':'primario','tipo_secundario':'secundario','Weight':'peso','Height':'altura','Legendario':'legendario'}
data.rename(columns = dict_nombres, inplace=True)
data.head()


Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
0,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [43]:
mascara = data['ataque'].isna()
data[mascara]
data.dropna(thresh=6,inplace=True)
data.isna().sum()
mascara = data['altura'].isna()
data[mascara]
data[~mascara]
promedio = data.loc[~mascara,'altura'].mean()
print (promedio)
data.loc[mascara,'altura'] = promedio
data[mascara]


1.143140625


Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
123,163.0,223.0,151.0,Ice,Psychic,140.0,0.3,0.09,40.6,1.143141,No,1,2555
128,85.0,29.0,85.0,Water,,79.0,0.7,0.15,10.0,1.143141,No,1,274
352,127.0,138.0,65.0,Ghost,,112.0,0.4,0.1,2.3,1.143141,No,3,1018
435,149.0,43.0,154.0,Steel,Psychic,129.0,0.5,0.1,60.5,1.143141,No,4,603


In [44]:
data.isna().sum()
display (data['legendario'].value_counts())
data.loc[data['legendario'].isna(),'legendario'] = 'No'
data.isna().sum()

No    605
Sí     38
Name: legendario, dtype: int64

resistencia       0
ataque            0
defensa           0
primario          0
secundario        0
max_salud         0
tasa_captura      0
tasa_escape       0
peso              0
altura            0
legendario        0
generacion        0
fuerza_combate    0
dtype: int64

In [45]:
data.head()

Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
0,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [47]:
data = pd.get_dummies(data, drop_first = True)

### Variables categóricas y numéricas

- Revisar los tipos de datos que tiene cada columna del dataset
- En el caso que haya variables categóricas convertirlas en numéricas: en el caso que sean variables categróricas nominales deben ser convertidas en variables dummies, para esto pueden reemplazarse valores con *apply* y *lambda*, creando una función propia o utilizando el método de pandas *get_dummies*.

### División de datos de entrenamiento y testeo

Completar los espacios _______ con el código que corresponda

In [48]:
# Definir X e y siendo X las variables predictoras e y la variable a predecir

X = data.drop(columns="fuerza_combate")
y = data["fuerza_combate"]

In [49]:
# importamos train_test_split de la libreria scikit-learn

from sklearn.model_selection import train_test_split 

In [50]:
# Definimos X de entrenamiento y de testeo e y de entrenamiento y testeo

X_train, X_test, y_train, y_test = train_test_split(X, y)


In [51]:
# Revisamos que esté correctamente realizada la operación

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(483, 44)
(483,)
(161, 44)
(161,)


### Entrenamiento del modelo


Completar los espacios _______ con el código que corresponda

In [52]:
# Importamos el modelo que utilizaremos. Regresión lineal

from sklearn.linear_model import LinearRegression

In [53]:
# Definimos un objeto con el modelo importado, en este caso los hiperparametros son por default por lo que el parentesis está vacio

modelo_rl = LinearRegression()


In [54]:
# Realizamos el entrenamiento del modelo con el método fit y los datos de entrenamiento 

modelo_rl.fit(X_train, y_train)

LinearRegression()

In [55]:
# Observamos los parámetros del modelo entrenado
# Coeficiente (la pendiente de la recta)

modelo_rl.coef_


array([   0.82511962,   11.11492491,    5.05513805,    3.86958742,
         21.1606841 ,  429.96285167,    0.58922637,  -15.38900452,
          4.97150867,  -57.57374228,   11.32557746,  -20.99476533,
         96.58885346,  -19.2379409 ,  -16.18804102,  -89.06853534,
       -102.74591891,   14.14340488,    6.88241914,  -36.83097321,
          3.59298225,   29.78501435,  -31.0004054 , -118.03885009,
        -76.76929892,    9.94060509,  -61.32192751,   84.08383183,
         68.78721483,   58.73784574,   67.40311262,  118.53937691,
         74.10417538,  -45.27090754,   93.24420616,   72.60320347,
         10.45810084,   50.65645805,   49.65854946,   87.22931217,
         -3.89112289,   23.22759442,  113.58563575,  187.72795632])

In [56]:
# Intercepto (el punto de comienzo de la recta en el eje y)

modelo_rl.intercept_

-1407.8031605372612

### Testeo del modelo


Completar los espacios _______ con el código que corresponda

In [57]:
# Probar nuestro modelo con predict y los datos de test

y_pred = modelo_rl.predict(X_test)

In [58]:
# Importar la métrica que se utiliza para medir la performance modelo de regresión lineal: R2

from sklearn.metrics import r2_score


In [59]:
# Utilizar R2 para medir la performance del modelo

r2_score(y_test,y_pred)


0.9749843360950122