# Proyecto

En este modulo vamos a hacer un proyecto entero de aprendizaje supervisado, pasando por todos los pasos del mismo, los cuales son:

* Definición del problema.
* Búsqueda de datos. 
* Análisis exploratorio y limpieza.
* Separación de entrenamiento y validación.
* Entrenamiento.
* Prueba.
* Presentación de resultados. 

## Definición del problema

Todo proyecto de aprendizaje automático parte de una pregunta que se quiere responder, en este caso la pregunta es:

**¿Cuál será la fuerza de combate máxima en el nivel 40 un Pokemon dadas determinadas caracerísticas?**

## Búsqueda de datos

El dataset que se utilizará es de Pokemon, donde describe las características de cada Pokemon (resistencia, ataque, defensa, salud, peso, altura, etc.) de acuerdo a las mismas se puede predecir la fuerza de combate máxima en el nivel 40 que va a alcanzar.

Esta basado en el dataset descargable en [Kaggle](https://www.kaggle.com/datasets/netzuel/pokmon-go-dataset-15-generations) pero tiene realizadas algunas modificaciones por lo que debe ser tomado desde el archivo csv descargado desde la plataforma. 


In [2]:
import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

In [3]:
data = pd.read_csv('pokemon.csv')
data.head()

Unnamed: 0,nombre,indice_guia,resistencia,ataque,defensa,tipo_primario,tipo_secundario,max_salud,tasa_captura,tasa_escape,Weight,Height,Legendario,generacion,fuerza_combate
0,Bulbasaur,1,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,Ivysaur,2,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,Venusaur,3,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,Charmander,4,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,Charmeleon,5,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [6]:
# queremos tirar las columnas que asumimos que no tiene sentido que afecten a la capacidad de combate que es lo que queremos predecir
data.drop(columns=['nombre','indice_guia'], inplace=True)
data.head()

Unnamed: 0,resistencia,ataque,defensa,tipo_primario,tipo_secundario,max_salud,tasa_captura,tasa_escape,Weight,Height,Legendario,generacion,fuerza_combate
0,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [8]:
nombres = {'tipo_primario' : 'primario', 'tipo_secundario' : 'secundario', 'Weight' : 'peso', 'Height' : 'altura', 'Legendario' : 'legendario'}
data.rename(columns = nombres, inplace=True)
data.head()

Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
0,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [10]:
# Vemos cuantos datos faltan.
data.isna().sum()

resistencia       5
ataque            5
defensa           5
primario          5
secundario        5
max_salud         5
tasa_captura      5
tasa_escape       5
peso              0
altura            4
legendario        1
generacion        0
fuerza_combate    0
dtype: int64

In [13]:
# vamos a inspeccionar los datos que no estan
mascara = data['ataque'].isna()
data[mascara]
data.dropna(thresh=6, inplace=True)

In [14]:
data.isna().sum()

resistencia       0
ataque            0
defensa           0
primario          0
secundario        0
max_salud         0
tasa_captura      0
tasa_escape       0
peso              0
altura            4
legendario        1
generacion        0
fuerza_combate    0
dtype: int64

In [20]:
mascara = data['altura'].isna()
promedio = data[~mascara]['altura'].mean()
data.loc[mascara, 'altura'] = promedio
data[mascara]


Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
123,163.0,223.0,151.0,Ice,Psychic,140.0,0.3,0.09,40.6,1.143141,No,1,2555
128,85.0,29.0,85.0,Water,,79.0,0.7,0.15,10.0,1.143141,No,1,274
352,127.0,138.0,65.0,Ghost,,112.0,0.4,0.1,2.3,1.143141,No,3,1018
435,149.0,43.0,154.0,Steel,Psychic,129.0,0.5,0.1,60.5,1.143141,No,4,603


In [26]:
data.isna().sum()
mascara = data['legendario'].isna()
data[mascara]
# Vamos ver que es mas probable que un pokemon sea legendario o no?
data['legendario'].value_counts()
data.loc[mascara,'legendario'] = 'No'

In [27]:
data.isna().sum()

resistencia       0
ataque            0
defensa           0
primario          0
secundario        0
max_salud         0
tasa_captura      0
tasa_escape       0
peso              0
altura            0
legendario        0
generacion        0
fuerza_combate    0
dtype: int64

In [32]:
data.head()


Unnamed: 0,resistencia,ataque,defensa,primario,secundario,max_salud,tasa_captura,tasa_escape,peso,altura,legendario,generacion,fuerza_combate
0,128.0,118.0,111.0,Grass,Poison,113.0,0.2,0.1,6.9,0.7,No,1,1115
1,155.0,151.0,143.0,Grass,Poison,134.0,0.1,0.07,13.0,1.0,No,1,1699
2,190.0,198.0,189.0,Grass,Poison,162.0,0.05,0.05,100.0,2.0,No,1,2720
3,118.0,116.0,93.0,Fire,,105.0,0.2,0.1,8.5,0.6,No,1,980
4,151.0,158.0,126.0,Fire,,131.0,0.1,0.07,19.0,1.1,No,1,1653


In [35]:
data = pd.get_dummies(data, drop_first = True)
data.head()

Unnamed: 0,resistencia,ataque,defensa,max_salud,tasa_captura,tasa_escape,peso,altura,generacion,fuerza_combate,...,secundario_Grass,secundario_Ground,secundario_Ice,secundario_None,secundario_Poison,secundario_Psychic,secundario_Rock,secundario_Steel,secundario_Water,legendario_Sí
0,128.0,118.0,111.0,113.0,0.2,0.1,6.9,0.7,1,1115,...,0,0,0,0,1,0,0,0,0,0
1,155.0,151.0,143.0,134.0,0.1,0.07,13.0,1.0,1,1699,...,0,0,0,0,1,0,0,0,0,0
2,190.0,198.0,189.0,162.0,0.05,0.05,100.0,2.0,1,2720,...,0,0,0,0,1,0,0,0,0,0
3,118.0,116.0,93.0,105.0,0.2,0.1,8.5,0.6,1,980,...,0,0,0,1,0,0,0,0,0,0
4,151.0,158.0,126.0,131.0,0.1,0.07,19.0,1.1,1,1653,...,0,0,0,1,0,0,0,0,0,0


Ahora si tenemos los datos listos para que un modelo aprenda!


In [37]:
y = data['fuerza_combate']
X = data.drop(columns = 'fuerza_combate')

In [40]:
from sklearn.model_selection import train_test_split 

In [63]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=55)


In [64]:
# importamos el modelo que vamos a usar
from sklearn.linear_model import LinearRegression

In [65]:
modelo = LinearRegression()
modelo.fit(X_train,y_train)

# Vemos que coeficientes dio

print (modelo.coef_)

[  13.06262613   10.89975233    5.00863306  -11.85371315   17.7299623
 -114.9951413     0.69206508  -22.70299018    4.02677417  -76.74211032
   15.89584271  -27.71896568   78.40412883  -38.64278804  -21.59523989
 -129.05814633 -116.47185711  -22.46875636   13.18903027  -41.62005945
   -7.47349932    2.77532997  -59.11603239 -103.66681802  -92.67984209
  -15.56565799    6.15868263   45.5543053    62.79661443  127.26816859
  101.70234132  102.82015266   87.53715617   33.85120618  115.91473418
   94.48669547   53.09933728   81.31456682   84.77320416  125.03290971
    2.79144988   22.90168159  125.39927816  205.00683318]


In [66]:
print (X_test.iloc[0])
print (y_test.iloc[0])
modelo.predict([X_test.iloc[0]])

resistencia            155.00
ataque                 169.00
defensa                115.00
max_salud              134.00
tasa_captura             0.10
tasa_escape              0.07
peso                    13.00
altura                   0.60
generacion               5.00
primario_Dark            0.00
primario_Dragon          0.00
primario_Electric        0.00
primario_Fairy           0.00
primario_Fighting        0.00
primario_Fire            0.00
primario_Flying          0.00
primario_Ghost           1.00
primario_Grass           0.00
primario_Ground          0.00
primario_Ice             0.00
primario_Normal          0.00
primario_Poison          0.00
primario_Psychic         0.00
primario_Rock            0.00
primario_Steel           0.00
primario_Water           0.00
secundario_Dark          0.00
secundario_Dragon        0.00
secundario_Electric      0.00
secundario_Fairy         0.00
secundario_Fighting      0.00
secundario_Fire          1.00
secundario_Flying        0.00
secundario

  "X does not have valid feature names, but"


array([1728.86405161])

In [69]:
from sklearn.metrics import r2_score

y_pred = modelo.predict(X_test)

In [70]:
y_test

607    1708
239    1323
130    2641
553    1442
329    2661
       ... 
196    2137
70     2431
451    2453
572    2242
564    2621
Name: fuerza_combate, Length: 161, dtype: int64

In [71]:
y_pred

array([1728.86405161, 1396.65181343, 2568.47199394, 1568.75674429,
       2593.49680446,  806.99683731, 1810.24794137, 1143.23788175,
       2731.70833017, 2567.3584927 , 2790.09527424, 1138.73593007,
        365.98848876,  280.72177591, 1283.63681874, 1697.43720466,
       3311.0836844 , 1422.17757846,  986.73849913,  883.43163053,
       2663.81600358, 2865.06253794,  967.41167909, 2237.20449163,
       2537.20700656,  592.14528148, 1454.25020187, 1193.30191367,
       2048.996672  , 1261.4723886 , 2752.61179001, 1114.19042355,
       2330.90992957, 2175.81193783, 2363.52038349, 2271.79355181,
       3284.80368464, 3142.70903087, 2230.28356622,  959.55535359,
       2842.62715587,  868.46946218, 3094.81005912, 2435.74964947,
        908.9335386 , 1211.41812043, 2336.89314237,  546.44497062,
       1030.34104812, 1681.03012953,  799.67547586, 2734.10943493,
        950.84507016,  886.63758432, 2319.45209872,  365.02459331,
       1239.53843282,  507.83749892,  897.58128037,  917.91283

In [72]:
r2_score(y_test,y_pred)

0.9838444602837418