# Pasos para realizar un proyecto de Machine Learning: Caso **Pokemon**

Realizar un proyecto de Machine Learning consiste en llevar a cabo seis etapas consecutivas:

1.  Definición del problema que se ha de resolver

2.  Adquisición de los datos de aprendizaje y de las pruebas

3.  Preparar y limpiar los datos

4.  Analizar, explorar los datos

5.  Elegir un modelo de aprendizaje

6.  Ver los resultados y ajustar o modificar el modelo de aprendizaje

La fase de preparación de los datos es la más importante en un proyecto de Machine Learning porque como humanos tenemos que intentar encontrar los datos más interesantes que nos permitirán responder al problema propuesto.

Es mucho más que hacer un sencillo análisis de datos, hay que determinar cómo podemos resolver manualmente el problema a partir de la información de la que disponemos y antes de dárselo a la máquina.

De esta manera, el mismo conjunto de datos se puede utilizar de distintas maneras en función del problema planteado.

# Datos para un aprendizaje supervisado

1. **Datos basados en la experiencia:**

Machine Learning se basa en el uso de datos para permitir que nuestro ordenador aprenda y pueda hacer predicciones. Estos datos deben estar relacionados con la misión que se nos ha confiado y basados en la experiencia.

En nuestro caso, la experiencia consiste en conocer los resultados de los combates de los Pokémon.

2. **Disponer de una gran cantidad de datos de aprendizaje:**

Una máquina no puede aprender con un conjunto de datos pequeño porque debe poder estudiar todas las posibilidades para hacer sus predicciones. Por lo tanto, cuanto mayor sea la cantidad de casos estudiados para resolver un problema, más precisas serán las predicciones.

3. **Datos de aprendizaje y datos de pruebas:**

Al igual que los humanos, hay que validar el aprendizaje de la máquina para poder corregir las desviaciones de aprendizaje (llamadas sesgo) y ajustar o modificar el modelo de dicho aprendizaje. Para eso necesitamos datos de aprendizaje y datos de pruebas.



## **Primera etapa**: definir el problema que hay que resolver

En este caso, la problemática a la que tenemos que responder consiste en recomendar al domador de los Pokémon el animal que debe utilizar en un combate para ganar.


## **Segunda etapa**: adquirir datos de aprendizaje y de pruebas

Los archivos que hemos descargado y copiado en nuestro proyecto contienen los datos necesarios para la resolución de nuestro problema.

El archivo Pokedex.csv contiene la lista de los Pokémon y de sus características. El archivo Combates.csv es nuestra base de conocimiento y de aprendizaje porque contiene una lista de combates de los Pokémon y el resultado de todos ellos. Por último, el archivo tests.csv nos permitirá validar el modelo de aprendizaje.

Con la ayuda del módulo OS que nos permite utilizar las funcionalidades de nuestro sistema operativo, podemos hacer una lista de los archivos contenidos dentro del directorio datas de nuestro proyecto, como se muestra en el programa que aparece aquí debajo:

In [20]:
# IMPORTAR LOS MODULOS
#------------------------------------------
import os #Uso del módulo OS (operating system, sistema operativo)

#Uso del módulo Pandas
import pandas as pnd

#Desactivación de la cantidad máxima de columnas del DataFrame a mostrar
pnd.set_option('display.max_columns',None)

Si ejecutamos ahora nuestro siguiente script, nos dará como resultado una lista exhaustiva de los archivos de los que disponemos:

In [21]:
#------------------------------------------
# ANALISIS DE LOS DATOS
#------------------------------------------

#Recuperación de los archivos cotenidos en el directorio datas
#de nuestro proyecto
listaDeArchivos = os.listdir("datas")

#¿Cuál es el nombre de cada archivo?
for archivo in listaDeArchivos:
    print(archivo)


combates.csv
dataset.csv
nuevoPokedex.csv
pokedex.csv
pokedex_en.csv
pokedex_es.csv
pokedex_fr.csv
tests.csv


## **Tercera etapa:** preparación de los datos

En esta tercera etapa vamos a hacer una lectura en profundidad de nuestros datos para comprender su función y los impactos que pueden tener en el objetivo de predicción que nos hemos fijado. Por decirlo de algún modo, vamos a intentar resolver el problema «manualmente» formulando hipótesis y probando a seleccionar los datos que responderán a ellas.

El estudio de los datos pasa principalmente por su descripción (nombre, tipo…), así como por diversos procesos de tratamiento, como la limpieza (eliminación de los datos inútiles y búsqueda de datos que faltan) y finalmente la combinación entre ellos, también llamada agregación de datos. Todo ello con el fin de disponer de un conjunto de conocimientos (observaciones) útiles y apropiadas para el aprendizaje y para alcanzar nuestro objetivo.

In [22]:
#Carga de los datos de los Pokémon en un Dataframe llamado nuestrosPokemon
nuestrosPokemon = pnd.read_csv("datas/pokedex.csv")

#Visualización de las columnas del Dataframe
print(nuestrosPokemon.columns.values)

#Visualización de las 10 primeras líneas del DataFrame
print(nuestrosPokemon.head(10))

#Transformación de la columna LEGENDARIO en entero 0= FAlSO y 1=VERDADERO
nuestrosPokemon['LEGENDARIO'] = (nuestrosPokemon['LEGENDARIO']=='VERDADERO').astype(int)
print(nuestrosPokemon['LEGENDARIO'].head(800))

['NUMERO' 'NOMBRE' 'TIPO_1' 'TIPO_2' 'PUNTOS_DE_VIDA' 'PUNTOS_ATAQUE'
 'PUNTOS_DEFENSA' 'PUNTOS_ATAQUE_ESPECIAL' 'PUNTO_DEFENSA_ESPECIAL'
 'PUNTOS_VELOCIDAD' 'NOMBRE_GENERATIONS' 'LEGENDARIO']
   NUMERO            NOMBRE  TIPO_1   TIPO_2  PUNTOS_DE_VIDA  PUNTOS_ATAQUE  \
0       1         Bulbasaur  Planta   Veneno              45             49   
1       2           Ivysaur  Planta   Veneno              60             62   
2       3          Venusaur  Planta   Veneno              80             82   
3       4     Mega Venusaur  Planta   Veneno              80            100   
4       5        Charmander   Fuego      NaN              39             52   
5       6        Charmeleon   Fuego      NaN              58             64   
6       7         Charizard   Fuego  Volador              78             84   
7       8  Mega Charizard X   Fuego   Dragon              78            130   
8       9  Mega Charizard Y   Fuego  Volador              78            104   
9      10        

Ahora que los datos están almacenados dentro de un **Dataframe**, es importante conocer los textos de las columnas para tener una idea de los datos de los que disponemos y de su semántica:

In [23]:
#Recuento de la cantidad de observaciones y características
print (nuestrosPokemon.shape)

#Información de nuestro conjunto de datos
print (nuestrosPokemon.info())

(800, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   NUMERO                  800 non-null    int64 
 1   NOMBRE                  800 non-null    object
 2   TIPO_1                  800 non-null    object
 3   TIPO_2                  413 non-null    object
 4   PUNTOS_DE_VIDA          800 non-null    int64 
 5   PUNTOS_ATAQUE           800 non-null    int64 
 6   PUNTOS_DEFENSA          800 non-null    int64 
 7   PUNTOS_ATAQUE_ESPECIAL  800 non-null    int64 
 8   PUNTO_DEFENSA_ESPECIAL  800 non-null    int64 
 9   PUNTOS_VELOCIDAD        800 non-null    int64 
 10  NOMBRE_GENERATIONS      800 non-null    int64 
 11  LEGENDARIO              800 non-null    int32 
dtypes: int32(1), int64(8), object(3)
memory usage: 72.0+ KB
None


#### Al leer este resultado podemos afirmar:

*    Que disponemos de 800 observaciones (800 entradas).

*    Que disponemos de 12 características.

*    Que faltan 387 Tipo_2 (413 elementos de los 800 elementos esperados).

Como complemento a esta información se observa que se ha especificado el tipo de los distintos datos. Así, los datos digitales se han especificado mediante la indicación int64 (int significa entero). Los otros son datos de tipo Object que pueden tomar la forma de cadena de caracteres (como es el caso de las características NOMBRE, TIPO_1 y TIPO_2).

## ¿Cuáles son las características de categorización?
Las características denominadas de categorización permiten clasificar los datos en los distintos grupos con ayuda de características comunes.
Las características que pueden ayudarnos a categorizar o a clasificar nuestros Pokémon en grupos distintos son:

*	TIPO_1 (categoria)
*	TIPO_2 (categoria)
*	LEGENDARIO (categoria)
*	GENERACION (ordinal, debido a que es una cifra)



## ¿Qué datos son de tipo digital?

En el tratamiento de los datos, resulta difícil apoyarse en datos no digitales. Por lo tanto, es importante conocer los datos digitales que podrán ser la base de nuestros análisis.

Observando los diez primeros datos, podemos afirmar que los datos digitales son:

*    NUMERO
*    PUNTO_DE_VIDA
*    NIVEL_ATAQUE
*    NIVEL_DEFENSA
*    NIVEL_ATAQUE_ESPECIAL
*    NIVEL_DEFENSA_ESPECIAL
*    VELOCIDAD

Además, los datos digitales se pueden clasificar en dos tipos: los datos **digitales discretos** y los datos **digitales continuos**.

Un dato digital discreto es un dato que tiene un valor contable y numerable (la cantidad de patas de un Pokémon…).

Un dato digital continuo es un dato que tiene una cantidad infinita de valores que forman un conjunto continuo. Por ejemplo, el tiempo de un combate de Pokémon puede estar comprendido entre 1 y 60 minutos y puede tomar el valor de 1 minuto y 30 segundos, 3 minutos y 34 segundos… La altura y el peso de un Pokémon también son datos digitales continuos, porque un Pokémon puede pesar 10,5 kg, 10,6 kg, 12 kg…

En nuestro conjunto de observación, los datos digitales de los que disponemos son del tipo digital discreto.

## Analsis del dataset de los **combates** de Pokemon.

Acabamos de analizar las observaciones relativas a los Pokémon. Ahora debemos concentrarnos en las de los combates, listadas en el archivo combates.csv, procediendo con el mismo método de análisis:

1. Carga del archivo
2. Visualización de las características
3. Visualización de las diez primeras observaciones
4. Clasificación de las características: dato de categoría, digital continuo o digital discreto
5. Recuento de la cantidad de observaciones y búsqueda de posibles datos ausentes



In [49]:
#Carga de los datos de los combates
combates = pnd.read_csv("datas/combates.csv")

#Visualización de las columnas del Dataframe
print(combates.columns.values)

#Visualización de las 10 primeras líneas del Dataframe
print(combates.head(10))

#Recuento de la cantidad de líneas y de columnas
print (combates.shape)

#Información de nuestro conjunto de datos
print (combates.info())

['Primer_Pokemon' 'Segundo_Pokemon' 'Pokemon_Ganador']
   Primer_Pokemon  Segundo_Pokemon  Pokemon_Ganador
0             266              298              298
1             702              701              701
2             191              668              668
3             237              683              683
4             151              231              151
5             657              752              657
6             192              134              134
7              73              545              545
8             220              763              763
9             302               31               31
(50000, 3)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   Primer_Pokemon   50000 non-null  int64
 1   Segundo_Pokemon  50000 non-null  int64
 2   Pokemon_Ganador  50000 non-null  int64
dtypes: int64(3)
memory usage: 1.1

#### Aquí podemos ver el resultado de este análisis:

*    El conjunto de datos contiene 50 000 observaciones y 3 características.

*    Las características son «Primer_Pokemon», «Segundo_Pokemon» y «Pokemon_Ganador».

*    La característica «Pokemon_Ganador» contiene el número del Pokémon ganador del combate.

*    Todas las características son de tipo digital.

*    No falta ninguna información.



In [65]:
#Añadir las victorias en primera y segunda posición
nVecesPrimeraPosicion = combates.groupby('Primer_Pokemon').count()
print(nVecesPrimeraPosicion)

                Segundo_Pokemon  Pokemon_Ganador
Primer_Pokemon                                  
1                            70               70
2                            55               55
3                            68               68
4                            62               62
5                            50               50
...                         ...              ...
796                          49               49
797                          64               64
798                          60               60
799                          75               75
800                          61               61

[784 rows x 2 columns]


La primera vez que se lee, esta tabla es difícil de comprender y parece poco coherente.

En efecto, esperábamos obtener una primera columna con el título «NUMERO» luego otra columna «CANTIDAD_DE_VECES_EN_PRIMERA_ POSICION». Pero este no es el caso.

La primera columna es nuestro criterio de reagrupación, es decir, la característica «PRIMER_POKEMON». Los datos corresponden al **número de Pokémon**.

Cuando se hace una reagrupación con la función groupBy(), todas las características del conjunto de datos toman el valor de esta reagrupación. Por eso las características SEGUNDO_POKEMON y POKEMON_GANADOR tienen el **mismo valor**.

Si queremos dar más sentido al resultado, podríamos hacerlo cambiando el nombre de las columnas, donde la segunda y la tercera columnas tendrán el mismo título:

In [72]:
nVecesPrimeraPosicionNew=nVecesPrimeraPosicion.copy()
nVecesPrimeraPosicionNew.rename(columns={'Primer_Pokemon':'Numero_del_pokemon','Segundo_Pokemon':'n_veces_en_primera_pos','Pokemon_Ganador':'n_veces_en_primera_pos'}, inplace=True)
print(nVecesPrimeraPosicionNew)

                n_veces_en_primera_pos  n_veces_en_primera_pos
Primer_Pokemon                                                
1                                   70                      70
2                                   55                      55
3                                   68                      68
4                                   62                      62
5                                   50                      50
...                                ...                     ...
796                                 49                      49
797                                 64                      64
798                                 60                      60
799                                 75                      75
800                                 61                      61

[784 rows x 2 columns]


Ahora procedemos de la misma manera para conocer la cantidad de veces que cada Pokémon ha combatido en segunda posición.

In [71]:
nVecesSegundaPosicion = combates.groupby('Segundo_Pokemon').count()
print(nVecesSegundaPosicion)


                 Primer_Pokemon  Pokemon_Ganador
Segundo_Pokemon                                 
1                            63               63
2                            66               66
3                            64               64
4                            63               63
5                            62               62
...                         ...              ...
796                          56               56
797                          67               67
798                          59               59
799                          69               69
800                          60               60

[784 rows x 2 columns]


Después hacemos la suma de los dos cálculos para saber la cantidad total de combates.

En este caso tampoco hay que tener en cuenta los nombres de las columnas mostradas en la respuesta. La primera corresponde al número de Pokémon y la segunda a la cantidad de combates realizados.

In [70]:

cantidadTotalDeVictorias = nVecesPrimeraPosicion + nVecesSegundaPosicion
print(cantidadTotalDeVictorias)


                Pokemon_Ganador  Primer_Pokemon  Segundo_Pokemon
Primer_Pokemon                                                  
1                           133             NaN              NaN
2                           121             NaN              NaN
3                           132             NaN              NaN
4                           125             NaN              NaN
5                           112             NaN              NaN
...                         ...             ...              ...
796                         105             NaN              NaN
797                         131             NaN              NaN
798                         119             NaN              NaN
799                         144             NaN              NaN
800                         121             NaN              NaN

[784 rows x 3 columns]


### Cantidad de combates ganados

Ahora pasamos a la cantidad de combates ganados por cada Pokémon. Conocer esta información nos permitirá saber si algunos Pokémon no han ganado nunca combates, lo que nos servirá para considerar desde este momento que no hay que utilizarlos durante un combate:

In [69]:

cantidadDeVictorias = combates.groupby('Pokemon_Ganador').count()
print(cantidadDeVictorias)

                 Primer_Pokemon  Segundo_Pokemon
Pokemon_Ganador                                 
1                            37               37
2                            46               46
3                            89               89
4                            70               70
5                            55               55
...                         ...              ...
796                          39               39
797                         116              116
798                          60               60
799                          89               89
800                          75               75

[783 rows x 2 columns]


### Agregación de datos con Pokédex

Ahora ha llegado el momento de agregar nuestros datos con Pokédex. Esta agregación va a permitirnos tener una vista centralizada de los datos y efectuar un análisis más profundo.

En una primera fase vamos a crear una lista que contenga:

* Los números de los Pokémon.
* La cantidad de combates realizados.
* La cantidad de combates ganados.
* El porcentaje de victorias en relación con la cantidad de combates realizados.



In [78]:
#Se crea una lista a partir de una extracción para obtener la lista de los Pokémon, que se ordenan por número
#Esta lista de números nos permitirá hacer la agregación de los datos
listaAAgregar = combates.groupby('Pokemon_Ganador').count()
listaAAgregar.sort_index()

#se remueve la columna de los Pokémon
listaAAgregar = listaAAgregar.drop(['Primer_Pokemon','Segundo_Pokemon'], axis=1)

#Se añade la cantidad de combates en primera posición
listaAAgregar['N_COMBATES_PRIMERA_POSICION'] = nVecesPrimeraPosicion.Pokemon_Ganador

#Se añade la cantidad de combates en segunda posición
listaAAgregar['N_COMBATES_SEGUNDA_POSICION'] = nVecesSegundaPosicion.Pokemon_Ganador

#Se añade la cantidad de combates
listaAAgregar['N_COMBATES'] = nVecesPrimeraPosicion.Pokemon_Ganador + nVecesSegundaPosicion.Pokemon_Ganador

#Se añade la cantidad de victorias
listaAAgregar['N_VICTORIAS'] = cantidadDeVictorias.Primer_Pokemon

#Se calcula el porcentaje de victorias
listaAAgregar['PORCENTAJE_DE_VICTORIAS']= cantidadDeVictorias.Primer_Pokemon/(nVecesPrimeraPosicion.Pokemon_Ganador + nVecesSegundaPosicion.Pokemon_Ganador)

#Se muestra la lista nueva
print(listaAAgregar)


                 N_COMBATES_PRIMERA_POSICION  N_COMBATES_SEGUNDA_POSICION  \
Pokemon_Ganador                                                             
1                                         70                           63   
2                                         55                           66   
3                                         68                           64   
4                                         62                           63   
5                                         50                           62   
...                                      ...                          ...   
796                                       49                           56   
797                                       64                           67   
798                                       60                           59   
799                                       75                           69   
800                                       61                           60   

In [79]:

#Creación de un Pokedex nuevo que contiene los nombres de los Pokemon y su victoria
nuevoPokedex = nuestrosPokemon.merge(listaAAgregar, left_on='NUMERO', right_index = True, how='left')

print(nuevoPokedex)

nuevoPokedex.to_csv('datas/nuevoPokedex.csv', index=False)



     NUMERO           NOMBRE    TIPO_1     TIPO_2  PUNTOS_DE_VIDA  \
0         1        Bulbasaur    Planta     Veneno              45   
1         2          Ivysaur    Planta     Veneno              60   
2         3         Venusaur    Planta     Veneno              80   
3         4    Mega Venusaur    Planta     Veneno              80   
4         5       Charmander     Fuego        NaN              39   
..      ...              ...       ...        ...             ...   
795     796          Diancie      Roca       Hada              50   
796     797     Mega Diancie      Roca       Hada              50   
797     798  Hoopa contenido  Psiquico   Fantasma              80   
798     799   Hoopa desatado  Psiquico  Siniestro              80   
799     800        Volcanion     Fuego       Agua              80   

     PUNTOS_ATAQUE  PUNTOS_DEFENSA  PUNTOS_ATAQUE_ESPECIAL  \
0               49              49                      65   
1               62              63             