<a href="https://colab.research.google.com/github/Calm-leon/proyecto-an-lisis-de-datos/blob/main/Pokemon.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fundamentos del Proyecto de Ciencia de Datos: Análisis de Pokémon Legendario.

---------------
## Contexto
---------------

Dentro del Mundo Pokémon, se considera legendario aquel Pokémon generalmente raro, con poderes sobrenaturales y que destacan sobre el resto. La mayoría de estos Pokémon forman parte del proceso de creación del Mundo y han intervenido de una u otra manera en él. Así mismo, suelen ser realmente difíciles de avistar y mucho más todavía de capturar; pues raramente se muestran ante los humanos.  

Hace un tiempo se recolectaron los datos de las estadisticas de los 802 pokemones conocidos en ese entonces.


-----------------
## Objectivo
-----------------

Analizar las habilidades con las que debe contar un Pokémon para que sea considerado legendario. 
Existen pokemones que se comparan a la fuerza de los pokemones legendarios pero ¿Por qué estos no son legendarios?


## P 1: Importación de bibliotecas a usar.

In [8]:
import numpy as np # Crea arreglos de grandes dimensiones y contiene funciones matemátematicas de alto nivel. 
import pandas as pd # Nos facilita la manipulación, tratamiento y análisis de los datos.
import seaborn as sns # Visualización de los datos.
import matplotlib.pyplot as plt # Trazado para graficos en dos dimenciones.
import scipy.stats as stats # Distribuciones estadisticas y .stats se utiliza para analizar la distribución normal.
%matplotlib inline 

## Respuesta 1:

- **NumPy** es una librería esencial para el análisis de datos y el cálculo científico. Hace arreglos manipulables de grandes dimensiones y contiene un gran número de funciones matemátematicas de alto nivel.
Suele importarse con el alias np de la siguiente forma: `import numpy as np`. 

- **Pandas** es la librería más utilizada para el análisis, tratamiento (leer y escribir datos en diferentes formatos) y manipulación de datos, sus estructuras básicas son marcos de datos y series. Se basa en NumPy y generalmente se importa con el alias pd como `import pandas as pd`.

- **Seaborn** es una librería que funciona como una interfaz para Matplotlib y está integrada con pandas. Se utiliza para la visualización de datos con la creación de trazados estadiaticos. Se importa normalmente con el alias sns de la siguiente forma: `import seaborn as sns`. 

- **Matplotlib** es una librería para crear diagramas matemáticos, estadísticos y científicos. La colección matplotlib.pyplot emula la forma de hacer las cosas de Matlab. Se importa con el alias plt como `import matplotlib.pyplot as plt` y el comando `%matplotlib inline` muestra los gráficos dentro del cuaderno Jupyter.

- **Scipy.stats**

In [12]:
#Abrimos la base de datos que nos ha proporcionado el Profesor Oak.
Puchamon =  pd.read_csv("https://raw.githubusercontent.com/Calm-leon/proyecto-an-lisis-de-datos/main/Puchamon.csv")
Puchamon

Unnamed: 0.1,Unnamed: 0,pokedex_number,name,attack,defense,height_m,hp,percentage_male,sp_attack,sp_defense,speed,type,weight_kg,generation,is_legendary
0,0,1,Bulbasaur,49,49,0.7,45,88.1,65,65,45,grass,6.9,1,0
1,1,2,Ivysaur,62,63,1.0,60,88.1,80,80,60,grass,13.0,1,0
2,2,3,Venusaur,100,123,2.0,80,88.1,122,120,80,grass,100.0,1,0
3,3,4,Charmander,52,43,0.6,39,88.1,60,50,65,fire,8.5,1,0
4,4,5,Charmeleon,64,58,1.1,58,88.1,80,65,80,fire,19.0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
797,797,798,Kartana,181,131,0.3,59,,59,31,109,grass,0.1,7,0
798,798,799,Guzzlord,101,53,5.5,223,,97,53,43,dark,888.0,7,1
799,799,800,Necrozma,107,101,2.4,97,,127,89,79,psychic,230.0,7,1
800,800,801,Magearna,95,115,1.0,80,,130,115,65,steel,80.5,7,1


-------------------------
## Diccionaro de Conjunto de Datos segun la pokedex
-------------------------

El conjunto de datos tiene la siguiente información: 

* pokedex_number: El número del pokemon en la enciclopedia "Pokedex".
* name: Nombre del Pokemon.
* attack: Los puntos de vida que quita al dar un ataque.
* defense: Representa los puntos de vida que evita que le quiten al recivir un ataque.
* height_m: Altura del Pokémon(m).
* hp: Puntos de vida
* percentage_male: El porcentage que tiene la probabilidad de que al nacer el pokemon sea masculino.
* sp_attack: Velocidad con la que da un ataque. 
* sp_defense: Velocidad con la que anula los puntos de vida del ataque enemigo.
* speed: Velocidad con la que se mueve en combate. 
* Type: Tipo de Pokémon. 
* weight_kg: Peso del Pokémon (kg). 
* Generation: Cada que hay una gran ola de nuevos pokemones la "Pokedex" es actualizada, la generacion indica en que actualizacion se añade cada pokemon.
* is_legendary: ¿El Pokémon se considera legendario? (bit,0:no y 1:si).

Los datos de "percentage_male","type" y "generation" no nos proporcionaran ningun dato sobre si es un pokemon legendario o no, ya que a los pokemones no los hace legendarios su genero, ni su tipo. Por ultimo los datos de "generation" tan solo nos dan una idea de en que año fueron avistados por primera vez lo cual no es relevante. Así que procederemos a quitarlos de nuestra base de datos.

In [18]:
Puchamon=Puchamon.drop(['percentage_male','type','generation','Unnamed: 0'],axis=1)
Puchamon

Unnamed: 0,pokedex_number,name,attack,defense,hp,is_legendary
0,1,Bulbasaur,49,49,45,0
1,2,Ivysaur,62,63,60,0
2,3,Venusaur,100,123,80,0
3,4,Charmander,52,43,39,0
4,5,Charmeleon,64,58,58,0
...,...,...,...,...,...,...
797,798,Kartana,181,131,59,0
798,799,Guzzlord,101,53,223,1
799,800,Necrozma,107,101,97,1
800,801,Magearna,95,115,80,1


-----------------
## Organicemos nuestra base de datos
-----------------


In [19]:
Puchamon3=Puchamon.drop(['attack','defense','height_m','hp','sp_attack','sp_defense','speed','weight_kg','is_legendary'],axis=1) 
Puchamon = pd.concat([Puchamon3,Puchamon.hp,Puchamon.attack,Puchamon.defense,Puchamon.height_m,Puchamon.weight_kg,Puchamon.speed,Puchamon.sp_attack,Puchamon.sp_defense,Puchamon.is_legendary], axis=1)
Puchamon

KeyError: ignored

Sabemos que entre más alto y pesado un pokemon más lento se movera. Los pokemones legendarios existen de todos los tamaños y pesos así que hay que disminuir la brecha que existe en las estadisticas entre la velocidad de los pokemones pequeños y los pokemones grandes, para esto sumaremos la altura y el peso y dividiremos por diez, lo que llamaremos friccion, los pokemones grandes tendran una alta friccion asi que al sumar friccion con sus velocidades se disminuira la brecha que existe.

In [16]:
Puchamon2=Puchamon.drop(['is_legendary'],axis=1)                             # quitamos la ultima columna para comodidad al unir una nueva columna
Friccion = (Puchamon.height_m + Puchamon.weight_kg)/10                       # hacemos una lista que suma la altura y el peso y lo divide por 10
Friccion = pd.DataFrame(Friccion, columns = ['Friccion'])                    # lo hacemos un dataframe
Puchamon2=pd.concat([Puchamon2,Friccion], axis=1)                            # unimos el nuevo dataframe

# Sumaremos la friccion a las velocidades de cada pokemon. 
sp_attack_D  = (Puchamon2.sp_attack + Puchamon2.Friccion)
sp_defense_D = (Puchamon2.sp_defense +  Puchamon2.Friccion)
speed_D      = (Puchamon2.speed +  Puchamon2.Friccion)                       # hemos sumado las velocidades con lo que llamamos friccion

sp_attack_D  = pd.DataFrame(sp_attack_D, columns = ['sp_attack_D'])
sp_defense_D = pd.DataFrame(sp_defense_D, columns = ['sp_defense_D'])
speed_D      = pd.DataFrame(speed_D, columns = ['speed_D'])                  # los hicimos dataframes

Puchamon2 = pd.concat([Puchamon2,speed_D,sp_attack_D,sp_defense_D], axis=1)  # unimos todo en nuestro dataframe

Puchamon=pd.concat([Puchamon2,Puchamon.is_legendary], axis=1)                # por ultimo unimos la columna que quitamos por comodidad
Puchamon

AttributeError: ignored

Al haber creado columnas a partir de "height_m", "weight_kg", "Friccion", "speed", "sp_attack" y "sp_defense", analizar estas columnas junto a las nuevas sera inútil, puesto que su correlación con las nuevas variables sería alta y no nos aportaría información relevante, así que las descartaremos, pero las dejaremos guardadas por si se necesitamos mas adelante.





In [15]:
Puchamon_Reserva= pd.concat([Puchamon.height_m,Puchamon.weight_kg,Puchamon.speed,Puchamon.sp_attack,Puchamon.sp_defense], axis=1) 
Puchamon=Puchamon.drop(['height_m','sp_attack','sp_defense','speed','weight_kg'],axis=1) 
Puchamon

AttributeError: ignored

---------------
##EL Poder Puchamon
---------------
En nuestro análisis decidimos deducir una nueva variable a la que llamaremos `PoderPuchamon`, es el poder de cada pokemon. lo hallaremos considerando que caracteriastica es más importante que otra, dandole un peso de 1 a 5 a está. La vida, el ataque y la defensa serían las caracteristicas mas importantes en una pelea así que tendran un peso de "5", por otro lado, las velocidades del pokemon no son tan relevantes como lo anterior, pero entre ellas destaca la velocidad general, ya que si el pokemon al moverse es lento su oponente facilmente podra prepararse para el golpe, asi que la velocidad tendra un peso de "4". Por ultimo, tanto la velocidad de ataque y velocidad de defensa son importantes en un lapso muy corto de tiempo, es decir, se tienen en consideración justo en el momento del impacto, entonces debe ocurrir la situacion de dar o recivir un golpe directo lo cual es después de que su velocidad general no haya bastado para esquivar o dar el golpe, luego tendrán un peso menor, este será "3".
La suma de estos pesos nos da como resultado "25" asi que al multiplicar cada estadistica del pokemon por su peso y sumarlas debemos dividir por 25 lo cual sera su poder general.

In [20]:
PoderPuchamon = (Puchamon.hp*5 + Puchamon.attack*5 + Puchamon.defense*5 + Puchamon.speed_D*4 + Puchamon.sp_attack_D*3 + Puchamon.sp_defense_D*3 )/25
PoderPuchamon = pd.DataFrame(PoderPuchamon, columns = ['PoderPuchamon']) #Lo hacemos una lista con los resultado
Puchamon2=Puchamon.drop(['is_legendary'],axis=1)                         #Por comodidad quitamos la ultima columna
Puchamon2=pd.concat([Puchamon2,PoderPuchamon], axis=1)                   #añadimos la columna nueva
Puchamon=pd.concat([Puchamon2,Puchamon.is_legendary], axis=1)            #añadimos la ultima columna
Puchamon


AttributeError: ignored

Por fin hemos llegado a la base de datos que utilizaremos para nuestro análisis, la cual ha tenido varias modificaciones desde la original así que no esta de mas tratar nuevamente nuestras definiciones.

-------------------------
## Diccionaro de Conjunto de Datos
-------------------------

El conjunto de datos tiene la siguiente información: 

* pokedex_number: El número del pokemon en la enciclopedia "Pokedex".
* name: Nombre del Pokemon.
* hp: Puntos de vida.
* attack: Los puntos de vida que quita al dar un ataque.
* defense: Representa los puntos de vida que evita que le quiten al recivir un ataque.
* Fricción: La realentizacion que tiene un pokemon por su altura y peso.
* speed: Velocidad con la que se mueve en combate sin importar su tamaño ni peso. 
* sp_attack_D: Velocidad con la que da un ataque sin importar su tamaño ni peso. 
* sp_defense: Velocidad con la que anula los puntos de vida del ataque enemigo sin importar su tamaño ni peso.
* is_legendary: ¿El Pokémon se considera legendario? (bit,0:no y 1:si).