In [2]:
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

#Establecemos ajustes en los parametros (cantidad max de columnas y filas) para poder visualizar correctamente las tablas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Introducción - Abstract

En el presente trabajo, se analizarán datos de pokémons utilizando gráficos Matplotlib y Seaborn. También se utilizo Pandas para la manipulación de dichos datos. En la base de datos se encuentra información respecto a pokémons, desde su nombre, altura, peso y tipo; hasta su nivel de ataque, de defensa, velocidad, entre otros.


**Definición de objetivo:** El universo pokémon se ha ido ampliando consecutivamente. La introducción de nuevos mapas en los videojuegos exigió la incorporación de nuevas especies pokémon. 

En este trabajo se pretende determinar a partir de los datos, patrones generales y medidas "tipicas" dentro del universo pokémon. Ya que en cada generación se introducen nuevas especies al universo pokémon, un conocimiento mas a fondo de dicho universo permitiría diseñar nuevos pokémons que no resulten incoherentes con el universo ya desarrollado.

Este trabajo responde al pedido de visualizaciones y parámetros numericos que den pautas basicas de como debería ser la nueva generación para evitar que las nuevas especies contrasten de forma irreal con las generaciones anteriores, rompiendo la suspension de incredulidad por parte del auditorio. 

Se parte de un archivo CSV (almacenado en la carpeta 'csv') que contiene detalles sobre cada pokémon, como nombre, tipo (principal y secundario, en caso de tenerlo), peso, altura, generación en que fue introducido, entre otros.

Se propone dar respuesta a las preguntas expuestas en el siguiente apartado, a partir del tratamiento de los datos proporcionados. Este analisis, asi como las respuestas a dichas preguntas, se acompañaran con visualizaciones y serán respaldadas por valores numericos con sus correspondientes interpretaciones. Se realizarán las siguientes tareas con los datos:

1- Leer, transformar y preparar datos para su visualización
2- Realizar análisis y construir visualizaciones de los datos para identificar patrones en el conjunto de datos.
3- Intentar dar una respuesta fundamentada (si es posible) a las siguientes cuestiones (o grupos de preguntas):

* ¿Cuantos pokémons fueron introducidos por generación?¿Cuantos pokémons nuevos podrían ser introducidos de forma coherente? 
* ¿Existe algun tipo/combinacion de tipos en el cual resulte conveniente/necesario enfocarse?¿Por que motivo?
* ¿Respecto del peso y la altura, hay alguna tendencia general?¿Podemos establecer un limite que nos permita diferenciar entre "tipicos" y "atipicos"?¿Cual es su distribución numérica?¿Guarda alguna relación con si son "legendarios" o no?
* ¿Cuantos pokémon legendarios suelen ser introducidos por generación?

# Exploracion de los datos

Comenzamos cargando el dataset

In [13]:
#Cargamos el dataset
dataset = pd.read_csv('csv/pokemon.csv')

#Cambiamos el orden de algunas columnas para mayor legibilidad, llevandolas al comienzo
first_column = dataset.pop('name') 
dataset.insert(0, 'name', first_column)

second_column = dataset.pop('type1') 
dataset.insert(1, 'type1', second_column)

third_column = dataset.pop('type2') 
dataset.insert(2, 'type2', third_column)

fourth_column = dataset.pop('height_m') 
dataset.insert(3, 'height_m', fourth_column)

fifth_column = dataset.pop('weight_kg') 
dataset.insert(4, 'weight_kg', fifth_column)

sixth_column = dataset.pop('generation') 
dataset.insert(5, 'generation', sixth_column)

seventh_column = dataset.pop('is_legendary') 
dataset.insert(6, 'is_legendary', seventh_column)

valor1 = dataset.pop('attack') 
dataset.insert(8, 'attack', valor1)

valor2 = dataset.pop('defense') 
dataset.insert(9, 'defense', valor2)

valor3 = dataset.pop('hp') 
dataset.insert(10, 'hp', valor3)

valor4 = dataset.pop('speed') 
dataset.insert(11, 'speed', valor4)

valor5 = dataset.pop('sp_attack') 
dataset.insert(12, 'sp_attack', valor5)

valor6 = dataset.pop('sp_defense') 
dataset.insert(13, 'sp_defense', valor6)

rate1 = dataset.pop('capture_rate') 
dataset.insert(14, 'capture_rate', rate1)

rate2 = dataset.pop('experience_growth') 
dataset.insert(15, 'experience_growth', rate2)

rate3 = dataset.pop('percentage_male') 
dataset.insert(16, 'percentage_male', rate3)

rate4 = dataset.pop('classfication') 
dataset.insert(17, 'classfication', rate4)


#Establecemos la columna "pokedex_number" como indice
dataset.set_index('pokedex_number', inplace = True)

Realizamos una primera lectura rapida

In [55]:
#Cargamos las primeras entradas
dataset.head()

Unnamed: 0_level_0,name,type1,type2,height_m,weight_kg,generation,is_legendary,abilities,attack,defense,hp,speed,sp_attack,sp_defense,capture_rate,experience_growth,percentage_male,classfication,against_bug,against_dark,against_dragon,against_electric,against_fairy,against_fight,against_fire,against_flying,against_ghost,against_grass,against_ground,against_ice,against_normal,against_poison,against_psychic,against_rock,against_steel,against_water,japanese_name
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1
1,Bulbasaur,grass,poison,0.7,6.9,1,0,"['Overgrow', 'Chlorophyll']",49,49,45,45,65,65,45,1059860,88.1,Seed Pokémon,1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,0.25,1.0,2.0,1.0,1.0,2.0,1.0,1.0,0.5,Fushigidaneフシギダネ
2,Ivysaur,grass,poison,1.0,13.0,1,0,"['Overgrow', 'Chlorophyll']",62,63,60,60,80,80,45,1059860,88.1,Seed Pokémon,1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,0.25,1.0,2.0,1.0,1.0,2.0,1.0,1.0,0.5,Fushigisouフシギソウ
3,Venusaur,grass,poison,2.0,100.0,1,0,"['Overgrow', 'Chlorophyll']",100,123,80,80,122,120,45,1059860,88.1,Seed Pokémon,1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,1.0,0.25,1.0,2.0,1.0,1.0,2.0,1.0,1.0,0.5,Fushigibanaフシギバナ
4,Charmander,fire,,0.6,8.5,1,0,"['Blaze', 'Solar Power']",52,43,39,65,60,50,45,1059860,88.1,Lizard Pokémon,0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,0.5,2.0,0.5,1.0,1.0,1.0,2.0,0.5,2.0,Hitokageヒトカゲ
5,Charmeleon,fire,,1.1,19.0,1,0,"['Blaze', 'Solar Power']",64,58,58,80,80,65,45,1059860,88.1,Flame Pokémon,0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,1.0,0.5,2.0,0.5,1.0,1.0,1.0,2.0,0.5,2.0,Lizardoリザード


In [17]:
#Procedemos a eliminar columnas innecesarias. Las siguientes tres lineas de codigo 
#se comentaron para evitar ejecutarlas por error, puesto que las columnas eliminadas
#no existen, por ende no pueden vovler a ser eliminadas.

# dataset.pop('base_total')
# dataset.pop('base_happiness')
# dataset.pop('base_egg_steps')

Revisamos que columnas tienen valores nulos, para identificar si es una anomalia o si se deben a un motivo legitimo

In [56]:
dataset.isnull().sum()

name                   0
type1                  0
type2                384
height_m               0
weight_kg              0
generation             0
is_legendary           0
abilities              0
attack                 0
defense                0
hp                     0
speed                  0
sp_attack              0
sp_defense             0
capture_rate           0
experience_growth      0
percentage_male       98
classfication          0
against_bug            0
against_dark           0
against_dragon         0
against_electric       0
against_fairy          0
against_fight          0
against_fire           0
against_flying         0
against_ghost          0
against_grass          0
against_ground         0
against_ice            0
against_normal         0
against_poison         0
against_psychic        0
against_rock           0
against_steel          0
against_water          0
japanese_name          0
dtype: int64

#### Tipo 2

Observamos que 384 pokemons no poseen informacion en la columna "type 2". Dado que no es necesario que un pokemon tenga un tipo secundario, podemos asumir que la informacion es correcta.

Respecto a los valores nulos, en las columnas "height_m" y "weight_kg", deberiamos revisar si dichas entradas se corresponden con pokemones que efectivamente carecen de dicha informacion (por ser, por ejemplo, de tipo fantasma)

#### Genero y Genero especial 

Hay casos especiales, como Nidorina o Tsareena, las cuales pertenecen a una especie cuyos individuos todos son hembras. Tambien existen especies pokemon cuyos individuos son en su totalidad machos, mientras que otros, como Magnemite, directamente carecen de genero.

Entendemos que esto explica la cantidad de entradas vacias en la columna "percentage_male". Sin embargo, se evidencia tambien una carencia del dataset, pues mientras que los pokemon de genero especial macho estan identificados, siendo aquellos cuyo valor en la columna mencionada es de 100, no hay forma de discriminar entre especies pokemon cuyos individuos son solo hembras de aquellas en las cuales sus individuos carecen de genero.

## Manipulacion de datos

Para una mejor manipulación, reemplazamos los valores nulos de la columna "percentage_male" por la cadena de texto "fem/nongen special". Reemplazaremos también el valor "100" por la cadena "male special", para asi evitar resultados sesgados en el analisis estadistico.

In [5]:
dataset.percentage_male.fillna('fem/nongen special', inplace=True)
dataset.percentage_male.replace(100,'male special', inplace=True)
dataset.type2.fillna('non', inplace=True)