# Estudio sobre Pokémons

Tenemos una base de datos que recoge todos los pokémons existentes, durante este estudio veremos y analizaremos diferentes hipótesis sobre los 721 pokémons existentes.

> Veremos los tipos de pokémons más habítuales y comunes
- ¿Será el tipo "Normal" el más común?


> Veremos la diferencia de estadísticas entre Pokémon legendarios y no legendarios
- ¿Los Pokémons tienen mejores stats?


> Hipótesis sobre la frecuencia de Pokémon legendarios por generación
- ¿Hay más Pokémons legendarios en las generaciónes más antiguas?



> Hipótesis sobre la influencia de la generación en la estadística total
- ¿Son mejores las generaciones antiguas?


In [1]:
import pandas as pd
import altair as alt

Primero importaremos los datos desde DRIVE

In [2]:
from google.colab import drive
drive.mount('/gdrive')
%cd /gdrive

Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).
/gdrive


In [3]:
ls /gdrive/MyDrive/MDATA

Pokemon.csv


In [4]:
pokemon_df = pd.read_csv('/gdrive/MyDrive/MDATA/Pokemon.csv')


Con los datos localizados e importados ya tenemos el DataFrame guardado y localizado como pokemon_df

# ¿Que tipología de Pokémon es más común?


In [5]:
type_1_recuento = pokemon_df['Type 1'].value_counts().reset_index()
type_1_recuento.columns = ['Tipo', 'Recuento']

chart = alt.Chart(type_1_recuento).mark_bar().encode(
    x='Recuento:Q',
    y=alt.Y('Tipo:N', sort='-x')
)

text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=3,
).encode(
    text='Recuento:Q'
)

chart = (chart + text).properties(
    title='Frecuencia de tipos de Pokémon'
)

chart


Como podemos observar, el tipo más común es el Pokémon tipo AGUA, pero cabe a destacar la poca presencia de pokémons de tipo volador, para asegurarnos de que el DF es correcto revisaremos los siguientes pokémons con VOLADOR como principal Tipo.

In [6]:
pokemon_flying = pokemon_df[pokemon_df['Type 1'] == 'Flying']
print(pokemon_flying.head())

       #                     Name  Type 1  Type 2  Total  HP  Attack  Defense  \
702  641  TornadusIncarnate Forme  Flying     NaN    580  79     115       70   
703  641    TornadusTherian Forme  Flying     NaN    580  79     100       80   
790  714                   Noibat  Flying  Dragon    245  40      30       35   
791  715                  Noivern  Flying  Dragon    535  85      70       80   

     Sp. Atk  Sp. Def  Speed  Generation  Legendary  
702      125       80    111           5       True  
703      110       90    121           5       True  
790       45       40     55           6      False  
791       97       80    123           6      False  


Solo existen (al menos hasta 6º generación) 4 Pokémons coon Volador como su Tipo Princiapl, ahora a continuación sumaremos el Primer y el Segundo tipo para ver el TOTAL de los pokémons y ver realmente cual está más presente.

In [7]:
types = pd.concat([pokemon_df['Type 1'], pokemon_df['Type 2']])
type_counts = types.value_counts().reset_index()
type_counts.columns = ['Tipo', 'Número de Pokémons']

chart = alt.Chart(type_counts).mark_bar().encode(
    x='Número de Pokémons:Q',
    y=alt.Y('Tipo:N', sort='-x')
)

text = chart.mark_text(
    align='left',
    baseline='middle',
    dx=3,
).encode(
    text='Número de Pokémons:Q'
)

chart = (chart + text).properties(
    title='Frecuencia de tipos de Pokémon'
)

chart

Vemos como han aumentado todos los tipos contados, cabiendo a destacar el tipo volador, ya que casi el  95% de todos los pokémons voladores tienen ese Tipo como secundario, no como su principal.

Sigue siendo el tipo Agua el más común, por lo que podemos afirmar que **el tipo agua es el tipo pokémon más común**

Por lo que **la hipótesis es falsa**

# ¿Son mejores los Pokémons legendarios?



In [8]:
columnas = ['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']

legendario_stats = pokemon_df[pokemon_df['Legendary'] == True][columnas].mean()
no_legendario_stats = pokemon_df[pokemon_df['Legendary'] == False][columnas].mean()

legendario_stats_df = legendario_stats.reset_index()
legendario_stats_df.columns = ['Estadísticas', 'Media']
legendario_stats_df['Tipo'] = 'Legendarios'

no_legendario_stats_df = no_legendario_stats.reset_index()
no_legendario_stats_df.columns = ['Estadísticas', 'Media']
no_legendario_stats_df['Tipo'] = 'No Legendarios'

combined_stats = pd.concat([legendario_stats_df, no_legendario_stats_df])

line_chart = alt.Chart(combined_stats).mark_line().encode(
    x='Estadísticas:N',
    y='Media:Q',
    color='Tipo:N'
).properties(
    width=500,
    height=300,
    title='Evolución de medias de estadísticas de Pokémon legendarios y no legendarios'
)

line_chart


Como hemos podido observar, **la hipótesis se ha cumplido**, puesto que todas las estadísticas son mayores en los Legendarios que en los no Legendarios.

Teniendo **especial importancia en los stats de ataque** que son mucho más superiores en los pokémons legendarios.

# ¿Había más lengedarios antes?

A continuación, veremos cuantos legendarios hay por cada generación pokémon para ver si es correcta nuestra hipótesis.

In [9]:
generacion_column = 'Generation'
legendario_column = 'Legendary'

legendario_pokemon = pokemon_df[pokemon_df[legendario_column] == True]

legendario_por_generacion = legendario_pokemon[generacion_column].value_counts().reset_index()
legendario_por_generacion.columns = ['Generacion', 'Número Legendarios']

chart = alt.Chart(legendario_por_generacion).mark_bar().encode(
    x='Generacion:N',
    y='Número Legendarios:Q',
    color='Generacion:N'
).properties(
    width=600,
    height=400,
    title='Número de Pokémon legendarios por generación'
)

chart

Como podemos observar, el número de legendarios aumenta considerablemente de la Segunda a la Tercera Generación, pasando de 3 a 18 pokémons legendarios, un gran salto considerable.

Durante las últimas generaciones hay más legendaros que durante las primeras, por lo que **la hipótesis es errónea**

# ¿Son mejores las generaciones antiguas en cuanto a Estadísticas?

In [10]:
generacion_columna = 'Generation'
total_columna = 'Total'

stats_por_generacion = pokemon_df.groupby(generacion_columna)[total_columna].mean().reset_index()

chart = alt.Chart(stats_por_generacion).mark_bar().encode(
    x=alt.X(generacion_columna + ':N', title='Generación'),
    y=alt.Y(total_columna + ':Q', title='Media de Totales'),
    color=alt.Color(generacion_columna + ':N', title='Generación')
).properties(
    width=600,
    height=400,
    title='Media de Atributos por Generación'
)

chart

Por último, como podemos observar, las medias son muy parecidas en todas las generaciones, no hay ninguna que destaque muchísimo, si una ligera subida en las últimas generqaciones, posiblemente por el aumento de Pokémons Legendarios que tienen más stats.

Por lo que **esta hipótesis tambien es falsa**