In [1]:
import pandas as pd

Veremos unos ejemplos simples usando Pandas y un dataset the Pokemon.

## Leer datos

Para leer los datos usaremos la opción <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">pd.read_csv</a> que nos ofrece Pandas para facilitar la lectura de datos, también podemos ver:

* <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">pd.read_csv</a>
* <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html">pd.read_excel</a>
* <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html">pd.read_sql</a>
* <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.json.read_json.html">pd.read_json</a>

Entre otros ...

In [2]:
df_gen1 = pd.read_csv("data/pokemon-gen1-data.csv")
df_gen2 = pd.read_csv("data/pokemon-gen2-data.csv")

In [5]:
type(df_gen2)

pandas.core.frame.DataFrame

Visualizar las primeras filas del nuestro Data Frame para verficar que la lectura se haya realizado correctamente.

<a href=https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html> pd.DataFrame.head </a>

In [7]:
df_gen1.head(3)

Unnamed: 0,Pokemon,Number,Type1,Type2,Ability1,Ability2,Ability3,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Sprite
0,Bulbasaur,1,GRASS,POISON,Overgrow,Chlorophyll,none,45,49,49,65,65,45,https://play.pokemonshowdown.com/sprites/bw/bu...
1,Ivysaur,2,GRASS,POISON,Overgrow,Chlorophyll,none,60,62,63,80,80,60,https://play.pokemonshowdown.com/sprites/bw/iv...
2,Venusaur,3,GRASS,POISON,Overgrow,Chlorophyll,none,80,82,83,100,100,80,https://play.pokemonshowdown.com/sprites/bw/ve...


In [8]:
df_gen2.head(3)

Unnamed: 0,Pokemon,Number,Type1,Type2,Ability1,Ability2,Ability3,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Sprite
0,Chikorita,152,GRASS,none,Overgrow,Leaf Guard,none,45,49,65,49,65,45,https://play.pokemonshowdown.com/sprites/bw/ch...
1,Bayleef,153,GRASS,none,Overgrow,Leaf Guard,none,60,62,80,63,80,60,https://play.pokemonshowdown.com/sprites/bw/ba...
2,Meganium,154,GRASS,none,Overgrow,Leaf Guard,none,80,82,100,83,100,80,https://play.pokemonshowdown.com/sprites/bw/me...


## Unir fuentes de datos

Generalmente tenemos varias fuentes de datos y debemos consolidarlas en una sola tabla.

<a href=https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html >pd.concat </a>

In [9]:
df = pd.concat([df_gen1, df_gen2], keys=["gen1", "gen2"])

In [10]:
df

Unnamed: 0,Unnamed: 1,Pokemon,Number,Type1,Type2,Ability1,Ability2,Ability3,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Sprite
gen1,0,Bulbasaur,1,GRASS,POISON,Overgrow,Chlorophyll,none,45,49,49,65,65,45,https://play.pokemonshowdown.com/sprites/bw/bu...
gen1,1,Ivysaur,2,GRASS,POISON,Overgrow,Chlorophyll,none,60,62,63,80,80,60,https://play.pokemonshowdown.com/sprites/bw/iv...
gen1,2,Venusaur,3,GRASS,POISON,Overgrow,Chlorophyll,none,80,82,83,100,100,80,https://play.pokemonshowdown.com/sprites/bw/ve...
gen1,3,Charmander,4,FIRE,none,Blaze,Solar Power,none,39,52,43,60,50,65,https://play.pokemonshowdown.com/sprites/bw/ch...
gen1,4,Charmeleon,5,FIRE,none,Blaze,Solar Power,none,58,64,58,80,65,80,https://play.pokemonshowdown.com/sprites/bw/ch...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
gen2,95,Pupitar,247,ROCK,GROUND,Shed Skin,none,none,70,84,70,65,70,51,https://play.pokemonshowdown.com/sprites/bw/pu...
gen2,96,Tyranitar,248,ROCK,DARK,Sand Stream,Unnerve,none,100,134,110,95,100,61,https://play.pokemonshowdown.com/sprites/bw/ty...
gen2,97,Lugia,249,PSYCHIC,FLYING,Pressure,Multiscale,none,106,90,130,90,154,110,https://play.pokemonshowdown.com/sprites/bw/lu...
gen2,98,Ho-Oh,250,FIRE,FLYING,Pressure,Regenerator,none,106,130,90,110,154,90,https://play.pokemonshowdown.com/sprites/bw/ho...


Si se desea eliminar estos "Multi Indices" o "indices jerárquicos" procedemos con el comando "reset_index" 

In [11]:
df = df.reset_index(level=0).rename(columns={"level_0": "generation"}).reset_index().drop(columns="index")
df.head(3)

Unnamed: 0,generation,Pokemon,Number,Type1,Type2,Ability1,Ability2,Ability3,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Sprite
0,gen1,Bulbasaur,1,GRASS,POISON,Overgrow,Chlorophyll,none,45,49,49,65,65,45,https://play.pokemonshowdown.com/sprites/bw/bu...
1,gen1,Ivysaur,2,GRASS,POISON,Overgrow,Chlorophyll,none,60,62,63,80,80,60,https://play.pokemonshowdown.com/sprites/bw/iv...
2,gen1,Venusaur,3,GRASS,POISON,Overgrow,Chlorophyll,none,80,82,83,100,100,80,https://play.pokemonshowdown.com/sprites/bw/ve...


## Información general de columnas

Este método nos entrega información muy general de las columnas donde podemos observar:

* Nombre de la columna
* Cantidad de valores nulos
* Tipos de datos

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   generation  251 non-null    object
 1   Pokemon     251 non-null    object
 2    Number     251 non-null    int64 
 3    Type1      251 non-null    object
 4    Type2      251 non-null    object
 5    Ability1   251 non-null    object
 6    Ability2   251 non-null    object
 7    Ability3   251 non-null    object
 8    HP         251 non-null    int64 
 9    Attack     251 non-null    int64 
 10   Defense    251 non-null    int64 
 11   Sp. Atk    251 non-null    int64 
 12   Sp. Def    251 non-null    int64 
 13   Speed      251 non-null    int64 
 14   Sprite     251 non-null    object
dtypes: int64(7), object(8)
memory usage: 29.5+ KB


## Información detallada de columnas

Este método nos entrega información muy general de las columnas donde podemos observar:

* Cantidad
* Promedio
* Desviación estándar
* Valores máximos y mínimos
* Percentiles

In [13]:
df.describe()

Unnamed: 0,Number,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
count,251.0,251.0,251.0,251.0,251.0,251.0,251.0
mean,126.0,66.908367,71.059761,68.808765,66.087649,68.577689,66.015936
std,72.601653,29.794153,27.469117,30.442524,27.373277,27.480556,27.31651
min,1.0,10.0,5.0,5.0,10.0,20.0,5.0
25%,63.5,49.0,50.0,49.5,45.0,50.0,45.0
50%,126.0,65.0,70.0,65.0,65.0,65.0,65.0
75%,188.5,80.0,90.0,85.0,85.0,85.0,85.0
max,251.0,255.0,134.0,230.0,154.0,230.0,150.0


## Operaciones básicas

Encontrar información en las columas relevantes, por ejemplo:

* La velocidad promedio de los Pokemons
* Las ventas totales en un periodo de tiempo
* El máximo de unidades vendidas 

Y miles de ejemplos más ...

In [37]:
df.columns

Index(['generation', 'Pokemon', ' Number', ' Type1', ' Type2', ' Ability1',
       ' Ability2', ' Ability3', ' HP', ' Attack', ' Defense', ' Sp. Atk',
       ' Sp. Def', ' Speed', ' Sprite'],
      dtype='object')

In [38]:
average_speed = df[' Speed'].mean() 

In [39]:
print("la velocidad promedio de un Pokemon es {}".format(average_speed))

la velocidad promedio de un Pokemon es 66.01593625498008


In [40]:
total_attack_points = df[' Attack'].sum()

In [41]:
print("El total de puntos de ataque de todos los pokemons es {}".format(total_attack_points))

El total de puntos de ataque de todos los pokemons es 17836


## Agregaciones

Para nuestros casos de analítica debemos hacer agregaciones para sacar conclusiones relevantes de los datos, para eso usamos la función <a href=https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html> pd.DataFrame.groupby</a> para realizar estos análsis, ejemplo:

* Encontrar las ventas netas por producto, por tienda o por ciudad
* Encontar la cantidad de veces que una persona se registró en el sistema
* Encontrar el promedio de goles por partido de un equipo de fútbol

Y asi miles de ejemplos más...

#### ¿ Cuántos Pokemons hay en cada generación ?

In [20]:
df.groupby("generation").size()

generation
gen1    151
gen2    100
dtype: int64

#### ¿Cuáles son los tipos de Pokemon con mayor velocidad promedio?

In [51]:
df.groupby(" Type1").mean()[" Speed"]

 Type1
BUG         54.545455
DARK        86.200000
DRAGON      66.666667
ELECTRIC    87.000000
FAIRY       35.000000
FIGHTING    63.111111
FIRE        78.800000
GHOST       92.500000
GRASS       55.238095
GROUND      58.181818
ICE         70.000000
NORMAL      66.621622
POISON      63.533333
PSYCHIC     87.333333
ROCK        54.461538
STEEL       50.000000
WATER       63.456522
Name:  Speed, dtype: float64

#### ¿ Cuál tipo de Pokemon tiene más defensa en promedio ?

#### ¿ Cual tipo de habilidad tiene mejor Defensa promedio 'Overgrow', 'Sand Stream' o 'Natural Cure' ?