In [2]:
import pandas as pd # Así importamos Pandas.
# Es normal usar el "as pd" para abreviar.

pokedf_xlsx = pd.read_excel('pokemon_data.xlsx') # Leer archivos de Excel.
pokedf_txt = pd.read_csv('pokemon_data.txt', delimiter='\t') # Leer .txt delimitados por tabuladores.

# Trabajaremos con el archivo .csv.
pokedf = pd.read_csv('pokemon_data.csv', index_col=0) # index_col=0 indica que
# tomaremos la columna 0 del archivo como el índice.

In [3]:
pokedf.head(3) # El método .head() nos permite ver los primeros 5
# renglones del DataFrame por default. Podemos indicar como argumento
# el número de renglones que queremos ver.

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False


In [4]:
# Ahora que ya sabemos cómo funcionan las clases, podemos observar que Pandas
# nos brinda la oportunidad de acceder al DataFrame llamado "pokedf" y a sus
# diferentes atributos.
headers = list(pokedf.columns.values) # En este caso creamos una variable
# llamada headers que contendrá una lista con los atributos ".columns.values"
# de pokedf. Es decir, solo los títulos de las columnas.

print(headers) # Aquí imprimimos esta lista para ver los nombres de las columnas.

# Si queremos acceder exclusivamente a las columnas, por ejemplo, "Name",
# "Type 1" y "Type 2", podemos acceder a ellas por medio de un slice de la
# variable headers de la siguiente forma:
print(pokedf[headers[0:3]])

['Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 'Legendary']
                      Name   Type 1  Type 2
#                                          
1                Bulbasaur    Grass  Poison
2                  Ivysaur    Grass  Poison
3                 Venusaur    Grass  Poison
3    VenusaurMega Venusaur    Grass  Poison
4               Charmander     Fire     NaN
..                     ...      ...     ...
719                Diancie     Rock   Fairy
719    DiancieMega Diancie     Rock   Fairy
720    HoopaHoopa Confined  Psychic   Ghost
720     HoopaHoopa Unbound  Psychic    Dark
721              Volcanion     Fire   Water

[800 rows x 3 columns]


In [5]:
print(pokedf[['Name', 'Defense']]) # O también indicando el nombre de la columna.
# Es importante notar que la sintaxis es
# nombre_del_dataframe[lista_con_los_nombres_de_las_columnas]

                      Name  Defense
#                                  
1                Bulbasaur       49
2                  Ivysaur       63
3                 Venusaur       83
3    VenusaurMega Venusaur      123
4               Charmander       43
..                     ...      ...
719                Diancie      150
719    DiancieMega Diancie      110
720    HoopaHoopa Confined       60
720     HoopaHoopa Unbound       60
721              Volcanion      120

[800 rows x 2 columns]


### iloc

In [6]:
# iloc nos permite acceder a valores del Data Frame mediante índices específicos.
# La sintaxis es: nombre_dataframe.iloc[fila, columna]
print(pokedf.iloc[0,2]) # De esta forma nos devuelve solo el valor de la
# fila 0 y columna 2.

# Pero también podemos acceder a un subset del dataframe.
print(pokedf.iloc[0:4,0:4]) # De esta forma accedemos a las filas del 0 al
# 4 (sin incluir la 4) de las columnas 0 a 4 (sin incluir la 4).

Poison
                    Name Type 1  Type 2  HP
#                                          
1              Bulbasaur  Grass  Poison  45
2                Ivysaur  Grass  Poison  60
3               Venusaur  Grass  Poison  80
3  VenusaurMega Venusaur  Grass  Poison  80


In [7]:
# Otra forma de acceder a los datos es mediante la indicación del nombre de
# la columna y las filas.
print(pokedf['Name'][0:5])

#
1                Bulbasaur
2                  Ivysaur
3                 Venusaur
3    VenusaurMega Venusaur
4               Charmander
Name: Name, dtype: object


In [8]:
print(pokedf.iloc[3]) # Solo accedemos al renglón 4.
# Recordemos que es el 4 porque tiene índice 0.

Name          VenusaurMega Venusaur
Type 1                        Grass
Type 2                       Poison
HP                               80
Attack                          100
Defense                         123
Sp. Atk                         122
Sp. Def                         120
Speed                            80
Generation                        1
Legendary                     False
Name: 3, dtype: object


### loc

In [9]:
pokedf.head(3)

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False


In [10]:
# loc es una manera de acceder al data frame de acuerdo a una condición
# específica. Podemos verlo como un filtrado de datos.

print(pokedf.loc[(pokedf['Type 1'] == 'Fire') & (pokedf['Type 2'] == 'Dragon')])
# En este caso accedemos a los datos del data frame que cumplan que la columna
# "Type 1" sea igual a "Fire" y la columna "Type 2" sea igual a "Dragon".

# Al mostrar el resultado observamos que solo hay un pokémon que cumple estas
# condiciones: CharizardMega Charizard X.

                        Name Type 1  Type 2  HP  Attack  Defense  Sp. Atk   
#                                                                           
6  CharizardMega Charizard X   Fire  Dragon  78     130      111      130  \

   Sp. Def  Speed  Generation  Legendary  
#                                         
6       85    100           1      False  


In [11]:
# Podemos realizar cambios en el data frame.
# Aquí estamos creando una columna llamada "Total Stats" que contiene la suma
# horizontal (por eso axis=1) de los valores en las columnas 4 a 8 para todas
# las filas.
pokedf['Total Stats'] = pokedf.iloc[:,3:9].sum(axis=1)

pokedf.head(3) # Aquí observamos que esta nueva columna se añade hasta el
# final del data frame.


# DATO: podemos realizar copias de los data frames con .copy()
# Bastante útil si queremos evitar hacer chilaquiles con nuestras variables.
#pokedf_copy = pokedf.copy()

Unnamed: 0_level_0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total Stats
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,318
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,405
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,525


In [12]:
# Si quisieramos que esta columna "Total Stats" deje de estar al final
# y la reacomodemos antes de la columna "HP", podemos hacer lo siguiente:

cols = list(pokedf.columns.values) # Creamos una variable con una lista de
# nuestras columnas.

pokedf = pokedf[cols[0:3] + [cols[-1]] + cols[3:11]] # Así reordenamos las
# columnas mediante un rebanado de listas. Es decir, el nuevo pokedf va a ser
# igual a pokedf pero con las columnas reordenadas de forma que primero
# vayan las columnas 0, 1, 2, luego la última columna ("Total Stats"), y después
# las columnas 3 a 10.

pokedf.head(5) # Mostramos para ver los cambios.

Unnamed: 0_level_0,Name,Type 1,Type 2,Total Stats,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [13]:
# Si quisieramos eliminar alguna columna usamos el método .drop
# Drop column  Total stats

#pokedf = pokedf.drop(columns=['Total Stats'])

#pokedf.head(3)

In [14]:
# El método .describe() nos da la oportunidad de ver medidas estadísticas
# básicas de todo el data frame.
pokedf.describe()

Unnamed: 0,Total Stats,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,435.1025,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,119.96304,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,180.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,330.0,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,450.0,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,515.0,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,780.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


In [15]:
# Por ejemplo, podríamos realizar un filtrado con loc para alguna condición y...
new_df = pokedf.loc[(pokedf['Type 1'] == 'Fire') & (pokedf['Total Stats'] > 500)]

In [16]:
new_df.head(3)

Unnamed: 0_level_0,Name,Type 1,Type 2,Total Stats,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False


In [17]:
# Después ver medidas estadísticas de este nuevo set de datos ya filtrado.
new_df.describe()

Unnamed: 0,Total Stats,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,21.0,21.0,21.0,21.0,21.0,21.0,21.0,21.0
mean,564.952381,84.714286,102.47619,83.47619,116.428571,91.761905,86.095238,2.952381
std,48.087916,13.733692,28.333053,16.390909,19.273223,20.583743,21.533473,1.856777
min,505.0,65.0,30.0,60.0,81.0,65.0,20.0,1.0
25%,534.0,76.0,84.0,72.0,104.0,80.0,77.0,1.0
50%,540.0,80.0,104.0,78.0,110.0,85.0,95.0,3.0
75%,600.0,90.0,120.0,90.0,130.0,105.0,100.0,4.0
max,680.0,115.0,160.0,120.0,159.0,154.0,108.0,6.0


In [18]:
# Asi guardamos nuestro data frame a .csv
new_df.to_csv('filtered_pokemon.csv')

In [19]:
# También lo podemos guardar a Excel.
new_df.to_excel('filtered_pokemon.xlsx')

In [21]:
# Metodo de agrupacion y conteo
pokedf.groupby('Type 1')[['Total Stats', 'HP', 'Attack', 'Defense']].mean()

Unnamed: 0_level_0,Total Stats,HP,Attack,Defense
Type 1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bug,378.927536,56.884058,70.971014,70.724638
Dark,445.741935,66.806452,88.387097,70.225806
Dragon,550.53125,83.3125,112.125,86.375
Electric,443.409091,59.795455,69.090909,66.295455
Fairy,413.176471,74.117647,61.529412,65.705882
Fighting,416.444444,69.851852,96.777778,65.925926
Fire,458.076923,69.903846,84.769231,67.769231
Flying,485.0,70.75,78.75,66.25
Ghost,439.5625,64.4375,73.78125,81.1875
Grass,421.142857,67.271429,73.214286,70.8


In [23]:
pokedf.groupby('Type 1')[['Total Stats', 'HP', 'Attack', 'Defense']].mean().sort_values('Total Stats', ascending=False)

Unnamed: 0_level_0,Total Stats,HP,Attack,Defense
Type 1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dragon,550.53125,83.3125,112.125,86.375
Steel,487.703704,65.222222,92.703704,126.37037
Flying,485.0,70.75,78.75,66.25
Psychic,475.947368,70.631579,71.45614,67.684211
Fire,458.076923,69.903846,84.769231,67.769231
Rock,453.75,65.363636,92.863636,100.795455
Dark,445.741935,66.806452,88.387097,70.225806
Electric,443.409091,59.795455,69.090909,66.295455
Ghost,439.5625,64.4375,73.78125,81.1875
Ground,437.5,73.78125,95.75,84.84375
