

# Organizar datos

Otra de las fases del proceso de data wrangling consiste en dar una estructura a los datos, normálmente esta fase conlleva las siguientes operaciones:

- Establecer índices, renombrar columnas.

- Ordenar valores.

- Eliminar duplicados

- Filtrar información

- Añadir/eliminar registros y/o columnas.

- Editar información

- Modificar la estructura de los datos


## Establecer índices, renombrar columnas





In [2]:
import pandas as pd
import numpy as np
from collections import OrderedDict

In [35]:
# Tomamos como ejemplo de nuevo el dataset de pokemon

pokemon = pd.read_csv('data/pokemon.csv')
pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


En este caso podríamos querer usar el nombre (Name) como índice de la tabla, lo haríamos mediante el método `set_index()`

In [14]:
pokemon.set_index('Name',inplace=True)
pokemon.head()

Unnamed: 0_level_0,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Bulbasaur,Poison,45,49,49,65,65,45,1,False
Ivysaur,Poison,60,62,63,80,80,60,1,False
Venusaur,Poison,80,82,83,100,100,80,1,False
Mega Venusaur,Poison,80,100,123,122,120,80,1,False
Charmander,,39,52,43,60,50,65,1,False


Podemos volver al índice numérico con `reset_index`

In [19]:
pokemon.reset_index(inplace=True)
pokemon.head()

Unnamed: 0,index,Name,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,0,Bulbasaur,Poison,45,49,49,65,65,45,1,False
1,1,Ivysaur,Poison,60,62,63,80,80,60,1,False
2,2,Venusaur,Poison,80,82,83,100,100,80,1,False
3,3,Mega Venusaur,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,,39,52,43,60,50,65,1,False


Para modificar el nombre de las columnas tenemos estas opciones

In [21]:
pokemon.columns

Index(['Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

In [22]:
# Pasar toda la lista de nombres, con la modificación deseada, en este caso cambiar Name a Nombre

pokemon.columns = ['Nombre', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk','Sp. Def', 'Speed', 'Generation', 'Legendary']

print(pokemon.columns)

Index(['Nombre', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')


In [23]:
# Pasar un diccionario con las modificaciones

pokemon.rename(columns= {'Nombre' : 'Name'}, inplace=True)
print(pokemon.columns)

Index(['Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')


In [24]:
pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


El método rename también permite modificar el nombre del índice de un registro, como vemos en el siguiente ejemplo.

In [34]:
# Comprobamos el valor del índice de Ivysaur, que es 1

pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Hola,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [91]:
# Modificamos el nombre del índice 1 a 3

pokemon.rename(index={1:3},inplace=True)
pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
3,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


## Ordernar

Ordenar de forma ascendete/descendente en función de los datos o índices que acabamos de crear, es útil para otras operaciones ya que acelera las búsquedas dentro del dataset



In [36]:
# Establecemos el Name como índice de nuevo de cara a los siguientes ejercicios.
# Vemos que el índice de la tabla(nombre del pokemon) no está ordenado alfabéticamente

pokemon.set_index('Name',inplace=True)
pokemon.head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
Charmander,Fire,,39,52,43,60,50,65,1,False


In [37]:
# Aplicamos una ordenación por índice

pokemon.sort_index(inplace=True)
pokemon.head()


Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Abomasnow,Grass,Ice,90,92,75,92,85,60,4,False
Abra,Psychic,,25,20,15,105,55,90,1,False
Absol,Dark,,65,130,60,75,60,75,3,False
Accelgor,Bug,,80,70,40,100,60,145,5,False
Aegislash Blade Forme,Steel,Ghost,60,150,50,150,50,60,6,False


In [38]:
# Para aplicar el sort en ordern inverso

pokemon.sort_index(ascending=False).head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Zygarde Half Forme,Dragon,Ground,108,100,121,81,95,95,6,True
Zweilous,Dark,Dragon,72,85,70,65,70,58,5,False
Zubat,Poison,Flying,40,45,35,30,40,55,1,False
Zorua,Dark,,40,65,40,80,40,65,5,False
Zoroark,Dark,,60,105,60,120,60,105,5,False


Igualmente podemos ordenar en funcion de los valores de las columnas

In [40]:
# Ordenamos por order ascendente de ataque
# 
pokemon.sort_values('Attack').head()


Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Mega Mewtwo X,Psychic,Fighting,106,190,100,154,100,130,1,True
Mega Heracross,Bug,Fighting,80,185,115,40,105,75,2,False
DeoxysAttack Forme,Psychic,,50,180,20,180,20,150,3,True
Mega Rayquaza,Dragon,Flying,105,180,100,180,100,115,3,True
Primal Groudon,Ground,Fire,100,180,160,150,90,90,3,True


In [41]:
# Para aplicar un sort sobre varias columnas usando distintos tipos de orden sobre cada una de ellas.

pokemon.sort_values(['Attack','Defense'], ascending=[True,False])[0:10]


Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Chansey,Normal,,250,5,5,35,105,50,1,False
Happiny,Normal,,100,5,5,15,65,30,4,False
Shuckle,Bug,Rock,20,10,230,10,230,5,2,False
Magikarp,Water,,20,10,55,15,20,80,1,False
Blissey,Normal,,255,10,10,75,135,55,2,False
Feebas,Water,,20,15,20,10,55,80,3,False
Togepi,Fairy,,35,20,65,40,65,20,2,False
Metapod,Bug,,50,20,55,25,25,30,1,False
Mantyke,Water,Flying,45,20,50,60,120,50,4,False
Marill,Water,Fairy,70,20,50,20,50,40,2,False


## Eliminar duplicados

Todos dataset son susceptibles de tener registros duplicados, total o parcialmente, lo que según cada caso puede tener sentido o no. Veamos como identificarlos y tratarlos. 



In [42]:
# Cargamos de nuevo el dataset

pokemon = pd.read_csv('data/pokemon.csv')

In [52]:
# Mediante duplicated obtenemos si existe algún registro duplicado, a nivel de todos los campos

pokemon.duplicated().any()

False

In [49]:
# Podemos aplicar ese filtro a un número determinado de campos

print('¿Existen pokemons con igual nombre?','\n')
print(pokemon['Name'].duplicated().any(),'\n')
print('¿Existen pokemons de igual Type 1?','\n')
print(pokemon['Type 1'].duplicated().any(),'\n')


¿Existen pokemons con igual nombre?
False
¿Existen pokemons de igual Type 1?
True


In [100]:
pokemon.head(10)

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,Mega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
8,Mega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False
9,Squirtle,Water,,44,48,65,50,64,43,1,False


Para eliminar los registros duplicados usamos `drop_duplicates`, que requiere el parámetro inplace=True para modificar el dataset original.

In [50]:
# En este caso no eliminaríamos ningún registro, ya que acabamos de ver que no hay pokemons iguales

pokemon.drop_duplicates()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...
795,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,Mega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,Hoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,Hoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


In [None]:
pokemon.drop_duplicates()

In [55]:
# Si aplicamos el filtro únicamente a la columna Type 1 si que encontramos duplicados, que eliminaremos,
# quedándonos únicamente con la primera ocurrencia.

pokemon.drop_duplicates(subset=['Type 1'], keep='first')

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
9,Squirtle,Water,,44,48,65,50,64,43,1,False
13,Caterpie,Bug,,45,30,35,20,20,45,1,False
20,Pidgey,Normal,Flying,40,45,40,35,35,56,1,False
28,Ekans,Poison,,35,60,44,40,54,55,1,False
30,Pikachu,Electric,,35,55,40,50,50,90,1,False
32,Sandshrew,Ground,,50,75,85,20,30,40,1,False
40,Clefairy,Fairy,,70,45,48,60,65,35,1,False
61,Mankey,Fighting,,40,80,35,35,45,70,1,False


## Aplicar filtros

Aplicar filtros sobre los datos es muy útil de cara a conocer como se distribuyen nuestros datos y con ello realizar transformaciones sobre los mismos

In [103]:
## Estructura
 
pokemon['Attack'] > 150

0      False
1      False
2      False
3      False
4      False
       ...  
795    False
796     True
797    False
798     True
799    False
Name: Attack, Length: 800, dtype: bool

In [60]:
pokemon_1 = pokemon[pokemon['Attack'] > 150]
pokemon_1.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
137,Mega Pinsir,Bug,Flying,65,155,120,65,90,105,1,False
141,Mega Gyarados,Water,Dark,95,155,109,70,130,81,1,False
163,Mega Mewtwo X,Psychic,Fighting,106,190,100,154,100,130,1,True
232,Mega Heracross,Bug,Fighting,80,185,115,40,105,75,2,False
268,Mega Tyranitar,Rock,Dark,100,164,150,95,120,71,2,False


In [68]:
# Para aplicar un filtro tenemos que establecer una condición sobre los datos

pokemon[pokemon['Attack'] > 150].sort_values('Attack', ascending = False)

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
163,Mega Mewtwo X,Psychic,Fighting,106,190,100,154,100,130,1,True
232,Mega Heracross,Bug,Fighting,80,185,115,40,105,75,2,False
426,Mega Rayquaza,Dragon,Flying,105,180,100,180,100,115,3,True
424,Primal Groudon,Ground,Fire,100,180,160,150,90,90,3,True
429,DeoxysAttack Forme,Psychic,,50,180,20,180,20,150,3,True
711,Kyurem Black Kyurem,Dragon,Ice,125,170,100,120,90,95,5,True
494,Mega Garchomp,Dragon,Ground,108,170,115,120,95,92,4,False
527,Mega Gallade,Psychic,Fighting,68,165,95,65,115,110,4,False
387,Mega Banette,Ghost,,64,165,75,93,83,75,3,False
454,Rampardos,Rock,,97,165,60,65,50,58,4,False


Los operadores lógicos se resumen en esta imagen

<center><img src="https://cdn.educba.com/academy/wp-content/uploads/2019/09/Boolean-Operators-in-Python-1.1.png"></center>


In [72]:
# Se pueden aplicar varios condiciones simultáneamente

pokemon[(pokemon['Attack'] > 110) & (pokemon['Type 1'] == 'Water')]


Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
107,Kingler,Water,,55,130,115,50,50,75,1,False
140,Gyarados,Water,Flying,95,125,79,60,100,81,1,False
141,Mega Gyarados,Water,Dark,95,155,109,70,130,81,1,False
283,Mega Swampert,Water,Ground,100,150,110,95,110,70,3,False
348,Sharpedo,Water,Dark,70,120,40,95,40,95,3,False
349,Mega Sharpedo,Water,Dark,70,140,70,110,65,105,3,False
374,Crawdaunt,Water,Dark,63,120,85,90,55,55,3,False
422,Primal Kyogre,Water,,100,150,90,180,160,90,3,True
541,Palkia,Water,Dragon,90,120,100,150,120,100,4,True


In [76]:
pokemon[(pokemon['Attack'] > 110) & (pokemon['Type 1'] is not (['Water','Grass','Fire']))]

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
7,Mega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
19,Mega Beedrill,Bug,Poison,65,150,40,15,80,145,1,False
74,Machamp,Fighting,,90,130,80,65,85,55,1,False
82,Golem,Rock,Ground,80,120,130,55,65,45,1,False
107,Kingler,Water,,55,130,115,50,50,75,1,False
...,...,...,...,...,...,...,...,...,...,...,...
789,Avalugg,Ice,,95,117,184,44,46,28,6,False
792,Xerneas,Fairy,,126,131,95,131,98,99,6,True
793,Yveltal,Dark,Flying,126,131,95,131,98,99,6,True
796,Mega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True


In [78]:
# Para evitar tener que agrupar varios filtros usamos .isin()
pokemon[(pokemon['Attack'] > 110) & (pokemon['Type 1'].isin(['Grass','Water']))]

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
107,Kingler,Water,,55,130,115,50,50,75,1,False
140,Gyarados,Water,Flying,95,125,79,60,100,81,1,False
141,Mega Gyarados,Water,Dark,95,155,109,70,130,81,1,False
283,Mega Swampert,Water,Ground,100,150,110,95,110,70,3,False
310,Breloom,Grass,Fighting,60,130,80,60,60,70,3,False
348,Sharpedo,Water,Dark,70,120,40,95,40,95,3,False
349,Mega Sharpedo,Water,Dark,70,140,70,110,65,105,3,False
363,Cacturne,Grass,Dark,70,115,60,115,60,55,3,False
374,Crawdaunt,Water,Dark,63,120,85,90,55,55,3,False
422,Primal Kyogre,Water,,100,150,90,180,160,90,3,True


In [86]:
# Tambien es posible usar el método `between`

pokemon[pokemon['Attack'].between(110,150)]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [108]:
pokemon[(pokemon['Attack'] > 110) & (pokemon['Attack'] < 150)]

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
7,Mega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
74,Machamp,Fighting,,90,130,80,65,85,55,1,False
82,Golem,Rock,Ground,80,120,130,55,65,45,1,False
107,Kingler,Water,,55,130,115,50,50,75,1,False
114,Hitmonlee,Fighting,,50,120,53,35,110,87,1,False
...,...,...,...,...,...,...,...,...,...,...,...
743,Pangoro,Fighting,Dark,95,124,78,69,71,58,6,False
767,Tyrantrum,Rock,Dragon,82,121,119,69,59,71,6,False
789,Avalugg,Ice,,95,117,184,44,46,28,6,False
792,Xerneas,Fairy,,126,131,95,131,98,99,6,True


Hasta ahora hemos visto como realizar filtros sobre el contenido, pero si queremos seleccionar por filas es necesario recurrir a los métodos `.iloc[], .loc[], .ix[]` 

Recordamos que .iloc[] realiza la selección de registros por el índice numérico, .loc[] a través de la etiqueta del índice e .ix[] permite el uso tanto de etiquetas como de valores numéricos, sin embargo, no se recomienda su uso ya que se encuentra deprecado desde la versión 0.20.0 de Pandas.

Veamos algunos ejemplos de selección de registros con .iloc[] y .loc[]



In [88]:
pokemon.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [89]:
# Selección de un registro

pokemon.iloc[3]


Name          Mega Venusaur
Type 1                Grass
Type 2               Poison
HP                       80
Attack                  100
Defense                 123
Sp. Atk                 122
Sp. Def                 120
Speed                    80
Generation                1
Legendary             False
Name: 3, dtype: object

In [90]:
# Selección mediante intervalo

pokemon.iloc[3:6]


Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,58,64,58,80,65,80,1,False


In [91]:
# Selección mediante una lista

pokemon.iloc[[3,7,9]]


Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
7,Mega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
9,Squirtle,Water,,44,48,65,50,64,43,1,False


In [103]:
# Selección de un registro y un único campo

pokemon.iloc[[2,3,5,8]]


Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
8,Mega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False


In [114]:
# Selección de varios registros y varios campos

pokemon.iloc[[3,9,18], [1,4,5]]


Unnamed: 0,Type 1,Attack,Defense
3,Grass,100,123
9,Water,48,65
18,Bug,90,40


El método .loc[] se utiliza a través de la etiqueta del índice

In [104]:
pokemon.set_index('Name',inplace=True)
pokemon.head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
Charmander,Fire,,39,52,43,60,50,65,1,False


In [116]:
# Selección de un registro

pokemon.loc['Ivysaur']

Type 1         Grass
Type 2        Poison
HP                60
Attack            62
Defense           63
Sp. Atk           80
Sp. Def           80
Speed             60
Generation         1
Legendary      False
Name: Ivysaur, dtype: object

In [117]:
# Selección de varios registro

pokemon.loc[['Ivysaur','Venusaur','Charmander']]

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
Charmander,Fire,,39,52,43,60,50,65,1,False


In [118]:
# Selección de varios registros y varias columnas

pokemon.loc[['Ivysaur','Venusaur','Charmander'], ['Attack','Defense']]

Unnamed: 0_level_0,Attack,Defense
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Ivysaur,62,63
Venusaur,82,83
Charmander,52,43


## Añadir/eliminar registros y/o columnas

En ocasiones es necesario eliminar registros o columnas que no son necesarios, veamos como hacerlo.



In [119]:
# Borrado de un único registro por etiqueta

print('Número de pokemons','\n')
print(pokemon.shape[0],'\n')
pokemon.drop('Charmander',inplace=True)
print('Número de pokemons trás el borrado','\n')
print(pokemon.shape[0],'\n')

Número de pokemons 

800 

Número de pokemons trás el borrado 

799 



Es posible eliminar una columna entera indicando su nombre y el eje correspondiente (axis=1)

In [120]:
# Eliminamos la columna 'Generation'

pokemon.drop('Generation',axis=1,inplace=True)
pokemon.head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,45,False
Ivysaur,Grass,Poison,60,62,63,80,80,60,False
Venusaur,Grass,Poison,80,82,83,100,100,80,False
Mega Venusaur,Grass,Poison,80,100,123,122,120,80,False
Charmeleon,Fire,,58,64,58,80,65,80,False


El borrado de columnas también es posible realizarlo mediante la built-in función `del` 

In [121]:
del pokemon['Speed']
pokemon.head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,False
Ivysaur,Grass,Poison,60,62,63,80,80,False
Venusaur,Grass,Poison,80,82,83,100,100,False
Mega Venusaur,Grass,Poison,80,100,123,122,120,False
Charmeleon,Fire,,58,64,58,80,65,False


Para agregar una nueva columna haremos una asignación de un contenido a una columna que no exista

In [122]:
# Creamos una nueva columna 'Level'

pokemon['Level'] = pokemon['Attack']*2
pokemon.head()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary,Level
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,False,98
Ivysaur,Grass,Poison,60,62,63,80,80,False,124
Venusaur,Grass,Poison,80,82,83,100,100,False,164
Mega Venusaur,Grass,Poison,80,100,123,122,120,False,200
Charmeleon,Fire,,58,64,58,80,65,False,128


Si queremos añadir algún registro nuevo, tenemos que proporcinar la información para las columnas.

In [124]:
# Creamos la información del nuevo pokemon

data = {'Name': ['Charmander_BLUE'],
        'Type 1': ['Fire'],
        'Type 2': ['Water'],
        'HP': [100]}

new_pokemon = pd.DataFrame(data)

In [125]:
# Añadimos el nuevo registro

pokemon = pokemon.append(new_pokemon)
pokemon[pokemon['Name']=='Charmander_BLUE']

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary,Level
0,Charmander_BLUE,Fire,Water,100,,,,,,


In [126]:
pokemon.tail()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary,Level
795,Mega Diancie,Rock,Fairy,50,160.0,110.0,160.0,110.0,True,320.0
796,Hoopa Confined,Psychic,Ghost,80,110.0,60.0,150.0,130.0,True,220.0
797,Hoopa Unbound,Psychic,Dark,80,160.0,60.0,170.0,130.0,True,320.0
798,Volcanion,Fire,Water,80,110.0,120.0,130.0,90.0,True,220.0
0,Charmander_BLUE,Fire,Water,100,,,,,,


In [82]:
pokemon.drop(0,inplace=True)

In [129]:
pokemon.reset_index(inplace=True)
pokemon.tail()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary,Level
795,Mega Diancie,Rock,Fairy,50,160.0,110.0,160.0,110.0,True,320.0
796,Hoopa Confined,Psychic,Ghost,80,110.0,60.0,150.0,130.0,True,220.0
797,Hoopa Unbound,Psychic,Dark,80,160.0,60.0,170.0,130.0,True,320.0
798,Volcanion,Fire,Water,80,110.0,120.0,130.0,90.0,True,220.0
799,Charmander_BLUE,Fire,Water,100,,,,,,


In [127]:
pokemon.set_index('Name', inplace = True)

In [128]:
pokemon.tail()

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Legendary,Level
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Mega Diancie,Rock,Fairy,50,160.0,110.0,160.0,110.0,True,320.0
Hoopa Confined,Psychic,Ghost,80,110.0,60.0,150.0,130.0,True,220.0
Hoopa Unbound,Psychic,Dark,80,160.0,60.0,170.0,130.0,True,320.0
Volcanion,Fire,Water,80,110.0,120.0,130.0,90.0,True,220.0
Charmander_BLUE,Fire,Water,100,,,,,,


## Editar información





Para editar el contenido del dataframe podemos modificar toda una columna en bloque, usando el método de asignación (=)

In [108]:

pokemon['Hola'] = pokemon['Attack']/pokemon['Defense']
pokemon['Speed'].head()


Name
Bulbasaur        1.000000
Ivysaur          0.984127
Venusaur         0.987952
Mega Venusaur    0.813008
Charmander       1.209302
Name: Speed, dtype: float64

In [112]:
pokemon.drop(['Hola'], axis = 1)

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,1.000000,1,False
Ivysaur,Grass,Poison,60,62,63,80,80,0.984127,1,False
Venusaur,Grass,Poison,80,82,83,100,100,0.987952,1,False
Mega Venusaur,Grass,Poison,80,100,123,122,120,0.813008,1,False
Charmander,Fire,,39,52,43,60,50,1.209302,1,False
...,...,...,...,...,...,...,...,...,...,...
Diancie,Rock,Fairy,50,100,150,100,150,0.666667,6,True
Mega Diancie,Rock,Fairy,50,160,110,160,110,1.454545,6,True
Hoopa Confined,Psychic,Ghost,80,110,60,150,130,1.833333,6,True
Hoopa Unbound,Psychic,Dark,80,160,60,170,130,2.666667,6,True


In [109]:
pokemon

Unnamed: 0_level_0,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Hola
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Bulbasaur,Grass,Poison,45,49,49,65,65,1.000000,1,False,1
Ivysaur,Grass,Poison,60,62,63,80,80,0.984127,1,False,1
Venusaur,Grass,Poison,80,82,83,100,100,0.987952,1,False,1
Mega Venusaur,Grass,Poison,80,100,123,122,120,0.813008,1,False,1
Charmander,Fire,,39,52,43,60,50,1.209302,1,False,1
...,...,...,...,...,...,...,...,...,...,...,...
Diancie,Rock,Fairy,50,100,150,100,150,0.666667,6,True,1
Mega Diancie,Rock,Fairy,50,160,110,160,110,1.454545,6,True,1
Hoopa Confined,Psychic,Ghost,80,110,60,150,130,1.833333,6,True,1
Hoopa Unbound,Psychic,Dark,80,160,60,170,130,2.666667,6,True,1


También podemos editar el contenido de un registro concreto y de alguno o todos sus campos. Para ello nos basamos en los método de selección de registros .iloc/.loc antes explicados.

In [131]:
# Vemos la información del pokemon del índice 10

pokemon.iloc[10]

Name         Blastoise
Type 1           Water
Type 2             NaN
HP                  79
Attack              83
Defense            100
Sp. Atk             85
Sp. Def            105
Legendary        False
Level              166
Speed             0.83
Name: 10, dtype: object

In [132]:
# Modificamos el contenido (campos 0, 1 y 4) del registro 10 asignando nueva información.

pokemon.iloc[10, [0,1,4]] = [100,130,True]

In [133]:
pokemon.iloc[10]

Name           100
Type 1         130
Type 2         NaN
HP              79
Attack        True
Defense        100
Sp. Atk         85
Sp. Def        105
Legendary    False
Level          166
Speed         0.83
Name: 10, dtype: object

## Modificar la estructura de los datos





### Pivot, stack/unstack, melt

Existen varias métodos que nos permiten transformar la estructura de las tablas, haciendo agrupaciones de datos, trasladando índices de columnas a filas y agrupando varias columnas en otras nuevas. Estos son los métodos pivot, stack/unstack y melt.




La función **pivot** se usa para crear una nueva tabla derivada a partir de otra. 

In [143]:
# Creamos un dataframe ejemplo

table = OrderedDict((
    ("Item", ['Item0', 'Item0', 'Item1', 'Item1']),
    ('CType',['Gold', 'Bronze', 'Gold', 'Silver']),
    ('USD',  ['1$', '2$', '3$', '4$']),
    ('EU',   ['1€', '2€', '3€', '4€'])
))
d = pd.DataFrame(table)

In [144]:
d

Unnamed: 0,Item,CType,USD,EU
0,Item0,Gold,1$,1€
1,Item0,Bronze,2$,2€
2,Item1,Gold,3$,3€
3,Item1,Silver,4$,4€


In [136]:
# Creamos la pivot-table
p = d.pivot(index='Item', columns='CType', values='USD')
p

CType,Bronze,Gold,Silver
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item0,2$,1$,
Item1,,3$,4$


Hacer **stack** en un Dataframe significa mover la columna más interna (rotando el dataframe) para convertirla en el índice de fila más interno.

In [137]:
# Generamos un dataframe con varios índices tanto a nivel de columna como de fila
row_idx_arr = list(zip(['r0', 'r0'], ['r-00', 'r-01']))
row_idx = pd.MultiIndex.from_tuples(row_idx_arr)


col_idx_arr = list(zip(['c0', 'c0', 'c1'], ['c-00', 'c-01', 'c-10']))
col_idx = pd.MultiIndex.from_tuples(col_idx_arr)


d = pd.DataFrame(np.arange(6).reshape(2,3), index=row_idx, columns=col_idx)
d = d.applymap(lambda x: (x // 3, x % 3))
d

Unnamed: 0_level_0,Unnamed: 1_level_0,c0,c0,c1
Unnamed: 0_level_1,Unnamed: 1_level_1,c-00,c-01,c-10
r0,r-00,"(0, 0)","(0, 1)","(0, 2)"
r0,r-01,"(1, 0)","(1, 1)","(1, 2)"


In [142]:
row_idx_arr = list(zip(['r0', 'r0'], ['r-00', 'r-01']))
row_idx = pd.MultiIndex.from_tuples(row_idx_arr)
row_idx

MultiIndex([('r0', 'r-00'),
            ('r0', 'r-01')],
           )

In [None]:
# Al hacer stack del DF estamos moviendo la columna más interior hasta el índice de las filas

s = d.stack()
s


In [None]:
# Podemos deshacer la operación mediante unstack

u = d.unstack()
u

Por último tenemos la operación **melt**, que nos permite realizar la agrupación de varias columnas relacionadas en una nueva.

In [None]:
# Creamos un dataframe

data = {'weekday': ["Monday", "Tuesday", "Wednesday", 
         "Thursday", "Friday", "Saturday", "Sunday"],
        'Person 1': [12, 6, 5, 8, 11, 6, 4],
        'Person 2': [10, 6, 11, 5, 8, 9, 12],
        'Person 3': [8, 5, 7, 3, 7, 11, 15]}
df = pd.DataFrame(data, columns=['weekday',
        'Person 1', 'Person 2', 'Person 3'])

In [None]:
df

In [None]:
# Realizamos la agrupación por día de la semana y por la nueva variable persona.

melted = pd.melt(df, id_vars=["weekday"], 
                 var_name="Person", value_name="Score")

In [None]:
melted

# Ejercicios

## Ejercicio 1 

Dado el fichero de datos data/chipotle.tsv

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos
- b. Transforme la columna item_price a float.
- c. Cuantos productos cuestan más de 10$
- d. ¿Cual es la cantidad del producto más caro ordenado?
- e. ¿Cuantas veces los cientes consumen más de una Canned Soda?


##### Solución Ejercicio 1

Cargue el fichero en un dataframe y estudie las estructura de los datos

In [None]:
# Aqui su respuesta



Transforme la columna item_price a float

In [None]:
# Aqui su respuesta

Cuantos productos cuestan más de 10$

In [None]:
# Aqui su respuesta

¿Cual es la cantidad del producto más caro ordenado?

In [None]:
# Aqui su respuesta

¿Cuantas veces los cientes consumen más de una Canned Soda?

In [None]:
# Aqui su respuesta

## Ejercicio 2 

Dado el fichero de datos ../../data/iris.data

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos
- b. Asigne a las columnas los siguientes nombres: sepal_length, sepal_width, petal_length, petal_width y class
- c. Elimine la columna class
- d. Asigne valores nulos a las 3 primeras filas y después elimíne las filas con NaNs
- e. Reinicie el índice de los registros


Cargue el fichero en un dataframe y estudie las estructura de los datos

In [None]:
# Aqui su respuesta

Asigne a las columnas los siguientes nombres: sepal_length, sepal_width, petal_length, petal_width y class

In [None]:
# Aqui su respuesta

Elimine la columna class

In [None]:
# Aqui su respuesta

Asigne valores nulos a las 3 primeras filas y después elimíne las filas con NaNs

In [None]:
# Aqui su respuesta

Reinicie el índice de los registros

In [None]:
# Aqui su respuesta

## Ejercicio 3 

Dado el dataset ../../data/houses_portland.csv

Cargue el fichero en un dataframe y estudie las estructura de los datos.

In [None]:
# Aqui su respuesta

¿Qué datos relevantes de forma descriptiva podría usted encontrar?

In [None]:
## Aquí su respuesta