## Pandas (Hierarchical Indexing)

Las Series y DataFrames están orientados principalmente a datos uni y bidimensionales.  

A menudo es útil ir un poco más allá y trabajar con más dimensiones. Para ello Pandas dispone de unos objetos específicos, como son  Panel u Panel4D para manejar datasets de 3 y 4 dimensiones respectivamente. 

Aún así, un patrón común para tratar con más de dos dimensiones es a través del uso de índices jerárquicos, también conocido como Multi-Indexing, que permite incorporar varios niveles en el índice. De esta forma, datos con varias dimensiones pueden ser representados a través de los familiares Series y DataFrames.


In [3]:
import numpy as np
import pandas as pd 

In [4]:
pd.__version__ #versión de pandas

'0.23.4'

### Data Selection in Series

Una Serie es, en cierto modo, un Numpy array unidimensional y en otro, un Dictionary. Teniendo en mente estas analogías, nos ayudará a entender los patrones para indexar y seleccionar en estos arrays


In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

In [4]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [5]:
data['a'] # accedemos a través del nombre del índice (key)

0.25

#### Series as a dictionary

Podemos utilizar métodos y expresiones de diccionarios para acceder 
a los valores e índices, y modificar los datos como si fuera un 
diccionario

In [6]:
data.keys() # las keys son el índice (objeto indice)


Index(['a', 'b', 'c', 'd'], dtype='object')

In [7]:
list(data.items()) # los items del diccionario (index-value)

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [8]:
data['a'] = 2 # modificamos el valor

In [9]:
data

a    2.00
b    0.50
c    0.75
d    1.00
dtype: float64

#### Series as generalized Numpy Array

El objeto Serie puede parecer un array unidimensional de Numpy, donde básicamente, la diferencia consiste en la presencia de un índice. Mientras que en Numpy el índice para acceder a los valores es implícito, en las Series este tiene un índice explícito asociado a los valores

Este índice da al objeto Serie capacidades adicionales al array de Numpy.

In [10]:
# el índice no tiene por qué ser un número entero
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

In [11]:
data['a']

0.25

In [12]:
data[1]

0.5

#### Series as one-dimensional array

Una serie permite realizar una serie de operaciones de selección del mismo modo que NUmpy arrays

* Slicing by explicit index
* Slicing by implicit index
* Masking
* Fancy Indexing

In [13]:
# Slicing by explicit index (final index is included)
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [14]:
# Slicing by implicit index (final index is not included)
data[:2]

a    0.25
b    0.50
dtype: float64

In [15]:
# Masking
data[data > 0.25]

b    0.50
c    0.75
d    1.00
dtype: float64

In [16]:
# Fancy Indexing
data[['a', 'b']]

a    0.25
b    0.50
dtype: float64

#### Indexers: loc, iloc, ix

Las convenciones anteriores de slicing and indexing pueden llevar a confusión, sobre todo si el valor de los índices son enteros, ya que al hacer mención al indice explicito puede confundir con el implicito

Para evitar este tipo de confusiones, pandas proporciona una serie de atributos especiales de indexación


* loc  -> hace referencia al índice explícito
* iloc -> hace referencia al índice implícito
* ix   -> (obsoleto)

Las guías de buenas prácticas recomiendan el uso de índices explícitos


In [17]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[1,2,3,4])

In [18]:
data[1] # aquí sería el explícito pero parece implícito

0.25

In [19]:
data.loc[1] # explicito

0.25

In [20]:
data.iloc[1] # implicito

0.5

In [21]:
data.loc[1:3] # explicito (incluye el final)

1    0.25
2    0.50
3    0.75
dtype: float64

In [22]:
data.iloc[1:3] # implícito (no incluye el final)

2    0.50
3    0.75
dtype: float64

### Data Selection in DataFrame

Una DataFrame es, en cierto modo, un Numpy array bi-dimensional y en otro, un Dictionary de Series. Teniendo en mente estas analogías, nos ayudará a entender los patrones para indexar y seleccionar en estas estructuras

In [23]:
population_dict = {'California':383,
                  'Texas':264,
                  'Florida':196,
                  'New York':195}

In [24]:
population = pd.Series(population_dict)

In [25]:
# creamos un diccionario con las áreas de los estados anteriores
area_dict = {'California':213213,
                  'Texas':43434,
                  'Florida':165656,
                  'New York':1943425}

In [26]:
# creamos una serie a partir del diccionario
area = pd.Series(area_dict)

In [27]:
# creamos un dataframe a partir de las dos series anteriores
# población y área ( un diccionario de series)
states = pd.DataFrame({'population':population, 'area':area})

In [28]:
states

Unnamed: 0,population,area
California,383,213213
Texas,264,43434
Florida,196,165656
New York,195,1943425


#### DataFrame as a dictionary

Podemos utilizar métodos y expresiones de diccionarios para acceder 
a los valores e índices, y modificar los datos como si fuera un 
diccionario. 

Accedemos a las columnas, que son Series individuales como si fuera un diccionario

In [29]:
states['population']

California    383
Texas         264
Florida       196
New York      195
Name: population, dtype: int64

In [30]:
states['area']

California     213213
Texas           43434
Florida        165656
New York      1943425
Name: area, dtype: int64

In [31]:
states['area']['Texas']

43434

In [32]:
states['area'].values # valores

array([ 213213,   43434,  165656, 1943425])

In [33]:
states['area'].items #items

<bound method Series.iteritems of California     213213
Texas           43434
Florida        165656
New York      1943425
Name: area, dtype: int64>

In [34]:
states['area'].keys() #indices


Index(['California', 'Texas', 'Florida', 'New York'], dtype='object')

Podemos usar el nombre de las series (columnas) como atributos, pero NO es recomendable porque pueden coincidir con nombres de métodos propios del objeto, o el nombre de las columnas puede dar problemas

In [35]:
states.area  # igual a states['area']

California     213213
Texas           43434
Florida        165656
New York      1943425
Name: area, dtype: int64

#### DataFrame as a bi-dimensional array

Podemos tratar el DataFrame como un array bidimensional, y como tal
realizar algunas de las operaciones típicas de un numpy array 


In [36]:
states.values #devuelve un array con los valores


array([[    383,  213213],
       [    264,   43434],
       [    196,  165656],
       [    195, 1943425]])

In [37]:
st = states.values

In [38]:
type(st)  # es un numpy array en toda regla

numpy.ndarray

In [39]:
states.values[0] # podemos acceder a los valores de una fila

array([   383, 213213])

In [40]:
states.values[0,1]  # podemos acceder a un valor concreto

213213

In [41]:
states.values[:,0]

array([383, 264, 196, 195])

In [42]:
states

Unnamed: 0,population,area
California,383,213213
Texas,264,43434
Florida,196,165656
New York,195,1943425


In [43]:
states.T #podemos generar la transpuesta (pivotar la tabla)

Unnamed: 0,California,Texas,Florida,New York
population,383,264,196,195
area,213213,43434,165656,1943425


In [44]:
states

Unnamed: 0,population,area
California,383,213213
Texas,264,43434
Florida,196,165656
New York,195,1943425


#### Indexers: loc, iloc, ix

Al igual que para las Series se puede hacer uso de los indexadores

* loc  -> hace referencia al índice explícito
* iloc -> hace referencia al índice implícito
* ix   -> (obsoleto)

Las guías de buenas prácticas recomiendan el uso de índices explícitos

In [45]:
states.iloc[:2, 1]  #implícito

California    213213
Texas          43434
Name: area, dtype: int64

In [46]:
states.keys() # columnas del dataframe

Index(['population', 'area'], dtype='object')

In [47]:
states.index # filas del dataframe

Index(['California', 'Texas', 'Florida', 'New York'], dtype='object')

In [48]:
states.columns # columnas del dataframe

Index(['population', 'area'], dtype='object')

In [49]:
states['population'].keys() # las keys de la Serie son las filas

Index(['California', 'Texas', 'Florida', 'New York'], dtype='object')

In [50]:
states.loc['Florida':'New York',:]  #explícito

Unnamed: 0,population,area
Florida,196,165656
New York,195,1943425


In [51]:
states

Unnamed: 0,population,area
California,383,213213
Texas,264,43434
Florida,196,165656
New York,195,1943425


In [52]:
states.loc[states['area'] > 50000]

Unnamed: 0,population,area
California,383,213213
Florida,196,165656
New York,195,1943425


In [53]:
# seleccioname todas las filas que cumplan la condicion
# y te quedas con la columna de población
states.loc[states['area'] > 50000, ['population']]

Unnamed: 0,population
California,383
Florida,196
New York,195


In [54]:
# selecciona desde 'Florida' hasta el final y te quedas con 
# la columna de área
states.loc['Florida':, 'area']

Florida      165656
New York    1943425
Name: area, dtype: int64

#### Convenciones sobre Indexing y Slicing

* Indexing: se refiere a columnas
* Slicing: se refiere a filas

In [55]:
# Slicing 
states['Texas':'Florida'] #se refiere a filas

Unnamed: 0,population,area
Texas,264,43434
Florida,196,165656
