## Pandas (Data Indexing and Selection)


In [1]:
import numpy as np
import pandas as pd # librería de pandas

In [2]:
pd.__version__ #versión de pandas

'0.23.0'

### Data Selection in Series

Una Serie es, en cierto modo, un Numpy array unidimensional y en otro, un Dictionary. Teniendo en mente estas analogías, nos ayudará a entender los patrones para indexar y seleccionar en estos arrays


In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

In [6]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [7]:
data['a'] # accedemos a través del nombre del índice (key)

0.25

#### Series as a dictionary

Podemos utilizar métodos y expresiones de diccionarios para acceder 
a los valores e índices, y modificar los datos como si fuera un 
diccionario

In [9]:
data.keys() # las keys son el índice (objeto indice)


Index(['a', 'b', 'c', 'd'], dtype='object')

In [17]:
list(data.items()) # los items del diccionario (index-value)

[('a', 2.0), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [14]:
data['a'] = 2 # modificamos el valor

In [15]:
data

a    2.00
b    0.50
c    0.75
d    1.00
dtype: float64

#### Series as generalized Numpy Array

El objeto Serie puede parecer un array unidimensional de Numpy, donde básicamente, la diferencia consiste en la presencia de un índice. Mientras que en Numpy el índice para acceder a los valores es implícito, en las Series este tiene un índice explícito asociado a los valores

Este índice da al objeto Serie capacidades adicionales al array de Numpy.

In [25]:
# el índice no tiene por qué ser un número entero
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])

In [26]:
data['a']

0.25

In [29]:
data[1]

0.5

#### Series as one-dimensional array

Una serie permite realizar una serie de operaciones de selección del mismo modo que NUmpy arrays

* Slicing by explicit index
* Slicing by implicit index
* Masking
* Fancy Indexing

In [37]:
# Slicing by explicit index (final index is included)
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [38]:
# Slicing by implicit index (final index is not included)
data[:2]

a    0.25
b    0.50
dtype: float64

In [39]:
# Masking
data[data > 0.25]

b    0.50
c    0.75
d    1.00
dtype: float64

In [40]:
# Fancy Indexing
data[['a', 'b']]

a    0.25
b    0.50
dtype: float64

#### Indexers: loc, iloc, ix

Las convenciones anteriores de slicing and indexing pueden llevar a confusión, sobre todo si el valor de los índices son enteros, ya que al hacer mención al indice explicito puede confundir con el implicito

Para evitar este tipo de confusiones, pandas proporciona una serie de atributos especiales de indexación


* loc  -> hace referencia al índice explícito
* iloc -> hace referencia al índice implícito
* ix   -> (tiene más sentido en DataFrames)

Las guías de buenas prácticas recomiendan el uso de índices explícitos


In [41]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[1,2,3,4])

In [43]:
data[1] # aquí sería el explícito pero parece implícito

0.25

In [44]:
data.loc[1] # explicito

0.25

In [45]:
data.iloc[1] # implicito

0.5

In [48]:
data.loc[1:3] # explicito (incluye el final)

1    0.25
2    0.50
3    0.75
dtype: float64

In [49]:
data.iloc[1:3] # implícito (no incluye el final)

2    0.50
3    0.75
dtype: float64