#  Selección e Indexado de Datos en Pandas

* Recordemos algunas formas típicas de acceder a los arrays:
        
  1. indexing: `arr[2,1]`
  2. slicing: `arr[:,1:10]`
  3. boolean indexing: `arr[arr>0]`
  4. fancy indexing: `arr[[1,7,9],:]`
  
  
  
* Las `Series` y `DataFrames` de Pandas siguen convenciones similares.         

## Selección de Datos en Series

* Si recordamos que una `Series` es un análogo a un array de una dimensión y a un diccionario esto nos va a permitir retener mejor la forma de selccionar datos.  

### `Series` como un diccionario

* Indexar por nombres (=key en diccionarios)

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['a':'b']

* Podemos usar expresiones similares a los dicts para examinar keys y valores.

In [None]:
'b' in data

In [None]:
data.keys()

In [None]:
list(data.items())

* Como en un dict podemos extender una `Series` definiendo una nueva key y asignarle un nuevo valor

In [None]:
data['e'] = 1.25
data

### `Series` como un array de una dimensión

* Una `Series` provee una forma de seleccionar datos análoga a los arrays: por eso podemos usar _slices_, _masking_ y _fancy indexing_.

In [None]:
data['a':'c'] # slicing explícito

In [None]:
data[0:2] # slicing implícito por posición (enteros)

In [None]:
data[(data > 0.3) & (data < 0.8)] # boolean masking

In [None]:
data[['a', 'e']] # fancy indexing

### Indexers: loc e iloc

* Posible confusión: 

    - cuando se hace slicing explícito (`data['a':'c']`) el índice final es incluido en el slice. 
    - en cambio, cuando se hace slicing implícto (`data[0:2]`) el índice final NO es incluido

* Para mitigar este tipo de confusiones, Pandas provee algunos atributos "indexadores".

** Método `loc`** 

In [None]:
data.loc['a']

In [None]:
data.loc['a':'c']

** Método `iloc`** 

* Combina indexing y slicing

In [None]:
data.iloc[1]

In [None]:
data.iloc[0:3]

## Selección de datos en `DataFrame`

### DataFrame como un diccionario

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

* Puede accederse a las ``Series`` individuales que forman las columnas del ``DataFrame`` de forma análoga a un diccionario, vía el nombre de la columna.

In [None]:
data['area']

* De forma equivalente, podemos usar el estilo "atributo" para acceder a las columnas cuyo nombre son "strings"

In [None]:
data.area

* Ambas formas son equivalentes.
* ¿Qué pasaría si hay algún espacio en el nombre de la columna?

In [None]:
data.area is data['area']

* Tener en cuenta que esta forma no siempre funciona. 

    - Por ejemplo, si los nombres de las columnas no son strings
    -  o si tienen nombres que entran en conflicto on algún método de `DataFrame`
  

* Ejemplo: el `DataFrame` tiene un método `pop()`, de esta forma, `data.pop` apuntará al método y no a la columna de `data`  

In [None]:
data.pop is data['pop']

* En particular, es importante evitar la asignación de columnas vía atributos (usar `data['pop'] = z` rather than `data.pop = z`)
* El estilo diccionario puede ser usado para modificar un objeto:

In [None]:
data['density'] = data['pop'] / data['area']
data

### DataFrame como un array bi-dimensional

* Examinmenos el atributo `values`

In [None]:
data.values

* Teniendo en cuenta esto, podemos realizar la analogía y utilizar muchas operaciones similares a la de los arrays en un `DataFrame`.

* Al igual que en el caso de una `Series` indexar un `DataFrame` de forma análoga a un array puede ser un tanto confuso.

* Particularmente, pasar un índice simple en un `DataFrame` devuelve una fila. 

In [None]:
data.iloc[0]

* Y pasar un índice simple devuelve una columna:

In [None]:
data['area']

* Por eso Pandas usa los indexadores `loc` e `iloc`.

* Usando `iloc` podemos indexar los arrays subyacentes a un `DataFrame` como si fuera un array común, pero el índice y la etiqueta de columna son mantenidos en el resultado:

In [None]:
data.iloc[:3, :2]

* De forma similar, usando `loc` podemos indexar el array subyancente pero usando el index de forma explícita y los nombre de columnas.

In [None]:
data.loc[:'Illinois', :'pop']

* Cualquier forma de acceso de un array puede usarse con estos indexadores.
* Por ejemplo, podemos usar `loc` y combinarlo con masking y fancy indexing:

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

* Cualquiera de estas formas de indexar puede ser usada para asignar o modificar valores:

In [None]:
data.iloc[0, 2] = 90
data

### Algunas convenciones adicionales para indexar

* En general, "indexing" refiere a columnas, mientras que "slicing" refiere a filas:

In [None]:
data['Florida':'Illinois']

* "Fancy indexing" por defecto se realiza de forma explícita y sobre las columnas.

In [None]:
data[['area','density']]

* Esos slices también pueden referir a filas por posición, en lugar de índices:

In [None]:
data[1:3]

* De forma similar, las operaciones de masking también son interpretadas por defecto en el sentido de las filas:

In [None]:
data[data.density > 100]