# Indexando y seleccionando datos

In [1]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
try:
    import seaborn
except ImportError:
    pass

In [2]:
# redefining the example objects

# series
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 
                        'United Kingdom': 64.9, 'Netherlands': 16.9})

# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


Seteamos el indice como los nombres de los paises:

In [3]:
countries = countries.set_index('country')
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


## Un par de notas en la seleccion de datos

Uno de las caracte

Una de las caracteristicas basicas de pandas es el etiquetado de las filas y columnas, pero esto hace que el indexado sea un poco mas complicado cuando se lo compara con numpy. Ahora tenemos que distinguir entre: 


- seleccionar por **etiqueta** (label)
- seleccionar por **posicion**.

### `df[]` provee un par de atajos muy convenientes 

Para un DataFrame, la indexacion basica selecciona las columnas.

Seleccionar una unica columna:

In [4]:
countries['area']

country
Belgium            30510
France            671308
Germany           357050
Netherlands        41526
United Kingdom    244820
Name: area, dtype: int64

o multiples columnas:

In [5]:
countries[['area', 'population']]

Unnamed: 0_level_0,area,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,30510,11.3
France,671308,64.3
Germany,357050,81.3
Netherlands,41526,16.9
United Kingdom,244820,64.9


Pero, el **slicing** accede a las filas:

In [6]:
countries['France':'Netherlands']

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam


<div class="alert alert-danger">
    <b>NOTA</b>: A diferecia del **slicing** en numpy, la ultima etiqueta esta **incluida**.
</div>

Como resumen, `[]` provee los siguientes atajos:

- Series: seleccionar una etiqueta: `s[label]`
- DataFrame: selecionar una o muchas columnas: `df['col']` o `df[['col1', 'col2']]`
- DataFrame: *slicing* de las filas: `df['row_label1':'row_label2']` o `df[mask]`

### Indexacion sistematica con `loc` e `iloc`

Cuando se usa `[]` como arriba, solo se puede seleccionar por un eje a la vez ( filas o columnas, pero no ambas ). Para un indexado mas avanzado, hay  
un par de atributos adicionales:

* `loc`: seleccionar por etiqueta (label)
* `iloc`: seleccionar por posicion 

De esta manera se puede indexar distintas dimensiones de un dataframe:

* `df.loc[row_indexer, column_indexer]`
* `df.iloc[row_indexer, column_indexer]`

Selecionando un unico elemento:

In [7]:
countries.loc['Germany', 'area']

357050

Pero el indexador de fila o columna tambien puede una lista, un *slice*, un array booleano, ... 
But the row or column indexer can also be a list, slice, boolean array, ..

In [8]:
countries.loc['France':'Germany', ['area', 'population']]

Unnamed: 0_level_0,area,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
France,671308,64.3
Germany,357050,81.3


---
Seleccionar por posicion utilizando `iloc` funciona igual que el indexado de los arrays de numpy:

In [9]:
countries.iloc[0:2,1:3]

Unnamed: 0_level_0,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,30510,Brussels
France,671308,Paris


Los diferentes metodos para indexar tambien se pueden utilizar para asignar valores:

In [10]:
countries2 = countries.copy()
countries2.loc['Belgium':'Germany', 'population'] = 10

In [11]:
countries2

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,10.0,30510,Brussels
France,10.0,671308,Paris
Germany,10.0,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


## Indexado Booleano (filtrado)

A veces, se quiere seleccionar filas en funcion de cierta condicion. Esto puede realizarce con el 'indexado booleano' ( semejante a la clausula *where* de SQL ) y es comparable a la sintaxis de numpy.

El indexador ( o mascara booleana ) tiene que ser unidimensional y de la misma longitud que el objeto a ser indexado.

In [12]:
countries['area'] > 100000

country
Belgium           False
France             True
Germany            True
Netherlands       False
United Kingdom     True
Name: area, dtype: bool

In [13]:
countries[countries['area'] > 100000]

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
United Kingdom,64.9,244820,London


---

<div class="alert alert-success">
    <b>EJERCICIO</b>:  Añadir la columna `density` con la densidad poblacional (nota: la columna de poblacion esta expresada en millones)
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Seleccionar las columnas de capital y la poblacion de los paises que tienen una densidad mayor a 300.
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Anadir la columna 'density_ratio' con la proporcion de la densidad y la densidad promedio.
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Cambiar el nombre de la capital de Reino Unido (UK) a Cambridge
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Seleccionar todos los paises que tienen una densidad poblacional entre 100 y 300 personas/km²
</div>

## Otros metodos utiles: `isin` y los metodos de *string*

El metodo `isin` de las Series es muy util para seleccionar las filas que contienen ciertos valores:

In [14]:
s = countries['capital']

In [15]:
s.isin?

[0;31mSignature:[0m [0ms[0m[0;34m.[0m[0misin[0m[0;34m([0m[0mvalues[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Check whether `values` are contained in Series.

Return a boolean Series showing whether each element in the Series
matches an element in the passed sequence of `values` exactly.

Parameters
----------
values : set or list-like
    The sequence of values to test. Passing in a single string will
    raise a ``TypeError``. Instead, turn a single string into a
    list of one element.

    .. versionadded:: 0.18.1

      Support for values as a set.

Returns
-------
isin : Series (bool dtype)

Raises
------
TypeError
  * If `values` is a string

See Also
--------
pandas.DataFrame.isin : equivalent method on DataFrame

Examples
--------

>>> s = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama',
...                'hippo'], name='animal')
>>> s.isin(['cow', 'lama'])
0     True
1     True
2     True
3    False
4     True
5    False
Name: animal, dtype: bool

Pa

In [16]:
s.isin(['Berlin', 'London'])

country
Belgium           False
France            False
Germany            True
Netherlands       False
United Kingdom     True
Name: capital, dtype: bool

Esto puede ser usado para filtrar el dataframe usando el indexado booleano:

In [17]:
countries[countries['capital'].isin(['Berlin', 'London'])]

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Germany,81.3,357050,Berlin
United Kingdom,64.9,244820,London


Digamos que queremos seleccionar todos los datos en los cuales la capital empieza con la letra 'B'. En Python, cuando tenemos un *string*, podemos utilizar el metodo `startswith`:

In [18]:
'Berlin'.startswith('B')

True

En pandas, estos metodos estan disponibles en las Series a travez del *accessor* `str`:

In [19]:
countries['capital'].str.startswith('B')

country
Belgium            True
France            False
Germany            True
Netherlands       False
United Kingdom    False
Name: capital, dtype: bool

Para un resumen de todos los metodos de *string*, ver: http://pandas.pydata.org/pandas-docs/stable/api.html#string-handling

<div class="alert alert-success">
    <b>EJERCICIO</b>: Seleccionar todos los paises que tienen el nombre de la capital con mas de 7 caracteres.
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Seleccionar todos los paises que tienen la la sequencia 'am' en el nombre de la capital.
</div>

## Falla: indexado en cadena (chained indexing) (y la 'SettingWithCopyWarning')

In [20]:
countries.loc['Belgium', 'capital'] = 'Ghent' 

In [21]:
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Ghent
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


In [22]:
countries['capital']['Belgium'] = 'Antwerp' 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [23]:
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Antwerp
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


In [24]:
countries[countries['capital'] == 'Antwerp']['capital'] = 'Brussels' 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [25]:
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Antwerp
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


¿Como evitar esto?

* Usar `loc` en vez de indexado en cadena siempre que sea posible!
* O usar `copy` para copiar explicitamente si es que no quieren modificar los datos originales.

## Mas ejercicios!

Para quienes son muy agiles y ya terminaron, aqui hay un par de ejercicios con un dataframe bastante grande con datos de peliculas. Estos ejercicios estan basados en el [tutorial de Brandon Rhodes en la PyCon](https://github.com/brandon-rhodes/pycon-pandas-tutorial/) (asi que todo el credito para el!) y el datasets que el preparo para el mismo. Pueden descargar los datos aqui: [`titles.csv`](https://drive.google.com/open?id=0B3G70MlBnCgKajNMa1pfSzN6Q3M), aqui [`cast.csv`](https://drive.google.com/open?id=0B3G70MlBnCgKal9UYTJSR2ZhSW8) y ponerlos en la carpeta `/data`.

In [26]:
cast = pd.read_csv('data/cast.csv')
cast.head()

FileNotFoundError: File b'data/cast.csv' does not exist

In [27]:
titles = pd.read_csv('data/titles.csv')
titles.head()

FileNotFoundError: File b'data/titles.csv' does not exist

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuantas peliculas estan listadas en el dataframe de titulos (*titles*)?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuales son las dos peliculas mas viejas que estan listadas en el dataframe de titulos?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuantas peliculas tienen el titulo de "Hamlet"?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Listar todas las peliculas de "Treasure Island" (La isla del tesoro) de la mas vieja a la mas reciente.
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuantas peliculas se produjeron desde 1950 hasta 1959?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuantos roles en la pelicula "Inception" **NO** estan clasificadas (*ranked*) con un valor "n"?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Pero,¿cuantos roles en la pelicula "Inception" si recivieron un valor "n"?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Mostrar el elenco de "North by Northwest" en orden a partir de su valor-"n", ignorando los roles que no recibieron un valor "n" numerico.
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: ¿Cuantos roles fueron acreditados en la version muda de Hamlet de 1921?
</div>

<div class="alert alert-success">
    <b>EJERCICIO</b>: Listar todos los roles de soporte (teniendo n=2) interpretados por Cary Grant en la decada de 1940, ordenados por año.
</div>