# Indexing and selecting data

In [1]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
try:
    import seaborn
except ImportError:
    pass

In [2]:
# redefining the example objects

# series
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3,
                        'United Kingdom': 64.9, 'Netherlands': 16.9})

# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


Configuración del índice para los nombres de los países:

In [3]:
countries = countries.set_index('country')
countries

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,11.3,30510,Brussels
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


## Some notes on selecting data

Una de las características básicas de los pandas es el etiquetado de filas y columnas, pero esto hace que la indexación también sea un poco más compleja en comparación con numpy. Ahora tenemos que distinguir entre:

- selection by label
- selection by position.

### `data[]` provides some convenience shortcuts

Para un DataFrame, la indexación básica selecciona las columnas.

Seleccionar una sola columna:

In [4]:
countries['area']

country
Belgium            30510
France            671308
Germany           357050
Netherlands        41526
United Kingdom    244820
Name: area, dtype: int64

o varias columnas:

In [5]:
countries[['area', 'population']]

Unnamed: 0_level_0,area,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,30510,11.3
France,671308,64.3
Germany,357050,81.3
Netherlands,41526,16.9
United Kingdom,244820,64.9


Pero, cortar accede a las filas:

In [6]:
countries['France':'Netherlands']

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
Netherlands,16.9,41526,Amsterdam


<div class="alert alert-danger">
    <b>NOTE</b>: A diferencia de cortar en numpy, la etiqueta final está ** incluida **.
</div>

Por tanto, a modo de resumen, `[]` proporciona los siguientes atajos prácticos:

- Series: selecting a label: `s[label]`
- DataFrame: selecting a single or multiple columns: `df['col']` or `df[['col1', 'col2']]`
- DataFrame: slicing the rows: `df['row_label1':'row_label2']` or `df[mask]`

### Systematic indexing with `loc` and `iloc`

Al usar `[]` como arriba, solo puede seleccionar de un eje a la vez (filas o columnas, no ambos). Para una indexación más avanzada, tiene algunos atributos adicionales:

* `loc`: selection by label
* `iloc`: selection by position

These methods index the different dimensions of the frame:

* `df.loc[row_indexer, column_indexer]`
* `df.iloc[row_indexer, column_indexer]`

Seleccionar un solo elemento:

In [7]:
countries.loc['Germany', 'area']

357050

Pero el indexador de filas o columnas también puede ser una lista, un sector, una matriz booleana, ..

In [8]:
countries.loc['France':'Germany', ['area', 'population']]

Unnamed: 0_level_0,area,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
France,671308,64.3
Germany,357050,81.3


---
Seleccionar por posición con `iloc` funciona de manera similar a indexar matrices numpy:

In [10]:
countries.iloc[0:2,1:3]

Unnamed: 0_level_0,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,30510,Brussels
France,671308,Paris


Los diferentes métodos de indexación también se pueden utilizar para asignar datos:

In [9]:
countries2 = countries.copy()
countries2.loc['Belgium':'Germany', 'population'] = 10

In [10]:
countries2

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Belgium,10.0,30510,Brussels
France,10.0,671308,Paris
Germany,10.0,357050,Berlin
Netherlands,16.9,41526,Amsterdam
United Kingdom,64.9,244820,London


## Boolean indexing (filtering)

A menudo, desea seleccionar filas en función de una determinada condición. Esto se puede hacer con 'indexación booleana' (como una cláusula where en SQL).

El indexador (o máscara booleana) debe ser unidimensional y de la misma longitud que la cosa que se indexa.

In [15]:
countries['area'] > 100000

country
Belgium           False
France             True
Germany            True
Netherlands       False
United Kingdom     True
Name: area, dtype: bool

In [14]:
countries[countries['area'] > 100000]

Unnamed: 0_level_0,population,area,capital
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
France,64.3,671308,Paris
Germany,81.3,357050,Berlin
United Kingdom,64.9,244820,London


---

<div class="alert alert-success">
    <b>EXERCISE</b>: Agregue una columna "densidad" con la densidad de población (nota: la columna de población se expresa en millones)
</div>

In [11]:
countries['density'] = countries['population']*1000000 / countries['area']
countries

Unnamed: 0_level_0,population,area,capital,density
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Belgium,11.3,30510,Brussels,370.37037
France,64.3,671308,Paris,95.783158
Germany,81.3,357050,Berlin,227.699202
Netherlands,16.9,41526,Amsterdam,406.973944
United Kingdom,64.9,244820,London,265.092721


<div class="alert alert-success">
    <b>EXERCISE</b>: Seleccione la columna de capital y población de aquellos países donde la densidad es mayor a 300
</div>

In [12]:
countries.loc[countries['density'] > 300, ['capital', 'population']]

Unnamed: 0_level_0,capital,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgium,Brussels,11.3
Netherlands,Amsterdam,16.9


<div class="alert alert-success">
    <b>EXERCISE</b>: Agregue una columna 'densidad_ratio' con la relación entre la densidad y la densidad media
</div>

In [13]:
countries['density_ratio'] = countries['density'] / countries['density'].mean()
countries

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgium,11.3,30510,Brussels,370.37037,1.355755
France,64.3,671308,Paris,95.783158,0.350618
Germany,81.3,357050,Berlin,227.699202,0.833502
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,London,265.092721,0.970382


<div class="alert alert-success">
    <b>EXERCISE</b>: Cambiar la capital del Reino Unido a Cambridge
</div>

In [None]:
countries.loc['United Kingdom', 'capital'] = 'Cambridge'
countries

<div class="alert alert-success">
    <b>EXERCISE</b>: Seleccione todos los países cuya densidad de población esté entre 100 y 300 personas / km²
</div>

In [14]:
countries[(countries['density'] > 100) & (countries['density'] < 300)]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Germany,81.3,357050,Berlin,227.699202,0.833502
United Kingdom,64.9,244820,London,265.092721,0.970382


## Some other useful methods: `isin` and string methods

El método `isin` de Series es muy útil para seleccionar filas que pueden contener ciertos valores:

In [15]:
s = countries['capital']

In [18]:
s.isin?

In [16]:
s.isin(['Berlin', 'London'])

country
Belgium           False
France            False
Germany            True
Netherlands       False
United Kingdom     True
Name: capital, dtype: bool

Esto luego se puede usar para filtrar el marco de datos con indexación booleana:

In [24]:
countries[countries['capital'].isin(['Berlin', 'London'])]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Germany,81.3,357050,Berlin,227.699202,0.833502
United Kingdom,64.9,244820,London,265.092721,0.970382


Digamos que queremos seleccionar todos los datos para los que la capital comienza con una 'B'. En Python, cuando tenemos una cadena, podemos usar el método `startswith`:

In [None]:
'Berlin'.startswith('B')

En pandas, estos están disponibles en una serie a través del espacio de nombres `str`:

In [23]:
countries[countries['capital'].str.startswith('')]

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Germany,81.3,357050,Berlin,227.699202,0.833502


Para obtener una descripción general de todos los métodos de cadena, consulte: http://pandas.pydata.org/pandas-docs/stable/api.html#string-handling

<div class="alert alert-success">
    <b>EXERCISE</b>: Seleccione todos los países que tienen nombres en mayúsculas con más de 7 caracteres
</div>

In [None]:
countries[countries['capital'].str.len() > 7]

<div class="alert alert-success">
    <b>EXERCISE</b>: Seleccione todos los países que tienen nombres en mayúsculas que contienen la secuencia de caracteres 'am'
</div>

In [None]:
countries[countries['capital'].str.contains('am')]

## Pitfall: chained indexing (and the 'SettingWithCopyWarning')

In [21]:
countries.loc['Belgium', 'capital'] = 'Ghent'

In [None]:
countries

In [22]:
countries['capital']['Belgium'] = 'Antwerp'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
countries

In [19]:
countries[countries['capital'] == 'Antwerp']['capital'] = 'Brussels'

In [20]:
countries

Unnamed: 0_level_0,population,area,capital,density,density_ratio
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belgium,11.3,30510,Brussels,370.37037,1.355755
France,64.3,671308,Paris,95.783158,0.350618
Germany,81.3,357050,Berlin,227.699202,0.833502
Netherlands,16.9,41526,Amsterdam,406.973944,1.489744
United Kingdom,64.9,244820,London,265.092721,0.970382


¿Cómo evitarlo?

* Use `loc` en lugar de indexación encadenada si es posible!
* O `copiar` explícitamente si no desea cambiar los datos originales.

## More exercises!

In [None]:
cast = pd.read_csv('data/cast.csv')
cast.head()

In [None]:
titles = pd.read_csv('data/titles.csv')
titles.head()

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuántas películas se enumeran en el marco de datos de títulos?
</div>

In [None]:
len(titles)

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuáles son las dos primeras películas enumeradas en el marco de datos de títulos?
</div>

In [None]:
titles.sort('year').head(2)

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuántas películas tienen el título "Hamlet"?
</div>

In [None]:
len(titles[titles.title == 'Hamlet'])

<div class="alert alert-success">
    <b>EXERCISE</b>: Enumere todas las películas de "La isla del tesoro", desde la más antigua hasta la más reciente.
</div>

In [None]:
titles[titles.title == 'Treasure Island'].sort('year')

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuántas películas se hicieron entre 1950 y 1959?
</div>

In [None]:
t = titles
len(t[(t.year >= 1950) & (t.year <= 1959)])

In [None]:
len(t[t.year // 10 == 195])

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuántos roles en la película "Inception" NO están clasificados por un valor "n"?
</div>

In [None]:
c = cast
c = c[c.title == 'Inception']
c = c[c.n.isnull()]
len(c)

<div class="alert alert-success">
    <b>EXERCISE</b>: Pero, ¿cuántos papeles en la película "Inception" recibieron un valor "n"?
</div>

In [None]:
c = cast
c = c[c.title == 'Inception']
c = c[c.n.notnull()]
len(c)

<div class="alert alert-success">
    <b>EXERCISE</b>: Muestre el elenco de "North by Northwest" en su orden correcto de valores "n", ignorando los roles que no obtuvieron un valor numérico "n".
</div>

In [None]:
c = cast
c = c[c.title == 'North by Northwest']
c = c[c.n.notnull()]
c = c.sort('n')
c

<div class="alert alert-success">
    <b>EXERCISE</b>: ¿Cuántos papeles fueron acreditados en la versión silenciosa de 1921 de Hamlet?
</div>

In [None]:
c = cast
c = c[(c.title == 'Hamlet') & (c.year == 1921)]
len(c)

<div class="alert alert-success">
    <b>EXERCISE</b>: Enumere los papeles secundarios (teniendo n = 2) desempeñados por Cary Grant en la década de 1940, en orden por año.
</div>

In [None]:
c = cast
c = c[c.name == 'Cary Grant']
c = c[c.year // 10 == 194]
c = c[c.n == 2]
c = c.sort('year')
c