## Selecionando partes do Dataframe

### .loc -> é inclusivo - Utiliza-se com Labels
### .iloc -> é exclusivo - Utiliza-se com Indices

In [1]:
import numpy as np
import pandas as pd

In [2]:
file = 'ufo.csv'
ufo = pd.read_csv(file)
ufo.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


## Método loc
O método <b>loc</b> é utilizado para selecionar linhas e colunas por sua <b>label</b>. Nós podemos passar os seguintes parâmetros:
<ul>
    <li>Somente uma label</li>
    <li>Uma lista de labels</li>
    <li>Um slice de labels</li>
    <li>Uma série booleana</li>
    <li>Uma coluna (todas as labels)</li>
</ul>

In [3]:
# Trazendo a linha 0 e todas as colunas
ufo.loc[0, :]

City                       Ithaca
Colors Reported               NaN
Shape Reported           TRIANGLE
State                          NY
Time               6/1/1930 22:00
Name: 0, dtype: object

In [4]:
# Linhas 0, 1 e 2 e todas as colunas
ufo.loc[[0, 1, 2], :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [5]:
# Intervalo INCLUSIVO entre 0 e 2 e todas as colunas
ufo.loc[[0,1,2], :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [6]:
# A omissão do parâmetro referente as colunas traz todas por padrão. INCLUSIVO
ufo.loc[0:2]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [7]:
# Linhas 0 a 2, da coluna city. INCLUSIVO
ufo.loc[0:2, 'City']

0         Ithaca
1    Willingboro
2        Holyoke
Name: City, dtype: object

In [8]:
# Linhas 0 a 2, colunas City e State
ufo.loc[0:2, ['City','State']]

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ
2,Holyoke,CO


In [9]:
# Podemos passar uma lista de labels de colunas
ufo[['City','State']].head(5)

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ
2,Holyoke,CO
3,Abilene,KS
4,New York Worlds Fair,NY


In [10]:
# Podemos também passar um intervalo de colunas. Nesse exemplo, das colunas City até State
ufo.loc[0:2, 'City':'State']

Unnamed: 0,City,Colors Reported,Shape Reported,State
0,Ithaca,,TRIANGLE,NY
1,Willingboro,,OTHER,NJ
2,Holyoke,,OVAL,CO


In [11]:
# Trazendo a coluna State, nas linhas em que a cidade seja Oakland
ufo.loc[ufo.City=='Oakland', 'State']

1694     CA
2144     CA
4686     MD
7293     CA
8488     CA
8768     CA
10816    OR
10948    CA
11045    CA
12322    CA
12941    CA
16803    MD
17322    CA
Name: State, dtype: object

In [12]:
# Podemos chegar ao mesmo resultado utilizando o dot notation, como visto anteriormente, porém a utilização do loc é preferida
# por questões de performance e boa prática
ufo[ufo.City=='Oakland'].State

1694     CA
2144     CA
4686     MD
7293     CA
8488     CA
8768     CA
10816    OR
10948    CA
11045    CA
12322    CA
12941    CA
16803    MD
17322    CA
Name: State, dtype: object

## Vamos testar realmente as labels quando nossas linhas não tem índices inteiros

In [13]:
ufo_labels = ufo.set_index(['State'])

In [14]:
ufo_labels.head()

Unnamed: 0_level_0,City,Colors Reported,Shape Reported,Time
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
NY,Ithaca,,TRIANGLE,6/1/1930 22:00
NJ,Willingboro,,OTHER,6/30/1930 20:00
CO,Holyoke,,OVAL,2/15/1931 14:00
KS,Abilene,,DISK,6/1/1931 13:00
NY,New York Worlds Fair,,LIGHT,4/18/1933 19:00


In [15]:
ufo_labels.loc['NY','Time'].head(10)

State
NY     6/1/1930 22:00
NY    4/18/1933 19:00
NY      1/8/1946 2:00
NY    2/20/1947 22:15
NY    7/14/1947 10:30
NY    8/12/1947 22:00
NY      8/1/1948 2:00
NY      1/2/1950 0:00
NY     6/30/1951 7:00
NY    2/10/1952 21:00
Name: Time, dtype: object

In [16]:
# Tentando realizar o filtro com loc e índices numéricos - Como alteramos o index ocorerrá erro.
ufo_labels.loc[0:10,'Time']

TypeError: cannot do slice indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [0] of <class 'int'>

## Método iloc
O método <b>iloc</b> também é utilizado para selecionar linhas e colunas, porém, diferente do loc onde passamos as labels, no iloc passamos um inteiro. Iloc vem de Indice Location:
<ul>
    <li>Um inteiro simples</li>
    <li>Uma lista de inteiros</li>
    <li>Um slice de inteiros</li>
    <li>Uma coluna (igual a lista de todos os inteiros)</li>
</ul>

In [17]:
# Linhas na posição 0 e 1, colunas na posição 0 e 3
ufo.iloc[[0,1], [0,3]]

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ


In [18]:
# Linhas: Intervalo de 0 a 2 (exclusivo). 
# Colunas: Intervalo de 0 a 4 (exclusivo).
ufo.iloc[0:2, 0:4]

Unnamed: 0,City,Colors Reported,Shape Reported,State
0,Ithaca,,TRIANGLE,NY
1,Willingboro,,OTHER,NJ


In [19]:
# Linhas de 0 a 4, exclusive e todas as colunas
ufo.iloc[0:4, :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00


In [21]:
# Podemos chegar ao mesmo resultado com a notação de bracktes, mas prefira a notação de iloc por ser mais explícito
ufo[0:4]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00


## Método ix - Descontinuado
<b>Regras para utilização de números com ix:</b>
<ul>
    <li>Se o índice for uma <b>string</b>, números serão tratados com posições e os slices são <b>exclusivos</b></li>
    <li>Se o índice for um <b>inteiro</b>, números são tratados como labels, então os slices são <b>inclusivos</b></li>
</ul>

In [23]:
drinks = pd.read_csv('drinks.csv', index_col='country')
drinks.head()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


In [26]:
# Label: Albania - Coluna: 0
drinks.ix['Albania']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


beer_servings                          89
spirit_servings                       132
wine_servings                          54
total_litres_of_pure_alcohol          4.9
population                      2.876.000
continent                          Europe
Name: Albania, dtype: object

In [36]:
drinks.loc['Albania'][0]

89

In [33]:
drinks.iloc[1,0]

89

In [37]:
# Linha 1 - Coluna: beer_servings (exclusive)
drinks.ix[0:3, 'beer_servings']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


country
Afghanistan     0
Albania        89
Algeria        25
Name: beer_servings, dtype: int64

In [39]:
drinks.loc['Afghanistan':'Algeria', 'beer_servings']

country
Afghanistan     0
Albania        89
Algeria        25
Name: beer_servings, dtype: int64

In [47]:
drinks.iloc[0:3, 0]

country
Afghanistan     0
Albania        89
Algeria        25
Name: beer_servings, dtype: int64

In [48]:
# Linhas de Albania a Andorra e colunas de 0 a 2. O tip das colunas também é label, então será exclusivo
drinks.ix['Albania':'Andorra', 0:2]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0_level_0,beer_servings,spirit_servings
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,89,132
Algeria,25,0
Andorra,245,138


In [62]:
drinks.loc['Albania':'Andorra', 'beer_servings':'spirit_servings']

Unnamed: 0_level_0,beer_servings,spirit_servings
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,89,132
Algeria,25,0
Andorra,245,138


In [56]:
drinks.iloc[0:3, 0:2]

Unnamed: 0_level_0,beer_servings,spirit_servings
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,0,0
Albania,89,132
Algeria,25,0


In [64]:
# A notação aplicada é toda do mesmo tipo, então o resultado será inclusive
drinks.ix['Albania':'Andorra', 'beer_servings':'population']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Albania,89,132,54,4.9,2.876.000
Algeria,25,0,14,0.7,40.061.000
Andorra,245,138,312,12.4,77.281.000
