In [1]:
import numpy as np
import pandas as pd

In [2]:
ufo= pd.read_csv("C:\\Users\\grati\\Downloads\\ufo.csv")
ufo.head()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


# Método loc

O método loc é utilizado pra selecionar linhas e colunas por sua label. Nós podemos passar os seguintes parâmetros:

- Somente um label
- Uma lista
- Uma slice de labels
- Uma serie booleana
- Uma coluna (todas as labels)

In [3]:
# Trazendo a linha 0 e todas as colunas
#tras tudo
ufo.loc[0, :]

City                       Ithaca
Colors Reported               NaN
Shape Reported           TRIANGLE
State                          NY
Time               6/1/1930 22:00
Name: 0, dtype: object

In [4]:
# Linhas 0, 1 e 2 e todas as colunas
ufo.loc[[0,1,2], :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [7]:
# Intervalo inclusivo entre 0 e 2

ufo.loc[0:2, :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [9]:
# A omissão do parametro referente a colunas, traz todas as colunas por padrão, INCLUSIVO
ufo.loc[0:2]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00


In [10]:
# linhas 0 a 2, da coluna City, INCLUSIVO

ufo.loc[0:2, "City"]

0         Ithaca
1    Willingboro
2        Holyoke
Name: City, dtype: object

In [12]:
ufo.loc[0:2, ["City", "State"]]

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ
2,Holyoke,CO


In [14]:
# Podemos passar uma lista de labels de colunas
ufo[["City","State"]].head(5)

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ
2,Holyoke,CO
3,Abilene,KS
4,New York Worlds Fair,NY


In [15]:
# Podemos também passar uma intervalo de colunas. Nesse exemplo, das colunas City até State

ufo.loc[0:2, "City": "State"]

Unnamed: 0,City,Colors Reported,Shape Reported,State
0,Ithaca,,TRIANGLE,NY
1,Willingboro,,OTHER,NJ
2,Holyoke,,OVAL,CO


In [17]:
# Trazendo a coluna State, nas linhas em que a cidade seja Oakland
ufo.loc[ufo.City=="Oakland", "State"]

1694     CA
2144     CA
4686     MD
7293     CA
8488     CA
8768     CA
10816    OR
10948    CA
11045    CA
12322    CA
12941    CA
16803    MD
17322    CA
Name: State, dtype: object

In [20]:
# Podemos chegar ao mesmo resultado utilizando dor notation, como visto anteriormente, poré a utilização do loc é preferida
# Por questões de performance e boa prética
ufo[ufo.City=="Oakland"].State

1694     CA
2144     CA
4686     MD
7293     CA
8488     CA
8768     CA
10816    OR
10948    CA
11045    CA
12322    CA
12941    CA
16803    MD
17322    CA
Name: State, dtype: object

# Vamos testar realmente as labels quando nossas linhas não tem índices inteiros

In [21]:
ufo_labels = ufo.set_index(["State"])

In [22]:
ufo_labels.head()

Unnamed: 0_level_0,City,Colors Reported,Shape Reported,Time
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
NY,Ithaca,,TRIANGLE,6/1/1930 22:00
NJ,Willingboro,,OTHER,6/30/1930 20:00
CO,Holyoke,,OVAL,2/15/1931 14:00
KS,Abilene,,DISK,6/1/1931 13:00
NY,New York Worlds Fair,,LIGHT,4/18/1933 19:00


In [23]:
ufo_labels.loc["NY","Time"].head(10)

State
NY     6/1/1930 22:00
NY    4/18/1933 19:00
NY      1/8/1946 2:00
NY    2/20/1947 22:15
NY    7/14/1947 10:30
NY    8/12/1947 22:00
NY      8/1/1948 2:00
NY      1/2/1950 0:00
NY     6/30/1951 7:00
NY    2/10/1952 21:00
Name: Time, dtype: object

In [26]:
# Tentando realizar o filtro com loc e índices numéricos
ufo_labels.loc[0:10,"Time"]

TypeError: cannot do slice indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [0] of <class 'int'>

# Método iloc

O método iloc também é utilizado para selecionar linhas e colunas, diferentemente do loc onde passamos as labels, no iloc passamos um inteiro, iloc vem de Indice Location

- Um inteiro simples
- Uma lista de inteiros
- Um slice de inteiros
- Um coluna (igual a lista de todos os inteiros)

In [27]:
# Linhas na posição 0 e 1, colunas na posição 0 e 3
ufo.iloc[[0,1],[0,3]]

Unnamed: 0,City,State
0,Ithaca,NY
1,Willingboro,NJ


In [28]:
# Linhas : Intervalo de 0 a 2 (exclusivo). Colunas: Intervalo
ufo.iloc[0:2, 0:4]

Unnamed: 0,City,Colors Reported,Shape Reported,State
0,Ithaca,,TRIANGLE,NY
1,Willingboro,,OTHER,NJ


In [30]:
# Linhas de 0 a 4, exclusive e todas as colunas
ufo.iloc[0:2, :]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00


In [31]:
# Podemos chegar ao mesmo resultado com a notação de bracktes, mas prefira a notação de iloc por ser mais explicito
ufo[0:4]

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00


# Método ix

###### Regras para a utilização de números com ix:

- Se o índice for uma string, números serão tratados com posições, e os slices são exclusivos
- Se o índice for inteiro, números são tratador como labels, então os slices são inclusivos

In [33]:
drinks = pd.read_csv("C:\\Users\\grati\\Downloads\\drinks.csv", index_col="country")

In [34]:
drinks.head()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


In [35]:
# Label : Albania - Coluna: 0
drinks.ix["Albania", 0]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  return getattr(section, self.name)[new_key]


89

In [36]:
# Linha: 1 - coluna: beer_servings (exclusive)
drinks.ix[0:3, "beer_servings"]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  


country
Afghanistan     0
Albania        89
Algeria        25
Name: beer_servings, dtype: int64

In [37]:
# Linhas de Albania a Andorra e colunas de 0 a 2. O tipo das colunas de 0 a 2. O tipo das colunas também é label, então será exclusivo
drinks.ix["Albania":"Andorra", 0:2]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  retval = getattr(retval, self.name)._getitem_axis(key, axis=i)


Unnamed: 0_level_0,beer_servings,spirit_servings
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,89,132
Algeria,25,0
Andorra,245,138


In [None]:
# A notação aplicada é toda do mesmo tipo, então o resultado será inclusive
drinks.ix["Albania"]