# Introdução ao Pandas Soltando entradas de um eixo 

### Por: José Aldanildo

É fácil soltar uma ou mais entradas de um eixo se você já tiver uma matriz ou lista de índices sem essas entradas. Como isso pode exigir um pouco de munging e lógica definida, O método drop retornará um novo objeto com o valor ou valores indicados excluídos de um eixo:

In [1]:
import numpy as np
import pandas as pd

In [2]:
obj = pd.Series(np.arange(5.),index = ['a','b','c','d','e']) # criando uma Serie 
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [3]:
new_obj = obj.drop('c') # deletando uma linha com o comando drop
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [4]:
obj.drop(['d','c']) # apagando dois valores 

a    0.0
b    1.0
e    4.0
dtype: float64

Com o DataFrame, os valores do índice podem ser excluídos dos dois eixos. Para ilustrar isso, primeiro criamos um exemplo de DataFrame:

In [5]:
data = pd.DataFrame(np.arange(16).reshape(4,4),index = ['Ohio','Colorado','Utha','New York'],columns = ['One','Two','Three','Four'])
data

Unnamed: 0,One,Two,Three,Four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


Se você soltar uma chamada com uma sequência de etiquetas, os valores das etiquetas de linha (eixo 0) serão eliminados:

In [6]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,One,Two,Three,Four
Utha,8,9,10,11
New York,12,13,14,15


Você pode eliminar valores das colunas passando eixo = 1 ou eixo = 'colunas':

In [8]:
data.drop(['Two','Four'],axis = 'columns')

Unnamed: 0,One,Three
Ohio,0,2
Colorado,4,6
Utha,8,10
New York,12,14


# Indexação, seleção e filtragem 

de indexação de série (obj) [...] funciona de forma análoga à indexação de matriz NumPy, exceto que você pode usar os valores de índice da série em vez de apenas números inteiros. Aqui estão alguns exemplos disso:

In [10]:
obj = pd.Series(np.arange(4.),index = ['a','b','c','d'])
obj                

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [12]:
obj['b']

1.0

In [13]:
obj[1]

1.0

In [14]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [15]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [16]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [17]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

O fatiamento com rótulos se comporta de maneira diferente do fatiamento normal do Python, pois o ponto de extremidade é inclusivo:

In [19]:
obj[['b','c']]

b    1.0
c    2.0
dtype: float64

In [20]:
obj['b':'c'] = 5

In [21]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

A indexação em um DataFrame é para recuperar uma ou mais colunas com um único valor ou sequência:

In [23]:
data = pd.DataFrame(np.arange(16.).reshape((4,4)),index = ['Ohio','Colorado','Utha','New York'],columns = ['One','Two','Three','Four'])
data

Unnamed: 0,One,Two,Three,Four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,5.0,6.0,7.0
Utha,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0


In [24]:
data['Two'] # dessa forma o comando me tras somente a coluna Two

Ohio         1.0
Colorado     5.0
Utha         9.0
New York    13.0
Name: Two, dtype: float64

In [25]:
data[['Three','One']] #  podemos trazer duas colunas com dessa forma

Unnamed: 0,Three,One
Ohio,2.0,0.0
Colorado,6.0,4.0
Utha,10.0,8.0
New York,14.0,12.0


Indexação como esta tem alguns casos especiais. Primeiro, fatiar ou selecionar dados com uma matriz booleana:

In [26]:
data[:2]

Unnamed: 0,One,Two,Three,Four
Ohio,0.0,1.0,2.0,3.0
Colorado,4.0,5.0,6.0,7.0


In [28]:
data[data['Three'] > 5]

Unnamed: 0,One,Two,Three,Four
Colorado,4.0,5.0,6.0,7.0
Utha,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0


Os dados da sintaxe de seleção de linha [: 2] são fornecidos como uma conveniência. Passar um único elemento ou uma lista para o operador [] seleciona colunas. Outro caso de uso está na indexação com um DataFrame booleano, como o produzido por uma comparação escalar:

In [29]:
data < 5 # e me dar valores boleanod 

Unnamed: 0,One,Two,Three,Four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utha,False,False,False,False
New York,False,False,False,False


In [30]:
data[data < 5] = 0
data

Unnamed: 0,One,Two,Three,Four
Ohio,0.0,0.0,0.0,0.0
Colorado,0.0,5.0,6.0,7.0
Utha,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0


Isso torna o DataFrame sintaticamente mais como uma matriz NumPy bidimensional nesse caso específico.

## Seleção com loc e iloc 

Para indexação de rótulo do DataFrame nas linhas, apresento os operadores especiais de indexação loc e iloc. Eles permitem que você selecione um subconjunto de linhas e colunas de uma DataFrame com notação semelhante a NumPy usando rótulos de eixo (loc) ou números inteiros (iloc).

In [37]:
data.loc['Colorado',['Two','Three']]

Two      5.0
Three    6.0
Name: Colorado, dtype: float64

Em seguida, realizaremos algumas seleções semelhantes com números inteiros usando o iloc:

In [38]:
data.iloc[2,[3,0,1]]

Four    11.0
One      8.0
Two      9.0
Name: Utha, dtype: float64

In [39]:
data

Unnamed: 0,One,Two,Three,Four
Ohio,0.0,0.0,0.0,0.0
Colorado,0.0,5.0,6.0,7.0
Utha,8.0,9.0,10.0,11.0
New York,12.0,13.0,14.0,15.0


In [42]:
data.iloc[2]

One       8.0
Two       9.0
Three    10.0
Four     11.0
Name: Utha, dtype: float64

In [43]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,Four,One,Two
Colorado,7.0,0.0,5.0
Utha,11.0,8.0,9.0


Ambas as funções de indexação funcionam com fatias, além de etiquetas únicas ou listas de etiquetas:

In [45]:
data.loc[:'Utha','Two']

Ohio        0.0
Colorado    5.0
Utha        9.0
Name: Two, dtype: float64

In [47]:
data.iloc[:, :3][data.Three > 5] 

Unnamed: 0,One,Two,Three
Colorado,0.0,5.0,6.0
Utha,8.0,9.0,10.0
New York,12.0,13.0,14.0


# FIM