Manipulação de dados em DataFrames

O loc é o método que projeta as colunas do DataFrame pelos rótulos

In [None]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
       index=['cobra', 'viper', 'sidewinder'],
       columns=['max_speed', 'shield'])
 print(df.loc['viper'])
 print(df.loc[['viper', 'sidewinder']])


criamos um DataFrame artificial e fizemos duas projeções:

‘viper’
A primeira com apenas uma coluna.


‘viper’, ‘sidewinder’
A segunda com duas colunas.

No caso do iloc, a projeção depende dos indexes numéricos das linhas e colunas de um DataFrame

In [None]:
 mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
           {'a': 100, 'b': 200, 'c': 300, 'd': 400},
           {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
 df = pd.DataFrame(mydict)

 print(df.iloc[0])
 print(df.iloc[[0]])
 print(df.iloc[[0, 1]])
 print(df.iloc[:3])
 print(df.iloc[lambda x: x.index % 2 == 0])
 print(df.iloc[[0, 2], [1, 3]])
 print(df.iloc[1:3, 0:3])
 ```


Print 1

O primeiro print nos trará a primeira coluna do conjunto.

Print 2

O segundo print nos trará a primeira linha do DataFrame.

Print 3

O terceiro print nos trará a primeira e segunda linhas do DataFrame.

Print 4

O quarto print nos trará as três primeiras linhas do DataFrame.

Print 5

O quinto print nos trará a projeção com a condição de que o valor das células seja par.

Outros prints

Os dois últimos prints nos projetam uma submatriz (ou filtro) do DataFrame original, o primeiro sendo feito de forma direta e o segundo por fatiamento.

In [None]:
 df = pd.DataFrame({'A': range(1, 6),
                    'B': range(10, 0, -2),
                    'C': range(10, 5, -1)})
 print(df.query('A > B'))
 print(df.query('B == `C C`'))
 print(df[df.A > df.B])
 ```

 temos o jeito de fazer seleções e projeções por queries. Assim como nos bancos de dados SQL, isso é bastante intuitivo. No primeiro print, temos uma query que retorna dados cujo valor da dimensão A é maior do que o da dimensão de B. Já a segunda query é uma igualdade, em que desejamos os dados cujo valor da dimensão B seja igual ao da dimensão 'C C' (repare que, dentro da query, o que for textual, seja valor ou dimensão, tem de ser declarado com o acento crase (`) ). E, por fim, um último jeito de filtrar é passando a referência da coluna no colchete do DataFrame.

In [None]:
df = df.drop(columns=['col1', 'col2', 'col3'])

#ou

df.drop(columns=['col1', 'col2', 'col3'], inplace=True)

 utilizamos o drop para remover colunas


In [None]:
df.drop([0,1], inplace=True)

#deletamos as duas primeiras linhas do DataFrame.

In [None]:
df = df.reset_index(drop=True)

#ou

df.reset_index(drop=True, inplace=True)

#utilizamos muito os indexes para nossas manipulações. Para que possamos regularizar a indexação depois de um drop


O index, assim como nos bancos de dados, tem os papéis de enumerar o conjunto e facilitar a manipulação dos dados em questão. Ao resetar o DataFrame, é como se estivéssemos desfragmentando a memória do DataFrame.

In [None]:
s1 = pd.Series(['a', 'b'])
 s2 = pd.Series(['c', 'd'])
 pd.concat([s1, s2], axis=1)

#Exemplo com concat

realiza a junção entre as séries pelos seus indexes. Basta definir o axis=1, pois normalmente o concat, quando não declarada a axis ou usando axis=0, fará uma união entre os dados. Após um concat, pode ser feito um reset_index também, mas podemos encurtar esse passo declarando dentro do pd.concat() o parâmetro ignore_index=True

In [None]:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                     'value': [1, 2, 3, 5]})
 df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                     'value': [5, 6, 7, 8]})
 print(df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=(“_left”,”_right”)))

#Exemplo com merge

 podemos ver o jeito bem tradicional de junção, em que declaramos as chaves estrangeiras que serão a base da junção e declaramos os sufixos em caso de repetição de nome de colunas, que é o caso da coluna value, na qual teremos values da esquerda e da direita.

In [None]:
df = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                    'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
 other = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                       'B': ['B0', 'B1', 'B2']})
 df.join(other, lsuffix='_caller', rsuffix='_other')

#Exemplo com join

É possível reindexar ou alterar o index de um DataFrame para ser uma das outras colunas. Basta fazer o df.set_index(“nome da coluna”).

In [None]:
#Para agruparmos, é simples. Basta chamarmos o método groupby a partir do DataFrame a ser analisado

 df = pd.DataFrame({'Animal': ['Falcon', 'Falcon',
                               'Parrot', 'Parrot'],
                    'Max Speed': [380., 370., 24., 26.]})
 grouped = df.groupby(['Animal'])
 print(grouped.mean())

 O método groupby aceita uma lista de colunas, que serão os agrupadores, mas só chamar o método de groupby não fará as agregações desejadas. O que precisamos para fazer a agregações é chamar o método direto, como no exemplo mean(), que calcula a média de todas as colunas numéricas agrupadas pelo tipo de animal.

In [None]:
df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
 df.apply(np.sqrt)
 df['A'] = df['A'].apply(lambda x: x['A']+1)
 df['C'] = df.apply(lambda x: x['A']+x['B'], axis=1)


apply, que é um método do DataFrame e das series, nada mais é do que o equivalente à função map de outras linguagens como Java e Javascript, em que definimos uma função e a passamos nos componentes de uma lista a fim de modificá-la. criamos um DataFrame sintético de três linhas, com cada linha tendo os valores 4 e 9. No primeiro apply, queremos a raiz quadrada do DataFrame inteiro, mas apenas para visualização, não salvando na variável. No segundo apply, estamos modificando a coluna A para que seja acrescida de uma unidade. E, por fim, criamos uma nova coluna para ser a soma das colunas A e B.