# Pandas

Significado: python data science

Em programação de computadores, pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais.

## Estruturas de dados

In [None]:
# Estudamos diferentes estruturas de dados
# listas, dicionários, tuplas, conjuntos, arrays


# Exemplo: matriz (2D  NumPy array)
import numpy as np
arr2d = np.random.rand(5, 3)
print(arr2d)                 # Uma matriz é uma estrutura de dados!

[[0.68834823 0.86080268 0.44639425]
 [0.09666139 0.65818402 0.05294284]
 [0.76155486 0.18836615 0.52668855]
 [0.05637124 0.76173728 0.94073113]
 [0.62201204 0.69777839 0.84923823]]


## Data Frames

Um data frame é semelhante a uma matriz mas as suas colunas têm nomes e podem conter dados de tipo diferente. Um data frame pode ser visto como uma tabela de uma base de dados, em que cada linha corresponde a um registo (linha) da tabela. Cada coluna corresponde às propriedades (campos) a serem armazenadas para cada registo da tabela. 

Portanto um data frame pode ser geredo como um dicionário, com uma conversão para classe data frame. 

### Criando Data Frames

In [None]:
# Criando um dicionário
import numpy as np

dict1 = {
    't':[0., 1., 2., 3., 4., 5.],
    'x':(0., 0.5, 2.0, 4.5, 8., 12.5),
    'v':np.array([0., 1., 2., 3., 4., 5.]),
    'a':6*[1.]
}

# Criando um data frame a partir de um dicionário
import pandas as pd

# Utiliza-se a função .DataFrame(...) para converter um dicionário para um Data Frame
# Como argumento essa função recebe um dicionário.
df1 = pd.DataFrame(dict1)
print(df1)

     t     x    v    a
0  0.0   0.0  0.0  1.0
1  1.0   0.5  1.0  1.0
2  2.0   2.0  2.0  1.0
3  3.0   4.5  3.0  1.0
4  4.0   8.0  4.0  1.0
5  5.0  12.5  5.0  1.0


In [None]:
# Exemplo 2: 
import pandas as pd


dados = {
    'tempo':[10,20,30],
    'medida':[1.1,2.2,3.3]
}

# Utiliza-se a função .DataFrame(...) para converter um dicionário para um Data Frame
# Como argumento essa função recebe um dicionário.
df2 = pd.DataFrame(dados)
print(df2)

   tempo  medida
0     10     1.1
1     20     2.2
2     30     3.3


In [None]:
# Exemplo 3:
import pandas as pd

# Utiliza-se a função .DataFrame(...) para converter um dicionário para um Data Frame
# Como argumento essa função recebe um dicionário.
df3 = pd.DataFrame(
    {
      'tempo':[10,20,30],
      'medida':[1.1,2.2,3.3]
    }
)

print(df3)

   tempo  medida
0     10     1.1
1     20     2.2
2     30     3.3


### Nome as linhas dos Data Frames

In [None]:
import pandas as pd
import numpy as np

# passando o argumento 'index' para função .DataFrame() é possível alterar os rótulos a esquerda da tabela

df4 = pd.DataFrame(

  {
    't':[0., 1., 2., 3., 4., 5.],
    'x':(0., 0.5, 2.0, 4.5, 8., 12.5),
    'v':np.array([0., 1., 2., 3., 4., 5.]),
    'a':6*[1.]
  },

  index = ['t0','t1','t2','t3','t4','t5']
)

print(df4)

      t     x    v    a
t0  0.0   0.0  0.0  1.0
t1  1.0   0.5  1.0  1.0
t2  2.0   2.0  2.0  1.0
t3  3.0   4.5  3.0  1.0
t4  4.0   8.0  4.0  1.0
t5  5.0  12.5  5.0  1.0


## Séries

In [None]:
import pandas as pd

# através da função séries contido na biblioteca panda podemos criar algo similar a um array
# A diferença é que ela carraga uma indexação na lateral
# IMPORTANTE! Isso não é um DataFrame contendo apenas uma única coluna.
serie_t = pd.Series([0., 1., 2., 3., 4., 5.])

print(serie_t)
print()
print(type(serie_t))

# podemos mudar a indexação que acompanha as séries.
# deve-se passar uma lista para o argumento 'index'.
serie_t = pd.Series([0., 1., 2., 3., 4., 5.], index = ['t0','t1','t2','t3','t4','t5'])
print(serie_t)

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
dtype: float64

<class 'pandas.core.series.Series'>
t0    0.0
t1    1.0
t2    2.0
t3    3.0
t4    4.0
t5    5.0
dtype: float64


In [None]:
# Pode-se criar um DataFrame utilizando as series
# É interessante observar que no processo que se passa um dicionário para função .DataFrame(...) o dicionário é convertido numa série.

import pandas as pd

df5 = pd.DataFrame(
    {
    't':pd.Series([0., 1., 2., 3., 4., 5.]),
    'x':pd.Series([0., 0.5, 2.0, 4.5, 8., 12.5]),
    'v':pd.Series([0., 1., 2., 3., 4., 5.]),
    'a':pd.Series(6*[1.])
    },
    index = ['f0','f1','f2','f3','f4','f5']
)

print(df5)

     t   x   v   a
f0 NaN NaN NaN NaN
f1 NaN NaN NaN NaN
f2 NaN NaN NaN NaN
f3 NaN NaN NaN NaN
f4 NaN NaN NaN NaN
f5 NaN NaN NaN NaN


In [None]:
# Gerando uma série de dados

import pandas as pd
import numpy as np

# função date_range(...) permite gerar uma serie de valores de datas
# o primeiro argumento informa a data inicial
# o argumento 'periods' diz o número de dias que se passa
dates = pd.date_range('20211020',periods=10)
print(dates, type(dates))

df6 = pd.DataFrame(
    {
        'Datas':dates,
        'A':np.random.rand(10),
        'B':np.random.rand(10),
        'C':np.random.rand(10)
    }
)

print('\n',df6)

DatetimeIndex(['2021-10-20', '2021-10-21', '2021-10-22', '2021-10-23',
               '2021-10-24', '2021-10-25', '2021-10-26', '2021-10-27',
               '2021-10-28', '2021-10-29'],
              dtype='datetime64[ns]', freq='D') <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

        Datas         A         B         C
0 2021-10-20  0.263378  0.700880  0.616980
1 2021-10-21  0.934087  0.217660  0.259679
2 2021-10-22  0.505337  0.303523  0.844079
3 2021-10-23  0.795917  0.587374  0.620470
4 2021-10-24  0.766333  0.993981  0.449220
5 2021-10-25  0.522746  0.229633  0.631259
6 2021-10-26  0.457172  0.342008  0.343617
7 2021-10-27  0.766631  0.565752  0.131025
8 2021-10-28  0.847832  0.462908  0.007493
9 2021-10-29  0.656489  0.814763  0.302614


In [None]:
# Vantagem de se usar .series() ao invés de arrays
# Series permitem classes diferentes de dados, arrays não.

s = pd.Series((10, 3.14, 4+5j, 'str'))     # permite classe diferente de dados
print(s, type(s))

a = np.array((10, 3.14, 4+5j, 'str'))
print(a,type(a))                           # converte para classe strings

0        10
1      3.14
2    (4+5j)
3       str
dtype: object <class 'pandas.core.series.Series'>
['10' '3.14' '(4+5j)' 'str'] <class 'numpy.ndarray'>


## Acessando valores de um data frame

In [None]:
# GERANDO O DATA FRAME

import pandas as pd
import numpy as np

# função date_range(...) permite gerar uma serie de valores de datas
# o primeiro argumento informa a data inicial
# o argumento 'periods' diz o número de dias que se passa
dates = pd.date_range('20211020',periods=10)
print(dates, type(dates))

df7 = pd.DataFrame(
    {
        'Datas':dates,
        'A':np.random.rand(10),
        'B':np.random.rand(10),
        'C':np.random.rand(10)
    }
)

print('\n',df7)

DatetimeIndex(['2021-10-20', '2021-10-21', '2021-10-22', '2021-10-23',
               '2021-10-24', '2021-10-25', '2021-10-26', '2021-10-27',
               '2021-10-28', '2021-10-29'],
              dtype='datetime64[ns]', freq='D') <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

        Datas         A         B         C
0 2021-10-20  0.941750  0.745235  0.016229
1 2021-10-21  0.806372  0.190728  0.427044
2 2021-10-22  0.224529  0.355035  0.523228
3 2021-10-23  0.297538  0.866792  0.015122
4 2021-10-24  0.574525  0.029663  0.551417
5 2021-10-25  0.561156  0.918152  0.791896
6 2021-10-26  0.817868  0.848170  0.381415
7 2021-10-27  0.793555  0.156980  0.321390
8 2021-10-28  0.739279  0.314677  0.410496
9 2021-10-29  0.547728  0.514667  0.513272


In [None]:
# Acessando células de um data frame
# Para acessar as células de um data frame se utiliza o atributo .loc[...,...]
# Esse atributo recebe dois argumentos:
#                                         primeiro = linha da célula
#                                         segundo = coluna da célula

import pandas as pd
import numpy as pd

# Acessando as células
print('Linha 0 coluna A: ',df7.loc[0,'A'])
print('Linha 8 coluna B: ',df7.loc[8,'C'])
print()

# Acessando as células e fazendo operações
x = (df7.loc[0,'A']**3) * np.cos(df7.loc[8,'C'])
print('x=',x)
print()

# Acessando as células utilizando o atributo '.at[...,...]'
# Análogo ao .loc[...,...]
print('Linha 0 coluna B: ',df7.at[0,'B'])

Linha 0 coluna A:  0.9417497221550518
Linha 8 coluna B:  0.4104956974068108

x= 0.7658424336640122

Linha 0 coluna B:  0.7452350102957797


In [None]:
# Extraindo valores de uma coluna de um Data Frame
# Basta informa o rótulo da coluna
print(df7['A'])

print()

# A mesma operação não é possível para extrair o valor das linhas
#print(df7[1])   # GERA UM ERRO! 
# Necessidade de usar o atributo loc
print(df7.loc[1])

0    0.941750
1    0.806372
2    0.224529
3    0.297538
4    0.574525
5    0.561156
6    0.817868
7    0.793555
8    0.739279
9    0.547728
Name: A, dtype: float64

Datas    2021-10-21 00:00:00
A                   0.806372
B                   0.190728
C                   0.427044
Name: 1, dtype: object


In [None]:
# Extraindo linhas e colunas de um data frame.
# Similar a operação de fatiamento que faziamos com listas.
# Diferente do fatiamento que faziamos com listas, os dois argumentos limites são considerados
# É feito dessa forma a definição dos limites para se aprximar da linguagem R
df7a = df7.loc[1:5, ['A','B']]
print(df7a)
print()

# ...:...:... tal como vimos antes 
df7b = df7.loc[1:5:2, ['B','A']]
print(df7b)
print()

# passando para o atrbuto uma lista no primeiro arguento podemos pegar somente as linhas desejadas.
# as linhas desejadas são os elementos da lista.
df7c = df7.loc[[1,4,5], ['B','A','Datas']]
print(df7c)
print()

# não informando o segundo argumento para o atributo .loc pegamos todas as colunas do data frame.
df7d = df7.loc[2:7]
print(df7d)
print()

          A         B
1  0.806372  0.190728
2  0.224529  0.355035
3  0.297538  0.866792
4  0.574525  0.029663
5  0.561156  0.918152

          B         A
1  0.190728  0.806372
3  0.866792  0.297538
5  0.918152  0.561156

          B         A      Datas
1  0.190728  0.806372 2021-10-21
4  0.029663  0.574525 2021-10-24
5  0.918152  0.561156 2021-10-25

       Datas         A         B         C
2 2021-10-22  0.224529  0.355035  0.523228
3 2021-10-23  0.297538  0.866792  0.015122
4 2021-10-24  0.574525  0.029663  0.551417
5 2021-10-25  0.561156  0.918152  0.791896
6 2021-10-26  0.817868  0.848170  0.381415
7 2021-10-27  0.793555  0.156980  0.321390



## Obtendo informações sobre um data frame

In [None]:
print(df7)
print()

print('Numero de linhas: ', len(df7))
print('Nome das colunas: ', df7.columns)
print('Número de colunas: ', len(df7.columns))
print('Dimensões........: ', df7.shape)
print('Número de elementos: ',df7.size)

# Também podemos obter o número de linhas e colunas por:
print('linhas: ',df7.shape[0])
print('colunas: ',df7.shape[1])
      
# Outras informações obtidas podem ser geradas pelo atributo .info()
print()
print(df7.info())

       Datas         A         B         C
0 2021-10-20  0.723510  0.275388  0.517593
1 2021-10-21  0.852592  0.312104  0.407912
2 2021-10-22  0.036396  0.473277  0.372783
3 2021-10-23  0.453526  0.911262  0.890132
4 2021-10-24  0.349944  0.137407  0.832726
5 2021-10-25  0.027580  0.499916  0.881810
6 2021-10-26  0.148414  0.250080  0.866648
7 2021-10-27  0.208038  0.042075  0.679806
8 2021-10-28  0.160252  0.590601  0.370368
9 2021-10-29  0.507272  0.882405  0.977501

Numero de linhas:  10
Nome das colunas:  Index(['Datas', 'A', 'B', 'C'], dtype='object')
Número de colunas:  4
Dimensões........:  (10, 4)
Número de elementos:  40
linhas:  10
colunas:  4

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Datas   10 non-null     datetime64[ns]
 1   A       10 non-null     float64       
 2   B       10 non-null     float64       
 3   C       10 

## Alterando valores de um data frame

In [None]:
import pandas as pd

# uma outra forma de gerar um data frame é:
df9 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'])
print(df9)
print()

# formas possíveis de se alterar um data frame:
df9.loc[0,'A'] = 100
df9.at[0,'B'] = 200
df9.iloc[1,0] = 300
df9.iloc[1,1] = 400

# atributo .iloc[...,...] permite acessar um elemento no data frame apenas pela sua linha e coluna

print(df9)

   A  B
0  1  2
1  3  4

     A    B
0  100  200
1  300  400


In [None]:
import pandas as pd

# mudando os índices para 'x' e 'y'
df10 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'], index=['x','y'])
print(df10)
print()

# formas possíveis de se alterar um data frame:

# deve-se respeitar os índices trocados
df10.loc['x','A'] = 100
df10.at['x','B'] = 200

# atributo .iloc[...,...]
# só é necessário informar a posição dos índices de acordo com o número.
# não importa a mudança feita pela indexação.
df10.iloc[1,0] = 300
df10.iloc[1,1] = 400

print(df10)

   A  B
x  1  2
y  3  4

     A    B
x  100  200
y  300  400


In [None]:
# Alterando os valores de uma coluna
df10 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'], index=['x','y'])
df10['A'] = [1000,3000]        # pode-se passar uma lista
df10['B'] = 0                  # pode-se passar um único valor para assumir todos os valores da coluna.
print(df10)

      A  B
x  1000  0
y  3000  0


In [None]:
# Alterando os valores de uma linha
df10 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'], index=['x','y'])
df10.iloc[0] = [3001,1002]        # pode-se passar uma lista
df10.iloc[1] = 0                  # pode-se passar um único valor para assumir todos os valores da coluna.
print(df10)

      A     B
x  3001  1002
y     0     0


## Cópia de data frames

In [None]:
x = 9
y = x
print(x,y)
x = 0
print(x,y)

# Conclusão: não referenciam a mesma memória

9 9
0 9


In [None]:
df10 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'])
print(df10)
print()

df10x = df10
print(df10x)
print()

df10.loc[0,'A'] = 100
print(df10)
print()
print(df10x)

# Conclusão: apontam para o mesmo espaço de memória.
# Por isso a função cópia data frame é importante. (impede que a cópia referencia o mesmo data frame que o original)



   A  B
0  1  2
1  3  4

   A  B
0  1  2
1  3  4

     A  B
0  100  2
1    3  4

     A  B
0  100  2
1    3  4


In [None]:
df10 = pd.DataFrame([[1,2],[3,4]],columns = ['A','B'])
print(df10)
print()

# .copy : função exatamente análoga ao dos arrays.
df10x = df10.copy()
print(df10x)
print()

df10.loc[0,'A'] = 100
print(df10)
print()
print(df10x)

# Conclusão: apontam para o mesmo espaço de memória.
# Por isso a função cópia data frame é importante. (impede que a cópia referencia o mesmo data frame que o original)

   A  B
0  1  2
1  3  4

   A  B
0  1  2
1  3  4

     A  B
0  100  2
1    3  4

   A  B
0  1  2
1  3  4


## Adicionando novas linhas e colunas

In [None]:
import pandas as pd

df = pd.DataFrame([[1,2],[3,4]], columns=['A','B'])
print(df)
print()

# Antes de adicionar uma linha ou uma coluna vamos criar uma cópia do Data Frame.
# Iremos gerar uma cópia justamente para comparar as linhas e colunas adicionadas com o antigo Data Frame.
# Com essa cópia, podemos observar que o Data Frame original não é modificado.
dfx = df.copy() 
print(dfx)
print()

# ADICIONANDO UMA COLUNA:
dfx['C'] = [100,200]
#dfx['C'] = 10

# ADICIONANDO UMA LINHA:
dfx.loc[1] = [-1,2,3]
# utilizamos a função .len() para obter o número de linhas do data frame.
# isso permite indexar em sequência a nova linha que será adicionada no data frame
dfx.loc[len(dfx)] = [-10,-20,30]   
dfx.loc[5] = [11,22,33]
dfx.loc[10] = [-2,-2,3] 
print(dfx)
print()

# redire a função .copy() acima
# observe que o data frame original é alterado
print(df)

   A  B
0  1  2
1  3  4

   A  B
0  1  2
1  3  4

     A   B    C
0    1   2  100
1   -1   2    3
2  -10 -20   30
5   11  22   33
10  -2  -2    3

   A  B
0  1  2
1  3  4


In [None]:
# Adicionando novas colunas sem alterar o data frame original:
# Não é necessário usar a função .copy()
# utiliza-se o atributo assign(...) 
# Como argumento recebemos o nome da coluna junto com uma lista com seus valores.
dfxb = dfx.assign(D = 5*[1])
print(dfx)
print()
print(dfxb)

     A   B    C
0    1   2  100
1   -1   2    3
2  -10 -20   30
5   11  22   33
10  -2  -2    3

     A   B    C  D
0    1   2  100  1
1   -1   2    3  1
2  -10 -20   30  1
5   11  22   33  1
10  -2  -2    3  1


## Removendo linhas e colunas

In [None]:
print(dfxb)
print()

# através do atributo .drop(...) podemos remover uma linha do data frame
print(dfxb.drop(10))
print()

# através do atributo .drop(...) podemos remover uma coluna do data frame.
# além de especificar a colunar é necessário passar um segundo argumento.
# esse segundo argumento é o axis = 'columns'
print(dfxb.drop(['D'], axis = 'columns'))
print()

# IMPORTANTE! 
# ESSE ATRIBUTO NÃO ALTERA O DATA FRAME ORIGINAL
print(dfxb)
print()

# para remover o data frame original é necessário passar mais um argumento para o atributo .drop()
# O argumento 'inplace' deve ser 'True' para alterar o data frame original. 

print(dfxb.drop(['C'], axis = 'columns', inplace = True))
print()
print(dfxb)

     A   B    C  D
0    1   2  100  1
1   -1   2    3  1
2  -10 -20   30  1
5   11  22   33  1
10  -2  -2    3  1

    A   B    C  D
0   1   2  100  1
1  -1   2    3  1
2 -10 -20   30  1
5  11  22   33  1

     A   B    C
0    1   2  100
1   -1   2    3
2  -10 -20   30
5   11  22   33
10  -2  -2    3

     A   B    C  D
0    1   2  100  1
1   -1   2    3  1
2  -10 -20   30  1
5   11  22   33  1
10  -2  -2    3  1

None

     A   B  D
0    1   2  1
1   -1   2  1
2  -10 -20  1
5   11  22  1
10  -2  -2  1


## Concatenando data frames

In [None]:
import pandas as pd

df = pd.DataFrame([[1,2],[3,4]],columns = list('AB'), index = list('xy'))
df2 = pd.DataFrame([[5,6],[7,8]],columns = list('AB'), index = list('xy'))

print(df, '\n\n', df2, '\n\n')

# através do atributo .appennd(...) podemos concatenar data frames
# passamos como argumento o data frame que queremos concatenar

dfx = df.append(df2)
print(dfx)

# é possível ignorar os índices das linhas 
# deve-se passar um segundo argumento para o método .append(...,...)
# 'ignore_index = ...' deve ser 'true' para ignorar.
df = pd.DataFrame([[1,2],[3,4]],columns = list('AB'), index = list('xy'))
df2 = pd.DataFrame([[5,6],[7,8]],columns = list('AB'), index = list('xy'))

dfx = df.append(df2, ignore_index = True)
print('\n\n',dfx)

# esse atributo preserva o data frame original
print('\n',df)

   A  B
x  1  2
y  3  4 

    A  B
x  5  6
y  7  8 


   A  B
x  1  2
y  3  4
x  5  6
y  7  8


    A  B
0  1  2
1  3  4
2  5  6
3  7  8

    A  B
x  1  2
y  3  4


## Data frames vazios

In [None]:
import pandas as pd

# gerando um Data Frame vazio.
df = pd.DataFrame()

print(df)
print()
print(df.info())

# colocando uma coluna em um data frame vazio.
dfc = pd.DataFrame(columns=['A'])
print()
print(dfc)

# preenchendo as linhas de um Data Frame via interação.
for i in range(0,5):
  dfc.loc[i,['A']] = i*10

print()
print(dfc) 

Empty DataFrame
Columns: []
Index: []

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Empty DataFrameNone

Empty DataFrame
Columns: [A]
Index: []

    A
0   0
1  10
2  20
3  30
4  40


## Ordenamento de data frames

In [None]:
# Ordenamento por valores

import numpy as np
import pandas as pd

# criando um data frame aleatório e exibindo.
df = pd.DataFrame(np.random.randint(low=10, high=100, size=(5,5)), columns=list('ABCDE'))
print(df)
print()

# atributo .sort_values(by='...') permite ordenar de forma crscente os elementos de uma coluna
# deve=se passar como argumento o nome das coluna(s) que se deseja ordendar
print('Ordenamento dos elementos de uma coluna em ordem crscente:')
df1 = df.sort_values(by='A')
print(df1)
print()

# passando o argumento 'ascending' podemo ordenar os elementos descrescentemente.
# deve-se passar a variável booleana 'False'.
print('Ordenamento dos elementos de uma coluna em ordem decrescente:')
df2 = df.sort_values(by='A', ascending = False)
print(df2)
print()

# O data frame original permanece o mesmo devido aos atributos utilizados.
print(df)

    A   B   C   D   E
0  46  36  53  13  84
1  84  48  44  48  33
2  90  45  88  16  52
3  53  42  28  29  34
4  70  24  30  26  95

Ordenamento dos elementos de uma coluna em ordem crscente:
    A   B   C   D   E
0  46  36  53  13  84
3  53  42  28  29  34
4  70  24  30  26  95
1  84  48  44  48  33
2  90  45  88  16  52

Ordenamento dos elementos de uma coluna em ordem decrescente:
    A   B   C   D   E
2  90  45  88  16  52
1  84  48  44  48  33
4  70  24  30  26  95
3  53  42  28  29  34
0  46  36  53  13  84

Ordenamento dos elementos de uma coluna em ordem decrescente:


KeyError: ignored

In [None]:
# ORDENAMENTO POR EIXOS
import pandas as pd
import numpy as np

# gerando o data frame
df = pd.DataFrame(np.random.randint(low = 5, high = 100, size = (5,5)),columns = list('DCEAB'), index=[5,3,2,0,1])
print(df)
print()

# o atributo sort_index(axis=...) permite ordenar os eixos de forma crescente.
# para axis = 1 é ordenado as colunas
print('Ordenando as colunas:')
df1 = df.sort_index(axis = 1)
print(df1)
print()
# para axis = 0 é ordenado as linhas
print('Ordenando as linhas')
df2 = df.sort_index(axis = 0)
print(df2)
print()
# podemos utilizar duas vezes esse atributo para ordenar o index das linhas e colunas.
print('Ordenando as linhas e as colunas')
df3 = df.sort_index(axis=0).sort_index(axis=1)
print(df3)
print()


# Essa atributo não altera o data frame original
print('Esse atributo não altera o data frame original')
print(df)

    D   C   E   A   B
5   9  34  44  34  92
3  54  49  99  12  12
2  73  16  26  33  91
0  68  90  45  30  45
1  22  89  16  46  82

Ordenando as colunas:
    A   B   C   D   E
5  34  92  34   9  44
3  12  12  49  54  99
2  33  91  16  73  26
0  30  45  90  68  45
1  46  82  89  22  16

Ordenando as linhas
    D   C   E   A   B
0  68  90  45  30  45
1  22  89  16  46  82
2  73  16  26  33  91
3  54  49  99  12  12
5   9  34  44  34  92

Ordenando as linhas e as colunas
    A   B   C   D   E
0  30  45  90  68  45
1  46  82  89  22  16
2  33  91  16  73  26
3  12  12  49  54  99
5  34  92  34   9  44

Esse método não altera o data frame original
    D   C   E   A   B
5   9  34  44  34  92
3  54  49  99  12  12
2  73  16  26  33  91
0  68  90  45  30  45
1  22  89  16  46  82


## Filtros

In [None]:
import pandas as pd
import numpy as np

# Gerando um Data Frame
df = pd.DataFrame(np.random.randint(low=0,high=50, size=(5,5)), columns = list('ABCDE'))
print(df)
print()

# Com o atributo .iloc[[...,...]] podemos acessar as linhas desejadas de um data frame
print('Acessando as linhas 1 e 3 do data frame df por .iloc[...]:')
print(df.iloc[[1,3]])
print()

# Podemos acessar também passando uma lista booleana para o data frame
print('Acessando as linhas 1 e 3 do data frame df por uma lista boolena:')
print(df[[False, True, False, True, False]])
print()

# Exibindo apenas as linhas cujo os elementos são maior que 45 em um data frame
print('Exibindo apenas as linhas cujo os elementos da coluna A são maior que 40 em um data frame')
lista = list(df['A'] > 40)  # Retorna uma lista booleana
print(df[lista])
print()
# Também podemos escrever o filtro acima diretamente na expressão
print('Exibindo apenas as linhas cujo os elementos da coluna A são maior que 40 em um data frame')
print(df[df['A'] > 40])
print()

# Podemos colocar mais de um filtro com o operador &
print('Exibindo apenas as linhas cujo os elementos da coluna A são maior que 10 e que os elementos da coluna B são menor que 30')
print(df[ (df['A'] > 10) & (df['B'] < 30)])
print()

# Outra forma de produzir o mesmo resultado do filtro acima é escrevendo
print('Mesmo resultado que o do filtro acima:')
print(df[ (df.A > 10) & (df.B < 30)])
print()

    A   B   C   D   E
0  23  37  11  23  11
1  10   2   2   2  37
2  18  39  39   4  49
3  34  25   4   0  30
4  15  18   1  35  47

Acessando as linhas 1 e 3 do data frame df por .iloc[...]:
    A   B  C  D   E
1  10   2  2  2  37
3  34  25  4  0  30

Acessando as linhas 1 e 3 do data frame df por uma lista boolena:
    A   B  C  D   E
1  10   2  2  2  37
3  34  25  4  0  30

Exibindo apenas as linhas cujo os elementos da coluna A são maior que 40 em um data frame
Empty DataFrame
Columns: [A, B, C, D, E]
Index: []

Exibindo apenas as linhas cujo os elementos da coluna A são maior que 40 em um data frame
Empty DataFrame
Columns: [A, B, C, D, E]
Index: []

Exibindo apenas as linhas cujo os elementos da coluna A são maior que 10 e que os elementos da coluna B são menor que 30
    A   B  C   D   E
3  34  25  4   0  30
4  15  18  1  35  47

Mesmo resultado que o do filtro acima:
    A   B  C   D   E
3  34  25  4   0  30
4  15  18  1  35  47



In [None]:
import pandas as pd
import numpy as np

# Gerando um Data Frame
df = pd.DataFrame(np.random.randint(low=0,high=50, size=(5,5)), columns = list('ABCDE'))
print(df)
print()

# Filtros com o atributo .query()
# Esse filtro é ideal para trabalhar com situação onde as linhas e colunas modificam seus rótulos.
# Recebe como argumento uma string contendo a expressão lógica das linhas que desejamos deixar.
print(df.query('A>10'))
print()
print(df.query('(A>10) & (D<10)'))
print()

# vantagem do .query() é que podemos passar valores pela string
# portanto não se torna algo fixo
col = 'D'
print(df.query('{0} > 10'.format(col)))
print()

# podemos passar uma variável para string e um correspondente valor com o uso do @
x = 10
print(df.query('A>@x'))
print()

# ou podemos passar dois argumentos para dentro da função ponto format
col1 = 'A'
x = 10
print(df.query('{0}>{1}'.format(col1,x)))
print()

# o atributo ponto .query() permite utilizar expressões lógicas com dois argumentos tal como fizemos acima.
# já a função .format() permite receber dois argumentos ou mais introduzidos na expressão
col1 = 'A'
col2= 'B'
x = 10
print(df.query('({0}>{2}) & ({1}>{2})'.format(col1,col2,x)))
print()

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18
4  18   2  40  39   6

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18
4  18   2  40  39   6

    A   B   C  D   E
3  43  39  28  4  18

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
4  18   2  40  39   6

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18
4  18   2  40  39   6

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18
4  18   2  40  39   6

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18



In [None]:
# Filtros com uso do atributo .loc[]
print(df)
print()

# extraindo um SubDataFrame
print(df.loc[0:3,['A','B']])
print()

# testando um SubDataFrame
print(df.loc[0:3,['A','B']]> 30)
print()

# Alocando esse teste no dataframe 
# NaN = not a number 
print(df[df.loc[0:3,['A','B']]>30])

# Para selecionar valores não nulos
# Deixando apenas em termos de True e False
dfx = df[df.loc[0:3,['A','B']]>30]
print(dfx.notnull())
print()

    A   B   C   D   E
0  21  29   3  20  48
1  37  22  31  15  11
2  35  33  40  15   6
3  43  39  28   4  18
4  18   2  40  39   6

    A   B
0  21  29
1  37  22
2  35  33
3  43  39

       A      B
0  False  False
1   True  False
2   True   True
3   True   True

      A     B   C   D   E
0   NaN   NaN NaN NaN NaN
1  37.0   NaN NaN NaN NaN
2  35.0  33.0 NaN NaN NaN
3  43.0  39.0 NaN NaN NaN
4   NaN   NaN NaN NaN NaN
       A      B      C      D      E
0  False  False  False  False  False
1   True  False  False  False  False
2   True   True  False  False  False
3   True   True  False  False  False
4  False  False  False  False  False



In [None]:
# Filtros com método isin()
# Podemos verificar quais elementos estão presentes em um Data Frame com o atributo isin(...)
# Como argumento ele recebe uma lista com os elementos que deseja-se verificar no DataFrame
import pandas as pd
import numpy as np

df = pd.DataFrame(np.array([10,20,30,40,50,60,70,80,90]).reshape(3,3),list('ABC'))
print(df)
print()


# Fazendo o teste para verificar quais elementos estão presentes
print(df.isin([10,50,90]))
print()

# Alocando esse teste no DataFrame
print(df[df.isin([10,50,90])])

    0   1   2
A  10  20  30
B  40  50  60
C  70  80  90

       0      1      2
A   True  False  False
B  False   True  False
C  False  False   True

      0     1     2
A  10.0   NaN   NaN
B   NaN  50.0   NaN
C   NaN   NaN  90.0


In [None]:
print(df[df>50])
print()

# Podemos pegar a negação da expessão lógica
# Deve-se usar o operador '~'

print(df[~(df>50)])


      0     1     2
A   NaN   NaN   NaN
B   NaN   NaN  60.0
C  70.0  80.0  90.0

      0     1     2
A  10.0  20.0  30.0
B  40.0  50.0   NaN
C   NaN   NaN   NaN


## Outros Métodos e Atributos

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(low=-50,high=50,size=(5,4)), columns=list('ABCD'))
print(df)
print()

# Atributo .abs()
# Atributo que retorna os valores absolutos dos elementos do dataframe
print(df.abs())

    A   B   C   D
0 -15  19  25  46
1  10 -17 -13  15
2 -25  35 -48  37
3  -6  16  33   4
4  -9  30  40 -44

    A   B   C   D
0  15  19  25  46
1  10  17  13  15
2  25  35  48  37
3   6  16  33   4
4   9  30  40  44


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(low=-50,high=50,size=(10,3)), columns=list('ABC'))
print(df)
print()

# Atributo .transpose()
# Atributo que retorna a transposta de um dataframe
print(df.transpose())
print()

# também pde ser obtido usando o comando .T
print(df.T)

    A   B   C
0  -7   2  25
1 -25   5  43
2  46 -41 -14
3  -5  31 -50
4  -6  19 -10
5  46  42 -10
6  13  42  35
7   6  -4   5
8 -34  25  37
9 -21  30  24

    0   1   2   3   4   5   6  7   8   9
A  -7 -25  46  -5  -6  46  13  6 -34 -21
B   2   5 -41  31  19  42  42 -4  25  30
C  25  43 -14 -50 -10 -10  35  5  37  24

    0   1   2   3   4   5   6  7   8   9
A  -7 -25  46  -5  -6  46  13  6 -34 -21
B   2   5 -41  31  19  42  42 -4  25  30
C  25  43 -14 -50 -10 -10  35  5  37  24
