# Pandas

## Ler Arquivos CSV

In [1]:
import pandas as pd

In [6]:
df1 = pd.read_csv(r'C:\Arquivos\testePandas.csv')  # importante usar o r no inicio, para correta interpretação do \
print(df1)
print(df1.shape) # propriedade shape informa o número de linhas e colunas no dataframe
print(df1.columns) # columns informa nomes das colunas (variáveis) e tipo do dataframe
print(df1.dtypes) # dtypes informa o tipo de cada coluna do dataframe

    ano campeao  pontos
0  2000       A      76
1  2001       B      77
2  2002       D      79
3  2003       C      69
4  2004       B      71
5  2005       C      72
(6, 3)
Index(['ano', 'campeao', 'pontos'], dtype='object')
ano         int64
campeao    object
pontos      int64
dtype: object


Obs.: *The leading r denotes a python raw string. It treats \ as a literal character. No need to escape it.*

In [18]:
# Ver apenas as colunas campeao e pontos
print(df1.loc[:,["campeao","pontos"]])

# Ver número máximo de pontos (valor mais alto na coluna pontos)
print(df1.loc[:,"pontos"].max())
# Ou simplesmente:
print(df1.pontos.max())


  campeao  pontos
0       A      76
1       B      77
2       D      79
3       C      69
4       B      71
5       C      72
79
79


AttributeError: 'list' object has no attribute 'max'

## Ler Arquivos do Excel

In [11]:
# Instalar biblioteca para acesso a dados do Excel
!pip3 install xlrd



In [17]:
# Ler arquivo do Excel em um Dataframe
import pandas as pd
df1 = pd.read_excel(r'C:\Arquivos\testePandas.xlsx')
print(df1)

    Ano Campeão  Pontos
0  2000       A      73
1  2001       B      77
2  2002       D      72
3  2003       C      76
4  2004       A      80
5  2005       D      77
6  2006       A      75
7  2007       B      78
8  2008       B      77
9  2009       C      73


Criar um objeto Series

In [18]:
import pandas as pd

lista = ['Morango','Maçã','Uva','Pêssego','Carambola']
s1 = pd.Series(lista)

print(lista)
print(s1)

['Morango', 'Maçã', 'Uva', 'Pêssego', 'Carambola']
0      Morango
1         Maçã
2          Uva
3      Pêssego
4    Carambola
dtype: object


## Estruturas de Dados no Pandas

A principal estrutura de dados no Pandas é o Data Frame. Trata-se de uma tabela bidimensional de dados na qual as linhas tipicamente representam casos (como registros em um banco de dados relacional), e as colunas representam variáveis.

No pandas também existe a estrutura de dados unidimensional chamada de Series (série), que pode representar, por exemplo, uma coluna de um dataframe.


In [None]:
# Visualizar as 5 primeiras linhas de um dataframe de nome df com o método head():
df.head()

# Para ver o dataframe completo, basta executar:
df

# Para ver o tipo do objeto criado: função type()
type(df)

# Podemos obter informações sobre os dados em si, conferindo os nomes das colunas e seus respectivos tipos de dados com:
df.columns

##############################################################################
#    É possível fatiar o dataframe e ver partes específicas dos dados, como  #
#    por exemplo colunas em particular, com os métodos .loc() e .iloc()      #
##############################################################################

# Método .loc()
# Recebe dois parâmetros separados por uma vírgula: nomes de linha e coluna respectivamente
df.loc[:,'Coluna'] # Todos os dados da Coluna
df.loc[:,['Coluna1','Coluna2','Coluna3']] # Todos os dados das colunas 1, 2 e 3
df.loc[:9,['Coluna1','Coluna2','Coluna3']] # As 10 primeiras linhas das colunas 1, 2 e 3
df.loc[10:20] # Faixa de linhas para todas as colunas


# Método iloc()
# Usa índices numéricos para indicar linhas e colunas, em vez de nomes
df.iloc[:,0] # Todos os dados da primeira coluna (índice numérico)
df.iloc[:4]
df.iloc[:4,1:5] # 5 primeiras linhas das colunas de 1 a 5 - 1 (5 não é exibida)
df.iloc[[-5:]] # Os últimos 5 elementos no dataset
df.iloc[[2,5,9],0] # Apenas linhas selecionadas para a primeira coluna (passando uma lista de linhas)

# Selecionar a primeira linha inteira de um df:
df.iloc[0] # foi especificada somente a linha

# Ver os tipos de dados de cada coluna do dataframe: propriedade dtypes
df.dtypes

# Listar valores sem repetição em uma coluna: método unique()
df.NomeColuna.unique()


In [41]:
# teste com dataset de elementos químicos
# Ler arquivo do Excel em um Dataframe
import pandas as pd

#dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')
#print(dfq)

# Opcionalmente, podemos trabalhar com arquivos .csv:
dfq = pd.read_csv(r'C:\Arquivos\testeElementosCSV.csv', engine='python') # engine='python' para evitar erro de utf-8
print(dfq)

       Z      Elemento Simbolo                          A  Massa Atômica  \
0      1    Hidrogênio       H                    '1,2,3'          1.008   
1      2         Hélio      He                      "3,4"          4.003   
2      3         Lítio      Li                      "6,7"          6.940   
3      4       Berílio      Be                          9          9.012   
4      5          Boro       B                    "10,11"         10.810   
5      6       Carbono       C                 "12,13,14"         12.011   
6      7    Nitrogênio       N                    "14,15"         14.007   
7      8      Oxigênio       O                 "16,17,18"         15.999   
8      9         Flúor       F                       "19"         18.998   
9     10        Neônio      Ne                 "20,21,22"         20.180   
10    11         Sódio      Na                         23         22.990   
11    12      Magnésio      Mg                 "24,25,26"         24.305   
12    13    

In [6]:
# Listar as colunas presentes no DataFrame de Elementos Químicos

dfq.columns

Index(['Z', 'Elemento', 'Simbolo', 'A', 'Massa Atômica', 'AnoDescoberta',
       'Descobridor', 'CAS', 'ChemSpider ID', 'Densidade', 'PontoFusao',
       'PontoEbulicao', 'Período', 'Grupo', 'Bloco', 'EstadoFisico',
       'Raio Atômico (A)', 'Eletronegatividade', 'EstadosOxidação',
       'NumIsotoposEstaveis', 'Energia_Ionização (eV)'],
      dtype='object')

In [3]:
# Listar símbolos e massas atômicas

dfq.loc[:,["Simbolo","A","Massa Atômica"]]

Unnamed: 0,Simbolo,A,Massa Atômica
0,H,"""1,2,3""",1008.00
1,He,"""3,4""",4003.00
2,Li,"""6,7""",6.94
3,Be,9,9012.00
4,B,"""10,11""",10.81
5,C,"""12,13,14""",12011.00
6,N,"""14,15""",14007.00
7,O,"""16,17,18""",15999.00
8,F,"""19""",18998.00
9,Ne,"""20,21,22""",20180.00


## Alterar índices

Podemos alterar a coluna que será usada como índice em um dataframe usando o método set_index(). Por exemplo, para tornar a coluna Simbolo o índice do DataFrame dfq, fazemos o seguinte:

In [7]:
dfq.set_index('Simbolo')

dfq.loc[:,'Elemento'] # Todos os dados da coluna Elemento, indexados pelo símbolo

0        Hidrogênio
1             Hélio
2             Lítio
3           Berílio
4              Boro
5           Carbono
6        Nitrogênio
7          Oxigênio
8             Flúor
9            Neônio
10            Sódio
11         Magnésio
12         Alumínio
13          Silício
14          Fósforo
15          Enxofre
16            Cloro
17          Argônio
18         Potássio
19           Cálcio
20         Escândio
21          Titânio
22          Vanádio
23            Cromo
24         Manganês
25            Ferro
26          Cobalto
27           Níquel
28            Cobre
29            Zinco
           ...     
88          Actínio
89            Tório
90     Protoactínio
91           Urânio
92          Netúnio
93         Plutônio
94         Amerício
95            Cúrio
96        Berquélio
97       Califórnio
98       Einsteínio
99           Férmio
100      Mendelévio
101         Nobélio
102       Laurêncio
103     Ruterfórdio
104          Dúbnio
105       Seabórgio
106          Bóhrio


## Condições

Podemos verificar se os registros possuem um valor específico em uma coluna usando o operador de igualdade ==. Por exemplo, podemos consultar quais elementos químicos possuem exatamente 2 isótopos estáveis com a declaração a seguir, que retorna valores True ou False baseados nos valores encontrados:

In [14]:
print(dfq.NumIsotoposEstaveis == 2)

# E então podemos consultar quais são os elementos específicos usando essa condição combinada com o método loc():
dfq.loc[dfq.NumIsotoposEstaveis == 2,['Elemento','NumIsotoposEstaveis']]

0       True
1       True
2       True
3      False
4       True
5       True
6       True
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16      True
17     False
18      True
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28      True
29     False
       ...  
88     False
89     False
90     False
91     False
92     False
93     False
94     False
95     False
96     False
97     False
98     False
99     False
100    False
101    False
102    False
103    False
104    False
105    False
106    False
107    False
108    False
109    False
110    False
111    False
112    False
113    False
114    False
115    False
116    False
117    False
Name: NumIsotoposEstaveis, Length: 118, dtype: bool


Unnamed: 0,Elemento,NumIsotoposEstaveis
0,Hidrogênio,2
1,Hélio,2
2,Lítio,2
4,Boro,2
5,Carbono,2
6,Nitrogênio,2
16,Cloro,2
18,Potássio,2
28,Cobre,2
30,Gálio,2


In [16]:
# podemos combinar expressões condicionais, por exemplo trazendo apenas os elementos que tenham 2 isótopos
# estáveis e que sejam gases:
dfq.loc[(dfq.NumIsotoposEstaveis == 2) & (dfq.EstadoFisico == 'Gás'),'Simbolo']

0      H
1     He
6      N
16    Cl
Name: Simbolo, dtype: object

In [32]:
# Elementos que são sólidos e cuja densidade é maior do que 10 g/cm3
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')

dfq.loc[(dfq.EstadoFisico == 'Sólido') & (dfq.Densidade >= 10),['Simbolo','Densidade']]

Unnamed: 0,Simbolo,Densidade
41,Mo,10.2
42,Tc,11.0
43,Ru,12.1
44,Rh,12.4
45,Pd,12.0
46,Ag,10.5
71,Hf,13.3
72,Ta,16.4
73,W,19.3
74,Re,20.8


## Método isin()

O método seletor condicional isin() permite selecionar dados cujo valor esteva dentro de uma lista de valores passada. No exemplo a seguir vamos usar o seletor isin para retornar todos os dados dos elementos Cobre, Alumínio, Ouro e Prata (sando os símbolos respectivos)

In [29]:
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')


# Retornar todos os dados dos elementos Cobre, Alumínio, Ouro e Prata (sando os símbolos respectivos)

dfq.loc[dfq.Simbolo.isin(['Cu','Al','Ag','Au'])]

# Ou ainda apenas alguas colunas determinadas. Descomente a linha a seguir para testar:
dfq.loc[dfq.Simbolo.isin(['Cu','Al','Ag','Au']),['Elemento','Z','Simbolo','Massa Atômica','CAS']]

Unnamed: 0,Elemento,Z,Simbolo,Massa Atômica,CAS
12,Alumínio,13,Al,26982.0,7429-90-5
28,Cobre,29,Cu,63546.0,7440-50-8
46,Prata,47,Ag,107868.0,7440-22-4
78,Ouro,79,Au,196967.0,7440-57-5


## Métodos isnull() e notnull()

Permitem verificar se um valor está vazio (nulo / NaN) ou não.

No exemplo a seguir vamos verificar quais elementos NÃO tem valor de densidade determinada. Os valores inexistentes são retornados como NaN (Not a Number).

In [35]:
# Elementos que não possuem densidade determinada
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')

dfq.loc[dfq.Densidade.isnull(),['Simbolo','Densidade']]

Unnamed: 0,Simbolo,Densidade
84,At,
86,Fr,
98,Es,
99,Fm,
100,Md,
101,No,
102,Lr,
103,Rf,
104,Db,
105,Sg,


In [140]:
# ESSE TEM ERRO, PESQUISAR

# Muitos elementos possuem mais de um número de massa (A), dependendo da quantidade de isótopos existentes.
# Vamos retornar os elementos cujo número de massa é igual a 14

import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')

# Transformar string retornada na coluna A em uma lista de valores:
dfq['A'] = dfq['A'].apply(lambda x: str(x).split(','))
dfq['A'] = dfq['A'].apply(lambda x: str(x).replace('"', ""))

#dfq['A'] = dfq['A'].apply(list(map(int, dfq['A'])))


print(dfq['A'])

#dfq.loc[dfq.A.isin(['9']),['Elemento','Z','Simbolo','Massa Atômica']]

#dfq.loc[(dfq.A == '9'),['Elemento','Z','Simbolo','Massa Atômica']]




0                                 ['1', '2', '3']
1                                      ['3', '4']
2                                      ['6', '7']
3                                           ['9']
4                                    ['10', '11']
5                              ['12', '13', '14']
6                                    ['14', '15']
7                              ['16', '17', '18']
8                                          ['19']
9                              ['20', '21', '22']
10                                         ['23']
11                             ['24', '25', '26']
12                                         ['27']
13                             ['28', '29', '30']
14                                         ['31']
15                       ['32', '33', '34', '36']
16                                   ['35', '37']
17                             ['36', '38', '40']
18                             ['39', '40', '41']
19           ['40', '42', '43', '44', '46', '48']


KeyError: False