# Pandas

## Ler Arquivos CSV

In [1]:
import pandas as pd

In [6]:
df1 = pd.read_csv(r'C:\Arquivos\testePandas.csv')  # importante usar o r no inicio, para correta interpretação do \
print(df1)
print(df1.shape) # propriedade shape informa o número de linhas e colunas no dataframe
print(df1.columns) # columns informa nomes das colunas (variáveis) e tipo do dataframe
print(df1.dtypes) # dtypes informa o tipo de cada coluna do dataframe

    ano campeao  pontos
0  2000       A      76
1  2001       B      77
2  2002       D      79
3  2003       C      69
4  2004       B      71
5  2005       C      72
(6, 3)
Index(['ano', 'campeao', 'pontos'], dtype='object')
ano         int64
campeao    object
pontos      int64
dtype: object


Obs.: *The leading r denotes a python raw string. It treats \ as a literal character. No need to escape it.*

In [18]:
# Ver apenas as colunas campeao e pontos
print(df1.loc[:,["campeao","pontos"]])

# Ver número máximo de pontos (valor mais alto na coluna pontos)
print(df1.loc[:,"pontos"].max())
# Ou simplesmente:
print(df1.pontos.max())


  campeao  pontos
0       A      76
1       B      77
2       D      79
3       C      69
4       B      71
5       C      72
79
79


AttributeError: 'list' object has no attribute 'max'

## Ler Arquivos do Excel

In [11]:
# Instalar biblioteca para acesso a dados do Excel
!pip3 install xlrd



In [17]:
# Ler arquivo do Excel em um Dataframe
import pandas as pd
df1 = pd.read_excel(r'C:\Arquivos\testePandas.xlsx')
print(df1)

    Ano Campeão  Pontos
0  2000       A      73
1  2001       B      77
2  2002       D      72
3  2003       C      76
4  2004       A      80
5  2005       D      77
6  2006       A      75
7  2007       B      78
8  2008       B      77
9  2009       C      73


Criar um objeto Series

In [18]:
import pandas as pd

lista = ['Morango','Maçã','Uva','Pêssego','Carambola']
s1 = pd.Series(lista)

print(lista)
print(s1)

['Morango', 'Maçã', 'Uva', 'Pêssego', 'Carambola']
0      Morango
1         Maçã
2          Uva
3      Pêssego
4    Carambola
dtype: object


## Estruturas de Dados no Pandas

A principal estrutura de dados no Pandas é o Data Frame. Trata-se de uma tabela bidimensional de dados na qual as linhas tipicamente representam casos (como registros em um banco de dados relacional), e as colunas representam variáveis.

No pandas também existe a estrutura de dados unidimensional chamada de Series (série), que pode representar, por exemplo, uma coluna de um dataframe.


In [None]:
# Visualizar as 5 primeiras linhas de um dataframe de nome df com o método head():
df.head()

# Para ver o dataframe completo, basta executar:
df

# Para ver o tipo do objeto criado: função type()
type(df)

# Podemos obter informações sobre os dados em si, conferindo os nomes das colunas e seus respectivos tipos de dados com:
df.columns

##############################################################################
#    É possível fatiar o dataframe e ver partes específicas dos dados, como  #
#    por exemplo colunas em particular, com os métodos .loc() e .iloc()      #
##############################################################################

# Método .loc()
# Recebe dois parâmetros separados por uma vírgula, nomes de linha e coluna respectivamente
df.loc[:,"Coluna"] # Todos os dados da Coluna
df.loc[:,["Coluna1","Coluna2","Coluna3"]] # Todos os dados das colunas 1, 2 e 3
df.loc[:9,["Coluna1","Coluna2","Coluna3"]] # As 10 primeiras linhas das colunas 1, 2 e 3
df.loc[10:20] # Faixa de linhas para todas as colunas

# Método iloc()
# Usa índices numéricos para indicar linhas e colunas, em vez de nomes
df.iloc[:4]
df.iloc[:4,1:5] # 5 primeiras linhas das colunas de 1 a 5 - 1 (5 não é exibida)

# Ver os tipos de dados de cada coluna do dataframe: propriedade dtypes
df.dtypes

# Listar valores sem repetição em uma coluna: método unique()
df.NomeColuna.unique()


In [13]:
# teste com dataset de elementos químicos
# Ler arquivo do Excel em um Dataframe
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\testeElementos.xlsx')
print(dfq)

       Z    Elemento Simbolo      A  Massa Atômica AnoDescoberta  \
0      1  Hidrogênio       H  1,2,3        1008.00          1766   
1      2       Hélio      He    3.4        4003.00          1895   
2      3       Lítio      Li    6.7           6.94          1817   
3      4     Berílio      Be      9        9012.00          1797   
4      5        Boro       B  10.11          10.81          1808   
..   ...         ...     ...    ...            ...           ...   
113  114    Fleróvio      Fl    289         289.00          1999   
114  115    Moscóvio      Mc    288         289.00          2010   
115  116  Livermório      Lv    293         293.00          2000   
116  117   Tenessine      Ts    292         294.00          2010   
117  118   Oganesson      Og    294         294.00          2006   

                                           Descobridor         CAS  \
0                                      Henry Cavendish    133-74-0   
1                                   Sir Wil

In [6]:
# Listar as colunas presentes no DataFrame de Elementos Químicos

dfq.columns

Index(['Z', 'Elemento', 'Simbolo', 'A', 'Massa Atômica', 'AnoDescoberta',
       'Descobridor', 'CAS', 'ChemSpider ID', 'Densidade', 'PontoFusao',
       'PontoEbulicao', 'Período', 'Grupo', 'Bloco', 'EstadoFisico',
       'Raio Atômico (A)', 'Eletronegatividade', 'EstadosOxidação',
       'NumIsotoposEstaveis', 'Energia_Ionização (eV)'],
      dtype='object')

In [12]:
# Listar símbolos e massas atômicas

dfq.loc[:,["Simbolo","A","Massa Atômica"]]

Unnamed: 0,Simbolo,A,Massa Atômica
0,H,123,1008.00
1,He,3.4,4003.00
2,Li,6.7,6.94
3,Be,9,9012.00
4,B,10.11,10.81
...,...,...,...
113,Fl,289,289.00
114,Mc,288,289.00
115,Lv,293,293.00
116,Ts,292,294.00
