# Pandas

## O que é o Pandas

Pandas é uma biblioteca de software livre para a linguagem Python, empregada em análise e manipulação de dados.

Traz estruturas de dados especializadas para a realização de operações com tabelas numéricas e séries temporais.

O nome pandas vem da expressão "panel data", termo da ciência da econometria que se refere a conjuntos de dados tais como observações em múltiplos períodos de tempo.

As principais funcionalidades do pandas incluem:
* Manipular dados com indexação personalizada
* Ler e escrever dados em diversos tipos de estruturas de dados e formatos de arquivos, como CSV, Excel, JSON, SQL, etc.
* Manipular dados ausentes e efetuar limpeza de dados
* Dividir, fatiar e criar subconjuntos a partir de conjutos de dados extensos
* Unir e fundir conjuntos de dados
* Aplicar funções de séries temporais
* Agrupar e filtrar dados

Entre outras.

## Estruturas de Dados no Pandas

Existem duas estruturas de dados principais com as quais podemos trabalhar ao usar a biblioteca Pandas: Series e DataFrames.

* **Series** ("série"): é uma estrutura de dados unidimensional, que pode representar, por exemplo, uma coluna de uma tabela, um array ou uma colune de um dataframe.

* **Dataframe**: Principal estrutura de dados no Pandas. Trata-se de uma tabela bidimensional de dados na qual as linhas tipicamente representam casos (como registros em um banco de dados relacional), e as colunas representam variáveis.


In [None]:
# Importar o módulo Pandas

import pandas as pd

# Objeto Series

Array de uma dimensão, nomeado, que pode armazenar qualquer tipo de dado.
É, basicamente, um "array melhorado", com suporte a indexação personalizada, incluindo índices de strings.
Também tolera dados ausentes, e possui a capacidade de ignorar dados ausentes em operações sobre os dados.

Por padrão, os índices em um objeto Series são numerados sequencialmente a partir de 0.

## Criar objeto Series

Sintaxe:

pd.Series([lista_valores], index=[lista_indices], name='Nome para o objeto')

Os argumentos index e name são opcionais.
A lista de valores pode ser, na verdade, uma lista, uma tupla, um array, um dicionário ou até mesmo outro objeto Series.

Os dados de um Series são exibidos em duas colunas, com os índices alinhados à esquerda na coluna da esquerda, e os dados alinhados à direita na coluna da direita. Logo após mostrar os elementos, é exibido o tipo de dado (dtype) do array de origem.

In [106]:
import pandas as pd

lista = ['Morango','Maçã','Uva','Pêssego','Carambola','Licha']
s1 = pd.Series(lista, name='Frutas')

# Usando índices personalizados:
#indices = ['Mo','Ma','Uv','Pe','Ca','Li']
#s1 = pd.Series(lista, index=indices, name='Frutas')

print(lista)
print(s1)

# Verificar tipo do objeto criado:
print(type(s1))

# Acessar um elemento específico da série: índice dentro de colchetes
s1[2]

# Contar o número de elementos de uma série: o método count()
print('Número de frutas: ', s1.count())

# Retornar os elementos string convertidos para maiúsculas: métodos str
print(s1.str.upper())


# Criar um série (Series) com 10 elementos do tipo float e de mesmo valor
pd.Series(32.65, range(10))

# Estatística descritiva com series: média aritmética, valor máximo, valor mínimo, desvio-padrão
# Series de exmplo: massas atômicas dos gases nobres
gasesNobresA = pd.Series([4.003,20.180,39.95,83.798,131.293,222,294])

#gasesNobresA.mean()
#gasesNobresA.max()
#gasesNobresA.min()
#gasesNobresA.std()

# Mostrar todos os dados estatísticos de uma vez:
#gasesNobresA.describe()

# Retornar uma suposta massa molecular (combinação de dois átomos do elemento).
# Lembreando que gases nobres são monoatômicos, ou seja, não formam moléculas.
for item in gasesNobresA:
    print(item, item * 2)

['Morango', 'Maçã', 'Uva', 'Pêssego', 'Carambola', 'Licha']
0      Morango
1         Maçã
2          Uva
3      Pêssego
4    Carambola
5        Licha
Name: Frutas, dtype: object
<class 'pandas.core.series.Series'>
Número de frutas:  6
0      MORANGO
1         MAÇÃ
2          UVA
3      PÊSSEGO
4    CARAMBOLA
5        LICHA
Name: Frutas, dtype: object
4.003 8.006
20.18 40.36
39.95 79.9
83.798 167.596
131.293 262.586
222.0 444.0
294.0 588.0


# DataFrames

In [None]:
import pandas as pd

## Ler arquivos CSV

In [None]:
df1 = pd.read_csv(r'C:\Arquivos\dados.csv')  # importante usar o r no inicio, para correta interpretação do \
# Obs.: The leading r denotes a python raw string. It treats \ as a literal character. No need to escape it.
print(df1)
print(df1.shape) # propriedade shape informa o número de linhas e colunas no dataframe
print(df1.columns) # columns informa nomes das colunas (variáveis) e tipo do dataframe
print(df1.dtypes) # dtypes informa o tipo de cada coluna do dataframe

Obs.: *The leading r denotes a python raw string. It treats \ as a literal character. No need to escape it.*

In [None]:
# Ver apenas as colunas campeao e pontos
print(df1.loc[:,["campeao","pontos"]])

# Ver número máximo de pontos (valor mais alto na coluna pontos)
print(df1.loc[:,"pontos"].max())
# Ou simplesmente:
print(df1.pontos.max())


## Ler Arquivos do Excel

In [None]:
# Instalar biblioteca para acesso a dados do Excel
!pip3 install xlrd

In [None]:
# Ler arquivo do Excel em um Dataframe
import pandas as pd
df1 = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')
print(df1)

In [None]:
# teste com dataset de elementos químicos
# Ler arquivo do Excel em um Dataframe
import pandas as pd

#dfq = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')
#print(dfq)

# Opcionalmente, podemos trabalhar com arquivos .csv:
dfq = pd.read_csv(r'C:\Arquivos\elementosDatasetCSV.csv') # engine='python' para evitar erro de utf-8
print(dfq)

In [None]:
# Visualizar as 5 primeiras linhas de um dataframe de nome df com o método head():
#dfq.head()

# Para ver o dataframe completo, basta executar:
#dfq

# Para ver o tipo do objeto criado: função type()
#type(dfq)

# Podemos obter informações sobre os dados em si, conferindo os nomes das colunas e seus respectivos tipos de dados com:
#dfq.columns
# que permite listar as colunas presentes no DataFrame de Elementos Químicos

# Verificar o nome da colúna de número 3 (4ª coluna, numeradas a partir de zero)
#dfq.columns[3]

# Verificar os nomes da colúnas de números 3, 2 e 5
#dfq.columns[[3,2,5]]

# Ver tamanho do DataFrame
#dfq.shape



## Divisão de DataFrames

Métodos .loc() e .iloc()

In [None]:
##############################################################################
#    É possível fatiar o dataframe e ver partes específicas dos dados, como  #
#    por exemplo colunas em particular, com os métodos .loc() e .iloc()      #
##############################################################################

# Método .loc()
# Recebe dois parâmetros separados por uma vírgula: nomes de linha e coluna respectivamente
dfq.loc[:,'Coluna'] # Todos os dados da Coluna
dfq.loc[:,['Coluna1','Coluna2','Coluna3']] # Todos os dados das colunas 1, 2 e 3
dfq.loc[:9,['Coluna1','Coluna2','Coluna3']] # As 10 primeiras linhas das colunas 1, 2 e 3
dfq.loc[10:20] # Faixa de linhas para todas as colunas


# Método iloc()
# Usa índices numéricos para indicar linhas e colunas, em vez de nomes
dfq.iloc[:,0] # Todos os dados da primeira coluna (índice numérico)
dfq.iloc[:4]
dfq.iloc[:4,1:5] # 5 primeiras linhas das colunas de 1 a 5 - 1 (5 não é exibida)
#dfq.iloc[[-5:]] # Os últimos 5 elementos no dataset
dfq.iloc[[2,5,9],0] # Apenas linhas selecionadas para a primeira coluna (passando uma lista de linhas)

# Selecionar a primeira linha inteira de um df:
dfq.iloc[0] # foi especificada somente a linha

# Ver os tipos de dados de cada coluna do dataframe: propriedade dtypes
dfq.dtypes

# Listar valores sem repetição em uma coluna: método unique()
dfq.NomeColuna.unique()


In [None]:
# Listar número atômico, símbolo e massas atômica de cada elemento

dfq.loc[:,["Z","Simbolo","Massa Atômica"]]

## Alterar índices - NÃO ESTÁ FUNCIONANDO AINDA

Podemos alterar a coluna que será usada como índice em um dataframe usando o método set_index(). Por exemplo, para tornar a coluna Simbolo o índice do DataFrame dfq, fazemos o seguinte:

In [None]:
dfq.set_index('Simbolo')

dfq.loc[:,'Elemento'] # Todos os dados da coluna Elemento, indexados pelo símbolo

## Condições

Podemos verificar se os registros possuem um valor específico em uma coluna usando o operador de igualdade ==. Por exemplo, podemos consultar quais elementos químicos possuem exatamente 2 isótopos estáveis com a declaração a seguir, que retorna valores True ou False baseados nos valores encontrados:

In [None]:
print(dfq.NumIsotoposEstaveis == 2)

# E então podemos consultar quais são os elementos específicos usando essa condição combinada com o método loc():
dfq.loc[dfq.NumIsotoposEstaveis == 2,['Elemento','NumIsotoposEstaveis']]

In [None]:
# podemos combinar expressões condicionais, por exemplo trazendo apenas os elementos que tenham 2 isótopos
# estáveis e que sejam gases:
dfq.loc[(dfq.NumIsotoposEstaveis == 2) & (dfq.EstadoFisico == 'Gás'),'Simbolo']

In [None]:
# Elementos que são sólidos e cuja densidade é maior do que 10 g/cm3
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')

dfq.loc[(dfq.EstadoFisico == 'Sólido') & (dfq.Densidade >= 10),['Simbolo','Densidade']]

## Método isin()

O método seletor condicional isin() permite selecionar dados cujo valor esteva dentro de uma lista de valores passada. No exemplo a seguir vamos usar o seletor isin para retornar todos os dados dos elementos Cobre, Alumínio, Ouro e Prata (sando os símbolos respectivos)

In [None]:
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')


# Retornar todos os dados dos elementos Cobre, Alumínio, Ouro e Prata (sando os símbolos respectivos)

dfq.loc[dfq.Simbolo.isin(['Cu','Al','Ag','Au','U'])]

# Ou ainda apenas alguas colunas determinadas. Descomente a linha a seguir para testar:
dfq.loc[dfq.Simbolo.isin(['Cu','Al','Ag','Au','U']),['Elemento','Z','Simbolo','Massa Atômica','Densidade']]

## Métodos isnull() e notnull()

Permitem verificar se um valor está vazio (nulo / NaN) ou não.

No exemplo a seguir vamos verificar quais elementos NÃO tem valor do ponto de fusão determinado. Os valores inexistentes são retornados como NaN (Not a Number).

In [None]:
# Elementos que não possuem densidade determinada
import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')

dfq.loc[dfq.PontoFusaoK.isnull(),['Simbolo','PontoFusaoK']]

## Salvar DataFrame em arquivo CSV

Sintaxe:

df.to_csv('nome_arquivo_CSV')

In [None]:
# ESSE TEM ERRO, PESQUISAR

# Muitos elementos possuem mais de um número de massa (A), dependendo da quantidade de isótopos existentes.
# Vamos retornar os elementos cujo número de massa é igual a 14

import pandas as pd

dfq = pd.read_excel(r'C:\Arquivos\elementosDatasetXLSX.xlsx')

# Transformar string retornada na coluna A em uma lista de valores:
dfq['A'] = dfq['A'].apply(lambda x: str(x).split(','))
dfq['A'] = dfq['A'].apply(lambda x: str(x).replace('"', ""))

#dfq['A'] = dfq['A'].apply(list(map(int, dfq['A'])))


print(dfq['A'])

#dfq.loc[dfq.A.isin(['9']),['Elemento','Z','Simbolo','Massa Atômica']]

#dfq.loc[(dfq.A == '9'),['Elemento','Z','Simbolo','Massa Atômica']]


