# Pandas

+ Pandas é uma biblioteca Python que fornece ferramentas de análise de dados e estruturas de dados de alta performance e fáceis de usar.
+ Pandas é construída sobre a biblioteca NumPy e sua estrutura de dados principal é chamada de **DataFrame**.
+ Um DataFrame permite que se armazene e se manipule tabelas de dados nas quais as linhas são as observações e as colunas as variáveis.

In [None]:
import pandas as pd # aqui importamos a biblioteca e damos a ela o "apelido" pd

Existem diversas formas de se criar um DataFrame

Usando dicionários

In [None]:
dic = {"country": ["Brazil", "Russia", "India", "China", "South Africa"],
       "capital": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "area": [8.516, 17.10, 3.286, 9.597, 1.221],
       "population": [200.4, 143.5, 1252, 1357, 52.98] }
brics = pd.DataFrame(dic)
brics

O atributo **index** contém os títulos das linhas do DataFrame. Se no momento da criação do DataFrame nenhum índice for informado os índices são criados automaticamente a partir do 0.

In [None]:
print(brics.index)

Os índices podem ser alterados a qualquer momento e com dados de quaisquer tipos.

In [None]:
brics.index = ["BR","RU","IN","CH","SA"]
brics

O atributo **index** retorna uma visão dos títulos das linhas enquanto que o atributo **columns** retorna uma visão dos títulos das colunas.

In [None]:
print(brics.index)
print(brics.columns)

Outra maneira de se criar um DataFrame é importando um arquivo csv

In [None]:
import pandas as pd
flavonoides = pd.read_csv("flavonoides.csv",sep='\t')
flavonoides

Observem que o separador de colunas desse arquivo, tabulação, foi especificado por meio do parâmetro *sep='\t'*. Quando o separador das colunas é a vírgula esse parâmetro pode ser omitido.

Para que o comando interprete que a primeira coluna representa os índices, o parâmetro **index_col** deve ser acresentado.

In [None]:
flavonoides = pd.read_csv("flavonoides.csv",sep='\t',index_col=0)
flavonoides

Você pode visualizar apenas as primeiras linhas do DataFrame por meio do comando **head** ou apenas as últimas por meio do comando **tail**.

In [None]:
flavonoides.head()

In [None]:
flavonoides.tail(2)

Existem diversas maneiras de se acessar fatias (slices) de um DataFrame. A mais simples é usando colchetes, assim como é feito para listas e arrays.

In [None]:
flavonoides["MW[2]"] # acessando uma coluna

In [None]:
flavonoides[["Lumo","Homo","Gap"]] # acessando uma lista de colunas

As linhas podem ser acessadas por meio da faixa de linhas desejadas entre colchetes.

In [None]:
flavonoides[2:5]

O método **loc** pode ser usado com dois índices e permite acessar linhas e colunas por meio dos respectivos títulos.

In [None]:
flavonoides.loc[:,["Lumo","Homo","Gap"]] # todas as linhas e algumas colunas

In [None]:
flavonoides.loc[["mol3","mol8","mol5","mol20"],:] # acessando algumas linhas e todas as colunas

In [None]:
flavonoides.loc[["mol3","mol8","mol5","mol20"],["Lumo","Homo","Gap"]] # acessando algumas linhas e algumas colunas

O método **iloc** pode ser usado de maneira semelhante ao método **loc**, exceto que ele utiliza como parâmetros os índices ao ínvés dos títulos das linhas ou colunas.

In [None]:
flavonoides.iloc[2] # passando apenas um parâmetro, a linha selecionada é acessada (mol3)

In [None]:
flavonoides.iloc[[2,5,8],551:555] # uma lista ou uma faixa de valores podem ser passados como parâmetros

Assim como os arrays, os DataFrame também possuem os atributos **shape** e **size**

In [None]:
print(flavonoides.shape)
print(flavonoides.size)

O método **describe** fornece um resumo da estatística por colunas referente ao DataFrame

In [None]:
brics.describe()

No entanto, essas estatísticas podem ser obtidas individualmente por meio dos métodos mean, std, etc. Além disso é possível obter as estatísticas por linha especificando a dimensão desejada.

In [None]:
print(brics.mean())
print("-------------------------------")
print(brics.std(axis=1))

Os métodos **sum**, **min** e **max** também podem ser usados nos DataFrames.

In [None]:
print("Maior valor de cada coluna")
print(brics.max())
print("Soma dos valores de cada coluna numérica")
print(brics.sum(numeric_only=True))
print("Menor valor de cada linha")
print(brics.min(axis=1))

Do mesmo modo que ocorre com os Arrays, o DataFrame transposto pode ser acessado por meio do atributo **T**.

In [None]:
brics

In [None]:
brics.T

Você pode ordenar um DataFrame pelo título do índice com o método **sort_index** especificando qual dimensão será usada com a palavra chave *axis*.

In [None]:
brics.sort_index(axis=1,ascending=False) # ordenando as colunas pelo título em ordem decrescente

Você pode escolher uma linha ou coluna para ordenar o DataFrame com o método **sort_values**.

In [None]:
brics.sort_values(by="population")

O método **concat** concatena as linhas de uma lista de DataFrames diferentes

In [None]:
df1 = brics[0:1]
print(df1)
df2 = brics[2:4]
print(df2)
pd.concat([df1,df2])

Para concatenar colunas utilizamos o método **join**.

In [None]:
df1 = brics.loc[:,["country","population"]]
print(df1)
df2 = brics.loc[:,["area"]]
print(df2)
df1.merge(df2,left_index=True,right_index=True)

O DataFrame pode ser salvo em arquivo csv ou excel, por exemplo.

In [None]:
brics.to_csv("brics.csv")
brics.to_excel("brics.xlsx")

### Exercício

+ Crie um DataFrame com os nomes, idades, pesos e alturas dos estudantes da turma (Essas informações não necessariamente precisam corresponder à realidade!)
+ Inclua uma nova coluna no DataFrame contendo o IMC de cada estudante ($peso/altura^2$)
+ Salve o DataFrame em um arquivo xlsx e abra no excel para ver o resultado
+ Crie um DataFrame contendo apenas nomes e idades
+ Crie um DataFrame contendo apenas os 5 estudantes mais altos
+ Crie um novo DataFrame ordenado pelo IMC
+ Determine quem é o estudante mais alto, quem é o mais novo e a soma dos pesos de todos os estudantes
+ Calcule a média e o desvio padrão dos valores de IMC

In [None]:
# Responda aqui