# Pandas Dataframe

É um tipo de dados para armazenar e tratar dados em forma tabular.
Consiste em uma coleção de Series que são dispostas como colunas.
A cada linha está associado um índice que serve para ordenar e selecionar dados.
Cada coluna tem um tipo definido, não sendo necessário que todas as colunas tenham o mesmo tipo (dados de tipos diferentes podem ser armazenados).<br>

Muitas operações com dataframes levam em consideração o eixo (axis):
* axis = 0 (ou axis = 'index') indica operação sobre as linhas
* axis = 1 (ou axis = 'column') indica operação sobre as colunas

In [None]:
import pandas as pd

## Criação
Para criar um dataframe passa-se um dicionário e uma lista de índices para o construtor.<br>
No exemplo a seguir usamos um dict onde as chaves são os nomes dos campos ou colunas.<br>
Cada chave está associada uma lista cujos valores se tornam os valores das linhas, em cada coluna.<br>
Uma lista de índices (ids) foi fornecida separadamente. Se ids não tivesse sido fornecida os índices do Data Frame seriam inteiros começando em 0.

In [None]:
dados = {
    'nome': ['Pedro', 'Maria', 'Janaina', 'Wong', 'Roberto', 'Marco', 'Paula'],
    'cidade': ['São Paulo', 'São Paulo', 'Rio de Janeiro', 'Brasília', 'Salvador', 'Curitiba', 'Belo Horizonte'],
    'idade': [34, 23, 32, 43, 38, 31, 34], 
    'nota 1': [83.0, 59.0, 86.0, 89.0, 98.0, 61.0, 44.0]
}
ids = [10, 11, 12, 13, 14, 15, 16]
dfAlunos = pd.DataFrame(data=dados, index=ids)
dfAlunos

## Dimensão (shape) e vizualização

Dataframes possuem a propriedade *shape* que contém as dimensões do objeto e os métodos *head(n)* e *tail(n)* que permitem, respectivamente, a visualização das *n* primeiras ou últimas linhas.<br>
Ao carregar um dataframe é sempre útil visualizar suas primeiras linhas e nomes de colunas.<br>
Também pode ser útil visualizar a matriz sob forma transposta.

In [None]:
print(dfAlunos.shape)
# Visualizar as duas primeiras linhas
print(dfAlunos.head(2))
# Visualizar as duas últimas linhas
print(dfAlunos.tail(2))
# Visualizar a transposta
dfAlunos.T


## Colunas

Os nomes das colunas podem ser obtidos em uma lista ou em um nome específico.<br>
Devemos nos lembrar que cada coluna do dataframe é uma Series.<br>
Portanto valem para elas os métodos e propriedades das Series.

In [None]:
# Colunas do dataframe
print(dfAlunos.columns)

# Coluna dois do dataframe (numeração inicia em zero)
print(dfAlunos.columns[1])

# Coluna cidade
print(dfAlunos['cidade'])

# Cada coluna é uma Series
type(dfAlunos['cidade'])

Os métodos das Series se aplicam

In [None]:
# Conta valores
print(dfAlunos['cidade'].value_counts())

# Valores únicos
dfAlunos['cidade'].unique()

## Operações com colunas e linhas
### Incluir colunas
As colunas são incluídas do datataframe pela operação de atribuição.<br>
Basta indexar o dataframe com o nome da nova coluna e atribuir os valores correspondentes.<br>
Os valores podem derivar de operações com valores de colunas existentes.<br>
O dataframe original é modificado.

In [None]:
# Inclui a coluna nota 2
dfAlunos['nota 2'] = [72.0, 86.0, 82.0, 83.0, 94.0, 86.0, 62.0]
# Inclui a coluna media com valores iguais à media aritmética nota 1 e nota 2
dfAlunos['media'] = (dfAlunos['nota 1'] + dfAlunos['nota 2'])/2
print(dfAlunos)
print(dfAlunos.shape)

### Excluir colunas
Como os valores da coluna *media* podem ser derivados das colunas *nota 1* e *nota 2* vamos remover a coluna *media*.<br>
Para remover uma coluna utilizamos o método *.drop()*, sendo necessário informar o identificador da coluna e o eixo.<br>
Por default o método *.drop()* gera um novo dataframe e não altera o original.<br>
Para alterar o original é necessário usar o parâmetro *inplace=True*.

In [None]:
# a operação seguinte retorna o dataframe sem a coluna 'calculado' mas não altera a original
print(dfAlunos.drop(['media'], axis=1))
print(dfAlunos)
# para alterar o dataframe usamos o parâmetro inplace=True
dfAlunos.drop(['media'], axis=1, inplace=True)
print(dfAlunos)

### Seleção de colunas
Para selecionar mais de uma coluna passamos uma lista com os nomes dos campos entre os colchetes.

In [None]:
dfAlunos[['nome','idade']]

## Incluir linhas
Para incluir uma ou mais linhas (registros) ao dataframe cria-se um novo dataframe com quantas linhas forem necessárias e o concatena com o antigo usando o método *.concat()*.
O dataframe original não é modificado.<br>
Caso se pretenda que modificação se torne permanente deve-se atribuir o resultado retornado a um novo (ou o mesmo) dataframe.

In [None]:
# criar novo dataframe para Juliana e seus dados
dfNovo1 = pd.DataFrame([('Juliana','Curitiba',28,80.0,76.0)],
                             columns=['nome','cidade','idade','nota 1','nota 2'],
                             index=[17])
dfNovo2 = pd.DataFrame([('Paulo','Porto Alegre',25,88.0, 92.0)],
                             columns=['nome','cidade','idade','nota 1','nota 2'],
                             index=[18])
dfAlunos = pd.concat([dfAlunos, dfNovo1, dfNovo2])
print(dfAlunos)

### Soma de linhas e colunas
É possível obter somas dos termos, tanto no sentido das linhas quanto das colunas com o método *.sum()*.

In [None]:
# selecionar as variáveis nota1 e nota 2
dfNumerico=dfAlunos[['nota 1', 'nota 2']]
# somar no eixo vertical
print(dfNumerico.sum())   # o mesmo que dfNumerico.sum(axis=0)
# somar no eixo horizontal
print(dfNumerico.sum(axis=1))

## Escrever arquivo .csv
O dataframe pode ser gravado em arquivos *csv* utilizando o método *.to_csv()*.<br>
A coluna de índices será salva sem identificador.<br>
Para excluir a coluna de índices passar o parâmetro *index=False*.<br>
Para incluir o identificador na coluna de índices passar o parâmentro *index_label = 'identificador_do_indice'*.

In [None]:
dfAlunos.to_csv('./alunos.csv')

## Ler arquivo .csv
Um arquivo csv pode ser carregado em um dataframe com o comando *pr.read_csv*
Para recuperar o ídice é necessário informar em que coluna ele se encontra.

In [None]:
dfAlunos1 = pd.read_csv('./alunos.csv', index_col=0)
print(dfAlunos1)

## Extrega
Envar o arquivo alunos.csv