# Introdução a Pandas

Pandas é uma biblioteca para a manipulação de DataFrames. DataFrames são dados estruturados em formato de planilha. Quem está familiarizado com o Excel pode perceber que o Pandas faz coisas parecidas, como criação de novas colunas usando fórmulas, ordenação de valores, cálculo de estatísticas, plotagem de gráficos etc. A vantagem do Pandas é poder fazer isto tudo de uma forma programável, que se adequa até mesmo a grandes quantidades de dados.

Para usar o Pandas, o primeiro passo é importar a biblioteca. Aqui usamos o "apelido" *pd* para nos referenciarmos à biblioteca nas próximas células. Execute todas as células de código do tutorial para ver o resultado.

In [None]:
#importing libraries
import pandas as pd

%matplotlib inline

## Lendo dados de um arquivo

Muitos dados são gravados em arquivos CSV (Comma Separated Values, ou Valores Separados por Vírgula). É muito fácil importar dados em CSV usando o Pandas, como mostra a célula abaixo. Estes dados também poderiam vir de uma planilha do Excel ou de um banco de dados, dependendo do caso.

Nos comandos abaixo, o método *read_csv* lê os dados do arquivo *aluguel.csv* que se encontra na pasta *data*. Os dados são atribuídos para o DataFrame que chamamos de df (mas poderíamos usar qualquer outro nome). Para exibir o conteúdo do DataFrame, basta escrever o nome na última linha da célula.

O DataFrame carregado contém dados de apartamento para alugar na cidade de Curitiba.

In [None]:
# lê o arquivo CSV
df = pd.read_csv('../data/aluguel.csv')

# mostra o conteúdo do DataFrame
df.head()

## Manipulando o DataFrame

Podemos manipular o DataFrame de diversas formas. É possível criar novos DataFrames com subconjuntos de colunas do DataFrame original. Abaixo um DataFrame chamado df_small é criado com o conteúdo das colunas aluguel e condominio.

In [None]:
df_small = df[['aluguel', 'condominio']]

df_small

Também é possível selecionar subconjuntos das linhas do DataFrame. Abaixo selecionamos apenas as linhas representando apartamentos de área maior que $50m^2$.

In [None]:
df[df.area > 50]

Podemos também transpor (rotacionar) um DataFrame: 

In [None]:
df.T

Perceba que o comando acima não alterou o DataFrame original, como pode ser visto abaixo. Ele apenas retornou um novo DataFrame. Para alterar um DataFrame, em geral, você precisa atribuir o resultado do comando à variável original. Por exemplo, usando df = df.T


In [None]:
df

É possível criar novas colunas a partir de outras colunas do DataFrame. Abaixo criamos uma coluna chamada *total* contendo o valor do aluguel somado ao condomínio.

In [None]:
df['total'] = df['aluguel'] + df['condominio']

df

### Exercício

Suponha que o seu orçamento para alugar um apartamento é de R$ 900. Crie uma nova coluna com o nome "diferença" que contenha o valor que irá sobrar/faltar do seu orçamento de acordo com o valor total do apartamento.

## Analisando dados do DataFrame

Os DataFrames possuem um método chamado *describe* que exibe estatísticas sobre as colunas do DataFrame. Por exemplo, como pode ser visto abaixo, o valor máximo para o condomínio é 520, enquanto a média é 335.85.

In [None]:
df.describe()

DataFrames também suportam a plotagem de gráficos. Por exemplo, abaixo temos Box Plots representando a distribuição dos valores de aluguel e condomínio. Mais detalhes sobre plotagem de gráficos serão fornecidos em um outro momento.

In [None]:
df_small.plot.box()

É possível calcular a média de uma coluna:

In [None]:
df['aluguel'].mean()

E várias outras estatísticas:

In [None]:
print(df['aluguel'].mean(), df['aluguel'].min(), df['aluguel'].max())

Uma funcionalidade muito útil é o agrupamento de valores. No exemplo abaixo os valores são agrupados de acordo com o número de quartos. A média é calculada para cada valor distinto de número de quartos. Neste caso, apartamentos de 1 quarto têm valor médio de aluguel 701 enquanto os de 2 quartos têm valor médio 1095.

In [None]:
df_grouped = df.groupby(['quartos']).mean()

df_grouped

### Exercício

Faça um agrupamento utilizando o número de quartos e também o número de vagas para calcular a média do aluguel. Ou seja, para cada quantidade de quartos, vamos calcular a média do aluguel para cada quantidade de vagas. Responda: Qual é o custo médio de uma vaga neste dataset?

In [None]:
# Resposta:



Podemos transpor (rotacionar) um DataFrame:

In [None]:
df_grouped.T

Para ordenar um DataFrame baseado em valores de uma coluna, use:

In [None]:
df.sort_values('total')