# Pandas - Manipulação e Agregação de Dados

Manipulação e agregação de dados são funcionalidades essenciais no Pandas. O Pandas possui diversos métodos para transformação, agrupamento e agregação dos dados.


In [2]:
#importing libraries
import pandas as pd
import numpy as np

%matplotlib inline

## Lendo dados de um arquivo

O DataFrame carregado contém dados de apartamento para alugar na cidade de Curitiba.

In [3]:
# lê o arquivo CSV
df = pd.read_csv('../data/aluguel.csv')

# mostra o conteúdo do DataFrame
df

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,34,Rua Desembargador Westphalen,2,0,90,0,900,371
1,167,Rua Jose Loureiro,2,0,64,0,650,428
2,6784,Rua Jose Loureiro,2,0,81,0,1100,400
3,82,Rua Lourenço Pinto,2,0,50,0,1350,300
4,2970,Rua Lourenço Pinto,2,0,63,0,1300,300
5,34197,Alameda Doutor Muricy,2,0,80,1,900,410
6,5072,Alameda Doutor Muricy,2,0,84,0,1100,382
7,469,Rua Desembargador Westphalen,1,0,30,0,550,210
8,24,Rua Desembargador Westphalen,1,0,60,1,800,120
9,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


## Analisando dados do DataFrame


### Agrupamento

Uma funcionalidade muito útil é o agrupamento de valores. No exemplo abaixo os valores são agrupados de acordo com o número de quartos. A média é calculada para cada valor distinto de número de quartos. Neste caso, apartamentos de 1 quarto têm valor médio de aluguel 701 enquanto os de 2 quartos têm valor médio 1095.

In [19]:
df_grouped = df.groupby(['quartos']).mean()

df_grouped

Unnamed: 0_level_0,codigo,suite,area,vaga,aluguel,condominio
quartos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,53458.0,0.0,51.8,0.4,701.0,316.6
2,9656.4,0.1,77.5,0.3,1095.0,355.1


Podemos também agrupar por mais de um valor. Abaixo calculamos a média de valor do aluguel agrupando por número de quartos e também o número de vagas. Neste caso, o valor médio de aluguel para apartamentos de 2 quartos sem vaga é de R$ 1216.

In [20]:
df_grouped = df.groupby(['quartos', 'vaga']).mean()[['aluguel']]

df_grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,aluguel
quartos,vaga,Unnamed: 2_level_1
1,0,601.666667
1,1,850.0
2,0,1042.857143
2,1,1216.666667


No DataFrame anterior, quartos e vagas fazem parte do índice do DataFrame. Podemos usar o método *reset_index()* para tranformá-los em colunas: 

In [6]:
df_grouped = df.groupby(['quartos', 'vaga']).mean()['aluguel'].reset_index()

df_grouped



Unnamed: 0,quartos,vaga,aluguel
0,1,0,601.666667
1,1,1,850.0
2,2,0,1042.857143
3,2,1,1216.666667


### Pivot

E podemos usar o método *pivot()* para rearranjar as linhas e colunas. Abaixo fazemos com que o DataFrame seja rearranjado de forma a ter o número de vagas como colunas. Como na visualização anterior, aqui também podemos ver que o valor médio de aluguel para um apartamento com um quarto e sem vaga é de R$ 601.

In [7]:
df_grouped.pivot(index='quartos', columns='vaga', values='aluguel')

vaga,0,1
quartos,Unnamed: 1_level_1,Unnamed: 2_level_1
1,601.666667,850.0
2,1042.857143,1216.666667


O método *pivot_table* é parecido com o *pivot()* mas permite também que se especifique uma função para a agregação de valores. Com ele podemos obter os mesmos resultados sem precisar agrupar o DataFrame, como é mostrado abaixo:

In [8]:
df.pivot_table(index='quartos', columns='vaga', values='aluguel', aggfunc=np.mean)

vaga,0,1
quartos,Unnamed: 1_level_1,Unnamed: 2_level_1
1,601.666667,850.0
2,1042.857143,1216.666667


### Crosstab

O comando *crosstab* relaciona duas colunas para criar um novo DataFrame com valores nas células representando a quantidade de instâncias de cada tipo. Por exemplo, abaixo podemos ver que o DataFrame original tem 6 ofertas de aluguel com 1 quarto e 0 vagas.

In [9]:
pd.crosstab(df['quartos'], df['vaga'])

vaga,0,1
quartos,Unnamed: 1_level_1,Unnamed: 2_level_1
1,6,4
2,7,3


## Junção de Dados

Quando temos dois DataFrames e precisamos uni-los, usamos as funcionalidades de junção de dados. Existem vários métodos para fazer junção, dependendo do resultado esperado. Para os exemplos desta seção vamos continuar usando o DataFrame de apartamentos (repetido abaixo) e vamos também definir um novo DataFrame (na célula seguinte) contendo códigos de apartamentos e imobiliárias fictícias respensáveis por eles.

In [10]:
df

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,34,Rua Desembargador Westphalen,2,0,90,0,900,371
1,167,Rua Jose Loureiro,2,0,64,0,650,428
2,6784,Rua Jose Loureiro,2,0,81,0,1100,400
3,82,Rua Lourenço Pinto,2,0,50,0,1350,300
4,2970,Rua Lourenço Pinto,2,0,63,0,1300,300
5,34197,Alameda Doutor Muricy,2,0,80,1,900,410
6,5072,Alameda Doutor Muricy,2,0,84,0,1100,382
7,469,Rua Desembargador Westphalen,1,0,30,0,550,210
8,24,Rua Desembargador Westphalen,1,0,60,1,800,120
9,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


In [16]:
# Criando um novo DataFrame para ser usado na junção
df_imobiliarias = pd.DataFrame()
df_imobiliarias['codigo'] = [469,74,59375, 2381, 34]
df_imobiliarias['imobiliaria'] = ['Apollo', 'ImobiOne', 'ImobiOne', 'Apollo', 'ImobiTwo']

df_imobiliarias

Unnamed: 0,codigo,imobiliaria
0,469,Apollo
1,74,ImobiOne
2,59375,ImobiOne
3,2381,Apollo
4,34,ImobiTwo


O método mais usado para junção de duas colunas é o *merge*. No exemplo abaixo a aplicação do método retorna um novo DataFrame com as colunas dos dois DataFrames originais unidas e com as linhas associadas de acordo com a coluna em comun (código).

In [12]:
df_joined = pd.merge(df, df_imobiliarias)

df_joined

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio,imobiliaria
0,34,Rua Desembargador Westphalen,2,0,90,0,900,371,ImobiTwo
1,469,Rua Desembargador Westphalen,1,0,30,0,550,210,Apollo
2,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520,ImobiOne
3,59375,Avenida Silva Jardim,1,0,33,0,560,305,ImobiOne
4,2381,Rua Rockefeller,2,0,54,0,900,240,Apollo


Também podemos fazer a união das linhas de dois DataFrames diferentes (de preferência contendo as mesmas colunas). Abaixo definimos um novo DataFrame com duas novas ofertas de aluguel para unirmos ao DataFrame original.

In [17]:
df_mais_apartamentos = pd.DataFrame([[734, 'Rua Nova', 2, 1, 84, 0, 1250, 490],
                                     [4124, 'Rua Nova 2', 1, 1, 60, 0, 850, 310]],
                                     columns = df.columns)

df_mais_apartamentos

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,734,Rua Nova,2,1,84,0,1250,490
1,4124,Rua Nova 2,1,1,60,0,850,310


O método usado para a união das linhas de dois DataFrames é o *concat*:

In [15]:
pd.concat([df, df_mais_apartamentos])

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,34,Rua Desembargador Westphalen,2,0,90,0,900,371
1,167,Rua Jose Loureiro,2,0,64,0,650,428
2,6784,Rua Jose Loureiro,2,0,81,0,1100,400
3,82,Rua Lourenço Pinto,2,0,50,0,1350,300
4,2970,Rua Lourenço Pinto,2,0,63,0,1300,300
5,34197,Alameda Doutor Muricy,2,0,80,1,900,410
6,5072,Alameda Doutor Muricy,2,0,84,0,1100,382
7,469,Rua Desembargador Westphalen,1,0,30,0,550,210
8,24,Rua Desembargador Westphalen,1,0,60,1,800,120
9,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


### Referências

- Documentção do Pandas: [pandas.DataFrame.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)
- Documentção do Pandas: [pandas.DataFrame.join](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html)
- Documentção do Pandas: [pandas.concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)
