# Introdução a análise de dados com Pandas
## Funcionalidades avançadas 
### Aplicando funções em um ```DataFrame```
Utilizamos o comando ```DataFrame.apply()``` para aplicar uma função específica em uma ou mais colunas/linhas de um ```DataFrame```. Utilizaremos as informações contidas no arquivo ```housing.csv``` para exemplicar o uso de cada funcionalidade. 

In [1]:
import pandas as pd

df = pd.read_csv('dados/housing_ok.csv')
df.head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude
0,Collingwood,2/79 Oxford St,2.0,kitnet,855000.0,1.6,3066.0,1.0,1.0,2886.0,122.0,1830.0,-37.8042,144.9845
1,Richmond,22a Stanley St,3.0,casa,1600000.0,2.6,3121.0,2.0,2.0,80.0,144.0,1850.0,-37.8233,144.9947
2,Fitzroy,52 Nicholson St,4.0,casa,3310000.0,1.6,3065.0,4.0,2.0,337.0,291.0,1854.0,-37.8052,144.9739
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653
4,Port Melbourne,175 Stokes St,3.0,casa,2200000.0,3.8,3207.0,2.0,0.0,250.0,280.0,1863.0,-37.8381,144.9391


Definiremos uma função que recebe a ```distancia_aeroporto``` e retorna o texto 'longe', caso a distância seja maior que 3.5 km e 'perto', caso contrário.

In [2]:
def perto_ou_longe(x):
    if x > 3.5:
        return 'longe'
    else:
        return 'perto'

df.distancia_aeroporto.apply(perto_ou_longe).head()

0    perto
1    perto
2    perto
3    perto
4    longe
Name: distancia_aeroporto, dtype: object

Criaremos uma nova coluna do ```DataFrame``` contendo a informações gerada utilizando a notação ```DataFrame['nome_da_nova_coluna'] = Serie```.

In [3]:
df['perto_ou_longe'] = df.distancia_aeroporto.apply(perto_ou_longe)
df.head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,perto_ou_longe
0,Collingwood,2/79 Oxford St,2.0,kitnet,855000.0,1.6,3066.0,1.0,1.0,2886.0,122.0,1830.0,-37.8042,144.9845,perto
1,Richmond,22a Stanley St,3.0,casa,1600000.0,2.6,3121.0,2.0,2.0,80.0,144.0,1850.0,-37.8233,144.9947,perto
2,Fitzroy,52 Nicholson St,4.0,casa,3310000.0,1.6,3065.0,4.0,2.0,337.0,291.0,1854.0,-37.8052,144.9739,perto
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653,perto
4,Port Melbourne,175 Stokes St,3.0,casa,2200000.0,3.8,3207.0,2.0,0.0,250.0,280.0,1863.0,-37.8381,144.9391,longe


### Criando uma nova coluna como resultado de operações envolvendo outras colunas
Criaremos uma nova coluna contendo a razão entre a ```area_construida``` e a ```area_terreno```. Para tanto, utilizaremos o comando ```DataFrame.eval()```. O comando ```eval()``` recebe como parâmetro a expressão matemática no formato de texto. Para consolidar o resultado gerado pelo comando, passamos o parâmetro ```inplace=True```.

In [4]:
df.eval('razao_area = area_construida / area_terreno', inplace=True)
df.razao_area.head()

0    0.042273
1    1.800000
2    0.863501
3    1.221053
4    1.120000
Name: razao_area, dtype: float64

### Filtrar linhas baseado em um intervalo de valores
Uma forma eficiente de aplicar um filtro de intervalo é através do uso do método ```Series.between(limite_inferior, limite_superior)```.

In [5]:
df[df.distancia_aeroporto.between(2, 2.5)].head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,perto_ou_longe,razao_area
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653,perto,1.221053
9,North Melbourne,12 Curzon St,2.0,casa,885000.0,2.3,3051.0,1.0,1.0,111.0,73.0,1880.0,-37.8044,144.9481,perto,0.657658
16,South Melbourne,144 Cobden St,3.0,casa,1405000.0,2.1,3205.0,1.0,1.0,181.0,117.0,1880.0,-37.8365,144.9631,perto,0.646409
25,Cremorne,443 Punt Rd,3.0,casa,1280000.0,2.5,3121.0,2.0,2.0,324.0,165.0,1880.0,-37.8278,144.9885,perto,0.509259
26,Cremorne,443 Punt Rd,3.0,casa,1475000.0,2.5,3121.0,2.0,2.0,324.0,165.0,1880.0,-37.8278,144.9885,perto,0.509259


### Agrupar valores
Utilizando o o comando ```DataFrame.Groupby(by='nome_da_coluna')```, podemos agrupar valores de acordo com a operação desejada. Podemos, por exemplo agrupar as informações do ```DataFrame``` ```df``` por tipo de imóvel. Como operação de agrupamento, faremos o cálculo da média através do comando ```mean()``` para verifidar o preço médio dos imóveis por tipo. 

In [7]:
df.groupby(by='tipo').mean()

Unnamed: 0_level_0,quartos,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,razao_area
tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
apartamento,2.886364,891269.6,9.267208,3087.373377,1.827922,1.487013,328.194805,136.075325,2000.301948,-37.80575,144.978347,0.711705
casa,3.281076,1352243.0,8.906408,3089.966254,1.674498,1.689022,501.705254,166.909457,1947.577104,-37.80403,144.98445,0.415483
kitnet,2.123656,606072.2,8.995968,3099.543011,1.172043,1.169355,807.198925,85.757016,1981.849462,-37.810621,144.993278,0.381975


O resultado do comando é um novo ```DataFrame``` com o tipo como indice.
As outras operações disponíveis para o agrupamento são:
* ```count()```: contagem de valores
* ```max()```: valor máximo
* ```min()```: valor mínimo
* ```median()```: mediana
* ```std()```: desvio padrão

A lista completa encontra-se no link: https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

Podemos agrupar os dados por tipo e número de quartos. 

In [9]:
df.groupby(by=['tipo', 'quartos']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,razao_area
tipo,quartos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
apartamento,1.0,485000.0,7.2,3101.0,1.0,1.0,413.5,79.0,1950.0,-37.8083,145.00365,0.724652
apartamento,2.0,720698.8,8.3375,3080.1125,1.3125,1.1875,397.775,103.425,1996.0625,-37.792809,144.971688,0.768896
apartamento,3.0,893157.3,9.172067,3082.776536,1.899441,1.558659,282.055866,135.242514,2002.039106,-37.80177,144.972954,0.694856
apartamento,4.0,1208556.0,11.36,3119.955556,2.511111,1.755556,389.177778,198.906444,2002.8,-37.847858,145.012743,0.675193
apartamento,5.0,812500.0,9.95,3042.5,1.5,1.5,217.0,160.0,2008.5,-37.72968,144.92819,0.740599
casa,1.0,851775.0,5.3875,3107.5,1.125,0.375,120.375,70.625,1921.875,-37.81095,144.973589,0.594186
casa,2.0,981871.1,7.124728,3086.491848,1.11413,1.11413,315.880435,102.563342,1935.203804,-37.801386,144.972311,0.468355
casa,3.0,1184248.0,9.036711,3085.438222,1.455111,1.619556,479.953778,143.044996,1947.161778,-37.797951,144.976989,0.397558
casa,4.0,1640970.0,9.546235,3095.490964,2.078313,1.963855,583.537651,207.597605,1952.570783,-37.811777,144.995876,0.407676
casa,5.0,2138573.0,9.670064,3108.267516,2.707006,2.318471,721.579618,302.970064,1959.675159,-37.821686,145.018549,0.444591


O resultado é um novo ```DataFrame``` com múltiplos indices.

Por fim, podemos utilizar o comando ```DataFrame.describe()``` para exibir todas as estatísticas descritivas para cada grupo. Faremos um exemplo somente para o preço dos imóveis.

In [15]:
df.groupby(by=['tipo', 'quartos']).preco.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
tipo,quartos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
apartamento,1.0,2.0,485000.0,197989.9,345000.0,415000.0,485000.0,555000.0,625000.0
apartamento,2.0,80.0,720698.8,238428.1,380000.0,561375.0,702500.0,806750.0,1540000.0
apartamento,3.0,179.0,893157.3,319108.8,430000.0,701000.0,830000.0,990500.0,2700000.0
apartamento,4.0,45.0,1208556.0,487798.9,600000.0,886000.0,1155000.0,1367000.0,2900000.0
apartamento,5.0,2.0,812500.0,236880.8,645000.0,728750.0,812500.0,896250.0,980000.0
casa,1.0,8.0,851775.0,331769.2,260000.0,739925.0,885500.0,956875.0,1435000.0
casa,2.0,368.0,981871.1,350535.3,270000.0,756875.0,910000.0,1171750.0,2875000.0
casa,3.0,1125.0,1184248.0,536853.0,305000.0,805000.0,1080000.0,1440000.0,6250000.0
casa,4.0,664.0,1640970.0,770559.1,131000.0,1100000.0,1500000.0,2000000.0,5700000.0
casa,5.0,157.0,2138573.0,998898.7,605000.0,1490000.0,1920000.0,2600000.0,8000000.0
