# Introdução a análise de dados com Pandas
## Funcionalidades avançadas 
### Aplicando funções em um dataframe
Utilizamos o comando ```DataFrame.apply()``` para aplicar uma função específica em uma ou mais colunas/linhas de um dataframe. Utilizaremos as informações contidas no arquivo ```housing.csv``` para exemplicar o uso de cada funcionalidade. 

In [1]:
import pandas as pd

df = pd.read_csv('housing_ok.csv')
df.head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude
0,Collingwood,2/79 Oxford St,2.0,kitnet,855000.0,1.6,3066.0,1.0,1.0,2886.0,122.0,1830.0,-37.8042,144.9845
1,Richmond,22a Stanley St,3.0,casa,1600000.0,2.6,3121.0,2.0,2.0,80.0,144.0,1850.0,-37.8233,144.9947
2,Fitzroy,52 Nicholson St,4.0,casa,3310000.0,1.6,3065.0,4.0,2.0,337.0,291.0,1854.0,-37.8052,144.9739
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653
4,Port Melbourne,175 Stokes St,3.0,casa,2200000.0,3.8,3207.0,2.0,0.0,250.0,280.0,1863.0,-37.8381,144.9391


Definiremos uma função que recebe a ```distancia_aeroporto``` e retorna o texto 'longe', caso a distância seja maior que 3.5 km e 'perto', caso contrário.

In [2]:
def perto_ou_longe(x):
    if x > 3.5:
        return 'longe'
    else:
        return 'perto'

df.distancia_aeroporto.apply(perto_ou_longe).head()

0    perto
1    perto
2    perto
3    perto
4    longe
Name: distancia_aeroporto, dtype: object

Criaremos uma nova coluna do dataframe contendo a informações gerada utilizando a notação ```DataFrame['nome_da_nova_coluna'] = Serie```.

In [3]:
df['perto_ou_longe'] = df.distancia_aeroporto.apply(perto_ou_longe)
df.head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,perto_ou_longe
0,Collingwood,2/79 Oxford St,2.0,kitnet,855000.0,1.6,3066.0,1.0,1.0,2886.0,122.0,1830.0,-37.8042,144.9845,perto
1,Richmond,22a Stanley St,3.0,casa,1600000.0,2.6,3121.0,2.0,2.0,80.0,144.0,1850.0,-37.8233,144.9947,perto
2,Fitzroy,52 Nicholson St,4.0,casa,3310000.0,1.6,3065.0,4.0,2.0,337.0,291.0,1854.0,-37.8052,144.9739,perto
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653,perto
4,Port Melbourne,175 Stokes St,3.0,casa,2200000.0,3.8,3207.0,2.0,0.0,250.0,280.0,1863.0,-37.8381,144.9391,longe


### Criando uma nova coluna como resultado de operações envolvendo outras colunas
Criaremos uma nova coluna contendo a razão entre a ```area_construida``` e a ```area_terreno```. Para tanto, utilizaremos o comando ```DataFrame.eval()```. O comando ```eval()``` recebe como parâmetro a expressão matemática no formato de texto. Para consolidar o resultado gerado pelo comando, passamos o parâmetro ```inplace=True```.

In [4]:
df.eval('razao_area = area_construida / area_terreno', inplace=True)
df.razao_area.head()

0    0.042273
1    1.800000
2    0.863501
3    1.221053
4    1.120000
Name: razao_area, dtype: float64

### Filtrar linhas baseado em um intervalo de valores
Uma forma eficiente de aplicar um filtro de intervalo é através do uso do método ```Series.between(limite_inferior, limite_superior)```.

In [5]:
df[df.distancia_aeroporto.between(2, 2.5)].head()

Unnamed: 0,bairro,endereco,quartos,tipo,preco,distancia_aeroporto,cep,banheiros,vagas,area_terreno,area_construida,ano_construcao,latitude,longitude,perto_ou_longe,razao_area
3,South Melbourne,352 Moray St,4.0,casa,2260000.0,2.1,3205.0,3.0,0.0,190.0,232.0,1856.0,-37.8377,144.9653,perto,1.221053
9,North Melbourne,12 Curzon St,2.0,casa,885000.0,2.3,3051.0,1.0,1.0,111.0,73.0,1880.0,-37.8044,144.9481,perto,0.657658
16,South Melbourne,144 Cobden St,3.0,casa,1405000.0,2.1,3205.0,1.0,1.0,181.0,117.0,1880.0,-37.8365,144.9631,perto,0.646409
25,Cremorne,443 Punt Rd,3.0,casa,1280000.0,2.5,3121.0,2.0,2.0,324.0,165.0,1880.0,-37.8278,144.9885,perto,0.509259
26,Cremorne,443 Punt Rd,3.0,casa,1475000.0,2.5,3121.0,2.0,2.0,324.0,165.0,1880.0,-37.8278,144.9885,perto,0.509259


### Agrupar valores
Utilizando o o comando ```DataFrame.Groupby(by='nome_da_coluna')```, podemos agrupar valores de acordo com a operação desejada. Podemos, por exemplo agrupar as informações do dataframe ```df``` por tipo de imóvel. Como operação de agrupamento, faremos o cálculo da média através do comando ```mean()``` para verifidar o preço médio dos imóveis por tipo.

In [6]:
df.groupby(by='tipo').mean().preco

tipo
apartamento    8.912696e+05
casa           1.352243e+06
kitnet         6.060722e+05
Name: preco, dtype: float64

As outras operações disponíveis para o agrupamento são:
* ```count()```: contagem de valores
* ```max()```: valor máximo
* ```min()```: valor mínimo
* ```median()```: mediana
* ```std()```: desvio padrão

A lista completa encontra-se no link: https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/