Agregação significa reduzir uma coluna para um numero, sej a max, sum,
mean, median ....

Transformação muda cada item da coluna

In [1]:
import pandas as pd
import numpy as np

O parâmetro parse_dates do método pd.read_csv do pandas é utilizado para converter automaticamente as colunas especificadas em objetos de data (Timestamp) ao ler um arquivo CSV. 

In [4]:
data = pd.read_csv("data+files/realtor-data.csv", parse_dates=["prev_sold_date"])

NaT (Not a Time) é um valor especial usado no pandas para representar valores ausentes ou inválidos em colunas de data e hora (datetime)

In [10]:
data.sample(2)

Unnamed: 0,status,bed,bath,acre_lot,city,state,zip_code,house_size,prev_sold_date,price
883165,for_sale,2.0,2.0,,Manhattan,New York,10025.0,,NaT,1385000.0
639297,for_sale,3.0,3.0,0.11,Philadelphia,Pennsylvania,19111.0,1698.0,1988-11-04,279900.0


In [8]:
data.price.mean()

877438.1583343924

In [9]:
data.price.median()

475000.0



Média: É sensível a valores extremos (outliers). Um valor muito alto ou muito baixo pode distorcer a média.
Mediana: Não é afetada por outliers. Ela representa o valor central do conjunto de dados, independentemente de valores extremos.


Média: Representa o valor "médio" esperado dos dados. É útil quando os dados são simetricamente distribuídos.
Mediana: Representa o ponto médio dos dados. É mais representativa em distribuições assimétricas ou com outliers.


Média: Usada quando os dados são uniformemente distribuídos e não têm outliers significativos. Exemplo: médias de notas escolares.
Mediana: Usada quando os dados são assimétricos ou possuem outliers. Exemplo: renda familiar, onde poucos valores muito altos podem distorcer a média.

In [12]:
data[["bed","bath","acre_lot", "house_size", "price"]].median()

bed                3.00
bath               2.00
acre_lot           0.29
house_size      1650.00
price         475000.00
dtype: float64

std é a abreviação de desvio padrão (standard deviation, em inglês). 

In [13]:
# agg() == aggregate()
data["price"].agg(["mean","median", "max", "min", "std"])

mean      8.774382e+05
median    4.750000e+05
max       8.750000e+08
min       0.000000e+00
std       2.457698e+06
Name: price, dtype: float64

In [14]:
data[["bed","bath","acre_lot", "house_size", "price"]].agg(["mean","median", "max", "min", "std"])

Unnamed: 0,bed,bath,acre_lot,house_size,price
mean,3.33219,2.484236,17.317292,2138.437,877438.2
median,3.0,2.0,0.29,1650.0,475000.0
max,123.0,198.0,100000.0,1450112.0,875000000.0
min,1.0,1.0,0.0,100.0,0.0
std,2.065312,1.931622,970.707378,3046.6,2457698.0


In [18]:
#funcoes diferentes para cada coluna
data.agg({"bed":"median", "bath":"max", "bath":"min", "house_size":"median"})

bed              3.0
bath             1.0
house_size    1650.0
dtype: float64

In [21]:
# O método idxmax retorna o index do primeiro valor máximo
data.price.agg(["idxmax","max"])

idxmax       572886.0
max       875000000.0
Name: price, dtype: float64

In [22]:
data.loc[data.price.agg("idxmax")]

status                       for_sale
bed                               9.0
bath                              2.0
acre_lot                          NaN
city                            Bronx
state                        New York
zip_code                      10458.0
house_size                     2440.0
prev_sold_date    2002-12-30 00:00:00
price                     875000000.0
Name: 572886, dtype: object

In [23]:
data.loc[data.price.agg("idxmin")]

status              for_sale
bed                      NaN
bath                     NaN
acre_lot                0.17
city                Paterson
state             New Jersey
zip_code              7504.0
house_size            4500.0
prev_sold_date           NaT
price                    0.0
Name: 465599, dtype: object

In [27]:
# Count: 'count' - Contagem de valores não nulos.
# Size: 'size' - Tamanho do grupo (inclui nulos).
data.price.agg(["size","count"])

size     904966
count    904895
Name: price, dtype: int64

In [28]:
data.loc[data.price.isna()]

Unnamed: 0,status,bed,bath,acre_lot,city,state,zip_code,house_size,prev_sold_date,price
619434,ready_to_build,4.0,,,Medford,New Jersey,8055.0,2244.0,NaT,
619444,ready_to_build,3.0,,,Mount Laurel,New Jersey,8054.0,2224.0,NaT,
619445,ready_to_build,3.0,,,Mount Laurel,New Jersey,8054.0,2270.0,NaT,
620249,ready_to_build,2.0,,,Moorestown,New Jersey,8057.0,1748.0,NaT,
620325,ready_to_build,2.0,,,Moorestown,New Jersey,8057.0,1865.0,NaT,
...,...,...,...,...,...,...,...,...,...,...
685698,ready_to_build,5.0,,,Middletown,Delaware,19709.0,2511.0,NaT,
685699,ready_to_build,5.0,,,Middletown,Delaware,19709.0,2814.0,NaT,
701728,ready_to_build,3.0,,,Mount Holly,New Jersey,8060.0,2208.0,NaT,
702663,ready_to_build,4.0,,,Medford,New Jersey,8055.0,2244.0,NaT,


In [30]:
#statitics
data[["bed","bath","price"]].agg(["var","sem","std","skew","sum"])

Unnamed: 0,bed,bath,price
var,4.265513,3.731165,6040279000000.0
sem,0.002345846,0.002171758,2583.625
std,2.065312,1.931622,2457698.0
skew,8.755577,33.89897,155.1964
sum,2582867.0,1965234.0,793989400000.0


In [36]:
def mean_less_median(x):
    return x.mean() - x.median()

def range(x):
    return x.max() - x.min()
# a funcao tem que transformar em um valos agregado

data[["bed","bath","price"]].agg([mean_less_median, range, "sum"])# sem ""


Unnamed: 0,bed,bath,price
mean_less_median,0.3321899,0.4842355,402438.2
range,122.0,197.0,875000000.0
sum,2582867.0,1965234.0,793989400000.0
