<h2>Agregando dados </p> <h5>Métodos de agregação, ou agg, permitem calcular estatísticas personalizadas.

In [56]:
import pandas as pd
import numpy as np
carros = pd.read_csv("carros.csv")

In [57]:
carros.head(3)

Unnamed: 0,Região,Estado,Quant Carros,Quant Carros Família com Filhos,População do Estado,Carros por habitante
0,Sul,Acre,4342,1034,23942.0,0.181355
1,Centro-Oeste,Alagoas,18991,3253,23431.0,0.810507
2,Sudeste,Amapá,6463,4152,7747.0,0.834258


Quantile = calcula o q-ésimo quantil dos dados ao longo do eixo especificado.

In [58]:
#agregando um cáculo com uma função
def pct50(coluna):
    return coluna.quantile(0.50) #Quantile com numpy

carros['Quant Carros'].agg(pct50)

8472.0

In [59]:
def max_min(coluna):
    return coluna.max(), coluna.min()

carros['Quant Carros'].agg(max_min)

(33848, 2241)

O pandas também possui métodos para calcular estatísticas cumulativas. Chamar "cumsum" em uma coluna não retonra apenas um número, mas um número para cada linha do DataFrame. </p> O primeiro número retornado é a quantidade do primeiro carro, o segundo é a soma do primeiro com o segundo, e assim sucessivamente. O último é a soma de todos.

In [60]:
carros['Quant Carros'].cumsum()

0       4342
1      23333
2      29796
3      32976
4      44264
5      55071
6      60857
7      66351
8      90763
9      99235
10    104103
11    109786
12    127077
13    149464
14    160130
15    166166
16    176699
17    184611
18    218459
19    224855
20    227096
21    250209
22    253770
23    263236
24    269553
25    291860
26    309004
Name: Quant Carros, dtype: int64

<b>Excluindo duplicados:</b> drop_duplicates </p> Permite a criação de um novo DataFrame sem repetições com base em critérios específicos. O subset define qual coluna deve ser feita a operação.

In [61]:
carros.drop_duplicates(subset='Região')

Unnamed: 0,Região,Estado,Quant Carros,Quant Carros Família com Filhos,População do Estado,Carros por habitante
0,Sul,Acre,4342,1034,23942.0,0.181355
1,Centro-Oeste,Alagoas,18991,3253,23431.0,0.810507
2,Sudeste,Amapá,6463,4152,7747.0,0.834258
5,Nordeste,Ceará,10807,4943,40773.0,0.265053
18,Norte,Rio de Janeiro,33848,2579,48323.0,0.700453


<b>Groupby com Agg:</b> groupby faz um agrupamento de uma ou mais colunas, permitindo a aplicação de operações por grupo, que podem ser usadas com outros métodos agg para cáclulos estatísticos.

In [62]:
carros.groupby('População do Estado')['Carros por habitante'].agg(max_min)

População do Estado
5189.0     (0.6128348429369821, 0.6128348429369821)
6267.0     (0.8766554970480294, 0.8766554970480294)
6899.0       (0.838672271343673, 0.838672271343673)
7612.0     (0.8298738833420914, 0.8298738833420914)
7747.0     (0.8342584226152059, 0.8342584226152059)
8556.0     (0.5689574567554933, 0.5689574567554933)
8890.0     (0.6392575928008999, 0.6392575928008999)
13433.0    (0.1668279609915879, 0.1668279609915879)
13792.0    (0.5736658932714617, 0.5736658932714617)
15627.0    (0.6740257247072374, 0.6740257247072374)
16016.0    (0.2223401598401598, 0.2223401598401598)
16394.0    (0.5167744296693912, 0.5167744296693912)
19502.0    (0.5469182647933545, 0.5469182647933545)
22159.0        (0.77368112279435, 0.77368112279435)
23431.0    (0.8105074473987453, 0.8105074473987453)
23942.0    (0.1813549411076769, 0.1813549411076769)
24118.0    (0.4680321751389004, 0.4680321751389004)
26777.0    (0.2254173357732382, 0.2254173357732382)
28483.0    (0.7831689077695467, 0.7831689077

<b>Tabelas Pivot:</b> Cálculos estatísticos resumidas e agrupadas.

In [63]:
grupo = carros.groupby('População do Estado')['Carros por habitante']
carros.pivot_table(values='População do Estado',index='Carros por habitante')

Unnamed: 0_level_0,População do Estado
Carros por habitante,Unnamed: 1_level_1
0.133192,48021.0
0.166828,13433.0
0.181355,23942.0
0.22234,16016.0
0.225417,26777.0
0.265053,40773.0
0.327577,28897.0
0.371004,46606.0
0.468032,24118.0
0.481511,48001.0


<b>Aggfunc:</b> Argumento para passar funções.

In [64]:
carros.pivot_table(values='População do Estado',index='Carros por habitante',aggfunc=np.median)

  carros.pivot_table(values='População do Estado',index='Carros por habitante',aggfunc=np.median)


Unnamed: 0_level_0,População do Estado
Carros por habitante,Unnamed: 1_level_1
0.133192,48021.0
0.166828,13433.0
0.181355,23942.0
0.22234,16016.0
0.225417,26777.0
0.265053,40773.0
0.327577,28897.0
0.371004,46606.0
0.468032,24118.0
0.481511,48001.0


<b>Pivot de várias variáveis:</b> Passa um segundo nome de variável para ver o agrupamento, com os valores em comun que aparecem de acordo com o parâmetro.

In [65]:
carros.pivot_table(values='População do Estado',index='Carros por habitante',columns='Região')

Região,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
Carros por habitante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0.133192,,,,,48021.0
0.166828,,13433.0,,,
0.181355,,,,,23942.0
0.22234,,,,,16016.0
0.225417,,26777.0,,,
0.265053,,40773.0,,,
0.327577,,,28897.0,,
0.371004,46606.0,,,,
0.468032,24118.0,,,,
0.481511,48001.0,,,,


<b>Substituir valores faltosos:</b> Argumento margins cria uma útlima linha com última coluna "All" que contém a média de todos os valores na coluna ou linha, excluindo os valores ausentes que foram preenchidos com zeros.

In [66]:
carros.pivot_table(values='População do Estado',index='Região',fill_value=0,margins=True)

Unnamed: 0_level_0,População do Estado
Região,Unnamed: 1_level_1
Centro-Oeste,25361.571429
Nordeste,29180.75
Norte,28277.333333
Sudeste,16713.714286
Sul,21944.0
All,23249.851852


<h3>Indexação e Fatiamento

<b>Reset_index:</b> Remover um índice e voltar as definições padrões do DataFrame.

In [67]:
#carros.reset_index(drop=True)

<b>Buscas e filtragem:</b> O loc facilita para localizar os dataframes, mas depende do índice.

In [68]:
carros[carros['Estado'].isin(['Paraná','Pernambuco'])]
#faz uma busca por coluna

Unnamed: 0,Região,Estado,Quant Carros,Quant Carros Família com Filhos,População do Estado,Carros por habitante
15,Nordeste,Paraná,6036,1702,26777.0,0.225417
16,Sul,Pernambuco,10533,3449,15627.0,0.674026


<b>Sort_index:</b> Controlar a ordenação com ascendencia ou descendência. </p> índices são controversos, a sintaxe para trabalhar com índices é diferente da sintaxe para trabalhar com colunas.

<h3>Slicing

Técnica para selecionar os elementos consecutivos de objetos. cortando DataFrames ordenando os índices. Ele mantem a contagem total dos valores mesmo sendo duplicados.

<b>Slice de Colunas:</b> Como os  DataFrames são objetos bidimensionais, podemos cortar colunas mas mantendo todas as linhas.

In [72]:
carros.loc[:,'Região':'Estado']

Unnamed: 0,Região,Estado
0,Sul,Acre
1,Centro-Oeste,Alagoas
2,Sudeste,Amapá
3,Centro-Oeste,Amazonas
4,Centro-Oeste,Bahia
5,Nordeste,Ceará
6,Sudeste,Distrito Federal
7,Sudeste,Espírito Santo
8,Sudeste,Goiás
9,Centro-Oeste,Maranhão


Cortando linhas e Colunas

In [77]:
carros.loc[('Norte'):'Quant Carros']

TypeError: 'DataFrame' object is not callable