# Manipulação Básica de Datasets

## Importando uma base de dados

<p>Método .read_csv() serve para importar uma base de dados.</p>

In [2]:
import pandas as pd
dados = pd.read_csv('/home/youx/teste_git/youxlab-treino-git/python-tayla/aulas-dados/datasets/venda-de-carros.csv')
dados

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,"R$ 24,000.00"
1,Honda,Vermelho,87899,4,"R$ 25,000.00"
2,Toyota,Azul,32549,3,"R$ 27,000.00"
3,BMW,Preto,11179,5,"R$ 122,000.00"
4,Nissan,Branco,213095,4,"R$ 13,500.00"
5,Toyota,Verde,99213,4,"R$ 14,500.00"
6,Honda,Azul,45698,4,"R$ 17,500.00"
7,Honda,Azul,54738,4,"R$ 27,000.00"
8,Toyota,Branco,60000,4,"R$ 26,250.00"
9,Nissan,Branco,31600,4,"R$ 19,700.00"


## Exibindo as primeiras linhas do Dataset

<p>Método .head() exibe as 5 primeiras linhas da base de dados por padrão, ou quantas linhas eu
quiser passando o valor dentro do head:</p>

In [3]:
dados.head(8)

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,"R$ 24,000.00"
1,Honda,Vermelho,87899,4,"R$ 25,000.00"
2,Toyota,Azul,32549,3,"R$ 27,000.00"
3,BMW,Preto,11179,5,"R$ 122,000.00"
4,Nissan,Branco,213095,4,"R$ 13,500.00"
5,Toyota,Verde,99213,4,"R$ 14,500.00"
6,Honda,Azul,45698,4,"R$ 17,500.00"
7,Honda,Azul,54738,4,"R$ 27,000.00"


## Informação da base de dados

<p>Método .info() exibe as informações da base:</p>
<p>< class 'pandas.core.frame.DataFrame'> informa que a base é um DataFrame (formato de base de dados no python).</p>
<p>RangeIndex: 10 entries, 0 to 9: informa que tem 10 linhas, e o index vai de 0 até 9.</p>
<p>Non-Null Count: informa se possui valores nulos em cada coluna.</p>
<p>Dtype: informa o tipo de dado de cada coluna.</p>

In [4]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Fabricante     10 non-null     object
 1   Cor            10 non-null     object
 2   Quilometragem  10 non-null     int64 
 3   Portas         10 non-null     int64 
 4   Preco          10 non-null     object
dtypes: int64(2), object(3)
memory usage: 528.0+ bytes


## DataFrame
<p>Toda base de dados importada pro python, é um DataFrame (tabela bi-dimensional)</p>
<p>Função type() mostra o tipo:</p>

In [5]:
type(dados)

pandas.core.frame.DataFrame

<p>O atributo .shape retorna quantas linhas e colunas tem no DataFrame:</p>

In [6]:
dados.shape

(10, 5)

### Criando um DataFrame:
<p>Função .DataFrame() do pandas cria um DataFrame, podemos passar um dicionário pra criar</p>

In [7]:
personagens_df = pd.DataFrame({
    'nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'peso' : [70, 15, 60],
    'eh jedi': [True, True, False]
})

personagens_df

Unnamed: 0,nome,idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


### Renomeando colunas:
<p>Atributo .columns retorna uma "lista" com nome de todas as colunas, também é ppossível armazenar em uma lista:</p>

In [8]:
personagens_df.columns

Index(['nome', 'idade', 'peso', 'eh jedi'], dtype='object')

In [9]:
lista_personagens = list(personagens_df.columns)
lista_personagens

['nome', 'idade', 'peso', 'eh jedi']

<p>O metódo .rename() seve pra renomear as colunas passando um diocionário,no exemplo abaixo estamos criando um novo DataFrame com as colunas 
renomeadas:</p>

In [10]:
personagens_df_renomeado = personagens_df.rename(columns={
    'nome': 'Nome Completo', # renomeia a coluna 'nome' pra 'Nome Completo'
    'idade': 'Idade'
})
personagens_df_renomeado

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


<p>É possível também renomear o DataFrame original, nesse caso personagens_df, e continuar utilizando-o, basta colocar inplace = True, veja o exemplo:</p>

In [11]:
personagens_df.rename(columns={
    'nome': 'Nome Completo',
    'idade': 'Idade'},
    inplace=True)

personagens_df

Unnamed: 0,Nome Completo,Idade,peso,eh jedi
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


<p>Outra forma de renomear é utilizando .columns e passando uma lista com os novos nomes:</p>

In [12]:
personagens_df.columns = ['NOME', 'IDADE', 'PESO', 'EH JEDI']
personagens_df

Unnamed: 0,NOME,IDADE,PESO,EH JEDI
0,Luke Skywalker,16,70,True
1,Yoda,1000,15,True
2,Palpatine,70,60,False


## Series
<p>Array uni-dimensional com os dados e rótulos de um eixo. Exemplo: uma coluna da base de dados (vamos voltar pra base que chama dados):</p>

In [13]:
print(dados['Fabricante'])
type(dados['Fabricante'])

0    Toyota
1     Honda
2    Toyota
3       BMW
4    Nissan
5    Toyota
6     Honda
7     Honda
8    Toyota
9    Nissan
Name: Fabricante, dtype: object


pandas.core.series.Series

### Criando uma Series:
<p>O método .Series() cria uma series, basta passar uma lista, ex:</p>

In [14]:
series1 = pd.Series([5.5, 6.0, 9.5])
series1

0    5.5
1    6.0
2    9.5
dtype: float64

<p>Também é possível modificar o index e o nome:</p>

In [15]:
series1 = pd.Series([5.5, 6.0, 9.5], index=['prova 1', 'prova 2', 'projeto'], name='Notas do Luke Skywalker')
series1

prova 1    5.5
prova 2    6.0
projeto    9.5
Name: Notas do Luke Skywalker, dtype: float64

<p>Pra criar uma cópia, precisamos utilizar o .copy()</p>

In [16]:
cor_copia = dados['Cor'].copy
cor_copia

<bound method NDFrame.copy of 0      Branco
1    Vermelho
2        Azul
3       Preto
4      Branco
5       Verde
6        Azul
7        Azul
8      Branco
9      Branco
Name: Cor, dtype: object>

<p>Pra gerar DataFrame a partir de series, podemos usar o .concat():</p>

In [17]:
series1 = pd.Series([5.5, 6.0, 9.5], index=['prova 1', 'prova 2', 'projeto'], name='Notas do Luke Skywalker')
series2 = pd.Series([8.2, 6.5, 12.5], index=['prova 1', 'prova 2', 'projeto'], name='Notas dos Lakers')

dados_series = pd.concat([series1, series2], axis=1)
dados_series

Unnamed: 0,Notas do Luke Skywalker,Notas dos Lakers
prova 1,5.5,8.2
prova 2,6.0,6.5
projeto,9.5,12.5


## Criando colunas
<p>Podemos criar uma nova coluna a nossa base passando o nome dela, e o que queremos para ela, ex:</p>

In [18]:
dados['Nova coluna'] = 'Testando'
dados

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Nova coluna
0,Toyota,Branco,150043,4,"R$ 24,000.00",Testando
1,Honda,Vermelho,87899,4,"R$ 25,000.00",Testando
2,Toyota,Azul,32549,3,"R$ 27,000.00",Testando
3,BMW,Preto,11179,5,"R$ 122,000.00",Testando
4,Nissan,Branco,213095,4,"R$ 13,500.00",Testando
5,Toyota,Verde,99213,4,"R$ 14,500.00",Testando
6,Honda,Azul,45698,4,"R$ 17,500.00",Testando
7,Honda,Azul,54738,4,"R$ 27,000.00",Testando
8,Toyota,Branco,60000,4,"R$ 26,250.00",Testando
9,Nissan,Branco,31600,4,"R$ 19,700.00",Testando


<p>Podemos criar também utilizando outra coluna, como por exemplo, criar uma coluna multiplicando a Quilometragem por 2:</p>

In [19]:
dados['Quilometragem'] = dados['Quilometragem'] * 2
dados

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Nova coluna
0,Toyota,Branco,300086,4,"R$ 24,000.00",Testando
1,Honda,Vermelho,175798,4,"R$ 25,000.00",Testando
2,Toyota,Azul,65098,3,"R$ 27,000.00",Testando
3,BMW,Preto,22358,5,"R$ 122,000.00",Testando
4,Nissan,Branco,426190,4,"R$ 13,500.00",Testando
5,Toyota,Verde,198426,4,"R$ 14,500.00",Testando
6,Honda,Azul,91396,4,"R$ 17,500.00",Testando
7,Honda,Azul,109476,4,"R$ 27,000.00",Testando
8,Toyota,Branco,120000,4,"R$ 26,250.00",Testando
9,Nissan,Branco,63200,4,"R$ 19,700.00",Testando


## Seleção por índices
<p>O .iloc[] retorna todas as obsevações indexadas na posição (posição começa do 0) que escolher, ex:</p>

In [20]:
print(dados)

dados.iloc[1]

  Fabricante       Cor  Quilometragem  Portas          Preco Nova coluna
0     Toyota    Branco         300086       4   R$ 24,000.00    Testando
1      Honda  Vermelho         175798       4   R$ 25,000.00    Testando
2     Toyota      Azul          65098       3   R$ 27,000.00    Testando
3        BMW     Preto          22358       5  R$ 122,000.00    Testando
4     Nissan    Branco         426190       4   R$ 13,500.00    Testando
5     Toyota     Verde         198426       4   R$ 14,500.00    Testando
6      Honda      Azul          91396       4   R$ 17,500.00    Testando
7      Honda      Azul         109476       4   R$ 27,000.00    Testando
8     Toyota    Branco         120000       4   R$ 26,250.00    Testando
9     Nissan    Branco          63200       4   R$ 19,700.00    Testando


Fabricante              Honda
Cor                  Vermelho
Quilometragem          175798
Portas                      4
Preco            R$ 25,000.00
Nova coluna          Testando
Name: 1, dtype: object

In [21]:
print(dados)

dados.iloc[4:6]

  Fabricante       Cor  Quilometragem  Portas          Preco Nova coluna
0     Toyota    Branco         300086       4   R$ 24,000.00    Testando
1      Honda  Vermelho         175798       4   R$ 25,000.00    Testando
2     Toyota      Azul          65098       3   R$ 27,000.00    Testando
3        BMW     Preto          22358       5  R$ 122,000.00    Testando
4     Nissan    Branco         426190       4   R$ 13,500.00    Testando
5     Toyota     Verde         198426       4   R$ 14,500.00    Testando
6      Honda      Azul          91396       4   R$ 17,500.00    Testando
7      Honda      Azul         109476       4   R$ 27,000.00    Testando
8     Toyota    Branco         120000       4   R$ 26,250.00    Testando
9     Nissan    Branco          63200       4   R$ 19,700.00    Testando


Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Nova coluna
4,Nissan,Branco,426190,4,"R$ 13,500.00",Testando
5,Toyota,Verde,198426,4,"R$ 14,500.00",Testando


<p>Também é possível acessar linhas e colunas, colocando uma vírgula:</p>

In [22]:
print(dados)

dados.iloc[4:6, 2]

  Fabricante       Cor  Quilometragem  Portas          Preco Nova coluna
0     Toyota    Branco         300086       4   R$ 24,000.00    Testando
1      Honda  Vermelho         175798       4   R$ 25,000.00    Testando
2     Toyota      Azul          65098       3   R$ 27,000.00    Testando
3        BMW     Preto          22358       5  R$ 122,000.00    Testando
4     Nissan    Branco         426190       4   R$ 13,500.00    Testando
5     Toyota     Verde         198426       4   R$ 14,500.00    Testando
6      Honda      Azul          91396       4   R$ 17,500.00    Testando
7      Honda      Azul         109476       4   R$ 27,000.00    Testando
8     Toyota    Branco         120000       4   R$ 26,250.00    Testando
9     Nissan    Branco          63200       4   R$ 19,700.00    Testando


4    426190
5    198426
Name: Quilometragem, dtype: int64

<p>O .loc[] faz o index acessar os rótulos dos index, se eu acessar o rótulo 4 do index:</p>

In [23]:
print(dados)

dados.loc[4]

  Fabricante       Cor  Quilometragem  Portas          Preco Nova coluna
0     Toyota    Branco         300086       4   R$ 24,000.00    Testando
1      Honda  Vermelho         175798       4   R$ 25,000.00    Testando
2     Toyota      Azul          65098       3   R$ 27,000.00    Testando
3        BMW     Preto          22358       5  R$ 122,000.00    Testando
4     Nissan    Branco         426190       4   R$ 13,500.00    Testando
5     Toyota     Verde         198426       4   R$ 14,500.00    Testando
6      Honda      Azul          91396       4   R$ 17,500.00    Testando
7      Honda      Azul         109476       4   R$ 27,000.00    Testando
8     Toyota    Branco         120000       4   R$ 26,250.00    Testando
9     Nissan    Branco          63200       4   R$ 19,700.00    Testando


Fabricante             Nissan
Cor                    Branco
Quilometragem          426190
Portas                      4
Preco            R$ 13,500.00
Nova coluna          Testando
Name: 4, dtype: object

In [24]:
print(dados)

dados.loc[4:6]

  Fabricante       Cor  Quilometragem  Portas          Preco Nova coluna
0     Toyota    Branco         300086       4   R$ 24,000.00    Testando
1      Honda  Vermelho         175798       4   R$ 25,000.00    Testando
2     Toyota      Azul          65098       3   R$ 27,000.00    Testando
3        BMW     Preto          22358       5  R$ 122,000.00    Testando
4     Nissan    Branco         426190       4   R$ 13,500.00    Testando
5     Toyota     Verde         198426       4   R$ 14,500.00    Testando
6      Honda      Azul          91396       4   R$ 17,500.00    Testando
7      Honda      Azul         109476       4   R$ 27,000.00    Testando
8     Toyota    Branco         120000       4   R$ 26,250.00    Testando
9     Nissan    Branco          63200       4   R$ 19,700.00    Testando


Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco,Nova coluna
4,Nissan,Branco,426190,4,"R$ 13,500.00",Testando
5,Toyota,Verde,198426,4,"R$ 14,500.00",Testando
6,Honda,Azul,91396,4,"R$ 17,500.00",Testando


## Seleção de múltiplas colunas:

In [25]:
dados[['Fabricante', 'Cor', 'Portas']]

Unnamed: 0,Fabricante,Cor,Portas
0,Toyota,Branco,4
1,Honda,Vermelho,4
2,Toyota,Azul,3
3,BMW,Preto,5
4,Nissan,Branco,4
5,Toyota,Verde,4
6,Honda,Azul,4
7,Honda,Azul,4
8,Toyota,Branco,4
9,Nissan,Branco,4


### Deletar uma coluna
<p>Para deletar uma coluna use o del, veja o ex:</p>

In [26]:
del dados['Portas']

dados

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
0,Toyota,Branco,300086,"R$ 24,000.00",Testando
1,Honda,Vermelho,175798,"R$ 25,000.00",Testando
2,Toyota,Azul,65098,"R$ 27,000.00",Testando
3,BMW,Preto,22358,"R$ 122,000.00",Testando
4,Nissan,Branco,426190,"R$ 13,500.00",Testando
5,Toyota,Verde,198426,"R$ 14,500.00",Testando
6,Honda,Azul,91396,"R$ 17,500.00",Testando
7,Honda,Azul,109476,"R$ 27,000.00",Testando
8,Toyota,Branco,120000,"R$ 26,250.00",Testando
9,Nissan,Branco,63200,"R$ 19,700.00",Testando


## Filtragem de dados
<p>O .unique() retorna os dados únicos de uma coluna:</p>

In [27]:
dados['Fabricante'].unique()

array(['Toyota', 'Honda', 'BMW', 'Nissan'], dtype=object)

<p>Para filtrar por condições, utilizamos .query() e no final do filtro usamos .reset_index() pros dados filtrados voltarem o index começando do 0</p>

In [28]:
dados_filtrados = dados.query('Fabricante == "Honda"').reset_index()
dados_filtrados

Unnamed: 0,index,Fabricante,Cor,Quilometragem,Preco,Nova coluna
0,1,Honda,Vermelho,175798,"R$ 25,000.00",Testando
1,6,Honda,Azul,91396,"R$ 17,500.00",Testando
2,7,Honda,Azul,109476,"R$ 27,000.00",Testando


In [29]:
dados_filtrados2 = dados.query('Fabricante == "Honda" and Cor == "Azul"').reset_index()
dados_filtrados2

Unnamed: 0,index,Fabricante,Cor,Quilometragem,Preco,Nova coluna
0,6,Honda,Azul,91396,"R$ 17,500.00",Testando
1,7,Honda,Azul,109476,"R$ 27,000.00",Testando


<p>Outra forma de filtrar</p>

In [30]:
dados_filtrados3 = dados[dados['Fabricante'] == "Honda"]
dados_filtrados3

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
1,Honda,Vermelho,175798,"R$ 25,000.00",Testando
6,Honda,Azul,91396,"R$ 17,500.00",Testando
7,Honda,Azul,109476,"R$ 27,000.00",Testando


In [31]:
dados_filtrados4 = dados[(dados['Fabricante'] == "Honda") & (dados['Cor'] == "Azul")]
dados_filtrados4

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
6,Honda,Azul,91396,"R$ 17,500.00",Testando
7,Honda,Azul,109476,"R$ 27,000.00",Testando


### Filtrando a partir de uma lista:

In [32]:
lista_cor = ['Azul', 'Vermelho']
dados_filtrados5 = dados.query('Cor in @lista_cor')
dados_filtrados5

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
1,Honda,Vermelho,175798,"R$ 25,000.00",Testando
2,Toyota,Azul,65098,"R$ 27,000.00",Testando
6,Honda,Azul,91396,"R$ 17,500.00",Testando
7,Honda,Azul,109476,"R$ 27,000.00",Testando


<p>O .dropna() remove todas as linhas do DataFrame que são vazias.</p>
<p>O .fillna() preenche todos valores vazios de um DataFrame com 0.</p>

## Estatística descritiva
<p>O .describle() nos retorna a estatística descritiva como contagem, média, etc.:</p>

In [33]:
dados['Preco'].describe()

count               10
unique               9
top       R$ 27,000.00
freq                 2
Name: Preco, dtype: object

<p>Para calcular a média, soma, desvio padrão, min, max:</p>

In [34]:
print(dados['Quilometragem'].mean())
print(dados['Quilometragem'].sum())
print(dados['Quilometragem'].std())
print(dados['Quilometragem'].min())
print(dados['Quilometragem'].max())

157202.8
1572028
123966.94346908238
22358
426190


<p>Pra contagem usamos .value_counts():</p>

In [35]:
dados['Fabricante'].value_counts()

Fabricante
Toyota    4
Honda     3
Nissan    2
BMW       1
Name: count, dtype: int64

<p>Podemos também criar um novo DataFrame usando .to_frame():</p> 

In [36]:
dados_fabricante = dados['Fabricante'].value_counts().to_frame().reset_index()
dados_fabricante

Unnamed: 0,Fabricante,count
0,Toyota,4
1,Honda,3
2,Nissan,2
3,BMW,1


## Agrupamento
<p>Pra agrupar um grupo de elementos é usado o .grouphy()</p>

In [38]:
# agrupa as linhas da tabela de acordo com seus respectivos fabricantes
grupos = dados.groupby('Fabricante')
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7e94572c76d0>

In [40]:
# retorna os grupos obtidos pelo groupby
grupos.groups

{'BMW': [3], 'Honda': [1, 6, 7], 'Nissan': [4, 9], 'Toyota': [0, 2, 5, 8]}

In [41]:
# retorna os índices das linhas/observações de cada grupo
grupos.indices

{'BMW': array([3]),
 'Honda': array([1, 6, 7]),
 'Nissan': array([4, 9]),
 'Toyota': array([0, 2, 5, 8])}

In [42]:
# retorna um DataFrame apenas com as observações do grupo escolhido
grupos.get_group('Toyota')

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
0,Toyota,Branco,300086,"R$ 24,000.00",Testando
2,Toyota,Azul,65098,"R$ 27,000.00",Testando
5,Toyota,Verde,198426,"R$ 14,500.00",Testando
8,Toyota,Branco,120000,"R$ 26,250.00",Testando


In [43]:
# descreve algumas estatísticas descritivas pras observações de cada grupo
grupos.describe()

Unnamed: 0_level_0,Quilometragem,Quilometragem,Quilometragem,Quilometragem,Quilometragem,Quilometragem,Quilometragem,Quilometragem
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Fabricante,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
BMW,1.0,22358.0,,22358.0,22358.0,22358.0,22358.0,22358.0
Honda,3.0,125556.666667,44439.456357,91396.0,100436.0,109476.0,142637.0,175798.0
Nissan,2.0,244695.0,256672.690503,63200.0,153947.5,244695.0,335442.5,426190.0
Toyota,4.0,170902.5,102031.982651,65098.0,106274.5,159213.0,223841.0,300086.0


<p>Também pode ter agrupamentos por mais de um atributo</p>

In [45]:
dados.head()

Unnamed: 0,Fabricante,Cor,Quilometragem,Preco,Nova coluna
0,Toyota,Branco,300086,"R$ 24,000.00",Testando
1,Honda,Vermelho,175798,"R$ 25,000.00",Testando
2,Toyota,Azul,65098,"R$ 27,000.00",Testando
3,BMW,Preto,22358,"R$ 122,000.00",Testando
4,Nissan,Branco,426190,"R$ 13,500.00",Testando


In [46]:
# agrupa os registros do DataFrame primeiramente por seus fabricantes
# depois agrupa os registros de cada fabricante (grupo) de acordo com a quilometragem
grupos = dados.groupby(['Fabricante', 'Quilometragem'])
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7e9454911930>

In [47]:
grupos.groups

{('BMW', 22358): [3], ('Honda', 91396): [6], ('Honda', 109476): [7], ('Honda', 175798): [1], ('Nissan', 63200): [9], ('Nissan', 426190): [4], ('Toyota', 65098): [2], ('Toyota', 120000): [8], ('Toyota', 198426): [5], ('Toyota', 300086): [0]}

<p>.agg() agrega (roda) uma série de funções para os elementos de um DataFrame ou de grupos de um DataFrame</p>

In [49]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [None, None, None]],
                   columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [50]:
df.agg([sum, min]) # ignora o None

  df.agg([sum, min]) # ignora o None
  df.agg([sum, min]) # ignora o None


Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


In [51]:
grupos = dados.groupby('Fabricante')
grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7e9454910340>

In [52]:
# computa o menor e maior valor do 'Preco' para cada fabricante (grupo)
grupos['Preco'].agg([min, max])

  grupos['Preco'].agg([min, max])
  grupos['Preco'].agg([min, max])


Unnamed: 0_level_0,min,max
Fabricante,Unnamed: 1_level_1,Unnamed: 2_level_1
BMW,"R$ 122,000.00","R$ 122,000.00"
Honda,"R$ 17,500.00","R$ 27,000.00"
Nissan,"R$ 13,500.00","R$ 19,700.00"
Toyota,"R$ 14,500.00","R$ 27,000.00"


## Ordenação

In [57]:
notas = pd.DataFrame({
    'nome': ['João', 'Maria', 'José', 'Alice'],
    'idade': [20, 21, 19, 20],
    'nota_final': [5.0, 10.0, 6.0, 10.0]
})
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


<p>.sort(values): ordena valores ao longo de um eixo</p>

In [58]:
notas.sort_values(by='nota_final')

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
2,José,19,6.0
1,Maria,21,10.0
3,Alice,20,10.0


<p>Por padrão, o método retorna uma cópia dos dados ordenados em ordem crescente (ascendente). Podemos alterar isso pelo argumento ascending</p>

In [59]:
notas.sort_values(by='nota_final', ascending=False)

Unnamed: 0,nome,idade,nota_final
1,Maria,21,10.0
3,Alice,20,10.0
2,José,19,6.0
0,João,20,5.0


<p>Podemos ordenar a partir de mais de uma coluna:</p>

In [61]:
# ordena os registros, primeiramente, pela coluna 'nota_final' em ordem decrescente
# então, reordena os registros "empatados", ou seja, com a mesma nota final, em ordem alfabética (ordem crescente)
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True])

Unnamed: 0,nome,idade,nota_final
3,Alice,20,10.0
1,Maria,21,10.0
2,José,19,6.0
0,João,20,5.0


### o DataFrame não é alterado dps da ordenação!!

In [62]:
notas

Unnamed: 0,nome,idade,nota_final
0,João,20,5.0
1,Maria,21,10.0
2,José,19,6.0
3,Alice,20,10.0


<p>Pra alterar tem q usar inplace=True</p>

In [65]:
notas.sort_values(by=['nota_final', 'nome'], ascending=[False, True], inplace=True)

In [66]:
notas

Unnamed: 0,nome,idade,nota_final
3,Alice,20,10.0
1,Maria,21,10.0
2,José,19,6.0
0,João,20,5.0
