<a href="https://colab.research.google.com/github/RobsonGFerrarezi/ManipulacaoDados_Parte4/blob/main/manipulacao_de_dados_aluno_parte4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a rel="license" href="https://faculdadesalvadorarena.org.br/"><img alt="FESA" style="border-width:0" src="https://faculdadesalvadorarena.org.br/wp-content/uploads/2022/07/logo_fesa.png" /></a><br />
**FESA - Eletiva II (2025.1)** <br/>

Aluno(a): Robson Guilherme Ferrarezi <br/>
Data: 12/04/2025 <br/>

In [None]:
# pacotes usados neste notebook
import pandas as pd

#Manipulação de Dados com Pandas

##1. Manipulação Básica de Datasets

**Dataset**: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil <br/>

Este dataset contém os **registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2021**. <br/>
Cada *amostra (registro/linha/observação)* consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil. <br/>
Alguns dos principais *atributos* (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.

### 1.1. Importando o Dataset
Para carregar um dataset no formato tsv, basta utilizar a função `read_csv` do pandas. Por padrão, ela considera _','_ como separador.

In [None]:
df = pd.read_csv('/content/2004-2021.tsv', sep='\t')

In [None]:
df

O dataset não foi carregado corretamente pois o separador utilizado seu arquivo CSV era '\t' (tab) e não a ','. <br/>
Vamos então carregá-lo corretamente:

In [None]:
# carregando o dataset corretamente ==> neste caso, usa o separador '\t' (tab)
df = pd.read_csv('/content/2004-2021.tsv', sep='\t')

In [None]:
df

### 1.2. Exibindo as primeiras linhas do Dataset
A função `.head()` exibe as 5 primeiras linhas do dataset/tabela/Data Frame.

In [None]:
df.head()

In [None]:
# exibe as 10 primeiras linhas do dataframe
df.head(10)

### 1.3 Informações do Dataset e Elementos Chave

### 1.3.1 Informações gerais sobre o Dataset

In [None]:
df.info()

Aparentemente, nenhum atributo/coluna possui valores nulos (_null_), uma vez que o número de registros do dataframe e os números de valores _non-null_ é de **120823**. <br/>
Mas, veremos que não é bem assim para esse caso. <br/>
Além disso, note que alguns atributos/colunas, p. ex., 'PREÇO MÉDIO DISTRIBUIÇÃO', possui tipo de dado `object` ao invés de `float`. Esse `object`, no geral, representa strings. Isso parece estranho e suspeito. Veremos se isso é problemático mais pra frente.

### 1.3.2 Data Frame
Todo dataset carregado (dados estruturados) é um `Data Frame`: 'Tabela' bi-dimensional, de tamanho mutável, com dados potencialmente heterogêneos. <br/>

In [None]:
type(df)

Podemos acessar as **dimensões do Data Frame** (número de linhas x número de colunas) utilizando o atributo `.shape` do Data Frame.

In [None]:
df.shape

In [None]:
print(f'O DataFrame possui {df.shape[0]} linhas/observações/registros e {df.shape[1]} colunas/atributos/variáveis.')

#### **Criando um DataFrame**

Podemos criar um DataFrame a partir de um _dicionário_, onde cada **chave** possui uma **lista de elementos de igual tamanho**.<br/>
As **chaves** representam as **colunas** e **cada um dos valores de sua lista** representa o **valor da linha** correspondente para aquela coluna.

In [None]:
personagens_df = pd.DataFrame({
    'Nome': ['Luke Skywalker', 'Yoda', 'Palpatine'],
    'idade': [16, 1000, 70],
    'Peso': [70.5, 15.2, 60.1],
    'Eh jedi': [True, True, False]  # o nome das colunas podem ter espaços
})

In [None]:
personagens_df

In [None]:
personagens_df.info()

#### **VEJA MAIS**
Criando um Data Frame a partir de um dicionário: https://www.geeksforgeeks.org/how-to-create-dataframe-from-dictionary-in-python-pandas/

#### **Renomeando as colunas de um DataFrame**
**===>** O método `DataFrame.columns` retorna uma "lista" com os **nomes de todas as colunas** do data frame.

In [None]:
personagens_df.columns

In [None]:
type(personagens_df.columns)

In [None]:
list(personagens_df.columns)

<br/>

**===>** Para **renomear colunas** do data frame, utilize o método `DataFrame.rename`, que retorna uma _cópia_ do data frame com as as colunas renomeadas:

In [None]:
personagens_df

In [None]:
dic = {'idade': 'Idade', 'Peso': 'Peso (kg)'}
personagens_df_renomeado = personagens_df.rename(columns=dic)

In [None]:
personagens_df_renomeado

In [None]:
personagens_df

Para renomear o _próprio_ data frame em questão, utilize o parâmetro `inplace=True`:

In [None]:
personagens_df.rename(columns=dic, inplace=True)

In [None]:
personagens_df

<br/>

**===>** Uma outra forma de **renomear todas as colunas** de um data frame é passar uma _lista_ com os novos nomes das colunas para o atributo `DataFrame.columns`:

In [None]:
personagens_df.columns

In [None]:
personagens_df.columns = ['NOME', 'IDADE', 'PESO (KG)', 'EH JEDI?']

In [None]:
personagens_df

### 1.3.3 Series

Array uni-dimensional com os dados e rótulos de um eixo.

In [None]:
df.head()

In [None]:
# selecionando uma coluna inteira
df['ESTADO']

In [None]:
# selecionando uma coluna inteira
# esta forma de acesso, só funciona para colunas com nomes sem espaços, acentos, etc
df.ESTADO

In [None]:
type(df['ESTADO'])

In [None]:
# selecionando a observação indexada no índice [1] do dataframe
df.iloc[1]

In [None]:
type(df.iloc[1])

#### **Criando uma Series**

Podemos criar uma Series a partir de uma lista de elementos.

In [None]:
pd.Series([5.5, 6.0, 9.5])

Podemos alterar o **nome dos índices** e o **nome da Series** (o que ela representa):

In [None]:
pd.Series([5.5, 6.0, 9.5], index=['prova 1', 'prova 2', 'projeto'], name='Notas dos Luke Skywalker')

#### **VEJA MAIS**
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

### 1.3.4 Atribuindo Dados

In [None]:
df.head()

#### 1.3.4.1 Atribuindo constantes

In [None]:
produto_copy_bkp = df['PRODUTO'].copy()  # retorna uma cópia da coluna 'PRODUTO'
produto_copy_bkp

In [None]:
df['PRODUTO'] = 'Combustível'  # atribuindo o valor constante 'Combustível' para linha do dataframe na coluna 'PRODUTO'

In [None]:
df.head()

#### 1.3.4.2 Atribuindo listas ou series

In [None]:
nrows, ncols = df.shape
nrows, ncols

In [None]:
novos_produtos = [f'Produto {i}' for i in range(nrows)]
len(novos_produtos)

In [None]:
# a quantidade de elementos da lista `novos_produtos` é igual ao número de linhas do dataframe
df['PRODUTO'] = novos_produtos

In [None]:
df

In [None]:
# voltando para os produtos originais
df['PRODUTO'] = produto_copy_bkp  # produto_copy_bkp é uma Series

In [None]:
df

#### 1.3.4.3 Criando novas colunas
Para **criar uma nova coluna** em um data frame, basta atribuirmos uma _lista/Series de valores_ a uma **nova 'chave'** do data frame. <br/>

**PS:** A _quantidade de valores_ da lista precisa ser **igual** ao _número de linhas/registros_ do data frame.

In [None]:
# criando uma coluna a partir de um valor constante/default
# todas as linhas terão o mesmo valor para esta nova coluna
df['coluna sem nocao'] = 'DEFAULT'
df

In [None]:
df['coluna a partir de lista'] = range(df.shape[0])

In [None]:
df

In [None]:
# não funciona porque a quantidade de elementos da lista (a serem atribuídos a nova coluna) é diferente
# da quantidade de linhas do dataframe
#df['nao funciona'] = [1, 2, 3]

In [None]:
personagens_df

In [None]:
personagens_df['COR DO SABRE DE LUZ'] = ['Azul', 'Verde', 'Vermelho']

In [None]:
personagens_df

<br/>

Outro exemplo:

In [None]:
df.head()

In [None]:

df['PREÇO MÉDIO REVENDA (dólares)'] = df['PREÇO MÉDIO REVENDA'] / 5.75

In [None]:
df

### 1.3.4 Índices

Todo Data Frame possui **índices**, que não são considerado colunas da tabela. Tais índices são comumente **númericos**, de 0 a num_linhas-1, mas também podem ser **textuais (rótulos/labels)**.

In [None]:
df

In [None]:
df.index

Use `list(data.index)` ou `data.index.to_list()` para converter um RangeIndex para uma python list.

#### **Exemplo de Data Frame com Índices Textuais (labels)**

In [None]:
pesquisa_de_satisfacao = pd.DataFrame({
    'bom': [50, 21, 100],
    'ruim': [131, 2, 30],
    'pessimo': [30, 20, 1]
}, index=['Xbox One', 'Playstation4', 'Switch'])

In [None]:
pesquisa_de_satisfacao.head()

In [None]:
pesquisa_de_satisfacao.index

### 1.4 Selecionando uma ou mais observações (Indexação)

#### **==>  Index-based selection (seleção baseada em Índices)**
Mostrando linhas específicas de um DataFrame:

`iloc`: seleciona elementos do Dataframe, baseado em seu **índice (número)** --> row-first, column-second

**Selecionando uma observação/linha:**

In [None]:
df

In [None]:
df.iloc[1]

**Selecionando múltiplias amostras/linhas:**

In [None]:
# selecionando as linhas de índice de 0 a 5 (incluso)
df.iloc[:6]

In [None]:
# selecionando as linhas de índice 10 a 15 (incluso)
df.iloc[10:16]

In [None]:
# selecionando as linhas de índice 1, 5, 10 e 15
df.iloc[[1, 5, 10, 15]]

In [None]:
# selecionando as linhas de índice 5, 1, 15 e 10
df.iloc[[5, 1, 15, 10]]

In [None]:
df.iloc[5, 5]

In [None]:
# e assim por diante!

#### **==>  Label-based selection (seleção baseadas em Rótulos)**

`loc`: seleciona elementos do Dataframe, baseado em seus **rótulos** --> row-first, column-second

In [None]:
pesquisa_de_satisfacao

In [None]:
# retorna a linha cujo rótulo é 'Xbox One'
pesquisa_de_satisfacao.loc['Xbox One']

In [None]:
# retorna a linha de índice 0 (implícito)
pesquisa_de_satisfacao.iloc[0]

In [None]:
pesquisa_de_satisfacao.iloc[1,1]

In [None]:
# NÃO FUNCIONA
#pesquisa_de_satisfacao.iloc['Xbox One']

In [None]:
# NÃO FUNCIONA
#pesquisa_de_satisfacao.loc[0]

In [None]:
pesquisa_de_satisfacao.loc['Playstation4','ruim']

In [None]:
# seleção direta das colunas
pesquisa_de_satisfacao[['bom', 'pessimo']]

In [None]:
# outra forma de selecionar colunas com o .loc
pesquisa_de_satisfacao.loc[:, ['bom', 'pessimo']]

### 1.5 Selecionando um ou mais atributos (colunas)

In [None]:
df.head()

In [None]:
# forma 1
df['ESTADO']

In [None]:
# forma 2, porém
# só funciona se o NOME_DA_COLUNA não possuir espaços, acentuação, etc
df.ESTADO

In [None]:
# forma 3
df.loc[:, 'ESTADO']

### Exercício: Como selecionar a coluna **DATA INICIAL**?

In [None]:
df.head()

In [None]:
df['DATA INICIAL']

In [None]:
df.loc[:, 'DATA INICIAL']

In [None]:
#df.DATA INICIAL # não funciona

### 1.6 Removendo um Atributo (Coluna) do Data Frame

In [None]:
df.head()

In [None]:
del df['coluna sem nocao']

In [None]:
df

### Exercício: Como remover as colunas **coluna a partir de lista** e **PREÇO MÉDIO REVENDA (dólares)**?

In [None]:
# del não funciona para excluir múltiplas colunas. Veremos como fazer isso mais para frente
#del df[['coluna a partir de lista', 'PREÇO MÉDIO REVENDA (dólares)']]

In [None]:
del df['coluna a partir de lista']
del df['PREÇO MÉDIO REVENDA (dólares)']

### 1.7 Salvando um Data Frame

Para salvarmos um Data Frame para um **arquivo CSV**, basta usarmos o método `.to_csv`. <br/>
Por padrão, esse método **salva os índices da tabela como uma coluna no CSV**.<br/>
Como no geral tais índices são números de 0 a n-1, não há necessidade para isso.<br/>
Desta forma, utilize o parâmetro: `index=False`.

Por padrão, o método utilizará a ',' como separador das colunas. Caso queira alterá-lo, utilize o parâmetro `sep`.

In [None]:
df.to_csv('/content/2004-2021_preprocessado.csv', index=False)

In [None]:
# importando o dataframe salvo na célula anterior
meu_df = pd.read_csv('/content/2004-2021_preprocessado.csv')

In [None]:
meu_df

### 1.8 Seleção Condicional: Filtrando amostras

Durante nossas análise exploratórias, frequentemente filtraremos nossas amostras, a partir de certas **condições**, para fins de análise mais específica. <br/>
Existem algumas maneiras de fazermos tal filtragem. Antes disso, vamos carregar nosso dataset pré-processado que salvamos no item anterior.

In [None]:
meu_df.head()

In [None]:
meu_df['ESTADO'].unique()

#### **Selecionando apenas os preços dos Postos de São Paulo**

==> Alternativa 1: Seleção Condicional (Comparações diretas)

O código abaixo retorna uma Series ('array') de booleans, com o número de linhas (observações) do Data Frame, que informa os registros de preços dos postos do estado de São Paulo (True).

In [None]:
meu_df

In [None]:
# faz uma comparação elemento a elemento das series, retornando uma Series de booleans
meu_df['ESTADO'] == 'SAO PAULO'

In [None]:
# salvando essa Series de booleans em uma variável
filtro1 = meu_df['ESTADO'] == 'SAO PAULO'

Para filtrarmos os registros de postos do estado de São Paulo:

In [None]:
meu_df[filtro1]

O resultado é um Data Frame com apenas os registros desejados após a filtragem.
Podemos ainda utilizar o método loc para o mesmo fim:

In [None]:
meu_df.loc[filtro1]

##### **==> Alternativa 2: Utilizando o método `query`**

`query` filtra linhas de um DataFrame baseado em uma **query (pergunta)**.

In [None]:
meu_df.head()

In [None]:
meu_df.query('ESTADO == "SAO PAULO"')

<br/>

Uma boa prática é **salvar o Data Frame filtrado em uma nova variável**. Isso simplifica a complexidade do código para futuras análises feitas para os postos de São Paulo (neste caso).

In [None]:
postos_sp = meu_df.query('ESTADO == "SAO PAULO"')

In [None]:
postos_sp

In [None]:
type(postos_sp)

In [None]:
postos_sp.shape

In [None]:
# Exercício: salvar postos_sp em um arquivo CSV


In [None]:
postos_sp

#### Resetando os índices

Note que os _índices das linhas/registros_ após a _filtragem_ **continuam sendo os mesmos** do DataFrame original. <br/>
Em muitas situações, manter esta informação será importante.

Mas, se você quiser **_resetar os índices_** do data frame filtrado, fazendo com que os registros começem com _índice 0 até num_linhas-1_, use o método `.reset_index`.

In [None]:
postos_sp.reset_index()

In [None]:
postos_sp

In [None]:
postos_sp.reset_index(drop=True, inplace=True)

In [None]:
postos_sp

#### **Selecionando registros de postos do Rio de Janeiro com Preços acima de 2 reais**

In [None]:
filtro2 = (meu_df['ESTADO'] == 'RIO DE JANEIRO') & (meu_df['PREÇO MÉDIO REVENDA'] > 2)
filtro2

In [None]:
meu_df[filtro2]

Note que o resultado da seleção continua sendo uma _Series de booleans_ com o _mesmo número de linhas/observações do DataFrame_, de modo que cada linha possuirá um valor booleano indicando se o posto é do Rio de Janeiro **E** o preço aferido do combustível é maior que 2 reais (True) ou não.

O símbolo **&** significa **AND** na comparação. Essa nomenclatura do python/pandas é diferente das nomenclaturas tradicionais (&&). <br/>
Similarmente:
- **|** representa o **OR** (não é ||)
- **~** representa o **NOT** (não é !)

Alternativamente, poderíamos usar o método `query` para fazermos tal seleção. Porém, isso não é possível especificamente para esse caso, pois o rótulo da coluna 'PREÇO MÉDIO REVENDA' possui caracteres inválidos para o método (espaço, cedilha, acentos).

In [None]:
# Não funciona
#data.query('ESTADO=="RIO DE JANEIRO" and PREÇO MÉDIO REVENDA > 2')

In [None]:
#meu_df.query('ESTADO == "RIO DE JANEIRO" or ESTADO == "SAO PAULO"')

In [None]:
meu_df.head()

## Exercício (Valendo Presença - 29/03/2025)
Crie um novo notebook e salve com o seu nome (ex: joao_silva.ipynb). Em seguida, realize os itens abaixo com base no dataset 2004-2021.tsv.

**a.** Quais são os nomes dos estados presentes no DataFrame? Dica: Veja a seção 1.8

**b.** Quais tipos de combustíveis estão presentes no DataFrame?

**c.** Você percebeu algum tipo de problema nos valores encontrados nos itens (a) e (b)?

**d.** Selecione os registros de postos de São Paulo ou Santa Catarina com preço médio de revenda do Etanol acima de R$2,15.

**e.** Quantos registros existem na seleção realizada no item (d)?

**f.** Salve os registro do item anterior em um arquivo CSV com o nome **minha_pesquisa**. Dica: Veja seção 1.7

**g.** Envie seu arquivo .ipynb no Moodle até o final da aula.




## 2. Limpeza dos dados

In [None]:
df = pd.read_csv('/content/2004-2021.tsv', sep='\t')

In [None]:
df.head()

### 2.1 Tratando observações com valores vazios (null / nan) no dataset

De um total de 120823 observações, **não há valores null / nan** para nenhum atributo. Mas, veremos que não é bem assim neste caso específico.<br/><br/>

### 2.2 Conversão de tipos de atributos

O pandas automaticamente reconhece os tipos de dados de cada coluna. <br/>
Porém, existem alguns atributos que estão com seus tipos errados: Por exemplo: "PREÇO MÉDIO DISTRIBUIÇÃO" deveria ser ```float64``` e não ```object```.<br/>
Nestes casos, muito provavelmente alguns registros têm uma string ao invés de um número para tais atributos. <br/>

Os atributos **"DATA INICIAL"** e **"DATA FINAL"** deveriam ser do tipo `datetime`.

#### **Datas**
Como os atributos de data do dataset já estão em um formato de data aceitável (YYYY-MM-DD), não precisamos forçar nenhuma conversão nesse sentido.

In [None]:
??? = pd.to_datetime(data_pre['DATA INICIAL'])
??? = pd.to_datetime(data_pre['DATA FINAL'])

#### **Dados Numéricos**

In [None]:
# convertendo atributos/colunas para 'numeric'
# https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html
lista = []
for atributo in lista:
    # converte a coluna (de valores string) para um tipo numérico
    # Em caso de erro na conversão (p. ex., uma string que não representa um número), um valor vazio (null / nan) será
    # atribuído no lugar
    ??? = pd.to_numeric(data_pre[atributo], errors='coerce')

In [None]:
data_pre.info()

Note que temos vários valores ***null*** agora **após a *conversão de tipos***. Vamos checá-los com mais cuidado nos dados originais e preprocessados.

### 2.3 Limpeza de dados

In [None]:
# Nos dados originais, quais eram os valores do PREÇO MÉDIO DISTRIBUIÇÃO dos registros que agora possuem valores NaN
df[mask]

Várias amostras possuem a _string '-'_ em algumas colunas ao invés de um número de fato. Ou seja, não há aferições destes atributos para estas amostras. <br/>

<br/>

Poderíamos **preencher os valores NaN com um valor padrão**. Para isso, basta usar o método `.fillna`.

In [None]:
# Retorna uma cópia do data frame `data_pre` com todos os valores NaN de todas as colunas agora preenchidos com 0.
???

In [None]:
# valores que antes eram NaN, agora são 0
data_pre_fill[mask]

In [None]:
data_pre_fill.info()

Por mais que a função `fillna` seja interessante e útil em muitos casos, no problema em questão estamos interessados em analisar precisamente, p. ex., o **'PREÇO MÉDIO REVENDA'**.<br/>
A fim de não termos valores _sintéticos_ gerados pelo `fillna`, que possam atrapalhar nossa análise, iremos **remover (drop) todas as amostras que possuem qualquer valor NaN** para quaisquer atributos/colunas. <br/>

Para isso, basta utilizarmos o método `dropna`.

In [None]:
# remove, no próprio dataframe, todas as linhas/registros com valores NaN (vazios) em quaisquer colunas/atributos.
???

Nosso data frame agora, após essa _limpeza_, ficou mais enxuto, contentdo 117392 registros frente aos 120823 registros originais. <br/>

Essas são apenas algumas das possíveis _técnicas de limpeza de dados_. Outras estratégias mais sofisticadas não veremos neste curso.

#### **Salvando o Dataset Preprocessado**

In [None]:
data_pre.to_csv('2004-2021_preprocessado_final.csv', index=False)

# 📝 Exercício (Valendo Presença – 12/04/2025)

Crie um novo notebook no Google Colab (ou Jupyter) e salve com **seu nome e a data** no nome do arquivo, seguindo o modelo:  
`seu_nome_12_abril.ipynb`  
*(exemplo: `joao_silva_12_abril.ipynb`)*

Em seguida, realize os itens abaixo utilizando o dataset **2004-2021.tsv**.

---

## a. Importação
Importe o arquivo **2004-2021.tsv** e salve-o em um DataFrame chamado `df`.  
**Dica**: Veja a seção 1.1 sobre importação de dados com separador TAB.

---

## b. Estados presentes
Quais são os nomes dos estados presentes no DataFrame?  
**Dica**: Veja a seção 1.8 sobre valores únicos.

---

## c. Filtragem por estado
Escolha um estado e crie um novo DataFrame apenas com os registros desse estado.  
Dê a esse DataFrame um nome apropriado, como `df_RJ` se você escolher o Rio de Janeiro.  
**Dica**: Veja a seção 1.8 sobre filtragem de dados.

---

## d. Contagem de registros
Quantas linhas existem no DataFrame criado no item (c)?

---

## e. Conversão de datas
Converta as colunas **"DATA INICIAL"** e **"DATA FINAL"** para o tipo `datetime`.  
**Dica**: Veja a seção 2.2 sobre conversão de datas.

---

## f. Conversão numérica
Converta para tipo numérico as colunas que representam preços, como:  
`PREÇO MÉDIO`, `PREÇO MÍNIMO`, `PREÇO MÁXIMO`, `PREÇO DE VENDA`, entre outras.  
**Dica**: Veja a seção 2.2 sobre conversão de tipos.

---

## g. Valores ausentes
Após a conversão, quantos valores ausentes (**null/NaN**) existem no DataFrame?

---

## h. Remoção de linhas com NaN
Elimine todas as linhas que contenham **valores ausentes (null/NaN)** em qualquer coluna.  
**Dica**: Veja a seção 2.3 sobre remoção de dados faltantes.

---

## i. Exportação do resultado
Salve o DataFrame final do item (h) em um novo arquivo CSV chamado:  
`minha_pesquisa_12_abril.csv`  
**Dica**: Veja a seção 1.7 sobre exportação de arquivos.

---

## j. Entrega
Envie o arquivo `.ipynb` (do notebook) no Moodle até o final da aula.

<h2>3. Estatísticas Descritivas</h2>
<hr/>

In [None]:
data_final = pd.read_csv('/content/2004-2021_preprocessado_final.csv')

In [None]:
data_final.head()

O Pandas fornecem algumas funções/métodos que computam certas estatísticas descritivas.

`describe`: exibe várias **estatísticas descritivas** para os _atributos_ de um dataframe ou para uma _Series_.

<br/>

Como o resultado do `describe` de um _dataframe_ é outro _dataframe_, podemos filtrar apenas algumas colunas.

**Acessando apenas algumas estatísticas**

<br/>

`mean`, `std`, `min`, etc: cada uma das estatísticas do `describe` podem ser computadas individualmente:

#### Qual é o menor preço mínimo de revenda?

#### Qual é a média e desvio padrão dos preços mínimos de revenda?

#### Quais são os estados considerados?

#### Quantos registros (aferições) cada estado possui?

`.value_counts()`:  Conta a frequência dos valores de uma dada variável (de preferência, _categórica_).