# AULA 18 - Noções do pacote PANDAS -  parte B
## Algoritmos e Estrutura de Dados I - Prof. Piva
-----------

### Preenchendo Valores Ausentes em DataFrames com Pandas
A função fillna() é utilizada para preencher valores ausentes em um dataframe.
Oferece, para tanto, muitas opções: valores específicos, função agregada (media, moda etc), valor anterior, valor seguinte etc.

In [None]:
# Importando o Pandas
import pandas as pd
# Verificando a Versão do Pandas
pd.__version__

In [None]:
# Importando um dataset que está em um arquivo CSV
df = pd.read_csv("dataset.csv")

In [None]:
df.head(5)

In [None]:
# Verificando a quantidade de valores ausentes no dataFrame
df.isna().sum()

In [None]:
# Calculando a Moda (moda é uma medida estatística que representa o elemento que mais se repete no conjunto de dados)
# No caso, vamos retornar a moda da coluna 'Quantidade'
# Pesso para contar todos os valores com value_counts()
# Em seguida, eu vou retornar a posição 0 (o primeiro elemento) - que é o que mais se repete (maior qtd)
moda = df['Quantidade'].value_counts().index[0]

In [None]:
print(moda)

In [None]:
# Vamos preencher os valores ausentes com esse valor da moda.
# vamos utilizar a função fillna()
df['Quantidade'].fillna(value = moda, inplace = True)

# o parâmetro nomeado inplace é utilizado para Salvar o resultado no mesmo dataframe. 
# Se não utilizarmos o parâmetro como True, ele irá realizar a operação e criar uma cópia do dataframe
# Não alterará o dataframe original. Isso é padrão no Pandas (qualquer operação ele sempre realiza, criando uma cópia do df)

In [None]:
df.isna().sum()

Esta estratégia de preenchimento chama-se **INTERPOLAÇÃO**. Utilizamos uma medida estatística da coluna para preencher os valores ausentes.

### Consulta de Dados no DataFrame Pandas (query)
Os dataframes criados são tabelas. Como tal, podemos realizar consultas e retornar valores...

In [None]:
# Por exemplo... existe uma coluna: Valor_Venda  ... vamos entendê-la com describe()
df.Valor_Venda.describe()

Veja que esse resumo estatístico nos trás informações importantes: valor mínimo: 0.44  Valor máximo: 22638.48
Valor médio: 229,85

In [None]:
# Vamos fazer uma consulta com a função query().
df2 = df.query('229 < Valor_Venda < 10000')

In [None]:
df2.Valor_Venda.describe()

In [None]:
# Uma nova consulta, tomando como base esse segundo dataframe criado a partir da primeira consulta.
df3 = df2.query('Valor_Venda > 766')

In [None]:
df3.Valor_Venda.describe()

In [None]:
df3.head()

### Verificando a Ocorrência de Valores em uma Coluna

No nosso dataset, existe uma coluna 'Quantidade', que representa a quantidade de itens vendidos em cada venda.
Como podemos filtrar os dados, para identificar as vendas que tiveram quantidades vendidas iguais a 5, 9 ou 11 itens?
Uma possibilidade é utilizarmos o método isin() para checar diversos valores em uma coluna (semelhante a cláusula IN em SQL)

In [None]:
#Verificando o shape (formato) do dataframe. Ele retornará o número de linhas e o número de colunas.
df.shape

In [None]:
# Fazendo o filtro das quantidades de itens vendidos: 5, 9 e 11
df[ df['Quantidade'].isin([5, 9, 11]) ]

In [None]:
# Podemos obter um shape, depois de um processo de fatiamento. Vamos pegar o exemplo anterior...
df[ df['Quantidade'].isin([5, 9, 11]) ].shape

In [None]:
# Podemos aplicar o filtro e retornar apenas uma parte do resultado. Por exemplo... vamor retornar apenas as 10 primeiras linhas
df[ df['Quantidade'].isin([5, 9, 11]) ][:10]

### Trabalhando com Operadores Lógicos p/ Manipulação de Dados com Pandas
AND, OR, NOT...

In [None]:
# Vamos fazer um filtro das vendas que ocorreram para o segmento "Home Office" E na região "South"
df[ (df.Segmento == 'Home Office') & (df.Regiao == 'South') ].head()

In [None]:
# Vamos fazer um filtro das vendas que ocorreram para o segmento "Home Office" OU na região "South"
df[ (df.Segmento == 'Home Office') | (df.Regiao == 'South') ].tail()

In [None]:
# Vamos fazer um filtro das vendas que NÃO ocorreram para o segmento "Home Office" E NÃO foram na região "South"
df[ (df.Segmento != 'Home Office') & (df.Regiao != 'South') ].sample(5)
# sample() retorna uma amostra

### Agrupamento de Dados em DataFrames com GroupBy

Podemos utilizar a função groupby() do Pandas para explorar e revelar relacionamento entre variáveis em conjunto de dados.

Vamos fazer a combinação dos dados por **Segmento / Região / Valor_Venda** e calcular a _taxa média_ de vendas de cada grupo.

In [None]:
df[ ['Segmento', 'Regiao', 'Valor_Venda'] ].groupby( ['Segmento', 'Regiao'] ).mean()

### Agregação Múltipla com GroupBy
Vamos utilizar agora a função agg() para realizar a agregação múltipla.

Para tanto, vamos filtrar os dados, extraindo 3 colulas: Segmento, Região e Valor_Venda.
Em seguida, vamos agrupar por duas colunas: Segmento e Região.
Por fim, vamos agregar os dados, calculando média, desvio padrão e contagem de elementos, para a coluna que ficou fora do group by (Valor_Venda).

In [None]:
df[ ['Segmento', 'Regiao', 'Valor_Venda'] ].groupby( ['Segmento', 'Regiao'] ).agg(['mean', 'std', 'count'])

### Filtrando DataFrames com elementos Strings
Pandas oferece diversas funções para manipulação de strings.
As funções startswith() e endswith() são muito utilizadas para filtragem de strings

In [None]:
df.head()

In [None]:
# Filtro dos elementos que iniciam com os caractes: 'Con'
df[ df.Segmento.str.startswith('Con') ].head()

In [None]:
# Filtro dos elementos que terminam com os caractes: 'mar'
df[ df.Segmento.str.endswith('mer') ].head()