### Revisão

Manipulando Dados no Pandas

In [None]:
# Importando a Biblioteca
import pandas as pd

In [None]:
# Dicionário
# Obs: Quando o pandas.DataFrame() recebe isso, ele espera que cada valor seja uma lista ou array,
# caso contrário não sabe como estruturar em linhas/colunas.
base = {
    'nome': ['Vinicius','Maria','Carlos','Emilly'],
    'idade': [24, 60, 58, 24],
    'sexo': ['Masculino', 'Feminino', 'Masculino', 'Feminino']
}

In [None]:
# Criando Dataframe e exibindo o mesmo
df = pd.DataFrame(base)
display(df)

In [None]:
# Criando uma nova coluna
df = pd.DataFrame(base, columns=['nome', 'idade', 'sexo', 'senha'])

In [None]:
# Exibindo as 5 primeiras linhas
df.head()

In [None]:
# Adicionando indices personalizados e organizando a tabela
indice = ['cliente1', 'cliente2', 'cliente3','cliente4']
df = pd.DataFrame(base,columns=['senha','nome','idade', 'sexo' ], index= indice)
df.head()

In [None]:
# Exibindo apenas uma coluna
display(df['nome'])

In [None]:
# Exibindo apenas duas colunas
display(df[['nome', 'idade']])

Utilizando NumPy para inserir dados para uma coluna

In [None]:
# Importando a biblioteca
import numpy

In [None]:
# Inserindo valores
df['senha'] = numpy.arange(1,5)

In [None]:
# Exibindo a tabela atualizada
display(df)

In [None]:
# Exibindo apenas um cliente utizando filter(filtrar)
df.filter(items=['cliente2'], axis=0)

### Fatiamento de DataFrame no Pandas

In [None]:
# Utilizando fatiamento para filtrar as linhas
df['cliente2':'cliente4']

In [None]:
# Filtando e estabelecendo uma condição para o DataFrame
df[df['idade'] <= 25]


Preenchendo Valores Ausentes em DataFrames

In [None]:
# Importando Dataset
df2 = pd.read_csv("dados/dataset.csv")

In [None]:
display(df2)

In [None]:
# Verificadano a quantidade valores ausentes
df2.isna().sum()

In [None]:
# Realizando a Interpolação para os valores ausentes, e com isso vou utilizar
# a moda para ver o valor que mais se repete no DataF
moda = df2['Quantidade'].value_counts().index[0]

In [None]:
# Exibindo a moda
print(moda)

In [None]:
# Preeenchendo os valores ausentes com fillna
df2['Quantidade'] = df2['Quantidade'].fillna(value=moda)

In [None]:
# Verificando novamente se ainda possui valores ausentes
df2.isna().sum()

In [None]:
# exbibindo o Df atualizado
display(df2)

### Query (Consulta) de Dados no DataFrame do Pandas

In [None]:
# Exibindo a tabela
df2.head()

In [None]:
# O método .query() é uma das minhas ferramentas favoritas na biblioteca pandas. 
# É uma forma muito poderosa e, ao mesmo tempo, elegante e legível de filtrar linhas 
# de um DataFrame com base em uma ou mais condições.

query2 = df2.query("Regiao not in 'South'")

In [None]:
# Exibindo o filtro
display(query2)

### Verificando a Ocorrência de Diversos Valores em Uma Coluna

Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5, 7, 9 ou 11 itens.

Como aplicaríamos esse tipo de filtro ao nosso dataframe?

Fácil. O Pandas oferece o método isin0 para checar diversos valores em uma coluna. Quem conhece Linguagem SQL já deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo.


In [None]:
df2[df2['Quantidade'].isin([5,7,9,11])].head()

In [None]:
segm = df2.query("Segmento == 'Home Office' and Regiao == 'South'")

In [None]:
display(segm)

### Agrupamento de Dados em DataFrames com Group By

A função Pandas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.

O código a seguir agrupará as linhas com base nas combinações Segmento/RegiaoNalor_Venda e nos dará a taxa média de vendas de cada grupo.

In [None]:
# Aplicando Groupy By
# É como SQL, você vai selecionar as colunas que deseja fazer o agrupamento, e no final vai
# selecionar alguma agregação (sum, mean, count, etc.).
# Resumo:
# coloca a variavel que está dataframe, depois seleciona as colunas que deseja agrupar, após
# vai inserir o método .groupby(), e dentro do é vai colocar as colunas de agrupamento, mas
# não vai colocar a coluna que deseja fazer a agregação
df2[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

### Agregação Múltipla com Group By

Vamos explorar mais a função groupby() pois temos diversas opções de sumarização dos dados de forma simples. No exemplo abaixo uniremos a função group by com a função agg() para realiza agregação múltipla.

In [None]:
# Na agragação multipla é no mesmo esquema, mas caso queira realizar mais de uma agregação você
# vai utilizar .agg()

df2[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean','std','count'])

### Filtrando DataFrame do Pandas com Base em Strings

O Pandas oferece diversas funções para manipulação de strings. Começaremos com o filtros de strings com base nas letras iniciais e finais.

As funções startswith() e endswith() são muito úteis quando for necessário filtrar strings por caracteres que apareçam no começo e/ou final.

In [None]:
# Filtrando pelo inicio da str
df2[df2.Segmento.str.startswith('Con')].head()

In [None]:
# FIltrando pelo final da str
df2[df2.Segmento.str.endswith('mer')].head()