# AULA - 13

## Aprofundamento no Pandas

Neste notebook, serão vistos os tópicos de:
> Dados ausentes 

> GroupBy

In [1]:
import numpy as np
import pandas as pd

### Dados ausentes

É comum, quendo se trabalha com banco de dados, se deparar com alguns dados faltantes em uma tabela, ou em qualquer outra estrutura de dados, seja por erros do próprio banco de dados ou pela falha de captação destes dados e etc.

Primeiro vamos criar um diciorário contendo diversas listas, para que sejam o conteúdo de nossa tabela.

In [2]:
df = {'a':[1,2,np.nan], 'b':[3,np.nan,np.nan],'c':[7,4,10]}

In [3]:
df = pd.DataFrame(df)
df

Unnamed: 0,a,b,c
0,1.0,3.0,7
1,2.0,,4
2,,,10


Utilizando o método "dropna()", podemos retirar as linhas da tabela em que haja valores faltantes, para facilitar a vizualização.

In [4]:
df.dropna()

Unnamed: 0,a,b,c
0,1.0,3.0,7


In [5]:
df.dropna(thresh=2)

Unnamed: 0,a,b,c
0,1.0,3.0,7
1,2.0,,4


Utilizando o parâmetro "thresh", podemos escolher a quantidade minima de valores ausentes para que a linha seja excluida.

Agora, com o método "fillna()" podemos preencher os valores ausentes com algum valor simbólico ou representativo, seja ele um número ou um texto.

In [6]:
df.fillna(value='vazio')

Unnamed: 0,a,b,c
0,1,3,7
1,2,vazio,4
2,vazio,vazio,10


Como um exemplo de uso mais real, e que até pode ser aplicado em casos reais, é preenchimento a partir da média dos valores dos dados da mesma coluna.

In [7]:
df['a'].fillna(value=df['a'].mean())

0    1.0
1    2.0
2    1.5
Name: a, dtype: float64

### GroupBy

O GroupBy pode ser utilizado para separar dados comuns de uma tabela para que seja feita alguma operação, ou para simplesmente melhorar a apresentação dos dados.Irá ficar mais claro com a representação visual.

In [8]:
data = {'empresa': ['google','google','microsoft','microsoft','facebook','facebook'],
        'nome':['kyle','robson','carlos','jesé','brian','hernández'],
        'vendas':[899,241,3652,791,753,842]}
dfData = pd.DataFrame(data)
dfData

Unnamed: 0,empresa,nome,vendas
0,google,kyle,899
1,google,robson,241
2,microsoft,carlos,3652
3,microsoft,jesé,791
4,facebook,brian,753
5,facebook,hernández,842


In [9]:
dfData.groupby('empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D2873A0518>

Na linha acima o Python já organizou os dados através do groupBy, porém o que foi retornado foi a posição de memória onde está armazenado.

In [10]:
group = dfData.groupby('empresa')

Agora com o agrupamento salvo em uma variável qualquer podemos manipula-la do jeito que quisermos.

In [11]:
group.sum()

Unnamed: 0_level_0,vendas
empresa,Unnamed: 1_level_1
facebook,1595
google,1140
microsoft,4443


Acima foi apresentado a soma dos valores da tabela agrupados pelo parâmetro passado no groupBy.

In [12]:
group.mean()

Unnamed: 0_level_0,vendas
empresa,Unnamed: 1_level_1
facebook,797.5
google,570.0
microsoft,2221.5


Outro método que pode ser relevante para a utilização de dados retirados de um banco de dados, é o "describe()". Ele aplica diversos métodos à tabela, e os apresenta.

In [13]:
group.describe()

Unnamed: 0_level_0,vendas,vendas,vendas,vendas,vendas,vendas,vendas,vendas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
facebook,2.0,797.5,62.932504,753.0,775.25,797.5,819.75,842.0
google,2.0,570.0,465.276262,241.0,405.5,570.0,734.5,899.0
microsoft,2.0,2221.5,2023.032501,791.0,1506.25,2221.5,2936.75,3652.0
