# Pandas - DataFrames

* Topicos:
    * Missing Data (NaN)
    * Verify Missing Data (isnull)
    * Group By (object)

In [6]:
# Dados Ausentes

import pandas as pd
import numpy as np

# Gerar DataFrame a partir de dicionario com Dados Ausentes

dic1 = {'A':[1,2,np.nan],'B':[5,np.nan,np.nan],'C':[1,2,3]}
print(dic1)
print()

df1 = pd.DataFrame(dic1)
print(df1)
print()

# Remover linhas com valores ausente

df2 = df1.dropna()
print(df2)
print()

# Remover colunas com valores ausentes

df3 = df1.dropna(axis=1)
print(df3)
print()

# Remover linhas com 2 ou mais 'nan'

df4 = df1.dropna(thresh = 2)
print(df4)
print()

# Preencher valores ausentes com "value"

df5 = df1.fillna(value='Fill')
print(df5)
print()

# Preencher valores ausentes com a media da coluna

df6 = df1['A'].fillna(value=df1['A'].mean())
print(df6)
print()

# Preencher valores ausentes com valores anteriores (Forward Fill)

df7 = df1.fillna(method='ffill')
print(df7)
print()

{'A': [1, 2, nan], 'B': [5, nan, nan], 'C': [1, 2, 3]}

     A    B  C
0  1.0  5.0  1
1  2.0  NaN  2
2  NaN  NaN  3

     A    B  C
0  1.0  5.0  1

   C
0  1
1  2
2  3

     A    B  C
0  1.0  5.0  1
1  2.0  NaN  2

      A     B  C
0     1     5  1
1     2  Fill  2
2  Fill  Fill  3

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

     A    B  C
0  1.0  5.0  1
1  2.0  5.0  2
2  2.0  5.0  3



In [12]:
# Verificar Dados Ausentes (isnull)

# Gera Serie a Partir de Dicionario

dic1 = {'Am':3500,'Sp':5000,'Ce':10000,'Rj':7000}
obj1 = pd.Series(dic1)
print(obj1)
print()

# Gerar nova serie, a partir da serie 1

ind1 = ['Am','Rj','Ce','Ba','Bsb']
obj2 = pd.Series(dic1,index=ind1)
print(obj2)
print()

# Verifica Valores Nulos

print(pd.isnull(obj2))
print()

print(pd.notnull(obj2))
print()

print(obj2.isnull)
print()

Am     3500
Ce    10000
Rj     7000
Sp     5000
dtype: int64

Am      3500.0
Rj      7000.0
Ce     10000.0
Ba         NaN
Bsb        NaN
dtype: float64

Am     False
Rj     False
Ce     False
Ba      True
Bsb     True
dtype: bool

Am      True
Rj      True
Ce      True
Ba     False
Bsb    False
dtype: bool

<bound method NDFrame.isnull of Am      3500.0
Rj      7000.0
Ce     10000.0
Ba         NaN
Bsb        NaN
dtype: float64>



In [7]:
# GroupBy - Agrupar uma info, após fazer operação matemática em outra coluna

# Gerar Dataframe a partir de dicionario

data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
        'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
        'Venda':[200,120,340,124,243,350]}

df = pd.DataFrame(data)
print(df)
print()

# Criar Objeto DataFrameGroupBy e Salvar em Variavel

group = df.groupby('Empresa') # Forma grupos por empresa
print(group)
print()

  Empresa     Nome  Venda
0    GOOG      Sam    200
1    GOOG  Charlie    120
2    MSFT      Amy    340
3    MSFT  Vanessa    124
4      FB     Carl    243
5      FB    Sarah    350

<pandas.core.groupby.DataFrameGroupBy object at 0x000001F4B44A8390>



In [8]:
# Soma valores por grupo (não soma strings)

print(group.sum())
print()

# Informações sobre os grupos

print(group.count())
print()

print(group.describe())
print()

print(group.describe().transpose())
print()

print(group.describe().transpose()['GOOG'])
print()

         Venda
Empresa       
FB         593
GOOG       320
MSFT       464

         Nome  Venda
Empresa             
FB          2      2
GOOG        2      2
MSFT        2      2

        Venda                                                        
        count   mean         std    min     25%    50%     75%    max
Empresa                                                              
FB        2.0  296.5   75.660426  243.0  269.75  296.5  323.25  350.0
GOOG      2.0  160.0   56.568542  120.0  140.00  160.0  180.00  200.0
MSFT      2.0  232.0  152.735065  124.0  178.00  232.0  286.00  340.0

Empresa              FB        GOOG        MSFT
Venda count    2.000000    2.000000    2.000000
      mean   296.500000  160.000000  232.000000
      std     75.660426   56.568542  152.735065
      min    243.000000  120.000000  124.000000
      25%    269.750000  140.000000  178.000000
      50%    296.500000  160.000000  232.000000
      75%    323.250000  180.000000  286.000000
      max    

In [9]:
# Soma valores por grupo

group2 = df.groupby('Nome')  # forma grupos por nome
print(group2)
print()

# cria data frame com soma das vendas por nome
print(group2.sum())
print()

# indica as vendas da Amy
print(group2.sum().loc['Amy'])
print()

<pandas.core.groupby.DataFrameGroupBy object at 0x000001F4B44D36D8>

         Venda
Nome          
Amy        340
Carl       243
Charlie    120
Sam        200
Sarah      350
Vanessa    124

Venda    340
Name: Amy, dtype: int64

