In [2]:
import pandas as pd

In [3]:
%%writefile missing.csv
Colorado,,,,
Ohio,3,5,6,9
Oregon,,,,
Texas,9,12,,
Utah,,,,

Overwriting missing.csv


In [4]:
df = pd.read_csv('missing.csv', header=None)

df.head()

Unnamed: 0,0,1,2,3,4
0,Colorado,,,,
1,Ohio,3.0,5.0,6.0,9.0
2,Oregon,,,,
3,Texas,9.0,12.0,,
4,Utah,,,,


<h3>Métodos para deletar dados faltantes</h3>

- isnull: cria uma máscara booleana, onde os valores *True* representam dados faltantes

In [5]:
print(df.isnull())

       0      1      2      3      4
0  False   True   True   True   True
1  False  False  False  False  False
2  False   True   True   True   True
3  False  False  False   True   True
4  False   True   True   True   True


- dropna: remove todas as linhas onde há dados faltantes (any)
    - esse método gera um novo dataframe, não excluindo o anterior
    - how: pode-se selecionar o modo de remoção
        - any: qualquer valor está faltante *** default
        - all: apenas onde todos os valores estão faltantes
    - pode-se especificar o eixo (axis), para trabalhar com as colunas
    - thresh(n): tolerância de dados faltantes, removendo a partir de n+1 dados faltantes

In [6]:
print(df.dropna())

      0    1    2    3    4
1  Ohio  3.0  5.0  6.0  9.0


In [7]:
print(df.dropna(how='any'))

      0    1    2    3    4
1  Ohio  3.0  5.0  6.0  9.0


In [8]:
print(df.dropna(how='all'))

          0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN


In [9]:
print(df.dropna(how='all', axis=1))

          0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN


In [10]:
print(df.dropna(thresh=2))

       0    1     2    3    4
1   Ohio  3.0   5.0  6.0  9.0
3  Texas  9.0  12.0  NaN  NaN


Método fillna(value)

- permite preencher os dados faltantes com algum valor determinado
- posso preencher os dados originais em coordenadas específicas de coluna usando um dicionário

In [11]:
print('Dados faltantes = 0\n\n',df.fillna(0))

Dados faltantes = 0

           0    1     2    3    4
0  Colorado  0.0   0.0  0.0  0.0
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  0.0   0.0  0.0  0.0
3     Texas  9.0  12.0  0.0  0.0
4      Utah  0.0   0.0  0.0  0.0


segue o preenchimento por coluna

In [12]:
# nesse caso, iremos preencher os dados da coluna 2 com o valor '-1', da coluna 4 com '0' e da coluna 5 com '1'
meu_dic = {1:-1, 3:0, 4:1}

print('Tabela original\n\n',df)
print('\n\nTabela modificada\n\n',df.fillna(meu_dic))

Tabela original

           0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN


Tabela modificada

           0    1     2    3    4
0  Colorado -1.0   NaN  0.0  1.0
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon -1.0   NaN  0.0  1.0
3     Texas  9.0  12.0  0.0  1.0
4      Utah -1.0   NaN  0.0  1.0


<h3>Processamento de dados</h3>

A biblioteca Pandas possui diversos métodos de processamento de dados, o que auxilia muito no processo de limpeza e filtragem de dados.

Métodos duplicated e drop_duplicated

- duplicated: verifica ocorrências de valores duplicados em uma determinada coluna -> retorna uma máscara booleana
- drop_duplicated: remove os valores duplicados de uma dada coluna

In [13]:
df = pd.DataFrame({'c0':['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'c1':[1,1,2,3,3,4,4]})

print(df)

    c0  c1
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4


In [14]:
duplicados = df
duplicados['c2'] = df.duplicated()


print(duplicados)

    c0  c1     c2
0  one   1  False
1  one   1   True
2  one   2  False
3  two   3  False
4  two   3   True
5  two   4  False
6  two   4   True


In [23]:
print(df.drop_duplicates())

    c0  c1
0  one   1
2  one   2
3  two   3
5  two   4


<h3>Método map</h3>

Define uma regra para transformar os valores de uma determinada coluna

In [30]:
dt = {'food':['Bread','Apple','Cheese'], 'ounces': [4,3,12],'type':['grain','fruit','dairy']}

df = pd.DataFrame(dt)

print(df)

     food  ounces   type
0   Bread       4  grain
1   Apple       3  fruit
2  Cheese      12  dairy


In [33]:
df['type'] = df['type'].map(lambda x : x.upper())

print(df)

     food  ounces   type
0   Bread       4  GRAIN
1   Apple       3  FRUIT
2  Cheese      12  DAIRY


Também pode-se inserir esses valores 'mapeados' em uma outra coluna

In [41]:
df['type'] = df['type'].map(lambda x : x.lower())
df['type upper'] = df['type'].map(lambda x : x.upper())

print(df)

     food  ounces   type type upper
0   Bread       4  grain      GRAIN
1   Apple       3  fruit      FRUIT
2  Cheese      12  dairy      DAIRY


Pode-se também usar o map para atribuir o resultado de uma transformação para uma nova coluna no DataFrame, de modo que tem que se aplicar os dados já existentes para surtir efeito

In [42]:
calories_by_type = {'Cheese':'high','Apple':'low','Bread':'high'}

df['caloriess'] = df['food'].map(calories_by_type)

print(df)

     food  ounces   type type upper caloriess
0   Bread       4  grain      GRAIN      high
1   Apple       3  fruit      FRUIT       low
2  Cheese      12  dairy      DAIRY      high


<h3>Método Replace</h3>

Substitui os valores de um DataFrame de dois modos possíveis:

- substituição dos valores usando duas listas com valores de referência -> chave / replacement
- substituição dos valores de modo direcionado
    - deve-se usar um dicionário especificando as chaves (colunas) e os valores a mudar (lista com os elementos da coluna que serão inseridos no lugar)

In [43]:
dfr = pd.DataFrame({'c1':[1,2,3,4,5],'c2':[2,4,6,8,10],'c3':['bla','cla','dla','ela','fla'],
                   'c4':['cla','bla','fla','ela','dla']})
print(dfr)

   c1  c2   c3   c4
0   1   2  bla  cla
1   2   4  cla  bla
2   3   6  dla  fla
3   4   8  ela  ela
4   5  10  fla  dla


In [44]:
dfr.replace([2,'cla'],[-2,'clam'])

Unnamed: 0,c1,c2,c3,c4
0,1,-2,bla,clam
1,-2,4,clam,bla
2,3,6,dla,fla
3,4,8,ela,ela
4,5,10,fla,dla


Trocar os valores utilizando dicionários, em modelo chave : valor

In [45]:
print(dfr.replace({4:-4,'fla':'palm'}))

   c1  c2    c3    c4
0   1   2   bla   cla
1   2  -4   cla   bla
2   3   6   dla  palm
3  -4   8   ela   ela
4   5  10  palm   dla


Para trocar valores específicos de colunas específicas, tem-se que utilizar um dicionário de dicionários

In [46]:
print(dfr.replace({'c1':{4:-4,2:-2},'c3':{'ela':'eles'}}))

   c1  c2    c3   c4
0   1   2   bla  cla
1  -2   4   cla  bla
2   3   6   dla  fla
3  -4   8  eles  ela
4   5  10   fla  dla


Método Rename

- Renomeia os rotulos de índice (colunas ou linhas), com base em uma regra determinada.

- Pode utilizar dicionários com os valores em formato chave(valor atual) : valor(valor desejado) ou com funções (geralmente lambda)

- index: linhas

- columns: colunas

In [48]:
dfr = pd.DataFrame({'c1':[1,2,3,4,5],'c2':[2,4,6,8,10],'c3':['bla','cla','dla','ela','fla'],
                   'c4':['cla','bla','fla','ela','dla']})

print(dfr)

   c1  c2   c3   c4
0   1   2  bla  cla
1   2   4  cla  bla
2   3   6  dla  fla
3   4   8  ela  ela
4   5  10  fla  dla


In [58]:
dfr_modificado = dfr.rename(index = lambda x : str(x) + 'a', columns= lambda x : x.upper())

print(dfr_modificado)

    C1  C2   C3   C4
0a   1   2  bla  cla
1a   2   4  cla  bla
2a   3   6  dla  fla
3a   4   8  ela  ela
4a   5  10  fla  dla


In [None]:
Método Merge

- Faz a junção de dois dataframes com base em uma chave comum

In [60]:
df1 = pd.DataFrame({'key': ['b','b','a','c','a','a','b'], 
                   'data1': range(7)})

df2 = pd.DataFrame({'key': ['a','b','d','b','d'], 
                   'data2': range(5)})

print('df1\n\n',df1)
print('\n\ndf2\n\n',df2)

df1

   key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6


df2

   key  data2
0   a      0
1   b      1
2   d      2
3   b      3
4   d      4


O método merge faz as junções apenas de elementos iguais nos dois dataframes, a menos que se especifique que se tratam de todos os elementos (parâmetro how='outer')

In [61]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,6,1
5,b,6,3
6,a,2,0
7,a,4,0
8,a,5,0


In [62]:
pd.merge(df1, df2, on='key', how='outer')

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,0.0,3.0
2,b,1.0,1.0
3,b,1.0,3.0
4,b,6.0,1.0
5,b,6.0,3.0
6,a,2.0,0.0
7,a,4.0,0.0
8,a,5.0,0.0
9,c,3.0,


O método Merge também pode usar duas colunas sem nome correspondente, utilizando os parâmetros 'left_on' e 'rigth_on'.

In [63]:
# Quando os DataFrames não possuem colunas com o mesmo rótulo, é possível 
# especificar quais colunas serão utilizadas em cada DataFrame por meio
# dos parâmetros 'left_on' e 'right_on'

df1 = pd.DataFrame({'key1': ['b','b','a','c','a','a','b'], # os DataFrames df1 e df2 nao 
                   'data1': range(7)})                     # possuem colunas com mesmo rótulo

df2 = pd.DataFrame({'key2': ['a','b','d','b','d'],  
                   'data2': range(5)})

pd.merge(df1, df2,left_on='key1',right_on='key2',how='outer') 
            # 'left_on' se refere a coluna do DataFrame correspondendo ao primeiro parâmetro 
            # (parâmetro da esquerda), neste exemplo, df1
            # 'right_on' se refere a coluna do DataFrame correspondendo ao segundo parâmetro 
            # (parâmetro da direita), neste exemplo, df2
            # Note que neste caso ambas as colunas são inseridas no DataFrame resultante

Unnamed: 0,key1,data1,key2,data2
0,b,0.0,b,1.0
1,b,0.0,b,3.0
2,b,1.0,b,1.0
3,b,1.0,b,3.0
4,b,6.0,b,1.0
5,b,6.0,b,3.0
6,a,2.0,a,0.0
7,a,4.0,a,0.0
8,a,5.0,a,0.0
9,c,3.0,,


No comando merge, também pode-se utilizar os parâmetros:

- right_index = True // na junção dos elementos da direita, irá comparar os valores dos índices ao invés dos valores da coluna

- lef_index = True // na junção dos elementos da esquerda, irá comparar os valores dos índices ao invés dos valores da coluna 

In [64]:
df1 = pd.DataFrame({'key': ['a','b','a','a','b','c'], 'value': range(6)})

df2 = pd.DataFrame({'group_val': [3.5, 7, 3.0]}, index=['a', 'b', 'a'])

print(df1)
print(df2)

# Merge utilizando a coluna "key" de df1 e os rótulos das linhas em df2
pd.merge(df1, df2, left_on='key', right_index=True,how='outer')

  key  value
0   a      0
1   b      1
2   a      2
3   a      3
4   b      4
5   c      5
   group_val
a        3.5
b        7.0
a        3.0


Unnamed: 0,key,value,group_val
0,a,0,3.5
0,a,0,3.0
2,a,2,3.5
2,a,2,3.0
3,a,3,3.5
3,a,3,3.0
1,b,1,7.0
4,b,4,7.0
5,c,5,


Pode-se efetuar o merge também utilizando-se tanto o right_index e left_index simultaneamente 

In [65]:
# criando DataFrames a partir de lista de listas e especificando rótulos de linha e coluna
df1 = pd.DataFrame([[1,2],[3,4],[5,6]], 
        index=['a','c','e'], columns=['Ohio','Nevada'])

df2 = pd.DataFrame([[7,8],[9,10],[11,12],[13,14],[0,5]], 
        index=['b','c','d','e','e'],
        columns=['Missouri','Alabama'])

print(df1)
print(df2)

# merge utilizando rótulos dos dois DataFrames, 
# o parâmetro 'inner' (default, pode ser omitido) faz 
# com que apenas os rótulos que aparecem em ambos sejam considerados
pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

   Ohio  Nevada
a     1       2
c     3       4
e     5       6
   Missouri  Alabama
b         7        8
c         9       10
d        11       12
e        13       14
e         0        5


Unnamed: 0,Ohio,Nevada,Missouri,Alabama
c,3,4,9,10
e,5,6,13,14
e,5,6,0,5


<h3>Método concat()</h3>

Junta 'n' dataframes, devendo-se especificar qual a orientação (index=0/1), por default, o método tem index=0

In [69]:
# Construindo 3 séries especificando os rótulos das linhas
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([1,5, 6], index=['a','f', 'd']) 
print(s1)
print(s2)
print(s3)

# Contatenando as 3 séries na vertical (axis=0 por default)
# o resultado é uma nova séria (rótulos podem estar repetidos)
pd.concat([s1,s2,s3])

a    0
b    1
dtype: int64
c    2
d    3
e    4
dtype: int64
a    1
f    5
d    6
dtype: int64


0    0
1    1
2    2
3    3
4    4
5    1
6    5
7    6
dtype: int64

Os DataFrames também podem receber operações estatísticas de modo bastante simples, retornando valores estáticos

- min

- max

- mean

- median

- etc...

In [72]:
import numpy as np

In [75]:
D = np.random.uniform(low=0.0,high=10,size=(10,3)) # matriz 10x3 com números randômicos entre
                                                   # 0 e 10

df = pd.DataFrame(data=D,columns=['c0','c1','c2'])

df

Unnamed: 0,c0,c1,c2
0,4.401306,5.89831,3.185345
1,0.894124,2.128723,5.505705
2,3.224072,9.125509,3.503502
3,2.18325,3.139532,8.497947
4,8.980524,5.440705,6.836025
5,0.009989,4.926135,5.324817
6,0.856761,5.585808,2.249702
7,3.429395,8.220668,6.895813
8,1.023286,7.853912,6.902079
9,4.503873,1.409256,4.637295


In [77]:
soma_linhas = df.sum(axis=0) # soma as linhas de todas as colunas

print(soma_linhas)

c0    29.506580
c1    53.728558
c2    53.538230
dtype: float64


In [78]:
soma_colunas = df.sum(axis=1)

print(soma_colunas)

0    13.484961
1     8.528552
2    15.853083
3    13.820729
4    21.257254
5    10.260941
6     8.692270
7    18.545876
8    15.779277
9    10.550424
dtype: float64


Além disso, há o método describe(), que revela as informações ponto-a-ponto dentro do dataframe

In [79]:
df.describe()

Unnamed: 0,c0,c1,c2
count,10.0,10.0,10.0
mean,2.950658,5.372856,5.353823
std,2.640392,2.584053,1.976421
min,0.009989,1.409256,2.249702
25%,0.926414,3.586183,3.78695
50%,2.703661,5.513256,5.415261
75%,4.158328,7.365012,6.880866
max,8.980524,9.125509,8.497947
