# Pandas

- Introdução aos Pandas
- Series
	- Criando uma Série
		- Criação de Listas, Numpy Array e Dicionários
		- Converter listas para Séries
		- Colocar label na Série
		- Converter numpy array para Séries
		- Converter dicionário para Serie
	- Dados nas Séries
	- Usando um ìndice
- DataFrames
	- Seleção e Indexação
		- Mostrar os dados de uma coluna específica
		- Passando uma lista com nomes das colunas
		- Descobrir se a coluna é Séries
		- Criar colunas
		- Remover colunas
		- Selecionar linhas
		- Selecionar linha de acordo com a posição no DataFrames
		- Selecionar várias linhas
		- Selecionar várias linhas e colunas
	- Seleção condicional
		- Achar colunas maiores que 0
		- Dupla condição
	- Mais detalhes do ìndice
		- Resetar o índice
		- Definir alguma coluna como índice
	- Hierarquia de Índices e índices múltiplos
- Dados ausentes
	- Dropar linhas com valores vazios
	- Dropar colunas com valores vazios
	- Dropar linhas com n quantidade de vazios.
	- Preenchimento de vazio com média
- GroupBy
- Mesclar,Juntar, e Concatenar
	- merge()
	- join ()
	- concat() 
- Operações
	- Informações sobre os valores exclusivos
		- Quais os valores únicos?
		- Quantos valores únicos?
- Entrada e saída de dados
	- Ler tabelas de sites com o Pandas

## Series

In [1]:
#importação das bibliotecas
import numpy as np
import pandas as pd

### Criando uma Série

Você pode converter uma lista, numpy array ou dicionário para uma série:

In [2]:
#Listas em Python são definidas com colchetes = []
# Dicionários em Pythoon são criados com chaves = {}

#Criando listas
labels = ['a','b','c']
minha_lista = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

In [3]:
#Converter listas para Séries
pd.Series(data = minha_lista)

0    10
1    20
2    30
dtype: int64

In [4]:
#Colocar label na Serie
pd.Series(data=minha_lista,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
#Colocar label na Serie
pd.Series(minha_lista,labels)

a    10
b    20
c    30
dtype: int64

In [6]:
##Converter numpy array para Séries

pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [7]:
#colocando label na Serie
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

In [8]:
# Converter dicionário para Serie
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### Dados nas Séries

Uma série de pandas pode conter uma variedade de tipos de objeto:

In [9]:
pd.Series(data = labels)

0    a
1    b
2    c
dtype: object

### Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [10]:
ser1 = pd.Series([1,2,3,4],index = ['EUA', 'Alemanha','USSR', 'Japão'])                                   

In [11]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [12]:
ser2 = pd.Series([1,2,5,4],index = ['EUA', 'Alemanha','Italia', 'Japão'])                                   

In [13]:
ser2

EUA         1
Alemanha    2
Italia      5
Japão       4
dtype: int64

## Dataframes

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. <br> Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [14]:
from numpy.random import randn
np.random.seed(101)

In [15]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [16]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### Seleção e Indexação

In [17]:
#mostrar os dados de uma coluna específica
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [18]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [19]:
#descobrir o tipo das colunas (colunas são séries)

type(df['W'])

pandas.core.series.Series

In [20]:
#criando uma coluna
df['new'] = df['W'] + df['Y']

In [21]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [22]:
# removendo colunas
df.drop('new',axis=1, inplace = True)

In [23]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [24]:
#selecionando linhas
df.loc['A']

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

In [25]:
#selecionando linha com base na posição
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

In [26]:
#selecionando várias linhas
df.loc['B','Y']

-0.8480769834036315

In [27]:
#selecionando várias colunas e linhas
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [28]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [29]:
#quais colunas são maiores que 0
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [30]:
#mostrando os valores
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [31]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [32]:
df[df['W']>0]['Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [33]:
df[df['W']>0][['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


In [34]:
#duas condições
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


## Mais Detalhes do Índice

Vamos discutir mais alguns recursos de indexação, incluindo resetar o índice ou configurá-lo de outra forma. Também falaremos sobre hierarquia de índice!

In [35]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [36]:
# Zera o índice e cria uma nova coluna
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


In [37]:
novoind = 'CA NY WY OR CO'.split()

In [38]:
df['Estados'] = novoind

In [39]:
df

Unnamed: 0,W,X,Y,Z,Estados
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


In [40]:
# Define coluna x como o novo índice
df.set_index('Estados')

Unnamed: 0_level_0,W,X,Y,Z
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


In [41]:
df.set_index('Estados', inplace = True)

In [42]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


## Hierarquia de índices e índices múltiplos

Vamos examinar como trabalhar com o Multi-Index, primeiro criaremos um exemplo rápido de como seria um DataFrame Multi-Indexado:

In [43]:
# Níveis de Índice
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [44]:
hier_index

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [45]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


In [46]:
df.loc['G1']

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [47]:
df.loc['G1'].loc[1]

A    0.302665
B    1.693723
Name: 1, dtype: float64

In [48]:
# Confere se o index tem nome
df.index.names

FrozenList([None, None])

In [49]:
# Atribui novos nomes para o index
df.index.names = ['Grupo','Número']

In [50]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


In [51]:
df.xs('G1')

Unnamed: 0_level_0,A,B
Número,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [52]:
df.xs(['G1',1])

A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64

In [53]:
df.xs(1,level='Número')

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


## Dados Ausentes

In [54]:
dfMissing = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [55]:
dfMissing

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [56]:
# Dropar todas as linhas com valores ausentes. Método dropna()
dfMissing.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [58]:
# Dropar colunas com valores vazios
dfMissing.dropna(axis = 1)

Unnamed: 0,C
0,1
1,2
2,3


In [60]:
# Dropa linhas com n quantidade de vazios. Parâmetro -> tresh = n

dfMissing.dropna(thresh = 2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [61]:
# Preencher os vazios com algo
dfMissing.fillna(value = 'Conteúdo')

Unnamed: 0,A,B,C
0,1,5,1
1,2,Conteúdo,2
2,Conteúdo,Conteúdo,3


In [62]:
# Preencher vazios com a média
dfMissing['A'].fillna(value = dfMissing['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

## GroupBy

O método groupby permite agrupar linhas de dados em conjunto e chamar funções agregadas

In [63]:
# Cria um DataFrame
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}

In [64]:
dfGroup = pd.DataFrame(data)

In [65]:
dfGroup

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


In [67]:
dfGroup.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020DE6FDA3C8>

In [69]:
por_companhia = dfGroup.groupby("Empresa")

In [70]:
# Ver as médias por empresa
por_companhia.mean()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [74]:
dfGroup.groupby('Empresa').mean()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


In [76]:
# Valor mínimo
por_companhia.min()

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Carl,243
GOOG,Charlie,120
MSFT,Amy,124


In [78]:
# Valor máximo
por_companhia.max()

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,Sarah,350
GOOG,Sam,200
MSFT,Vanessa,340


In [79]:
por_companhia.count()

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,2,2
GOOG,2,2
MSFT,2,2


In [80]:
por_companhia.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [81]:
por_companhia.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Venda,count,2.0,2.0,2.0
Venda,mean,296.5,160.0,232.0
Venda,std,75.660426,56.568542,152.735065
Venda,min,243.0,120.0,124.0
Venda,25%,269.75,140.0,178.0
Venda,50%,296.5,160.0,232.0
Venda,75%,323.25,180.0,286.0
Venda,max,350.0,200.0,340.0


In [82]:
por_companhia.describe().transpose()['GOOG']

Venda  count      2.000000
       mean     160.000000
       std       56.568542
       min      120.000000
       25%      140.000000
       50%      160.000000
       75%      180.000000
       max      200.000000
Name: GOOG, dtype: float64

## Mesclar, Juntar e Concatenar

Existem três maneiras principais de combinar os DataFrames: mesclando, juntando e concatenando (merge, join e concat). Nesta palestra, discutiremos esses 3 métodos com exemplos.


In [83]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [84]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [85]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [86]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [87]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [88]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenação
Concatenação basicamente cola DataFrames. Tenha em mente que as dimensões devem corresponder ao longo do eixo que você está concatenando. Você pode usar ** pd.concat ** e passar uma lista de DataFrames para concatenar juntos:

In [89]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [90]:
pd.concat([df1,df2,df3],axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


### Outros DataFrames

In [91]:
esquerda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
direita = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})   

In [92]:
esquerda

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [93]:
direita

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


### Mesclar
A função ** mesclar ** permite que você mescle os quadros de dados juntos usando uma lógica semelhante à mesclagem de tabelas SQL juntas. Por exemplo:

In [94]:
pd.merge(esquerda,direita,how='inner',on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


### Juntar

In [95]:
esquerda1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita1 = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [96]:
esquerda1

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [97]:
direita1

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [99]:
esquerda1.join(direita1)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [100]:
esquerda1.join(direita1, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


## Operações

In [101]:
dfx = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
dfx.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Informação sobre valores exclusivos

In [103]:
# Quais são os valores q aparecem?
dfx['col2'].unique()

array([444, 555, 666], dtype=int64)

In [104]:
# Quantos valores diferentes tem na coluna?
dfx['col2'].nunique()

3

In [107]:
# Quantas vezes cada valor aparece?
dfx['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

### Selecionando dados

In [108]:
# Selecione do DataFrame usando critérios de várias colunas
newdf = dfx[(dfx['col1']>2) & (dfx['col2']==444)]

In [109]:
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### Aplicando funções

In [110]:
def times2(x):
    return x*2

In [111]:
dfx['col1'].apply(times2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [112]:
dfx['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [113]:
dfx['col1'].sum()

10

** Removendo colunas permanentemente **

In [115]:
del dfx['col1']

In [116]:
dfx

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


** Obter nomes de coluna e índice: **

In [117]:
dfx.columns

Index(['col2', 'col3'], dtype='object')

In [118]:
dfx.index

RangeIndex(start=0, stop=4, step=1)

** Ordenando um DataFrame **

In [119]:
dfx.sort_values(by='col2') #inplace=False por padrão

Unnamed: 0,col2,col3
0,444,abc
3,444,xyz
1,555,def
2,666,ghi


** Encontre Valores Nulos ou Verifique Valores Nulos **

In [121]:
dfx.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


In [122]:
# Deleta linhas com valores NaN
dfx.dropna()

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


** Preenchendo os valores de NaN com outra coisa: **

In [123]:
dfy = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
dfy.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [124]:
dfy.fillna('Preencher')

Unnamed: 0,col1,col2,col3
0,1,Preencher,abc
1,2,555,def
2,3,666,ghi
3,Preencher,444,xyz


In [125]:
data1 = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

go = pd.DataFrame(data1)

In [126]:
go

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [127]:
go.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


## Entrada e Saída de Dados

### HTML

O Pandas pode ler tabela de sites:

In [129]:
html = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')

In [130]:
html[0]

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"
...,...,...,...,...,...,...
556,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
557,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
558,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
559,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"
