#Introdução ao Pandas
Aprenderemos agora como usar o pandas para análise de dados. É possível pensar no pandas como uma versão extremamente poderosa do Excel, com muito mais recursos. Nesta seção iremos percorrer os itens da seguinte forma:
- Introdução ao Pandas
- Séries
- DataFrames
- Dados Ausentes
- Agrupar por
- Mesclando, Unindo e Concatenando
- Operações
- Entrada e Saída de Dados

##Séries
Vamos importar o Pandas e explorar o objeto Séries. Uma série no Pandas é muito semelhante a um array no NumPy (na verdade ele é construído em cima do objeto array do NumPy). O que diferencia o array de uma Series é que uma série pode ter rótulos de eixo, o que significa que pode ser indexado por um rótulo, em vez de apenas um local numérico. Ele também não precisa conter dados numéricos, ele pode conter qualquer objeto Python arbitrário

In [1]:
import numpy as np
import pandas as pd

###Criando um objeto Series
Você pode converter uma lista, matriz numpy ou dicionário em uma série

In [6]:
labels = ['x','y','z']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

**Utilizando Listas**

In [8]:
pd.Series(data=my_list)


0    10
1    20
2    30
dtype: int64

In [10]:
pd.Series(data=my_list,index=labels)

x    10
y    20
z    30
dtype: int64

In [11]:
pd.Series(my_list,labels)

x    10
y    20
z    30
dtype: int64

**Utilizando NumPy Arrays**

In [14]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

In [15]:
pd.Series(arr,labels)

x    10
y    20
z    30
dtype: int64

**Utilizando Dicionários**

In [16]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

###Dados em uma Series
Uma Series do pandas pode conter uma variedade de tipos de dados

In [24]:
pd.Series(data=labels)

0    x
1    y
2    z
dtype: object

In [25]:
pd.Series(data=[sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

###Utilizando um índice
A chave para utilizar uma série é entender o funcionamento do seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informação

In [26]:
ser1 = pd.Series([1,2,3,4],index=['EUA','Alemanha','Russia','Japão'])
ser1

EUA         1
Alemanha    2
Russia      3
Japão       4
dtype: int64

In [27]:
ser2 = pd.Series([1,2,3,4],index=['EUA','Alemanha','Itália','Japão'])
ser2

EUA         1
Alemanha    2
Itália      3
Japão       4
dtype: int64

In [30]:
ser2['Alemanha']

np.int64(2)

Operações também são feitas baseadas no índice

In [35]:
ser1 + ser2

Alemanha    4.0
EUA         2.0
Itália      NaN
Japão       8.0
Russia      NaN
dtype: float64

##DataFrames
DataFrames são a base de trabalho do pandas e são diretamente inspirados na linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos Series reunidos para compaartilhar o mesmo índice

In [36]:
from numpy.random import randn
np.random.seed(101)

In [37]:
df = pd.DataFrame(randn(5,4),index=["A","B","C","D","E"],columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


###Seleção e Indexação

In [38]:
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [44]:
#Passando uma lista de nomes de colunas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [45]:
#Sintaxe SQL
df.W

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

As colunas de DataFrame são apenas Series

In [46]:
type(df['W'])

pandas.core.series.Series

####Criando uma nova coluna

In [47]:
df['new'] = df['W'] + df['Y']
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


####Removendo colunas

In [50]:
#Não efetivado. Precisa ser especificado
df.drop('new',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [51]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [52]:
df.drop('new',axis=1,inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [53]:
#Também é possível remover linhas dessa forma
df.drop('E',axis=0)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057


In [54]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


####Selecionando linhas

In [56]:
df.loc['E']

W    0.190794
X    1.978757
Y    2.605967
Z    0.683509
Name: E, dtype: float64

In [57]:
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

####Selecionando subconjunto de linhas e colunas

In [58]:
df.loc['B','Y']

np.float64(-0.8480769834036315)

In [59]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


####Seleção condicional
Uma característica importante do pandas é a seleção condicional usando notação de colchetes, muito semelhante o numpy

In [60]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [61]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [63]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [64]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [65]:
df[df['W']>0][['Y','X']]


Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


In [66]:
#Para duas condições você pode utilizar | e & com parênteses
df[(df['W']>0) & (df['Y']<0)]

Unnamed: 0,W,X,Y,Z
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057


###Mais detalhes sobre índices

In [67]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [69]:
#Resetando aos índices padrão 0,1,...,n
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


In [70]:
newind = 'CA NY WY OR CO'.split()

In [72]:
df['States'] = newind
df

Unnamed: 0,W,X,Y,Z,States
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


In [73]:
df.set_index('States',inplace=True)
df

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


###Multi-índice e Hierarquia de índices

In [74]:
#Níveis de índices
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [75]:
hier_index

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [76]:
df = pd.DataFrame(randn(6,2),index=hier_index,columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Como indexar isso? Para hierarquia de índice utilizamos df.loc[], se o alvo estivesse no eixo das colunas, você utilizaria apenas a notação de colchetes normal df[]. Chamar um nível de índice retorna o sub-dataframe

In [77]:
df.loc['G1']

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [79]:
df.loc['G1'].loc[1]

A    0.302665
B    1.693723
Name: 1, dtype: float64

In [80]:
df.index.names

FrozenList([None, None])

In [81]:
df.index.names = ['Group', 'Num']

In [83]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Group,Num,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


In [84]:
df.xs('G1')

Unnamed: 0_level_0,A,B
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [85]:
df.xs(('G1',1))

A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64

In [87]:
df.xs(1,level='Num')

Unnamed: 0_level_0,A,B
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


##Dados Ausentes
Vamos mostrar alguns métodos convenientes para lidar com dados ausentes no pandas

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                   'B':[5,np.nan,np.nan],
                   'C':[1,2,3]})

In [None]:
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(thresh=2)

In [None]:
df.fillna(value='FILL VALUE')

In [None]:
df['A'].fillna(value=df['A'].mean())

##Groupby
O método groupby permite agrupar linhas de dados e chamar funções de agregação

In [None]:
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
        'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
        'Sales':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Agora você pode utilizar o método groupby() para agrupar linhas com base em um nome de coluna. Por exemplo, vamos agrupar com base na empresa. Isso criará um objeto DataFrameGroupBy

In [None]:
df.groupby(['Company','Person'])

Você pode salvar este objeto como uma nova variável

In [None]:
by_comp = df.groupby(['Company','Person'])

E então chamar métodos agregadores de objetos

In [None]:
by_comp.mean()

In [None]:
df.groupby('Company').count()

Mais alguns exemplos de métodos de agregação

In [None]:
by_comp.std()

In [None]:
df.groupby('Company').min()

In [None]:
by_comp.max()

In [None]:
by_comp.count()

In [None]:
by_comp.describe()

In [None]:
by_comp.describe().transpose()

In [None]:
by_comp.describe().transpose()['GOOG']

##Mesclando, Unindo e Concatenando
Existem 3 maneiras principais de combinar DataFrames: Mesclando, Unindo e Concatenando

###Concatenação
A concatenação basicamente une os DataFrames. Tenha em mente que as dimensões devem corresponder ao longo do eixo em que você está concatenando. Você pode usar **pd.concat()** e passar uma lista de DataFrames para concatenar

In [None]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']})

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                    'B':['B4','B5','B6','B7'],
                    'C':['C4','C5','C6','C7'],
                    'D':['D4','D5','D6','D7']})

df3 = pd.DataFrame({'A':['A8','A9','A10','A11'],
                    'B':['B8','B9','B10','B11'],
                    'C':['C8','C9','C10','C11'],
                    'D':['D8','D9','D10','D11']})

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [None]:
pd.concat([df1,df2,df3])

In [None]:
pd.concat([df1,df2,df3],axis=1)

###Mesclando
A função **merge()** permite mesclar DataFrames usando  uma lógica semelhante a mesclagem de tabelas SQL

In [None]:
left = pd.DataFrame({'key':['K0','K1','K2','K3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})

right = pd.DataFrame({'key':['K0','K1','K2','K3'],
                      'C':['C0','C1','C2','C3'],
                      'D':['D0','D1','D2','D3']})

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left,right,how='inner',on='key')

Um exemplo mais complicado

In [None]:
left = pd.DataFrame({'key1':['K0','K0','K1','K2'],
                     'key2':['K0','K1','K0','K1'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})

right = pd.DataFrame({'key1':['K0','K1','K1','K2'],
                      'key2':['K0','K0','K0','K0'],
                      'C':['C0','C1','C2','C3'],
                      'D':['D0','D1','D2','D3']})

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left,right,on=['key1','key2'])

In [None]:
pd.merge(left,right,how='outer',on=['key1','key2'])

In [None]:
pd.merge(left,right,how='right',on=['key1','key2'])

In [None]:
pd.merge(left,right,how='left',on=['key1','key2'])

###Junção
A junção é um método conveniente para combinar as colunas de dois DataFrames indexados de forma potencialmente diferente em um único DataFrame resultante

In [None]:
left = pd.DataFrame({'A':['A0','A1','A2','A3','A4','A5'],
                     'B':['B0','B1','B2','B3','B4','B5'],
                     'index':['K0','K1','K2','K3','K4','K5']})

right = pd.DataFrame({'C':['C0','C2','C3'],
                      'D':['D0','D2','D3'],
                      'index':['K0','K2','K3']})

In [None]:
left

In [None]:
right

In [None]:
left.join(right,lsuffix='_l',rsuffix='_r')

##Operações
Existem muitas operações com pandas que são realmente úteis, mas não se enquadram em nenhuma categoria distinta

In [None]:
df = pd.DataFrame({'col1':[1,2,3,4],
                   'col2':[444,555,666,444],
                   'col3':['abc','def','ghl','xyz']})

df.head()

###Informações sobre valores únicos

In [None]:
df['col2'].unique()

In [None]:
df['col2'].nunique()

In [None]:
df['col2'].value_counts()

###Selecionando Dados

In [None]:
newdf = df[(df['col1']>2) & (df['col2']==444)]
newdf

###Aplicando Funções

In [None]:
def times2(x):
  return x*2

In [None]:
df['col1'].apply(times2)

In [None]:
df['col3'].apply(len)

In [None]:
df['col1'].sum()

###Permanentemente Removendo uma Coluna

In [None]:
del df['col1']
df

###Obtendo os Nomes das Colunas e Índices

In [None]:
df.columns

In [None]:
df.index

###Classificando e Ordenando um DataFrame

In [None]:
df

In [None]:
df.sort_values(by='col2') #inplace=false por padrão

###Localizando Valores Nulos ou Verificando Valores Nulos

In [None]:
df.isnull()

In [None]:
df.dropna()

Preenchendo Valores NaN com Outra Coisa

In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghl','xyz']})

df.head()

In [None]:
df.fillna('FILL')

##Entrada e Saída de Dados

In [None]:
#Esse trecho do código é obrigatório para quem estiver fazendo tudo pelo colab
#Caso você esteja utilizando o jupyter pode comentar/apagar

#import os
#from google.colab import drive

#drive.mount('/content/drive')
#os.chdir('drive/My Drive/Anhembi Morumbi/2024-1/IA/3 - Introdução ao Pandas')
#os.listdir()

###CSV

In [None]:
df = pd.read_csv('example')
df

In [None]:
df.to_csv('example',index=False)

###Excel

In [None]:
pd.read_excel('Excel_Sample.xlsx',sheet_name='Sheet1')

In [None]:
df.to_excel('Excel_Sample.xlsx',sheet_name='Sheet1')

###HTML



In [None]:
df = pd.read_html('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/')
df