<h1>Relatório de Pandas</h1>

<h3>Introdução</h3>

- O pandas é uma biblioteca que facilita a visualização de dados
- Facilita não só na rapidez mas também na limpeza dos mesmos
- Baseada no EXCEL
- Devirada do NumPy (por isso as dependencias)

In [1]:
pip install pandas





[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import numpy as np
import pandas as pd

<h2>Series</h2>

- Objeto da biblioteca
- Transforma listas, numpy arrays, dicionários e tuplas em Series
- Suporta qualquer tipo de dado (int, float, char, string, object)

<h3>Mas Porque Usar Series?</h3>

- Visualização facilitada dos dados
- Operações aritméticas são mais simples
- Possui índices que podem ser personalizados

In [4]:
arr1 = np.array([10, 20, 30, 40])
list1 = [10, 20, 30, 40]
tuple1 = (10, 20, 30, 40)
dict1 = {'a':10, 'b':20, 'c':30, 'd':40}

In [6]:
pd.Series(arr1) # Neste exemplo passando apenas os dados

0    10
1    20
2    30
3    40
dtype: int64

In [7]:
# Aqui criando os index customizados
indices = ['a', 'b', 'c', 'd']
pd.Series(arr1, indices)

a    10
b    20
c    30
d    40
dtype: int64

In [10]:
# Operações Aritméticas
series1 = pd.Series(data=list1, index=indices)
series2 = pd.Series(tuple1, index=indices)

In [11]:
series1 + series2

a    20
b    40
c    60
d    80
dtype: int64

- Nesse caso foi possível porque os índices e tipo de dados são <b>IGUAIS

In [12]:
series3 = pd.Series(data=list1, index=indices)
series4 = pd.Series(tuple1)

In [13]:
series3 + series4

a   NaN
b   NaN
c   NaN
d   NaN
0   NaN
1   NaN
2   NaN
3   NaN
dtype: float64

- Não retorna erro, mas sim dados inválidos
- Sempre se certificar dos índices e dos tipos (porque não é possível somar um inteiro com um array por exemplo)

<h2>DataFrames</h2>

- Objeto pricipal do pandas
- Estruturado como uma tabela do EXCEL
- Também pode ser comparado como uma tabela de um banco de dados relacional

In [14]:
df = pd.DataFrame(np.random.randn(4, 3), index='A B C D'.split(), columns='X Y Z'.split())

In [15]:
df

Unnamed: 0,X,Y,Z
A,0.071342,0.72576,-0.69033
B,-1.241318,-1.371638,-0.366401
C,1.622384,-1.774164,-0.567431
D,-0.828915,-1.016171,0.125807


- Basicamente são passados os dados, caso precise os índices e as colunas
- Como citado anteriormente, funcionamento parecido com Excel

<h3>Manipulando DataFrames</h3>

- Para adicionar nova coluna

In [16]:
df['teste'] = df['X'] + df['Z']

In [17]:
df

Unnamed: 0,X,Y,Z,teste
A,0.071342,0.72576,-0.69033,-0.618988
B,-1.241318,-1.371638,-0.366401,-1.607719
C,1.622384,-1.774164,-0.567431,1.054952
D,-0.828915,-1.016171,0.125807,-0.703108


In [22]:
# Para excluir a coluna
df.drop('teste', axis=1, inplace=True) # inplace=True define que a ação será feita na variável df, ou seja, a coluna irá desaparecer por completo!

In [24]:
df

Unnamed: 0,X,Y,Z
A,0.071342,0.72576,-0.69033
B,-1.241318,-1.371638,-0.366401
C,1.622384,-1.774164,-0.567431
D,-0.828915,-1.016171,0.125807


- Para localizar algum elemento do dataframe

In [25]:
# Passar primeiro o índice, logo após a coluna
df.loc['B', 'X']

np.float64(-1.241318346271395)

- Para lozalizar uma linha inteira

In [27]:
df.loc['A']

X    0.071342
Y    0.725760
Z   -0.690330
Name: A, dtype: float64

- Também é possível localizar usando Slicing

In [28]:
df.iloc[0:2, 2]

A   -0.690330
B   -0.366401
Name: Z, dtype: float64

<h2>Condicionais</h2>

- Assim como objetos naturais python, é possível usar os operadores condicionais
- Nesse caso, é retornado um DataFrame com cada coluna que a operação seja possível em formato booleano

In [29]:
df > 0.2

Unnamed: 0,X,Y,Z
A,False,True,False
B,False,False,False
C,True,False,False
D,False,False,False


- Também é possível selecionar apenas uma coluna/linha do df

In [30]:
df['X'] > 0.2

A    False
B    False
C     True
D    False
Name: X, dtype: bool

- Usar operadores and ou or está errado
- O certo é usar & e |

In [36]:
df[(df['X'] > 0.2) & (df['Y'] < 0.5)]

Unnamed: 0,X,Y,Z
C,1.622384,-1.774164,-0.567431


In [37]:
df[(df['X'] > 0.2) | (df['Y'] < 0.6)]

Unnamed: 0,X,Y,Z
B,-1.241318,-1.371638,-0.366401
C,1.622384,-1.774164,-0.567431
D,-0.828915,-1.016171,0.125807


- O método reset_index() transforma os índices customizados em uma coluna (se houver) e os novos começam em 0 e terminam em n (último item da lista)

In [38]:
df.reset_index() # Não foi passado inplace=True então a alteração não foi salva na variável

Unnamed: 0,index,X,Y,Z
0,A,0.071342,0.72576,-0.69033
1,B,-1.241318,-1.371638,-0.366401
2,C,1.622384,-1.774164,-0.567431
3,D,-0.828915,-1.016171,0.125807


- O método set_index() coloca colunas como índices

In [43]:
df['indices_teste'] = 'D C B A'.split()

In [44]:
df.set_index('indices_teste')

Unnamed: 0_level_0,X,Y,Z
indices_teste,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,0.071342,0.72576,-0.69033
C,-1.241318,-1.371638,-0.366401
B,1.622384,-1.774164,-0.567431
A,-0.828915,-1.016171,0.125807


<h3>MultiIndex</h3>

- Basicamente separa os índices em níveis, um bom exemplo pode ser o grupo que pertence e seu número de referência dentro dele
- Muito usado no EXCEL

In [47]:
grupo = 'G1 G1 G1 G2 G2 G2'.split()
indexes = [1, 2, 3, 1, 2, 3]
lista_indices = list(zip(grupo, indexes))
lista_indices = pd.MultiIndex.from_tuples(lista_indices)

In [48]:
df2 = pd.DataFrame(np.random.randn(6, 2), index=lista_indices)

In [49]:
df2

Unnamed: 0,Unnamed: 1,0,1
G1,1,-0.43462,-0.221375
G1,2,2.165013,0.896644
G1,3,-1.334942,0.821659
G2,1,-0.036853,0.434766
G2,2,-0.082052,0.500869
G2,3,-0.330845,1.609106


In [51]:
df3 = pd.DataFrame(np.random.randn(6, 2))

In [54]:
df3.set_index(lista_indices, inplace=True)

In [55]:
df3.index.names = ['Grupo', 'Número']

In [56]:
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
Grupo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,1.681837,-1.980224
G1,2,0.694554,0.877061
G1,3,-0.266108,0.56482
G2,1,1.055935,0.8022
G2,2,-1.24907,-0.984074
G2,3,1.373624,0.86498


<h2>Dados Ausentes</h2>

- É possível uma linha conter dados ausentes (null, NaN)
- Principalmente quando são datasets pegos da internet
- Para resolver isso o pandas possui uma série de métodos

In [57]:
# Criando dataframe de teste
df4 = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [58]:
# Para soltar as linhas com dados ausentes
df4.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [59]:
# Para preencher os valores vazios
df4.fillna(1)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,1.0,2
2,1.0,1.0,3


In [61]:
# Para saber os valores ausentes por linha
df4.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,True,False


In [62]:
# Para saber quantos valores ausentes por linha
df4.isna().sum()

A    1
B    2
C    0
dtype: int64

<h3>GroupBy</h3>

- Basicamente seleciona as linhas de quantas colunas forem selecionadas
- É possível realizar operações como
    - Média
    - Standard Deviation
    - Count
- Também é possível chamar o método describe() que mostra todas as operações

In [63]:
dados = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}

df5 = pd.DataFrame(dados)

In [64]:
df5.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D8489D38C0>

In [65]:
df5.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Venda,6.0,229.5,100.899455,120.0,143.0,221.5,315.75,350.0


- É importante lembrar que as operações ocorrem apenas em dados <b>NUMÉRICOS
- Lembra o GROUPBY da linguagem SQL

<h3>Joins, Concatenações e Mesclas</h3>

- É possível fazer "queries" (buscas) dentro do Pandas DataFrame
- Nelas você pode utilizar como a linguagem SQL, criando "subqueries" (buscas dentro de buscas)
- A principal diferença é que no Pandas é possível juntar as tabelas, não só nas buscas, mas na sua estrutura como variável
    - Por exemplo, tenho o df1 e df2, onde df3 é a junção, a mescla ou a concatenação de df1 com df2
- Cada caso tem sua diferença
- Concat
    - Cola DataFrames
    - Não importa o número de linhas e colunas

In [79]:
concat1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

concat2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [80]:
concat3 = pd.concat([concat1, concat2])

In [81]:
concat3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


- Merge
    - Combina DataFrames com base nas suas linhas e colunas
    - Inner, Outer, Left, Right

In [83]:
merge1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

merge2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [90]:
merge3 = pd.merge(merge1, merge2, how='outer')

In [91]:
merge3

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [92]:
pd.merge(merge1, merge2, how='left')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [93]:
pd.merge(merge1, merge2, how='right')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [94]:
pd.merge(merge1, merge2, how='inner')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


- Join
    - Junta DataFrames indexados de maneira diferente
    - Inner, Outer, Left, Right

In [96]:
join1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2'])

join2 = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [97]:
join1.join(join2)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


<h2>Lendo Datasets em DataFrames</h2>

- Como dito anteriormente, sua estrutura se assemelha à tabela excel
- Ou seja, é possível ler arquivos CSV, XLS e XLSX
- Ler arquivos HTML também é possível

In [108]:
df_final = pd.read_csv('./datasets/exemplo.csv', sep=',')

In [109]:
df_final.head()

Unnamed: 0.1,Unnamed: 0,a,b,c,d
0,0,0,1,2,3
1,1,4,5,6,7
2,2,8,9,10,11
3,3,12,13,14,15


- Também é possível ler formato XLSX
- O método sendo 'pd.read_excel()'

<h1>Fim</h1>