# Análise de dados com Pandas e SQL

DataFrame = Tabelas

Series = Colunas

Indices = Linhas

In [123]:
import pandas as pd
import numpy as np
from numpy.random import randn

## Series

### Criando Series apartir de outros objetos

In [124]:
lista = ['jessica','evelin','silva']
print(pd.Series(lista))
print('----')

dicionario = {'indice_d': 10, 'indice_e': 20, 'indice_f': 30}
print(pd.Series(dicionario))
print('----')

array = np.array([40, 50, 60])
print(pd.Series(data = array, index = lista))

0    jessica
1     evelin
2      silva
dtype: object
----
indice_d    10
indice_e    20
indice_f    30
dtype: int64
----
jessica    40
evelin     50
silva      60
dtype: int64


### Selecionando valores de Series

In [125]:
paises_a = pd.Series([5,7,12,3], index=['EUA', 'Brasil', 'Argentina', 'China'])
paises_b = pd.Series([10,20,30,40], index=['EUA', 'Chile', 'Argentina', 'China'])

print(paises_a)
print('----')

print(paises_b)
print('----')

print(paises_a[['Brasil', 'EUA']])
print('----')

print(paises_a[['EUA']])
print('----')

EUA           5
Brasil        7
Argentina    12
China         3
dtype: int64
----
EUA          10
Chile        20
Argentina    30
China        40
dtype: int64
----
Brasil    7
EUA       5
dtype: int64
----
EUA    5
dtype: int64
----


### Somando Series

In [126]:
print(paises_a + paises_b)

Argentina    42.0
Brasil        NaN
Chile         NaN
China        43.0
EUA          15.0
dtype: float64


## DataFrames

### Criando um DF

In [127]:
df = pd.DataFrame(randn(5,4), index=['A','B','C','D', 'E'], columns ='W X Y Z'.split()) # split e uma outra forma de fazer uma lista
df

Unnamed: 0,W,X,Y,Z
A,-1.320057,0.304043,0.890093,0.316054
B,-0.959424,-0.165018,0.138236,-0.5721
C,0.513406,-0.739937,-0.162824,-0.162644
D,-0.748151,0.028932,-0.072481,-0.808714
E,0.80279,1.404954,-0.591995,0.448872


### Selecionando colunas/Series

Toda a seleção com duplas [[]], retorna um data frame

E as com [] simples, retorna uma Series

In [128]:
# Retorna em Series
print(df['W'])
df.iloc[2,2] # Selecionado pela linha e pela coluna
print(type(df['W']))
print('----')

# Retorna em DataFrame
print(df[['W']])
df.iloc[[2,2]] # Selecionado pela linha e pela coluna
print(type(df[['W']]))

A   -1.320057
B   -0.959424
C    0.513406
D   -0.748151
E    0.802790
Name: W, dtype: float64
<class 'pandas.core.series.Series'>
----
          W
A -1.320057
B -0.959424
C  0.513406
D -0.748151
E  0.802790
<class 'pandas.core.frame.DataFrame'>


In [129]:
# Loc é para o nome das colunas
df.loc[:] # Tudo
df.loc[['A','C'],:] # Apenas algumas linhas
df.loc[:,['X','Y']] # Apenas algumas colunas
df.loc[['B'],['X']] # Selecionado pela linha e pela coluna

# Iloc é para os números e posições
df.iloc[:] # Tudo
df.iloc[1:3,:] # Apenas algumas linhas
df.iloc[:,2:4] # Apenas algumas colunas
df.iloc[[2,2]] # Selecionado pela linha e pela coluna
df.iloc[-1,:] # Tudo menos a última linha

W    0.802790
X    1.404954
Y   -0.591995
Z    0.448872
Name: E, dtype: float64

### Adicionando Colunas/Series

In [130]:
df['NovaColuna'] = df['W']
df['NovaColuna'] = df['W'] * df['X'] + 1000
df

Unnamed: 0,W,X,Y,Z,NovaColuna
A,-1.320057,0.304043,0.890093,0.316054,999.598646
B,-0.959424,-0.165018,0.138236,-0.5721,1000.158322
C,0.513406,-0.739937,-0.162824,-0.162644,999.620111
D,-0.748151,0.028932,-0.072481,-0.808714,999.978354
E,0.80279,1.404954,-0.591995,0.448872,1001.127883


### Removendo Colunas/Series

In [131]:
# Drop, axis=1 é coluna e axis=0 é linha
df.drop('NovaColuna', axis=1, inplace = True)

# Del, é a mesma coisa do Drop de forma simplificada
del df['W']

df

Unnamed: 0,X,Y,Z
A,0.304043,0.890093,0.316054
B,-0.165018,0.138236,-0.5721
C,-0.739937,-0.162824,-0.162644
D,0.028932,-0.072481,-0.808714
E,1.404954,-0.591995,0.448872


### Seleção condicional

In [132]:
print(df > 0) # Quando o meu df é maior que zero
print('----')
print(df[df > 0]) # Aqueles que são menores serão tratados como NaN
print('----')
print(df['Z'] > 0 )
print('----')
print(df[df['Z']>0])

       X      Y      Z
A   True   True   True
B  False   True  False
C  False  False  False
D   True  False  False
E   True  False   True
----
          X         Y         Z
A  0.304043  0.890093  0.316054
B       NaN  0.138236       NaN
C       NaN       NaN       NaN
D  0.028932       NaN       NaN
E  1.404954       NaN  0.448872
----
A     True
B    False
C    False
D    False
E     True
Name: Z, dtype: bool
----
          X         Y         Z
A  0.304043  0.890093  0.316054
E  1.404954 -0.591995  0.448872


In [133]:
print((df['Z'] > 0) & (df['X'] > 0)) # Compara linha a linha

print('----')

print(df[(df['Z'] > 0) & (df['X'] > 0)]) # Tras todas as colunas, das linhas selecionadas

A     True
B    False
C    False
D    False
E     True
dtype: bool
----
          X         Y         Z
A  0.304043  0.890093  0.316054
E  1.404954 -0.591995  0.448872


### Mais detalhes dos índices

In [134]:
print(df.index) # Linhas
print(df.columns) # Colunas

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
Index(['X', 'Y', 'Z'], dtype='object')


In [135]:
df['novo_indice'] = 'PB PE SP RJ RS'.split() # Adiciona uma coluna
df

Unnamed: 0,X,Y,Z,novo_indice
A,0.304043,0.890093,0.316054,PB
B,-0.165018,0.138236,-0.5721,PE
C,-0.739937,-0.162824,-0.162644,SP
D,0.028932,-0.072481,-0.808714,RJ
E,1.404954,-0.591995,0.448872,RS


In [136]:
df.reset_index(inplace=True) # Transforma o índice em coluna
df

Unnamed: 0,index,X,Y,Z,novo_indice
0,A,0.304043,0.890093,0.316054,PB
1,B,-0.165018,0.138236,-0.5721,PE
2,C,-0.739937,-0.162824,-0.162644,SP
3,D,0.028932,-0.072481,-0.808714,RJ
4,E,1.404954,-0.591995,0.448872,RS


In [137]:
df.set_index('novo_indice', inplace=True) # Seta um novo índice
df

Unnamed: 0_level_0,index,X,Y,Z
novo_indice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PB,A,0.304043,0.890093,0.316054
PE,B,-0.165018,0.138236,-0.5721
SP,C,-0.739937,-0.162824,-0.162644
RJ,D,0.028932,-0.072481,-0.808714
RS,E,1.404954,-0.591995,0.448872


In [138]:
df.set_index('index', inplace=True) # Substitui o índice por uma coluna
df

Unnamed: 0_level_0,X,Y,Z
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.304043,0.890093,0.316054
B,-0.165018,0.138236,-0.5721
C,-0.739937,-0.162824,-0.162644
D,0.028932,-0.072481,-0.808714
E,1.404954,-0.591995,0.448872


### Hierarquia de índices e índices Multiplos

In [139]:
genero = ('Mulher Mulher Mulher Homem Homem Homem').split()

idade = ('Jovem Adulto Idoso Jovem Adulto Idoso').split()

hier_index = list(zip(genero, idade))

print(type(hier_index))

print(type(hier_index[1]))

hier_index = pd.MultiIndex.from_tuples(hier_index)

df = pd.DataFrame(np.random.randn(6,2), index=hier_index , columns = ['Mensal', 'Anual'])

df.index.names = ['Gênero', 'Idade']

df

<class 'list'>
<class 'tuple'>


Unnamed: 0_level_0,Unnamed: 1_level_0,Mensal,Anual
Gênero,Idade,Unnamed: 2_level_1,Unnamed: 3_level_1
Mulher,Jovem,-1.044204,0.444926
Mulher,Adulto,0.859038,-0.651637
Mulher,Idoso,0.004759,0.43365
Homem,Jovem,-0.225078,0.798642
Homem,Adulto,0.405703,-0.25435
Homem,Idoso,0.041503,1.127041


#### Acessando as informações

In [140]:
print(df.loc[['Mulher']])
print('----')
print(df.loc['Mulher'][['Mensal']])
print('----')
print(df.loc['Mulher'].iloc[0:2,0:2])

                 Mensal     Anual
Gênero Idade                     
Mulher Jovem  -1.044204  0.444926
       Adulto  0.859038 -0.651637
       Idoso   0.004759  0.433650
----
          Mensal
Idade           
Jovem  -1.044204
Adulto  0.859038
Idoso   0.004759
----
          Mensal     Anual
Idade                     
Jovem  -1.044204  0.444926
Adulto  0.859038 -0.651637


In [141]:
print(df.xs('Jovem', level = 'Idade'))
print('----')
print(df.xs('Homem', level = 'Gênero'))

          Mensal     Anual
Gênero                    
Mulher -1.044204  0.444926
Homem  -0.225078  0.798642
----
          Mensal     Anual
Idade                     
Jovem  -0.225078  0.798642
Adulto  0.405703 -0.254350
Idoso   0.041503  1.127041
