# <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

#### Importando o pacote Pandas

In [1]:
# Importando o módulo Pandas
import pandas as pd

## <strong> Operações com Dataframes </strong>

## Parte 1

In [2]:
# Cria um dicionário com pares de chave e valor
stock = {'AMZN': pd.Series([346.15,0.59,459,0.52,589.8,158.88],
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Beta', 'P/E', 'Market Cap(B)']),
         'GOOG': pd.Series([1133.43,36.05,335.83,0.87,31.44,380.64],
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Beta', 'P/E', 'Market Cap(B)']),
         'FB': pd.Series([61.48,0.59,2450,104.93,150.92],
                         index = ['Closing price', 'EPS',' Shares Outstanding(M)', 'P/E', 'Market Cap(B)']),
         'YHOO': pd.Series([34.90,1.27,1010,27.48,0.66,35.36], 
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Beta', 'Market Cap(B)']),
         'TWTR':pd.Series([65.25,-0.3,555.2,36.23],
                          index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Market Cap(B)']),
         'AAPL':pd.Series([501.53,40.32,892.45,12.44,447.59,0.84],
                          index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Market Cap(B)', 'Beta'])}

In [3]:
# Verifica o Tipo do objeto
type(stock)

dict

In [4]:
# Visualiza (como dict)
stock

{'AMZN': Closing price            346.15
 EPS                        0.59
 Shares Outstanding(M)    459.00
 Beta                       0.52
 P/E                      589.80
 Market Cap(B)            158.88
 dtype: float64,
 'GOOG': Closing price            1133.43
 EPS                        36.05
 Shares Outstanding(M)     335.83
 Beta                        0.87
 P/E                        31.44
 Market Cap(B)             380.64
 dtype: float64,
 'FB': Closing price               61.48
 EPS                          0.59
  Shares Outstanding(M)    2450.00
 P/E                        104.93
 Market Cap(B)              150.92
 dtype: float64,
 'YHOO': Closing price              34.90
 EPS                         1.27
 Shares Outstanding(M)    1010.00
 P/E                        27.48
 Beta                        0.66
 Market Cap(B)              35.36
 dtype: float64,
 'TWTR': Closing price             65.25
 EPS                       -0.30
 Shares Outstanding(M)    555.20
 Market Cap(B)

In [5]:
# Converte o dicionário em df do pandas (mantendo ordem original)
stock_df = pd.DataFrame(stock)

In [6]:
# Visualiza os dados
stock_df

Unnamed: 0,AMZN,GOOG,FB,YHOO,TWTR,AAPL
Shares Outstanding(M),,,2450.0,,,
Beta,0.52,0.87,,0.66,,0.84
Closing price,346.15,1133.43,61.48,34.9,65.25,501.53
EPS,0.59,36.05,0.59,1.27,-0.3,40.32
Market Cap(B),158.88,380.64,150.92,35.36,36.23,447.59
P/E,589.8,31.44,104.93,27.48,,12.44
Shares Outstanding(M),459.0,335.83,,1010.0,555.2,892.45


Perceba que foi adicionado valores NaN (isso é feito por conta da criação do dicionário onde a ordem dos índices não foram iguais)

In [7]:
# Converte o dicionário em df do pandas (definindo quais são os índices de cada linha e a ordem desejada)
stock_df = pd.DataFrame(stock, 
                        index = ['Closing price',
                                 'EPS', 
                                 'Shares Outstanding(M)',
                                 'P/E', 
                                 'Market Cap(B)',
                                 'Beta'])

In [9]:
# Visualiza os dados
stock_df

Unnamed: 0,AMZN,GOOG,FB,YHOO,TWTR,AAPL
Closing price,346.15,1133.43,61.48,34.9,65.25,501.53
EPS,0.59,36.05,0.59,1.27,-0.3,40.32
Shares Outstanding(M),459.0,335.83,,1010.0,555.2,892.45
P/E,589.8,31.44,104.93,27.48,,12.44
Market Cap(B),158.88,380.64,150.92,35.36,36.23,447.59
Beta,0.52,0.87,,0.66,,0.84


In [10]:
# Converte o dicionário em df do pandas (definindo quais são os índices de cada linha e os títulos das colunas
stock_df = pd.DataFrame(stock,
                        index = ['Closing price',
                                 'EPS',
                                 'Shares Outstanding(M)',
                                 'P/E', 
                                 'Market Cap(B)',
                                 'Beta'],
                        columns = ['AMZN','GOOG','FB'])

In [11]:
# Visualiza os dados
stock_df

Unnamed: 0,AMZN,GOOG,FB
Closing price,346.15,1133.43,61.48
EPS,0.59,36.05,0.59
Shares Outstanding(M),459.0,335.83,
P/E,589.8,31.44,104.93
Market Cap(B),158.88,380.64,150.92
Beta,0.52,0.87,


In [12]:
# Visualizano os Índices
stock_df.index

Index(['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Market Cap(B)',
       'Beta'],
      dtype='object')

In [13]:
# Visualizando as Colunas
stock_df.columns

Index(['AMZN', 'GOOG', 'FB'], dtype='object')

## Parte 2

In [14]:
# Criando um novo Dicionário
Quadro_Medalhas_Olimpiada = {
    'EUA' : {'Ouro':46, 'Prata':37, 'Bronze':38},
    'China':{'Ouro':26, 'Prata':18, 'Bronze':26},
    'Inglaterra':{'Ouro':27, 'Prata':23, 'Bronze':17},
    'Alemanha':{'Ouro':19, 'Prata':18, 'Bronze':19},
    'Uruguai':{'Ouro':17, 'Prata':10, 'Bronze':15}}

In [15]:
# Converte para dataframe
df_olimpiada = pd.DataFrame.from_dict(Quadro_Medalhas_Olimpiada)

In [16]:
# Visualizando
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [17]:
# Visualizando uma Coluna só   (forma 1)
df_olimpiada['Uruguai']

Ouro      17
Prata     10
Bronze    15
Name: Uruguai, dtype: int64

In [18]:
# Criando um novo objeto dataframe usando dados de 1 coluna
Medalhas_Uruguai = df_olimpiada['Uruguai']

# Verificando o tipo
print('Type', type(Medalhas_Uruguai))

Type <class 'pandas.core.series.Series'>


In [19]:
# Visualizando novo objeto Dataframe
Medalhas_Uruguai

Ouro      17
Prata     10
Bronze    15
Name: Uruguai, dtype: int64

In [20]:
# Visualizando uma Coluna só   (forma 2)
df_olimpiada.Inglaterra

Ouro      27
Prata     23
Bronze    17
Name: Inglaterra, dtype: int64

In [21]:
# Visualizando duas Colunas
df_olimpiada[['Alemanha','EUA']]

Unnamed: 0,Alemanha,EUA
Ouro,19,46
Prata,18,37
Bronze,19,38


In [22]:
# Visualizando uma Coluna só   (forma 3)
df_olimpiada.get('Inglaterra')

Ouro      27
Prata     23
Bronze    17
Name: Inglaterra, dtype: int64

## Parte 3

In [23]:
# Visualizando todo o dataframe
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [32]:
# Visualizando todas as linhas até o índice 0 (índice 0 é o cabeçalho)
df_olimpiada[:0]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai


In [33]:
# Visualizando todas as linhas até o índice 2 (índice 0 é o cabeçalho)
df_olimpiada[:2]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10


In [35]:
# Visualizando todas as linhas a partir do índice 1 (índice 0 é o cabeçalho)
df_olimpiada[1:]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [36]:
# Visualizando todas as linhas a partir do índice 2 (índice 0 é o cabeçalho)
df_olimpiada[2:]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Bronze,38,26,17,19,15


In [43]:
# Criando um novo Dicionário com mais Linhas
Quadro_Medalhas_Olimpiada2 = {
    'EUA' : {'Ouro':46, 'Prata':37, 'Bronze':38},
    'China':{'Ouro':26, 'Prata':18, 'Bronze':26},
    'Inglaterra':{'Ouro':27, 'Prata':23, 'Bronze':17},
    'Alemanha':{'Ouro':19, 'Prata':18, 'Bronze':19},
    'Uruguai':{'Ouro':17, 'Prata':10, 'Bronze':15},
    'Japão':{'Ouro':14, 'Prata':17, 'Bronze':18},
    'Austrália':{'Ouro':12, 'Prata':14, 'Bronze':17},
    'Noruega':{'Ouro':10, 'Prata':12, 'Bronze':14},
    'Polônia':{'Ouro':9, 'Prata':10, 'Bronze':12},
    'Rep. Tcheca':{'Ouro':7, 'Prata':8, 'Bronze':11},
    'Suiça':{'Ouro':7, 'Prata':7, 'Bronze':9},
    'Áustria':{'Ouro':6, 'Prata':7, 'Bronze':8},
}

# Converte para dataframe
df_olimpiada2 = pd.DataFrame.from_dict(Quadro_Medalhas_Olimpiada2)

df_olimpiada2

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai,Japão,Austrália,Noruega,Polônia,Rep. Tcheca,Suiça,Áustria
Ouro,46,26,27,19,17,14,12,10,9,7,7,6
Prata,37,18,23,18,10,17,14,12,10,8,7,7
Bronze,38,26,17,19,15,18,17,14,12,11,9,8


In [44]:
# Transpondo o DataFrame para que os países sejam as linhas e os tipos de medalhas sejam as colunas
df_olimpiada2 = df_olimpiada2.T

# Exibindo o DataFrame transposto
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11


In [45]:
# Visualizando todas as linhas a partir do índice 2 (índice 0 é o cabeçalho)
df_olimpiada2[2:]

Unnamed: 0,Ouro,Prata,Bronze
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11
Suiça,7,7,9
Áustria,6,7,8


In [46]:
# Visualizando todas as linhas e todas as colunas saltando de 1 em 1 (índice 0 é o cabeçalho)
df_olimpiada2[::2]

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
Inglaterra,27,23,17
Uruguai,17,10,15
Austrália,12,14,17
Polônia,9,10,12
Suiça,7,7,9


In [47]:
# Visualizando todas as linhas e todas as colunas saltando de 2 em 2 (índice 0 é o cabeçalho)
df_olimpiada2[::3]

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
Alemanha,19,18,19
Austrália,12,14,17
Rep. Tcheca,7,8,11


In [48]:
# Visualizando todas as linhas e todas as colunas de baixo para cima saltando de 2 em 2 (índice 0 é o cabeçalho)
df_olimpiada2[::-2]

Unnamed: 0,Ouro,Prata,Bronze
Áustria,6,7,8
Rep. Tcheca,7,8,11
Noruega,10,12,14
Japão,14,17,18
Alemanha,19,18,19
China,26,18,26


In [49]:
# Visualizando todas as linhas e todas as colunas
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11


In [53]:
# Utilizando Método loc para localizar linha com "Uruguai"
df_olimpiada2.loc['Uruguai']

Ouro      17
Prata     10
Bronze    15
Name: Uruguai, dtype: int64

In [54]:
# Utilizando Método loc para localizar coluna com "Prata"
df_olimpiada2.loc[:, 'Prata']

EUA            37
China          18
Inglaterra     23
Alemanha       18
Uruguai        10
Japão          17
Austrália      14
Noruega        12
Polônia        10
Rep. Tcheca     8
Suiça           7
Áustria         7
Name: Prata, dtype: int64

In [56]:
# Utilizando Método loc para localizar linha com "Noruega" com coluna com "Prata"
df_olimpiada2.loc['Noruega', 'Prata']

12

In [57]:
# Utilizando Método loc para localizar linha com "Noruega" com coluna com "Prata"
df_olimpiada2.loc['Noruega']['Prata']

12

In [61]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [60]:
# Utilizando Método loc para localizar linhas com países com valor acima de 20 para "Ouro" (retorna booleano)
df_olimpiada.loc['Ouro'] > 20

EUA            True
China          True
Inglaterra     True
Alemanha      False
Uruguai       False
Name: Ouro, dtype: bool

In [58]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11


In [59]:
# Utilizando Método loc para localizar coluna com países com valor acima de 20 para "Ouro" (retorna booleano)
df_olimpiada2.loc[:, 'Ouro'] > 20

EUA             True
China           True
Inglaterra      True
Alemanha       False
Uruguai        False
Japão          False
Austrália      False
Noruega        False
Polônia        False
Rep. Tcheca    False
Suiça          False
Áustria        False
Name: Ouro, dtype: bool

In [73]:
# Utilizando Método loc para localizar linhas com países com valor acima de 20 para "Ouro" (retorna números)
df_olimpiada2.loc[df_olimpiada2['Ouro'] > 20]


# df_olimpiada2[df_olimpiada2['Ouro'] > 20]

EUA           46
China         26
Inglaterra    27
Name: Ouro, dtype: int64

In [76]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11


In [77]:
# iloc para buscar a linha de índice 0
df_olimpiada2.iloc[0]

Ouro      46
Prata     37
Bronze    38
Name: EUA, dtype: int64

In [78]:
# iloc para buscar a linha de índice 2
df_olimpiada2.iloc[2]

Ouro      27
Prata     23
Bronze    17
Name: Inglaterra, dtype: int64

In [79]:
# iloc para visualizar todas as linhas até o índice 2 (índice 0 é o cabeçalho)
df_olimpiada2.iloc[: 2]

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26


In [80]:
# iloc para visualizar todas as linhas até o índice 4 (índice 0 é o cabeçalho)
df_olimpiada2.iloc[: 4]

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19


In [81]:
# iloc para visualizar todas as linhas até o índice 2 e colunas de 0 até 2
df_olimpiada2.iloc[2,0:2]

Ouro     27
Prata    23
Name: Inglaterra, dtype: int64

In [85]:
# iloc para visualizar todas as linhas entre índice 2 até antes do 4 e todas as colunas
df_olimpiada2.iloc[2:4, :]

Unnamed: 0,Ouro,Prata,Bronze
Inglaterra,27,23,17
Alemanha,19,18,19


In [88]:
# iloc para visualizar a linha de índice 3 e todas as colunas
df_olimpiada2.iloc[3,:]

Ouro      19
Prata     18
Bronze    19
Name: Alemanha, dtype: int64

In [89]:
# iloc para visualizar a linha de índice 2 e coluna 0
df_olimpiada2.iloc[2, 0]

27

In [91]:
# iloc para visualizar a linha de índice 2 e coluna 1
df_olimpiada2.iloc[2, 1]

23

#### Deletando partes de um dataframe

In [92]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Noruega,10,12,14
Polônia,9,10,12
Rep. Tcheca,7,8,11


In [94]:
# Removendo linha de índice 'Noruega'
df_olimpiada2.drop('Noruega', inplace=True)

In [95]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Polônia,9,10,12
Rep. Tcheca,7,8,11
Suiça,7,7,9


In [97]:
# Inserindo nova linha
df_olimpiada2.loc['Paraguai'] = [5, 3, 2]

In [98]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze
EUA,46,37,38
China,26,18,26
Inglaterra,27,23,17
Alemanha,19,18,19
Uruguai,17,10,15
Japão,14,17,18
Austrália,12,14,17
Polônia,9,10,12
Rep. Tcheca,7,8,11
Suiça,7,7,9


In [99]:
# Inserindo nova coluna
df_olimpiada2['Penalidades'] = 0

In [100]:
df_olimpiada2

Unnamed: 0,Ouro,Prata,Bronze,Penalidades
EUA,46,37,38,0
China,26,18,26,0
Inglaterra,27,23,17,0
Alemanha,19,18,19,0
Uruguai,17,10,15,0
Japão,14,17,18,0
Austrália,12,14,17,0
Polônia,9,10,12,0
Rep. Tcheca,7,8,11,0
Suiça,7,7,9,0


In [101]:
df_olimpiada2.describe()

Unnamed: 0,Ouro,Prata,Bronze,Penalidades
count,12.0,12.0,12.0,12.0
mean,16.25,14.333333,16.0,0.0
std,11.993369,9.227758,9.293204,0.0
min,5.0,3.0,2.0,0.0
25%,7.0,7.75,10.5,0.0
50%,13.0,12.0,16.0,0.0
75%,20.75,18.0,18.25,0.0
max,46.0,37.0,38.0,0.0


## Fim