# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

## <font color='blue'>Capítulo 3 - Manipulação de Dados em Python com Pandas</font>

https://pandas.pydata.org/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
#!pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
#!pip install -q -U watermark

In [3]:
# Imports
import pandas as pd

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

pandas: 1.4.2



## Operações com Dataframes

### Parte 1

In [5]:
# Cria um dicionário com pares de chave e valor
stock = {'AMZN': pd.Series([346.15,0.59,459,0.52,589.8,158.88],
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Beta', 'P/E', 'Market Cap(B)']),
         'GOOG': pd.Series([1133.43,36.05,335.83,0.87,31.44,380.64],
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Beta', 'P/E', 'Market Cap(B)']),
         'FB': pd.Series([61.48,0.59,2450,104.93,150.92],
                         index = ['Closing price', 'EPS',' Shares Outstanding(M)', 'P/E', 'Market Cap(B)']),
         'YHOO': pd.Series([34.90,1.27,1010,27.48,0.66,35.36], 
                           index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Beta', 'Market Cap(B)']),
         'TWTR':pd.Series([65.25,-0.3,555.2,36.23],
                          index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'Market Cap(B)']),
         'AAPL':pd.Series([501.53,40.32,892.45,12.44,447.59,0.84],
                          index = ['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Market Cap(B)', 'Beta'])}

In [6]:
# Tipo do objeto
type(stock)

dict

In [7]:
# Visualiza
stock

{'AMZN': Closing price            346.15
 EPS                        0.59
 Shares Outstanding(M)    459.00
 Beta                       0.52
 P/E                      589.80
 Market Cap(B)            158.88
 dtype: float64,
 'GOOG': Closing price            1133.43
 EPS                        36.05
 Shares Outstanding(M)     335.83
 Beta                        0.87
 P/E                        31.44
 Market Cap(B)             380.64
 dtype: float64,
 'FB': Closing price               61.48
 EPS                          0.59
  Shares Outstanding(M)    2450.00
 P/E                        104.93
 Market Cap(B)              150.92
 dtype: float64,
 'YHOO': Closing price              34.90
 EPS                         1.27
 Shares Outstanding(M)    1010.00
 P/E                        27.48
 Beta                        0.66
 Market Cap(B)              35.36
 dtype: float64,
 'TWTR': Closing price             65.25
 EPS                       -0.30
 Shares Outstanding(M)    555.20
 Market Cap(B)

In [8]:
# Converte o dicionário em dataframe do pandas
stock_df = pd.DataFrame(stock)

In [9]:
# Visualiza os dados
stock_df.head(6)

Unnamed: 0,AMZN,GOOG,FB,YHOO,TWTR,AAPL
Shares Outstanding(M),,,2450.0,,,
Beta,0.52,0.87,,0.66,,0.84
Closing price,346.15,1133.43,61.48,34.9,65.25,501.53
EPS,0.59,36.05,0.59,1.27,-0.3,40.32
Market Cap(B),158.88,380.64,150.92,35.36,36.23,447.59
P/E,589.8,31.44,104.93,27.48,,12.44


In [10]:
# Podemos converter o dicionário em dataframe definindo quais são os índices de cada linha e a ordem desejada
stock_df = pd.DataFrame(stock, 
                        index = ['Closing price',
                                 'EPS', 
                                 'Shares Outstanding(M)',
                                 'P/E', 
                                 'Market Cap(B)',
                                 'Beta'])

In [11]:
# Visualiza os dados
stock_df.head(6)

Unnamed: 0,AMZN,GOOG,FB,YHOO,TWTR,AAPL
Closing price,346.15,1133.43,61.48,34.9,65.25,501.53
EPS,0.59,36.05,0.59,1.27,-0.3,40.32
Shares Outstanding(M),459.0,335.83,,1010.0,555.2,892.45
P/E,589.8,31.44,104.93,27.48,,12.44
Market Cap(B),158.88,380.64,150.92,35.36,36.23,447.59
Beta,0.52,0.87,,0.66,,0.84


In [12]:
# Podemos converter o dicionário em dataframe definindo quais são os índices de cada linha e os títulos das colunas
stock_df = pd.DataFrame(stock,
                        index = ['Closing price',
                                 'EPS',
                                 'Shares Outstanding(M)',
                                 'P/E', 
                                 'Market Cap(B)',
                                 'Beta'],
                        columns = ['AMZN','GOOG','FB'])

In [13]:
# Visualiza os dados
stock_df.head(6)

Unnamed: 0,AMZN,GOOG,FB
Closing price,346.15,1133.43,61.48
EPS,0.59,36.05,0.59
Shares Outstanding(M),459.0,335.83,
P/E,589.8,31.44,104.93
Market Cap(B),158.88,380.64,150.92
Beta,0.52,0.87,


In [14]:
# Índices
stock_df.index

Index(['Closing price', 'EPS', 'Shares Outstanding(M)', 'P/E', 'Market Cap(B)',
       'Beta'],
      dtype='object')

In [15]:
# Colunas
stock_df.columns

Index(['AMZN', 'GOOG', 'FB'], dtype='object')

### Parte 2

In [16]:
# Dicionário
Quadro_Medalhas_Olimpiada = {
    'EUA' : {'Ouro':46, 'Prata':37, 'Bronze':38},
    'China':{'Ouro':26, 'Prata':18, 'Bronze':26},
    'Inglaterra':{'Ouro':27, 'Prata':23, 'Bronze':17},
    'Alemanha':{'Ouro':19, 'Prata':18, 'Bronze':19},
    'Uruguai':{'Ouro':17, 'Prata':10, 'Bronze':15}}

In [17]:
# Converte para dataframe
df_olimpiada = pd.DataFrame.from_dict(Quadro_Medalhas_Olimpiada)

In [18]:
type(df_olimpiada)

pandas.core.frame.DataFrame

In [19]:
df_olimpiada.head()

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [20]:
df_olimpiada['China']

Ouro      26
Prata     18
Bronze    26
Name: China, dtype: int64

In [21]:
Medalhas_China = df_olimpiada['China']

In [22]:
type(Medalhas_China)

pandas.core.series.Series

In [23]:
Medalhas_China

Ouro      26
Prata     18
Bronze    26
Name: China, dtype: int64

In [24]:
df_olimpiada.Uruguai

Ouro      17
Prata     10
Bronze    15
Name: Uruguai, dtype: int64

In [25]:
df_olimpiada[['Alemanha','EUA']]

Unnamed: 0,Alemanha,EUA
Ouro,19,46
Prata,18,37
Bronze,19,38


In [26]:
df_olimpiada.get('Inglaterra')

Ouro      27
Prata     23
Bronze    17
Name: Inglaterra, dtype: int64

In [27]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


### Parte 3

In [28]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [29]:
df_olimpiada[:2]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10


In [30]:
df_olimpiada[2:]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Bronze,38,26,17,19,15


In [31]:
df_olimpiada[::2]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Bronze,38,26,17,19,15


In [32]:
df_olimpiada[::-2]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Bronze,38,26,17,19,15
Ouro,46,26,27,19,17


In [33]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [34]:
df_olimpiada.loc['Ouro']

EUA           46
China         26
Inglaterra    27
Alemanha      19
Uruguai       17
Name: Ouro, dtype: int64

In [35]:
df_olimpiada.loc[:,'EUA']

Ouro      46
Prata     37
Bronze    38
Name: EUA, dtype: int64

In [36]:
df_olimpiada.loc['Prata','China']

18

In [37]:
df_olimpiada.loc['Prata']['China']

18

In [38]:
df_olimpiada.loc['Prata']

EUA           37
China         18
Inglaterra    23
Alemanha      18
Uruguai       10
Name: Prata, dtype: int64

In [39]:
df_olimpiada.loc['Ouro'] > 20

EUA            True
China          True
Inglaterra     True
Alemanha      False
Uruguai       False
Name: Ouro, dtype: bool

In [40]:
df_olimpiada.loc['Ouro', df_olimpiada.loc['Ouro'] > 20]

EUA           46
China         26
Inglaterra    27
Name: Ouro, dtype: int64

In [None]:
# Isso não é válido:
df_olimpiada['Ouro', df_olimpiada.loc['Ouro'] > 20]

In [42]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [43]:
# iloc para buscar a linha de índice 0
df_olimpiada.iloc[0]

EUA           46
China         26
Inglaterra    27
Alemanha      19
Uruguai       17
Name: Ouro, dtype: int64

In [44]:
# iloc para buscar a linha de índice 2
df_olimpiada.iloc[2]

EUA           38
China         26
Inglaterra    17
Alemanha      19
Uruguai       15
Name: Bronze, dtype: int64

In [45]:
df_olimpiada

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10
Bronze,38,26,17,19,15


In [46]:
df_olimpiada.iloc[:2]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Ouro,46,26,27,19,17
Prata,37,18,23,18,10


In [47]:
df_olimpiada.iloc[2,0:2]

EUA      38
China    26
Name: Bronze, dtype: int64

In [48]:
df_olimpiada.iloc[2:3, :]

Unnamed: 0,EUA,China,Inglaterra,Alemanha,Uruguai
Bronze,38,26,17,19,15


In [49]:
df_olimpiada.iloc[1,:]

EUA           37
China         18
Inglaterra    23
Alemanha      18
Uruguai       10
Name: Prata, dtype: int64

In [50]:
df_olimpiada.iloc[2, 0]

38

> Podemos ainda deletar partes de um dataframe.

In [51]:
del df_olimpiada['EUA']

In [52]:
df_olimpiada

Unnamed: 0,China,Inglaterra,Alemanha,Uruguai
Ouro,26,27,19,17
Prata,18,23,18,10
Bronze,26,17,19,15


> Bem como podemos inserir no dataframe.

In [53]:
df_olimpiada.insert(0, 'Brasil', (17, 16, 23))

In [54]:
df_olimpiada

Unnamed: 0,Brasil,China,Inglaterra,Alemanha,Uruguai
Ouro,17,26,27,19,17
Prata,16,18,23,18,10
Bronze,23,26,17,19,15


In [55]:
df_olimpiada.describe()

Unnamed: 0,Brasil,China,Inglaterra,Alemanha,Uruguai
count,3.0,3.0,3.0,3.0,3.0
mean,18.666667,23.333333,22.333333,18.666667,14.0
std,3.785939,4.618802,5.033223,0.57735,3.605551
min,16.0,18.0,17.0,18.0,10.0
25%,16.5,22.0,20.0,18.5,12.5
50%,17.0,26.0,23.0,19.0,15.0
75%,20.0,26.0,25.0,19.0,16.0
max,23.0,26.0,27.0,19.0,17.0


# Fim