# Tutorial 1 - Introdução à Lib Pandas

___

# Imports para a Aula

In [1]:
import numpy as np
import pandas as pd

# Construção

## Series

In [2]:
""" Construtor padrão """
pd.Series(
    name="Compras",
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"],  
    data=[2, 12, 1, 5, 2]
)

Leite      2
Ovos      12
Carne      1
Arroz      5
Feijão     2
Name: Compras, dtype: int64

In [3]:
""" Construtor padrão: dados desconhecidos """
pd.Series(
    name="Compras",
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"]
)

Leite    NaN
Ovos     NaN
Carne    NaN
Arroz    NaN
Feijão   NaN
Name: Compras, dtype: float64

In [4]:
""" Construtor padrão: valor padrão """
pd.Series(
    name="Compras",
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"],
    data="fill here"
)

Leite     fill here
Ovos      fill here
Carne     fill here
Arroz     fill here
Feijão    fill here
Name: Compras, dtype: object

In [5]:
""" Recebendo um Dicionário"""
s = pd.Series({"Leite": 2, "Ovos": 12, "Carne": 1, "Arroz": 5, "Feijão": 2})
s.name = "Compras"
s

Arroz      5
Carne      1
Feijão     2
Leite      2
Ovos      12
Name: Compras, dtype: int64

In [6]:
""" Recebendo uma Lista"""
s = pd.Series([2, 12, 1, 5, 2])
s

0     2
1    12
2     1
3     5
4     2
dtype: int64

In [7]:
""" editando parâmetros"""
s.name="Compras"
s.index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"]
s

Leite      2
Ovos      12
Carne      1
Arroz      5
Feijão     2
Name: Compras, dtype: int64

In [8]:
""" Ordenação: Índices """
s.sort_index()

Arroz      5
Carne      1
Feijão     2
Leite      2
Ovos      12
Name: Compras, dtype: int64

In [9]:
""" Ordenação: Dados """
s.sort_values(ascending=False)

Ovos      12
Arroz      5
Feijão     2
Leite      2
Carne      1
Name: Compras, dtype: int64

## DataFrame

In [10]:
""" Construtor padrão """
pd.DataFrame(
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"],
    columns=["quantidade", "unidade"],
    data=[
        [ 2,  "L"],
        [12, "Ud"], 
        [ 1, "Kg"],
        [ 5, "Kg"], 
        [ 2, "Kg"]
    ]
)

Unnamed: 0,quantidade,unidade
Leite,2,L
Ovos,12,Ud
Carne,1,Kg
Arroz,5,Kg
Feijão,2,Kg


In [11]:
""" Construtor padrão: dados desconhecidos """
pd.DataFrame(
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"],
    columns=["quantidade", "unidade"]
)

Unnamed: 0,quantidade,unidade
Leite,,
Ovos,,
Carne,,
Arroz,,
Feijão,,


In [12]:
""" Construtor padrão: valor padrão """
pd.DataFrame(
    index=["Leite", "Ovos", "Carne", "Arroz", "Feijão"],
    columns=["quantidade", "unidade"],
    data="?"
)

Unnamed: 0,quantidade,unidade
Leite,?,?
Ovos,?,?
Carne,?,?
Arroz,?,?
Feijão,?,?


In [14]:
""" Recebendo um Dicionário"""
pd.DataFrame(
    {
        "quantidade": {"Leite": 2, "Ovos": 12, "Carne": 1, "Arroz": 5, "Feijão": 2
        },
        "unidade": {
            "Leite": "L", 
            "Ovos": "Ud", 
            "Carne": "Kg", 
            "Arroz": "Kg", 
            "Feijão": "Kg"
        }
    }
)

Unnamed: 0,quantidade,unidade
Arroz,5,Kg
Carne,1,Kg
Feijão,2,Kg
Leite,2,L
Ovos,12,Ud


In [15]:
""" Recebendo um Dicionário de Series"""
index = ["Leite", "Ovos", "Carne", "Arroz", "Feijão"]
pd.DataFrame(
    {
        "quantidade": pd.Series(index=index,  data=[2, 12, 1, 5, 2]),
        "unidade": pd.Series(index=index,  data=["L", "Ud", "Kg", "Kg", "Kg"])
    }
)

Unnamed: 0,quantidade,unidade
Leite,2,L
Ovos,12,Ud
Carne,1,Kg
Arroz,5,Kg
Feijão,2,Kg


In [17]:
""" Recebendo um vetor de Series"""
index = ["Leite", "Ovos", "Carne", "Arroz", "Feijão"]
df = pd.DataFrame(
    [
        pd.Series(name="quantidade", index=index,  data=[2, 12, 1, 5, 2]),
        pd.Series(name="unidade", index=index,  data=["L", "Ud", "Kg", "Kg", "Kg"])
    ]
)
df

Unnamed: 0,Leite,Ovos,Carne,Arroz,Feijão
quantidade,2,12,1,5,2
unidade,L,Ud,Kg,Kg,Kg


In [18]:
""" Transpondo para ajustar a Tabela """
df = df.T
df

Unnamed: 0,quantidade,unidade
Leite,2,L
Ovos,12,Ud
Carne,1,Kg
Arroz,5,Kg
Feijão,2,Kg


In [19]:
""" editando parâmetros"""
df.index = ["Leite tipo A", "Ovos Orgânicos", "Patinho", "Arroz Arbóreo", "Feijão Preto"]
df.columns = ["Quantidade", "Unidade"]
df

Unnamed: 0,Quantidade,Unidade
Leite tipo A,2,L
Ovos Orgânicos,12,Ud
Patinho,1,Kg
Arroz Arbóreo,5,Kg
Feijão Preto,2,Kg


In [20]:
""" Ordenação: Índices """
df.sort_index()

Unnamed: 0,Quantidade,Unidade
Arroz Arbóreo,5,Kg
Feijão Preto,2,Kg
Leite tipo A,2,L
Ovos Orgânicos,12,Ud
Patinho,1,Kg


In [21]:
""" Ordenação: Dados """
df.sort_values(by="Unidade", ascending=False)

Unnamed: 0,Quantidade,Unidade
Ovos Orgânicos,12,Ud
Leite tipo A,2,L
Patinho,1,Kg
Arroz Arbóreo,5,Kg
Feijão Preto,2,Kg


#  Acessando valores

## Definição das Variáveis

In [22]:
index = pd.Index(data=["Leite", "Ovos", "Carne", "Arroz", "Feijão"], name="Itens")
index

Index(['Leite', 'Ovos', 'Carne', 'Arroz', 'Feijão'], dtype='object', name='Itens')

In [23]:
sq = pd.Series(index=index,  data=[2, 12, 1, 5, 2]).sort_values()
sq

Itens
Carne      1
Leite      2
Feijão     2
Arroz      5
Ovos      12
dtype: int64

In [24]:
su = pd.Series(index=index,  data=["L", "Ud", "Kg", "Kg", "Kg"]).sort_index()
su

Itens
Arroz     Kg
Carne     Kg
Feijão    Kg
Leite      L
Ovos      Ud
dtype: object

In [25]:
df = pd.DataFrame({"Quantidade": sq, "Unidade": su}).sort_values(by="Unidade")
df

Unnamed: 0,Quantidade,Unidade
Arroz,5,Kg
Carne,1,Kg
Feijão,2,Kg
Leite,2,L
Ovos,12,Ud


In [26]:
df["Preço p/ Ud"] = [5.00, 29.99, 6.50, 3.30, 0.50]
df["Preço Total"] = [25.00, 29.99, 13.00, 6.60, 6.00]
df

Unnamed: 0,Quantidade,Unidade,Preço p/ Ud,Preço Total
Arroz,5,Kg,5.0,25.0
Carne,1,Kg,29.99,29.99
Feijão,2,Kg,6.5,13.0
Leite,2,L,3.3,6.6
Ovos,12,Ud,0.5,6.0


## Slicing

### Series

In [27]:
sq

Itens
Carne      1
Leite      2
Feijão     2
Arroz      5
Ovos      12
dtype: int64

In [28]:
sq[2]

2

In [29]:
sq[5:2:-1]

Itens
Ovos     12
Arroz     5
dtype: int64

In [32]:
sq["Leite"]

2

In [33]:
sq["Leite":"Arroz"]

Itens
Leite     2
Feijão    2
Arroz     5
dtype: int64

###  DataFrame

In [34]:
df

Unnamed: 0,Quantidade,Unidade,Preço p/ Ud,Preço Total
Arroz,5,Kg,5.0,25.0
Carne,1,Kg,29.99,29.99
Feijão,2,Kg,6.5,13.0
Leite,2,L,3.3,6.6
Ovos,12,Ud,0.5,6.0


In [35]:
df["Unidade"]

Arroz     Kg
Carne     Kg
Feijão    Kg
Leite      L
Ovos      Ud
Name: Unidade, dtype: object

In [36]:
df.Quantidade

Arroz      5
Carne      1
Feijão     2
Leite      2
Ovos      12
Name: Quantidade, dtype: int64

In [37]:
""" Uma Coluna do DataFrame é uma Series"""
df["Preço Total"][2]

13.0

In [38]:
""" Acesso a mais de uma Coluna """
df[["Preço Total", "Quantidade"]]

Unnamed: 0,Preço Total,Quantidade
Arroz,25.0,5
Carne,29.99,1
Feijão,13.0,2
Leite,6.6,2
Ovos,6.0,12


In [39]:
""" acesso às Linhas: método 'loc' """
df.loc["Leite"]

Quantidade       2
Unidade          L
Preço p/ Ud    3.3
Preço Total    6.6
Name: Leite, dtype: object

In [42]:
""" acesso ao item: método 'loc' """
df.loc["Ovos", "Unidade"]

'Ud'

In [43]:
""" acesso ao item: método 'iloc' """
df.iloc[4, 3]

6.0

In [44]:
""" acesso por slice: método 'loc' """
df.loc["Leite":, "Preço p/ Ud":]

Unnamed: 0,Preço p/ Ud,Preço Total
Leite,3.3,6.6
Ovos,0.5,6.0


In [45]:
""" acesso por slice: método 'iloc' """
df.iloc[3:, 2:]

Unnamed: 0,Preço p/ Ud,Preço Total
Leite,3.3,6.6
Ovos,0.5,6.0


#### * Atribuição de Valores em DataFrames

In [46]:
""" Atribuir Valores em 'slices' levanta warnings """
df["Unidade"][[0, 2]] = "Pacote"
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,Quantidade,Unidade,Preço p/ Ud,Preço Total
Arroz,5,Pacote,5.0,25.0
Carne,1,Kg,29.99,29.99
Feijão,2,Pacote,6.5,13.0
Leite,2,L,3.3,6.6
Ovos,12,Ud,0.5,6.0


In [47]:
""" Deve-se usar 'loc' ou 'iloc' """
df.loc["Carne", "Unidade"] = "Kilograma"
df.iloc[3, 1] = "Litro"
df

Unnamed: 0,Quantidade,Unidade,Preço p/ Ud,Preço Total
Arroz,5,Pacote,5.0,25.0
Carne,1,Kilograma,29.99,29.99
Feijão,2,Pacote,6.5,13.0
Leite,2,Litro,3.3,6.6
Ovos,12,Ud,0.5,6.0


## Masks

### Conceito

In [48]:
""" mask => array de bool """
sq > 2

Itens
Carne     False
Leite     False
Feijão    False
Arroz      True
Ovos       True
dtype: bool

In [49]:
""" mask => array de bool """
df > 2

Unnamed: 0,Quantidade,Unidade,Preço p/ Ud,Preço Total
Arroz,True,True,True,True
Carne,False,True,True,True
Feijão,False,True,True,True
Leite,False,True,True,True
Ovos,True,True,False,True


### Aplicação

#### * Series

In [50]:
""" atribuição de valores em uma cópia """
s_tmp = sq.copy()
s_tmp

Itens
Carne      1
Leite      2
Feijão     2
Arroz      5
Ovos      12
dtype: int64

In [51]:
s_tmp[s_tmp == 2]

Itens
Leite     2
Feijão    2
dtype: int64

In [52]:
s_tmp[s_tmp == 2] = 3
s_tmp

Itens
Carne      1
Leite      3
Feijão     3
Arroz      5
Ovos      12
dtype: int64

#### * DataFame

In [53]:
""" atribuição de valores em uma cópia """
df_tmp = df[["Preço p/ Ud", "Preço Total"]].copy()
df_tmp

Unnamed: 0,Preço p/ Ud,Preço Total
Arroz,5.0,25.0
Carne,29.99,29.99
Feijão,6.5,13.0
Leite,3.3,6.6
Ovos,0.5,6.0


In [54]:
""" mask """
mask = (df_tmp > 5) & (df_tmp < 10)
mask

Unnamed: 0,Preço p/ Ud,Preço Total
Arroz,False,False
Carne,False,False
Feijão,True,False
Leite,False,True
Ovos,False,True


In [55]:
df_tmp[mask]

Unnamed: 0,Preço p/ Ud,Preço Total
Arroz,,
Carne,,
Feijão,6.5,
Leite,,6.6
Ovos,,6.0


In [56]:
tmp2 = df_tmp.copy()
tmp2[mask] = "?"
tmp2

Unnamed: 0,Preço p/ Ud,Preço Total
Arroz,5,25
Carne,29.99,29.99
Feijão,?,13
Leite,3.3,?
Ovos,0.5,?


In [57]:
s_tmp[s_tmp == 2] = 3
s_tmp

Itens
Carne      1
Leite      3
Feijão     3
Arroz      5
Ovos      12
dtype: int64