# Tutorial 3: Leitura e Escrita em Arquivos & Manipulação de Tabelas

___

# Imports para a Aula

In [1]:
import os
import pandas as pd

# Operações com Arquivos

## Criando os Arquivos

### Criando Estrutura de Pastas

In [2]:
try:
    os.makedirs("data")
    print("Pasta criada.")
except OSError:
    print("Pasta já existe!")

Pasta criada.


### Dataset *orders.csv*

In [3]:
""" nome do arquivo """
file_name = os.path.join("data", "orders.csv")

In [4]:
""" criação do DataFrame """
df = pd.DataFrame(
    columns=["user_id", "store_id", "product_id"],
    data=[
        [1, 1, 1],
        [1, 2, 6],
        [3, 2, 7],
        [2, 2, 3],
        [3, 2, 3],
        [4, 3, 2],
        [2, 3, 1],
        [1, 1, 3],
        [1, 3, 3],
        [5, 1, 4],
        [5, 1, 1],
        [3, 2, 1],
        [1, 2, 1],
        [2, 2, 2],
        [3, 2, 2],
        [4, 2, 3],
        [4, 1, 5],
        [5, 1, 6],
        [3, 1, 6],
        [2, 3, 7],
    ]
)
df

Unnamed: 0,user_id,store_id,product_id
0,1,1,1
1,1,2,6
2,3,2,7
3,2,2,3
4,3,2,3
5,4,3,2
6,2,3,1
7,1,1,3
8,1,3,3
9,5,1,4


In [5]:
""" salvando o DataFrame """
df.to_csv(file_name, sep=",")

### Dataset *stores.csv*

In [6]:
""" nome do arquivo """
file_name = os.path.join("data", "stores.csv")

In [7]:
""" criação do DataFrame """
df = pd.DataFrame(
    columns=["store_id", "store_name"],
    data=[
        [1, "Pão de Açúcar"],
        [2, "Dia"],
        [3, "Extra"],
    ]
).set_index("store_id")
df

Unnamed: 0_level_0,store_name
store_id,Unnamed: 1_level_1
1,Pão de Açúcar
2,Dia
3,Extra


In [8]:
""" salvando o DataFrame """
df.to_csv(
    file_name,          # nome do arquivo
    sep="\t",           # separador TAB
    encoding="utf-8"    # encoding: garante formato correto de strings no arquivo
)

### Dataset *product.csv*

In [9]:
""" nome do arquivo """
file_name = os.path.join("data", "products.csv")

In [10]:
""" criação do DataFrame """
df = pd.DataFrame(
    columns=["product_id", "product_name"],
    data=[
        [1, "Leite"],
        [2, "Ovos"],
        [3, "Arroz"],
        [4, "Feijão"],
        [5, "Carne"],
        [6, "Frango"],
        [7, "Peixe"]
    ]
).set_index("product_id")  # set_index: usa a coluna especificada como índice
df

Unnamed: 0_level_0,product_name
product_id,Unnamed: 1_level_1
1,Leite
2,Ovos
3,Arroz
4,Feijão
5,Carne
6,Frango
7,Peixe


In [11]:
""" salvando o DataFrame """
df.to_csv(
    file_name,          # nome do arquivo
    sep=";",            # separador ;
    encoding="utf-8"    # encoding: garante formato correto de strings no arquivo
)

##  Leitura de Arquivos

### Parâmetros _default_

In [12]:
file_name = os.path.join("data", "orders.csv")

In [13]:
pd.read_csv(file_name)

Unnamed: 0.1,Unnamed: 0,user_id,store_id,product_id
0,0,1,1,1
1,1,1,2,6
2,2,3,2,7
3,3,2,2,3
4,4,3,2,3
5,5,4,3,2
6,6,2,3,1
7,7,1,1,3
8,8,1,3,3
9,9,5,1,4


### Parâmetro *index\_col*
* define a coluna que contém o index
* valores esperados: inteiro ou lista de inteiros 
* valor _default_: None

In [14]:
""" definindo index_col para a primeira coluna """
pd.read_csv(file_name, index_col=0)

Unnamed: 0,user_id,store_id,product_id
0,1,1,1
1,1,2,6
2,3,2,7
3,2,2,3
4,3,2,3
5,4,3,2
6,2,3,1
7,1,1,3
8,1,3,3
9,5,1,4


In [15]:
""" definindo index_col para a segunda coluna """
pd.read_csv(file_name, index_col=1)

Unnamed: 0_level_0,Unnamed: 0,store_id,product_id
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,1,1
1,1,2,6
3,2,2,7
2,3,2,3
3,4,2,3
4,5,3,2
2,6,3,1
1,7,1,3
1,8,3,3
5,9,1,4


###  Parâmetro _sep_
* define o separador de colunas.
* valores esperados: caractere
* valor _default_: ","

In [16]:
""" Modificando o parâmetro sep"""
pd.read_csv(file_name, sep=";")

Unnamed: 0,",user_id,store_id,product_id"
0,111
1,1126
2,2327
3,3223
4,4323
5,5432
6,6231
7,7113
8,8133
9,9514


In [17]:
""" Usando explicitamente o valor default de sep """
pd.read_csv(file_name, sep=",")

Unnamed: 0.1,Unnamed: 0,user_id,store_id,product_id
0,0,1,1,1
1,1,1,2,6
2,2,3,2,7
3,3,2,2,3
4,4,3,2,3
5,5,4,3,2
6,6,2,3,1
7,7,1,1,3
8,8,1,3,3
9,9,5,1,4


###  Parâmetro _header_
* define a linha que contém as colunas
* valores esperados: inteiro ou lista de inteiros ou None
* valor _default_: 0

In [18]:
""" Usando header = None """
pd.read_csv(file_name, header=None)

Unnamed: 0,0,1,2,3
0,,user_id,store_id,product_id
1,0.0,1,1,1
2,1.0,1,2,6
3,2.0,3,2,7
4,3.0,2,2,3
5,4.0,3,2,3
6,5.0,4,3,2
7,6.0,2,3,1
8,7.0,1,1,3
9,8.0,1,3,3


In [19]:
""" Usando outra linha como header; nota-se que as linhas acima são eliminadas """
pd.read_csv(file_name, header=1)

Unnamed: 0,0,1,1.1,1.2
0,1,1,2,6
1,2,3,2,7
2,3,2,2,3
3,4,3,2,3
4,5,4,3,2
5,6,2,3,1
6,7,1,1,3
7,8,1,3,3
8,9,5,1,4
9,10,5,1,1


In [20]:
""" Usando múltiplass linhas como header """
pd.read_csv(file_name, header=[0,1,2])

Unnamed: 0_level_0,Unnamed: 0_level_0,user_id,store_id,product_id
Unnamed: 0_level_1,0,1,1,1
Unnamed: 0_level_2,1,1,2,6
0,2,3,2,7
1,3,2,2,3
2,4,3,2,3
3,5,4,3,2
4,6,2,3,1
5,7,1,1,3
6,8,1,3,3
7,9,5,1,4
8,10,5,1,1
9,11,3,2,1


###  Parâmetro _usecols_
* define quais colunas serão lidas, permitindo carregar apenas os dados desejados
* valores esperados: lista de nomes ou None
* valor _default_: None

In [21]:
""" lendo apenas duas colunas """
pd.read_csv(file_name, usecols=["product_id", "store_id"])

Unnamed: 0,store_id,product_id
0,1,1
1,2,6
2,2,7
3,2,3
4,2,3
5,3,2
6,3,1
7,1,3
8,3,3
9,1,4


#  Agrupando DataFrames

## Carregando as Tabelas dos Arquivos

In [22]:
orders = pd.read_csv(
    os.path.join("data", "orders.csv"),
    sep=",",
    index_col=0
)

In [23]:
stores = pd.read_csv(
    os.path.join("data", "stores.csv"),
    sep="\t",
    index_col=0,
    encoding="utf-8"
)

In [24]:
products = pd.read_csv(
    os.path.join("data", "products.csv"),
    sep=";",
    index_col=0,
    encoding="utf-8"
)

## Estruturas Homogêneas

### Adicionando Linhas
* método: _append_
* concatena DataFrames no sentido das linhas

In [25]:
""" novos dados de 'orders' """
new_orders = pd.DataFrame(
    columns=["user_id", "store_id", "product_id"],
    data=[
        [1, 1, 1],
        [2, 1, 2],
        [3, 2, 1],
        [2, 1, 3],
        [1, 2, 1],
    ]
)

new_orders

Unnamed: 0,user_id,store_id,product_id
0,1,1,1
1,2,1,2
2,3,2,1
3,2,1,3
4,1,2,1


In [26]:
""" adicionando no 'orders' original """
temp_orders = orders.append(new_orders)

temp_orders

Unnamed: 0,user_id,store_id,product_id
0,1,1,1
1,1,2,6
2,3,2,7
3,2,2,3
4,3,2,3
5,4,3,2
6,2,3,1
7,1,1,3
8,1,3,3
9,5,1,4


Observações:
* ***append*** não verifica índices, podendo repetir existentes
* Caso um dos DataFrames tenha uma coluna a mais, o outro replica essa coluna, preenchida com NaNs

In [27]:
new_orders.append(
    pd.DataFrame(
        columns=list(new_orders.columns) + ["new_column"],
        data=[
            [1, 2, 1, 51],
            [1, 2, 1, 15]
        ]
    )
)

Unnamed: 0,new_column,product_id,store_id,user_id
0,,1,1,1
1,,2,1,2
2,,1,2,3
3,,3,1,2
4,,1,2,1
0,51.0,1,2,1
1,15.0,1,2,1


### Adicionando Colunas
* método: _join_
* concatena DataFrames no sentido das colunas
* junta DataFrames usando como base o _index_

In [28]:
new_stores = pd.DataFrame(
    index=stores.index,
    columns=["opens", "closes"],    
    data=[
        ["9:00", "22:00"],
        ["8:00", "18:00"],
        ["11:00", "21:00"],
    ]
)
new_stores

Unnamed: 0_level_0,opens,closes
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,9:00,22:00
2,8:00,18:00
3,11:00,21:00


In [29]:
""" concatenando estruturas compatíveis  """
temp_stores = stores.join(new_stores)

temp_stores

Unnamed: 0_level_0,store_name,opens,closes
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pão de Açúcar,9:00,22:00
2,Dia,8:00,18:00
3,Extra,11:00,21:00


Observações:
* Tipos de ***join***: 
    * inner 
    * outer
    * left
    * right
* comportamento _default_: ***left join*** 

In [30]:
""" modificando índices para exemplos """
new_stores.index = [3, 4, 5]

In [31]:
""" concatenando estruturas com índices diferentes """
stores.join(new_stores)

Unnamed: 0_level_0,store_name,opens,closes
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pão de Açúcar,,
2,Dia,,
3,Extra,9:00,22:00


In [32]:
""" explicitando 'how=left' """
stores.join(new_stores, how="left")

Unnamed: 0_level_0,store_name,opens,closes
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pão de Açúcar,,
2,Dia,,
3,Extra,9:00,22:00


In [33]:
""" right join """
stores.join(new_stores, how="right")

Unnamed: 0,store_name,opens,closes
3,Extra,9:00,22:00
4,,8:00,18:00
5,,11:00,21:00


In [34]:
""" concatenando estruturas com índices diferentes """
stores.join(new_stores, how="outer")

Unnamed: 0,store_name,opens,closes
1,Pão de Açúcar,,
2,Dia,,
3,Extra,9:00,22:00
4,,8:00,18:00
5,,11:00,21:00


In [35]:
""" concatenando estruturas com índices diferentes """
stores.join(new_stores, how="inner")

Unnamed: 0,store_name,opens,closes
3,Extra,9:00,22:00


#### Observação: 
Em DataFrames com nomes de coluna iguais, deve-se especificar sufixos para diferenciar as colunas. 

In [36]:
new_stores.join(new_stores, lsuffix="_original")

Unnamed: 0,opens_original,closes_original,opens,closes
3,9:00,22:00,9:00,22:00
4,8:00,18:00,8:00,18:00
5,11:00,21:00,11:00,21:00


In [37]:
new_stores.join(new_stores, rsuffix="_copycat")

Unnamed: 0,opens,closes,opens_copycat,closes_copycat
3,9:00,22:00,9:00,22:00
4,8:00,18:00,8:00,18:00
5,11:00,21:00,11:00,21:00


In [38]:
new_stores.join(new_stores, lsuffix="_original", rsuffix="_copycat")

Unnamed: 0,opens_original,closes_original,opens_copycat,closes_copycat
3,9:00,22:00,9:00,22:00
4,8:00,18:00,8:00,18:00
5,11:00,21:00,11:00,21:00


## Estruturas Heterogêneas
* método _merge_
* construção de tabelas que compartilham uma ou mais variáveis
* sufixos: idêntico a _join_
* todos os tipos de join (inner, outer, left e right) são suportados
* simplificando: _join_ onde se escolhe uma coluna em vez do index

In [39]:
""" reset_index para liberar as variáveis para o merge """
stores = stores.reset_index()
products = products.reset_index()

In [40]:
""" adicionando store_name"""
df = pd.merge(
    left=orders,
    right=stores,
    on="store_id"
)
df

Unnamed: 0,user_id,store_id,product_id,store_name
0,1,1,1,Pão de Açúcar
1,1,1,3,Pão de Açúcar
2,5,1,4,Pão de Açúcar
3,5,1,1,Pão de Açúcar
4,4,1,5,Pão de Açúcar
5,5,1,6,Pão de Açúcar
6,3,1,6,Pão de Açúcar
7,1,2,6,Dia
8,3,2,7,Dia
9,2,2,3,Dia


In [41]:
""" adicionando product_name"""
df = pd.merge(
    left=df,
    right=products,
    on="product_id"
)
df

Unnamed: 0,user_id,store_id,product_id,store_name,product_name
0,1,1,1,Pão de Açúcar,Leite
1,5,1,1,Pão de Açúcar,Leite
2,3,2,1,Dia,Leite
3,1,2,1,Dia,Leite
4,2,3,1,Extra,Leite
5,1,1,3,Pão de Açúcar,Arroz
6,2,2,3,Dia,Arroz
7,3,2,3,Dia,Arroz
8,4,2,3,Dia,Arroz
9,1,3,3,Extra,Arroz
