# Conversão de Formatos (CSV, JSON e Excel)

In [13]:
# Instala bibliotecas
%pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Collecting et-xmlfile
  Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\josaf\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


### Conversão de JSON para CSV

In [9]:
# Importando bibliotecas
import pandas as pd
import json
import os

In [2]:
# Ler o arquivo JSON
with open('../../datasets/exemplo_data.json', 'r', encoding='utf-8') as f:
  data_json = json.load(f)

In [3]:
# Aplanar o JSON e criar Dataframe
df_clientes = pd.DataFrame(data_json)

In [4]:
# Converter para string
df_clientes['telefones_str'] = df_clientes['telefones'].apply(lambda telefones_list: ', '.join(telefones_list) if telefones_list else '')

In [5]:
# Remover a coluna original
df_clientes = df_clientes.drop(columns=['telefones'])

In [10]:
# Salver DataFrame para CSV
nome_arquivo = 'clientes_convertidos_de_json'
nome_pasta = 'dados_csv'

# Cria a pasta
try:
    os.mkdir(nome_pasta)
except FileExistsError:
    print(f"A pasta '{nome_pasta}' já existe")
except FileNotFoundError:
    print(f"Não foi possível criar a pasta '{nome_pasta}' porque o diretório pai não existe.")
except Exception as e:
    print(f"Ocorreu um erro ao criar a pasta: {e}")

df_clientes.to_csv(f'{nome_pasta}/{nome_arquivo}.csv', index=False, encoding='utf-8')
print(f"Arquivo CSV '{nome_arquivo}.csv' criado com sucesso em '{nome_pasta}/'")

Arquivo CSV 'clientes_convertidos_de_json.csv' criado com sucesso em 'dados_csv/'


In [11]:
# Validação básica
print('Primeiras linhas do CSV convertido:')
print(pd.read_csv(f'{nome_pasta}/{nome_arquivo}.csv').head())

Primeiras linhas do CSV convertido:
   id     nome  idade          cidade               telefones_str
0   1    Alice     30       São Paulo  11-1234-5678, 11-9987-6543
1   2      Bob     25  Rio de Janeiro                21-4321-8765
2   3  Charlie     35  Belo Horizonte                         NaN


### Conversão de Excel para CSV

In [14]:
# Ler o arquivo Excel
df_produtos_excel = pd.read_excel("../../datasets/exemplo_data.xlsx", sheet_name='Produtos')

In [15]:
# Salvar DataFrame 'Produtos' para CSV
df_produtos_excel.to_csv(f'{nome_pasta}/produtos_convertido_de_excel.csv', index=False, encoding='utf-8')
print(f"Arquivo CSV 'produtos_convertido_de_excel.csv' criado com sucesso em '{nome_pasta}'")

Arquivo CSV 'produtos_convertido_de_excel.csv' criado com sucesso em 'dados_csv'


In [17]:
# Validação basica
print("Primeiras linhas do CSV 'produtos_convertido_de_excel.csv':")
print(pd.read_csv(f'{nome_pasta}/produtos_convertido_de_excel.csv').head())

Primeiras linhas do CSV 'produtos_convertido_de_excel.csv':
   Produto Categoria  Preço
0     Maçã     Fruta    2.5
1   Banana     Fruta    3.0
2  Laranja     Fruta    2.0
3  Morango     Fruta    8.0
4   Alface   Verdura    4.0


### Padronização CSV

In [18]:
# Ler Arquivo CSV original com parâmetros específicos para lidar as "inconsistências"
df_origem_csv = pd.read_csv("../../datasets/exemplo_data_origem.csv", sep=';', encoding='latin-1', quotechar='"')

In [22]:
# Padranizar para um novo CSV (CSV "padrão" - UTF-8, vírgula como separador, sem index)
df_origem_csv.to_csv(f'{nome_pasta}/exemplo_data_padronizado.csv', index=False, encoding='utf-8')
print(f"Arquivo CSV 'exemplo_data_padronizado.csv' criado em '{nome_pasta}'")

Arquivo CSV 'exemplo_data_padronizado.csv' criado em 'dados_csv'


In [23]:
# Validação básica
print("Primeiras linhas do CSV original:")
print(pd.read_csv('../../datasets/exemplo_data_origem.csv', sep=";", encoding="latin-1", quotechar='"').head())
print("Primeiras linhas do CSV padronizado")
print(pd.read_csv(f'{nome_pasta}/exemplo_data_padronizado.csv').head())

Primeiras linhas do CSV original:
   ID              Nome  Idade  Cidade                        Email
0   1      JoÃ£o, Silva     28  Lisboa          joao.silva@email.pt
1   2      Maria Santos     32   Porto  maria.santos@outroemail.com
2   3  Carlos"Oliveira"     40   Braga      carlos.oliveira@mail.pt
Primeiras linhas do CSV padronizado
   ID              Nome  Idade  Cidade                        Email
0   1      JoÃ£o, Silva     28  Lisboa          joao.silva@email.pt
1   2      Maria Santos     32   Porto  maria.santos@outroemail.com
2   3  Carlos"Oliveira"     40   Braga      carlos.oliveira@mail.pt
