<a href="https://colab.research.google.com/github/nelisjunior/ETL_Python/blob/main/tratando_csv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manipulando arquivos CSV em Python com Jupyter

Alguns projetos possuem arquivos com formato de encode antigo. E por isso, pode ser uma dor de cabeça na hora de trabalhar com eles em sistemas mais novos.

Diante dessa problemática, precisei criar este notebook para converter arquivos CSV de forma mais facilitada.

Importações iniciais

In [30]:
import unicodedata
import chardet
import pandas as pd
import datetime

from google.colab import files

Saving Consultas OLAP.csv to Consultas OLAP.csv
O arquivo foi salvo como: Consultas OLAP_2023-07-07_21-48-54.csv


Unnamed: 0,0,1,2,3,4
0,id,Name,Status,Prioridade,Link:Vincular A (>)
1,284615,ELA - Benefícios - Emitidos - Por Faixa de Val...,,,
2,280607,img-05041623.png,,,
3,258911,ELA - Benefícios - Suspensos - POR MOTIVO DE S...,,,
4,258910,ELA - Benefícios - Suspensos - POR ESPÉCIE DE ...,,,
...,...,...,...,...,...
92,METADATA,,,,
93,Exported Artifact IDs=284615|280607|258911|258...,,,,
94,Export Project Area=https://alm.dataprev.gov.b...,,,,
95,Export Configuration=https://alm.dataprev.gov....,,,,


## Realização da carga do arqivos

In [33]:
# CARGA

# Fazer upload do arquivo CSV
uploaded = files.upload()

# Obter o nome do arquivo enviado
filename = next(iter(uploaded))

# Obtenha a data atual
data_atual = datetime.datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

# Obter o nome do arquivo atual sem a extensão
nome_arquivo_atual = filename.split(".")[0]

# Criar o novo nome do arquivo combinando o nome atual e a data atual
novo_nome_arquivo = f"{nome_arquivo_atual}_{data_atual}.csv"

# Salvar o arquivo com o novo nome
with open(novo_nome_arquivo, 'wb') as f:
    f.write(uploaded[filename])

# Exibir a mensagem com o nome do arquivo salvo
print("O arquivo foi salvo como:", novo_nome_arquivo)

# Carregar o arquivo CSV em um DataFrame do Pandas
df = pd.read_csv(filename, header=None)

StopIteration: ignored

## Tratamento

In [32]:
# Tratamento

def fix_encoding(text):
    # Detectar a codificação correta do texto
    encoding = chardet.detect(text.encode())['encoding']

    # Normalizar os caracteres para a forma NFC
    normalized_text = unicodedata.normalize('NFC', text)

    return normalized_text

# Aplique a função de correção de codificação na primeira coluna
df[0] = df[0].apply(fix_encoding)

# Exiba o DataFrame corrigido
df

Unnamed: 0,0,1,2,3,4
0,id,Name,Status,Prioridade,Link:Vincular A (>)
1,284615,ELA - Benefícios - Emitidos - Por Faixa de Val...,,,
2,280607,img-05041623.png,,,
3,258911,ELA - Benefícios - Suspensos - POR MOTIVO DE S...,,,
4,258910,ELA - Benefícios - Suspensos - POR ESPÉCIE DE ...,,,
...,...,...,...,...,...
92,METADATA,,,,
93,Exported Artifact IDs=284615|280607|258911|258...,,,,
94,Export Project Area=https://alm.dataprev.gov.b...,,,,
95,Export Configuration=https://alm.dataprev.gov....,,,,


## Baixar Arquivo modificado

In [34]:
# Obtenha a data atual
data_atual = datetime.datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

# Crie o novo nome do arquivo com o sufixo e a data atual
novo_nome_arquivo = filename.split(".")[0] + "_tratado_" + data_atual + ".csv"

# Salve o DataFrame corrigido no novo arquivo CSV
df.to_csv(novo_nome_arquivo, index=False)

# Exiba a mensagem com o nome do arquivo salvo
print("O arquivo corrigido foi salvo como:", novo_nome_arquivo)

# Faça o download imediato do arquivo
files.download(novo_nome_arquivo)

O arquivo corrigido foi salvo como: Consultas OLAP_tratado_2023-07-07_21-54-14.csv


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>