In [51]:
# Importando as bibliotecas

import pandas as pd
import numpy as np
from unidecode import unidecode
import re
import chardet

In [52]:
# Remover os espaços em branco e converter em letras maiúsculas; 
# Usar a biblioteca unidecode para tratar as colunas com acentos e caracteres especiais.

def clean_city(city):
    cleaned_city = city.strip().upper()
    return unidecode(cleaned_city)


In [53]:
# Remover os caracteres não numéricos

def clean_phone(phone):
    return re.sub(r'\D', '', phone)

In [54]:
# Ler, tratar e processar os dados do arquivo CSV em chunks.

def process_chunk(chunk):
    chunk['CITY'] = chunk['CITY'].apply(lambda x: x.strip())
    chunk['CITY_ASCII'] = chunk['CITY'].apply(clean_city)
    chunk['PHONE'] = chunk['PHONE'].apply(clean_phone)
    return chunk

In [55]:
# Arquivo de entrada e de saída.

input_file = 'natal2021.csv'
output_file = 'arquivo_tratado_natal2021_V2.csv'

In [56]:
# Identificar o encoding do arquivo

with open(input_file, 'rb') as file:
    result = chardet.detect(file.read())
encoding = result['encoding']


In [57]:
# Ler e processar os pedaços (chunks de 1000 linhas) do arquivo CSV.

chunksize = 1000
chunks = []

for chunk in pd.read_csv(input_file, encoding=encoding, chunksize=chunksize):
    cleaned_chunk = process_chunk(chunk)
    chunks.append(cleaned_chunk)

In [58]:
# Concatenar os chunks e salvar o arquivo .csv com a nova coluna em utf-8-sig com BOM

cleaned_data = pd.concat(chunks, axis=0)
cleaned_data.to_csv(output_file, index=False, encoding='utf-8-sig')

In [59]:
# Ler o arquivo CSV e criar um dataframe.

df = pd.read_csv ('arquivo_tratado_natal2021_V2.csv')

In [60]:
# Visualizar o dataframe.

df

Unnamed: 0,CUSTOMER_ID,CITY,PHONE,CITY_ASCII
0,aaf2e957-7842-4cca-854d-a29f1aad6dfd,São Paulo,51986338462,SAO PAULO
1,26cb530b-a07f-41a7-b584-3fed3ab72385,São Paulo,51969771473,SAO PAULO
2,c68ae612-d074-4af1-9f11-da5588d218e1,Florianópolis,51900166886,FLORIANOPOLIS
3,b90f9e45-4faa-414d-b1a1-413783c04246,Porto Alegre,51927096260,PORTO ALEGRE
4,5dfe83e1-61c7-442e-8a9f-f30a5c649bae,São Paulo,51924852515,SAO PAULO
...,...,...,...,...
99995,5f4997e2-5e4c-46c2-ab59-7fd6e6469689,São Paulo,51927822710,SAO PAULO
99996,a161c52f-6986-4808-8eb2-19f5b21301b7,Florianópolis,51965547529,FLORIANOPOLIS
99997,c8fdc9fb-fcdb-4233-80b0-de6bd06724da,São Paulo,51967013112,SAO PAULO
99998,925140de-7132-4625-93b5-bf950d84cca0,São Paulo,51945979395,SAO PAULO
