In [None]:
import os
from dbfread import DBF
import csv

# Função para converter um arquivo .dbf em um arquivo .csv
def dbf_to_csv(dbf_file, csv_file):
    table = DBF(dbf_file)
    with open(csv_file, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(table.field_names)
        for record in table:
            writer.writerow(list(record.values()))

# Diretório onde os arquivos .dbf estão localizados
dbf_dir = "C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR"
# Diretório onde os arquivos .csv serão salvos
csv_dir = "C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR/CARs_csv"

# Verifica se o diretório de saída existe, se não, cria
if not os.path.exists(csv_dir):
    os.makedirs(csv_dir)

# Lista todos os arquivos .dbf no diretório
for filename in os.listdir(dbf_dir):
    if filename.endswith(".dbf"):
        dbf_file = os.path.join(dbf_dir, filename)
        # Gera o nome do arquivo .csv substituindo a extensão
        csv_file = os.path.join(csv_dir, filename.replace(".dbf", ".csv"))
        print(f"Convertendo {dbf_file} para {csv_file}")
        dbf_to_csv(dbf_file, csv_file)

print("Conversão concluída.")


## Consolidar os arquivos .csv 

In [8]:
import os
import csv

# Diretório onde os arquivos .csv estão localizados
csv_dir = "C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR/CARs_csv"

# Nome do arquivo consolidado
output_file = "C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR/CARs_csv/cars_consolidado.csv"

# Lista para armazenar os nomes dos arquivos CSV
csv_files = []

# Lista todos os arquivos .csv no diretório
for filename in os.listdir(csv_dir):
    if filename.endswith(".csv"):
        csv_files.append(os.path.join(csv_dir, filename))

# Verifica se há arquivos CSV para consolidar
if len(csv_files) == 0:
    print("Nenhum arquivo CSV encontrado.")
    exit()

# Lista de colunas que você deseja manter
colunas_a_manter = ['cod_imovel', 'mod_fiscal', 'num_area', 'ind_status', 'ind_tipo', 'des_condic', 'municipio', 'cod_estado' ]
# Substitua pelos nomes reais das colunas que deseja manter

# Cria o arquivo consolidado
with open(output_file, 'w', newline='', encoding='utf-8') as output_csv:
    # Inicializa o escritor CSV
    writer = csv.writer(output_csv)

    # Abre o primeiro arquivo CSV para obter o cabeçalho
    with open(csv_files[0], 'r', newline='', encoding='utf-8') as first_csv:
        reader = csv.reader(first_csv)
        header = next(reader)

        # Mantém apenas as colunas desejadas
        header_to_write = [col for col in header if col in colunas_a_manter]
        writer.writerow(header_to_write)

        # Escreve os dados do primeiro arquivo (exceto o cabeçalho)
        for row in reader:
            row_to_write = [row[i] for i, col in enumerate(header) if col in colunas_a_manter]
            writer.writerow(row_to_write)

    # Concatena os dados dos arquivos restantes
    for csv_file in csv_files[1:]:
        with open(csv_file, 'r', newline='', encoding='utf-8') as input_csv:
            reader = csv.reader(input_csv)
            # Ignora o cabeçalho dos arquivos restantes
            next(reader, None)
            # Escreve os dados dos arquivos restantes
            for row in reader:
                row_to_write = [row[i] for i, col in enumerate(header) if col in colunas_a_manter]
                writer.writerow(row_to_write)

print(f"Arquivos consolidados em: {output_file}")


Arquivos consolidados em: C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR/CARs_csv/cars_consolidado.csv


## visualizar df

In [11]:
import pandas as pd

# Caminho para o arquivo consolidado
consolidated_file = "C:/Users/bernardo/Desktop/projetos pessoais/CARs_BRASIL/CARs_BR/CARs_csv/cars_consolidado.csv"

# Lê o arquivo consolidado usando Pandas
df = pd.read_csv(consolidated_file)



In [12]:
# Exibe as primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df.head())

Primeiras linhas do DataFrame:
                                    cod_imovel  mod_fiscal     num_area  \
0  AC-1200435-FA1FAFE4584F4A4286756A9DD56A280A    271.4456   27144.5676   
1  AC-1200435-7966BE27C2484A55A1F2B635C710D9F1     29.3688    2936.8761   
2  AC-1200435-BF161742078A40169FE13B3DF58CCF87     66.1681  231609.1226   
3  AC-1200435-993AF762DF704D4ABF2EB966EAC86681   2315.8844  231609.1226   
4  AC-1200435-AF08DCC29D964FBBAB5870C4C46F4288      1.0013     100.1250   

  ind_status ind_tipo          des_condic            municipio cod_estado  
0         AT      IRU  Aguardando analise  Santa Rosa do Purus         AC  
1         AT      IRU  Aguardando analise  Santa Rosa do Purus         AC  
2         AT      AST  Aguardando analise  Santa Rosa do Purus         AC  
3         AT      PCT  Aguardando analise  Santa Rosa do Purus         AC  
4         AT      IRU  Aguardando analise  Santa Rosa do Purus         AC  


In [13]:
# Exibe informações sobre o DataFrame
print("\nInformações sobre o DataFrame:")
print(df.info())


Informações sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7184510 entries, 0 to 7184509
Data columns (total 8 columns):
 #   Column      Dtype  
---  ------      -----  
 0   cod_imovel  object 
 1   mod_fiscal  float64
 2   num_area    float64
 3   ind_status  object 
 4   ind_tipo    object 
 5   des_condic  object 
 6   municipio   object 
 7   cod_estado  object 
dtypes: float64(2), object(6)
memory usage: 438.5+ MB
None


In [14]:
# Exibe a quantidade de linhas
print(f"\nNúmero de linhas: {len(df)}")


Número de linhas: 7184510
