In [1]:
import pandas as pd
from PrettyColorPrinter import add_printer

add_printer(overwrite_pandas_printer=True)

In [3]:
def load_data(uploaded_file):
    """Carrega e processa os dados do arquivo CSV pequeno."""
    try:
        df = pd.read_csv(uploaded_file, sep=',', encoding='utf-8', low_memory=False)
        if "Data" in df.columns:
            df["Data"] = pd.to_datetime(df["Data"], errors='coerce')
        return df
    except FileNotFoundError:
        print(f"Erro: O arquivo {uploaded_file} não foi encontrado.")
    except pd.errors.EmptyDataError:
        print(f"Erro: O arquivo {uploaded_file} está vazio.")
    except pd.errors.ParserError:
        print(f"Erro: O arquivo {uploaded_file} não pôde ser analisado.")
    except Exception as e:
        print(f"Erro: {e}")
    return None


def load_large_data(uploaded_file, sep=',', encoding='utf-8', chunksize=100_000):
    """
    Carrega um arquivo CSV muito grande em chunks para evitar problemas de memória.

    Args:
        uploaded_file: caminho do arquivo CSV ou objeto similar a arquivo.
        sep (str): separador do CSV (default: ',').
        encoding (str): encoding do arquivo (default: 'utf-8').
        chunksize (int): número de linhas por chunk (default: 100_000).

    Returns:
        pd.DataFrame ou mensagem de erro.
    """
    try:
        chunks = []
        for chunk in pd.read_csv(uploaded_file, sep=sep, encoding=encoding, chunksize=chunksize):
            chunks.append(chunk)
        df = pd.concat(chunks, ignore_index=True)
        return df
    except Exception as e:
        return f"Erro ao ler o arquivo: {e}"


def main():
    file_path = "/Users/wilkne/Development/parquet-query/src/data/csv_2/central_west.csv"

    # Escolha a função conforme o tamanho do arquivo
    # Para arquivos pequenos:
    # df = load_data(file_path)

    # Para arquivos grandes, use:
    df = load_large_data(file_path)

    if isinstance(df, pd.DataFrame):
        print("\nPreview dos dados:")
        # print(tabulate(df.head(), headers='keys', tablefmt='fancy_grid', showindex=False))
        print(df.head())

        print("\nTipos de dados das colunas:")
        # print(tabulate(df.dtypes.to_frame('Tipo de Dado'), headers=['Coluna', 'Tipo de Dado'], tablefmt='github'))
        print(df.dtypes.to_frame('Tipo de Dado'))

        print(f"\nShape do DataFrame: {df.shape[0]} linhas x {df.shape[1]} colunas")

        print("\nResumo estatístico:")
        # print(tabulate(df.describe(include='all'), headers='keys', tablefmt='psql'))
        print(df.describe(include='all'))
    else:
        print(df)  # Mensagem de erro


if __name__ == "__main__":
    main()


Preview dos dados:

[12:2p
[30m[41mindex       [0m[40m[93m█[0m[30m[41m    index  [0m[40m[93m█[0m[30m[41m         Data  [0m[40m[93m█[0m[30m[41m    Hora  [0m[40m[93m█[0m[30m[41m   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)  [0m[40m[93m█[0m[30m[41m   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  [0m[40m[93m█[0m[30m[41m   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)  [0m[40m[93m█[0m[30m[41m   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)  [0m[40m[93m█[0m[30m[41m   RADIACAO GLOBAL (Kj/m²)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA DO PONTO DE ORVALHO (°C)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)  [0m[40m[93m█[0m[30m[41m   TEMPERATURA ORVALHO MIN. NA HORA ANT. (