In [3]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [4]:
# Exemplo de uso
 # Substitua pelo caminho do seu arquivo
# caminho_arquivo = 'caminho/para/seu/arquivo.csv'
caminho_arquivo = 'student-mat.csv'
# Adicione nesse dict quaisquer argumentos extras necessários
kwargs = {
    # "sep" : '\t' # para .txt
    "sep" : ';' # para student-mat.csv
}

In [5]:
formato_load = {
    'csv': pd.read_csv,
    'xlsx': pd.read_excel,
    'xls': pd.read_excel,
    'json': pd.read_json,
    'parquet': pd.read_parquet,
    'h5': pd.read_hdf,
    'hdf5': pd.read_hdf,
    'feather': pd.read_feather,
    'dta': pd.read_stata,
    'sas7bdat': pd.read_sas,
     # 'msgpack': pd.read_msgpack,
    'orc': pd.read_orc,
    'pkl': pd.read_pickle,
    'pickle': pd.read_pickle,
    'xml': pd.read_xml
}

In [6]:
def carregar_dataframe(caminho_arquivo,
                       query = None,
                       conn_string = None,
                       kwargs = {}):

    # Verifica a extensão do arquivo
    tipo_arquivo = caminho_arquivo.split('.')[-1]
    tipos_suportados = list(formato_load.keys()) + [ 'ods', 'sql', 'txt']

    if tipo_arquivo in formato_load:
        return formato_load[tipo_arquivo](caminho_arquivo, **kwargs)
    elif tipo_arquivo == 'txt':
        # Supondo que seja um arquivo de texto separado por tabulações
        return pd.read_csv(caminho_arquivo, sep='\t', **kwargs)
    elif tipo_arquivo == 'ods':
        # O engine 'odf' é usado para arquivos ODS
        return pd.read_excel(caminho_arquivo,
                             engine='odf',
                             **kwargs)  
    elif tipo_arquivo == 'sql':
        # Para carregar de um banco de dados SQL, você precisa:
        # De uma conexão: (Exemplo) engine = create_engine('sqlite:///meu_banco.db')
        # De uma query: (Exemplo) query = "SELECT * FROM TABLE"            
        if query is None or conn_string is None:
            raise ValueError("Para .sql, forneça uma conexão de banco de dados.")
        else:
            return pd.read_sql(query, conn_string)
    else:
        msg_erro = f"Tipo {tipo_arquivo} não suportado. Permitidos:{tipos_suportados}"
        raise ValueError(msg_erro)

In [7]:
try:
    df = carregar_dataframe(caminho_arquivo,
                            kwargs = kwargs)
except Exception as e:
    print(f"Ocorreu um erro: {e}")
    print(f"Criando df em branco")
    df = pd.DataFrame()

# Exibe as primeiras linhas do dataframe
df.head(5)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10
