<a href="https://colab.research.google.com/github/Pires1789/funcoes_etl_python/blob/main/funcoes_etl_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Função 01
# Carregar arquivos CSV

import pandas as pd

def load_csv(file_path, delimiter=',', header=True, encoding='utf-8'):
    if header:
        df = pd.read_csv(file_path, delimiter=delimiter, encoding=encoding)
    else:
        df = pd.read_csv(file_path, delimiter=delimiter, header=None, encoding=encoding)
    return df

# Exemplo de uso:
# df = load_csv('caminho/para/arquivo.csv', encoding='latin1')

In [None]:
# Função 02
# Remover colunas e linhas com valores ausentes.

import pandas as pd

def drop_missing_values(df, threshold=0.5):
    # Calcula o limite de valores não ausentes necessário
    col_thresh = int(threshold * len(df))
    row_thresh = int(threshold * len(df.columns))

    # Remove colunas com muitos valores ausentes
    df_cleaned = df.dropna(axis=1, thresh=col_thresh)

    # Remove linhas com muitos valores ausentes
    df_cleaned = df_cleaned.dropna(axis=0, thresh=row_thresh)

    return df_cleaned

In [None]:
# Função 03
# Padronizar nome de colunas

import pandas as pd

def clean_column_names(df):
    df.columns = (
        df.columns
        .str.strip()  # Remove espaços em branco do início e fim
        .str.lower()  # Converte para minúsculas
        .str.replace(' ', '_')  # Substitui espaços por underscores
        .str.replace(r'[^\w]', '_', regex=True)  # Remove caracteres especiais
    )
    return df

# Exemplo de uso:
# df = pd.DataFrame({'Nome Coluna': [1, 2], 'Outra@Coluna!': [3, 4]})
# df = clean_column_names(df)

In [None]:
# Função 04
# Alterar o padrão de data.


import pandas as pd

def transform_date_column(df, column_name, format='%Y-%m-%d'):
    df[column_name] = pd.to_datetime(df[column_name], errors='coerce').dt.strftime(format)
    return df

# Exemplo de uso:
# data = {'data': ['2023-01-01', '01/02/2023', 'Mar 3, 2023']}
# df = pd.DataFrame(data)
# df = transform_date_column(df, 'data', format='%d-%m-%Y')
# print(df)


In [1]:
# Função 05
# Agregação com base em colunas específicas.
"""
    Realiza agregação de dados com base em colunas específicas.

    Parâmetros:
    df (DataFrame): DataFrame a ser agregado.
    group_by_columns (list): Lista de colunas para agrupar.
    aggregation_dict (dict): Dicionário definindo as funções de agregação para cada coluna.

    Retorna:
    DataFrame: DataFrame agregado com base nas colunas e funções especificadas.
"""

import pandas as pd

def aggregate_data(df, group_by_columns, aggregation_dict):
    aggregated_df = df.groupby(group_by_columns).agg(aggregation_dict).reset_index()
    return aggregated_df

In [None]:
import pandas as pd

def filter_outliers(df, column_name, method='IQR'):
    """
    Parâmetros:
    df (DataFrame): DataFrame com os dados.
    column_name (str): Nome da coluna a ser filtrada.
    method (str): Método para identificar outliers (por exemplo, 'IQR', 'Z-score').

    Retorna:
    DataFrame: DataFrame com outliers removidos da coluna especificada.
    """
    if method == 'IQR':
        Q1 = df[column_name].quantile(0.25)
        Q3 = df[column_name].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        filtered_df = df[(df[column_name] >= lower_bound) & (df[column_name] <= upper_bound)]
    elif method == 'Z-score':
        from scipy.stats import zscore
        df['z_score'] = zscore(df[column_name])
        filtered_df = df[(df['z_score'] >= -3) & (df['z_score'] <= 3)].drop(columns=['z_score'])
    else:
        raise ValueError("Método não suportado. Use 'IQR' ou 'Z-score'.")

    return filtered_df


In [None]:
import pandas as pd

def join_dataframes(df1, df2, on_columns, how='inner'):
    """
    Realiza a junção de dois DataFrames com base em colunas comuns.

    Parâmetros:
    df1 (DataFrame): Primeiro DataFrame.
    df2 (DataFrame): Segundo DataFrame.
    on_columns (list): Lista de colunas para a junção.
    how (str): Tipo de junção (por exemplo, 'inner', 'left', 'right', 'outer').

    Retorna:
    DataFrame: DataFrame resultante da junção.
    """
    joined_df = pd.merge(df1, df2, on=on_columns, how=how)
    return joined_df

# Exemplo de uso:
# df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['Alice', 'Bob', 'Charlie']})
# df2 = pd.DataFrame({'ID': [1, 2, 4], 'Idade': [25, 30, 35]})
# df_joined = join_dataframes(df1, df2, on_columns=['ID'], how='inner')
# print(df_joined)


In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def normalize_column(df, column_name):
    """
    Normaliza os valores de uma coluna para uma faixa padrão (0 a 1).

    Parâmetros:
    df (DataFrame): DataFrame com a coluna a ser normalizada.
    column_name (str): Nome da coluna a ser normalizada.

    Retorna:
    DataFrame: DataFrame com a coluna normalizada.
    """
    scaler = MinMaxScaler()
    df[column_name] = scaler.fit_transform(df[[column_name]])
    return df

# Exemplo de uso:
# data = {'Valores': [10, 12, 14, 15, 18, 19, 20]}
# df = pd.DataFrame(data)
# df_normalized = normalize_column(df, 'Valores')
# print(df_normalized)


In [None]:
import pandas as pd

def extract_features(df, column_name, new_columns):
    """
    Extrai características adicionais de uma coluna e as adiciona como novas colunas.

    Parâmetros:
    df (DataFrame): DataFrame contendo a coluna de origem.
    column_name (str): Nome da coluna a partir da qual extrair características.
    new_columns (list): Lista de novos nomes de colunas para as características extraídas.

    Retorna:
    DataFrame: DataFrame com as novas colunas adicionadas.
    """
    for new_column in new_columns:
        if new_column == 'year':
            df['year'] = pd.to_datetime(df[column_name]).dt.year
        elif new_column == 'month':
            df['month'] = pd.to_datetime(df[column_name]).dt.month
        elif new_column == 'day':
            df['day'] = pd.to_datetime(df[column_name]).dt.day
        elif new_column == 'weekday':
            df['weekday'] = pd.to_datetime(df[column_name]).dt.weekday
        elif new_column == 'hour':
            df['hour'] = pd.to_datetime(df[column_name]).dt.hour
        elif new_column == 'minute':
            df['minute'] = pd.to_datetime(df[column_name]).dt.minute
        elif new_column == 'second':
            df['second'] = pd.to_datetime(df[column_name]).dt.second
        else:
            raise ValueError(f"Característica '{new_column}' não é suportada.")
    return df

# Exemplo de uso:
# data = {'data_hora': ['2023-01-01 12:00:00', '2023-01-02 13:30:00', '2023-01-03 15:45:00']}
# df = pd.DataFrame(data)
# df = extract_features(df, 'data_hora', ['year', 'month', 'day', 'hour', 'minute', 'second'])
# print(df)


In [None]:
import pandas as pd

def save_to_csv(df, file_path, index=False):
    """
    Salva um DataFrame em um arquivo CSV.

    Parâmetros:
    df (DataFrame): DataFrame a ser salvo.
    file_path (str): Caminho para o arquivo CSV de destino.
    index (bool): Indica se o índice do DataFrame deve ser incluído no CSV.

    Retorna:
    None
    """
    df.to_csv(file_path, index=index)

# Exemplo de uso:
# data = {'Nome': ['Alice', 'Bob', 'Charlie'], 'Idade': [25, 30, 35]}
# df = pd.DataFrame(data)
# save_to_csv(df, 'dados.csv')
