# Análise Inicial de um Dataframe

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Micro-análise de um Dataframe
def dataframe_macro_analysis(dataframe):
    dataframe = pd.DataFrame(dataframe)
    df = dataframe.copy()

    num_rows, num_cols = df.shape
    print("1) The dataframe has ", num_rows, " lines and ", num_cols, " variables.")

    print("2) The dataframe has the following structure: ")
    print(df.info())

    print("3) The dataframe includes the following variables: ")
    print(dataframe.columns.tolist())

Esta função, **dataframe_macro_analysis**, recebe como entrada um dataFrame e faz uma microanálise, isto é:
  - Para a primeira linha passamos o conjunto de Dados recebido para Data Frame;
  - Na segunda linha, mostramos quantas linhas e colunas que esse Data Frame é composto;
  - Na terceira linha, mostramos a estrutura desse Data Frame, dizendo os nomes de cada coluna e o tipo dela, String, inteiro, character, float, double etc, e mostrando os primeiros valores dessa coluna;
  - Na última linha mostramos o nome de cada variável (coluna).

# Exemplo de Uso:   dataframe_macro_analysis(nome do dataframe)

In [3]:
# Estatísticas Categóricas
import pandas as pd

def categorical_statistics(dataframe) :
    dataframe = pd.DataFrame(dataframe)
    df = dataframe.copy()

    cat_vars = df.select_dtypes(include=['object', 'category', 'bool']).columns.tolist()

    cat_tables = {}
    for var in cat_vars:
        mode = df[var].mode().iloc[0]
        freq_table = df[var].value_counts().reset_index()
        freq_table.columns = ['values', 'frequency']
        freq_table = freq_table.sort_values(by = 'frequency', ascending = False)
        prop_missing = df[var].isna().mean()

        cat_tables[vars] = {
            'mode' : mode,
            'freq_table' : freq_table,
            'prop_missing' : prop_missing
        }

        return {'categorical_tables' : cat_tables}

Esta função, **categorical_statistics**, recebe como entrada um Data Frame, retornando as estatísticas de todas as variaveis categóricas desse Data Frame.

# Exemplo de uso:   categorical_statistics(nome do dataset)

In [4]:
# Confirmar valores omissos
import pandas as pd

def confirm_missing(dataframe):
    dataframe = pd.DataFrame(dataframe)
    df = dataframe.copy()

    num_NA = df.isnull().sum().sum()

    if num_NA <= 0:
        print("The dataframe does not have missing data (NAs)")
    else:
        print("The dataframe has missing data")

Esta função, **confirm_missing**, recebe como entrada um Data Frame, e diz-nos se esse tem ou não dados omissos.

*Nota:* Se o resultado for **"This dataFrame has missing data (NA)!"**, então usamos a função dropna, para dar-nos uma tabela sem esses dados. Caso contrário não é necessário chamar a função, sendo que o conjunto de dados original não tem dados omissos.

# Exemplo de uso:   confirm_missing(nome do dataset)

In [6]:
# Confirmar duplicados
import pandas as pd

def confirm_duplicated(dataframe):
    dataframe = pd.DataFrame(dataframe)
    df = dataframe.copy()

    x = df.duplicated().sum()
    if x > 0:
        print("The dataframe has duplicate data.")
    else:
        print("The dataframe doesn't have duplicate data.")

Esta função, **confirm_duplicated**, recebe como entrada um dataframe, e diz-nos se esse tem ou não dados duplicados.

*NOTA:* Se o resultado for **The dataframe has duplicate data**, então usamos a função drop_duplicated, para ter uma nova tabela sem os dados duplicados.

# Exemplode uso:    confirm_duplicated(nome do dataset)

In [None]:
# Converter Variáveis
import pandas as pd

def convert_dataframe_variables(data, var_names, to_type='integer'):
    data =pd.DataFrame(data)
    df = data.copy()

    conversion_functions = {
        'integer': int,
        'logical': bool,
        'numeric': float,
        'character': str,
        'ordered': lambda x: pd.Categorical(x, ordered=True),
        'factor': lambda x: pd.Categorical(x)
    }

    conversion_function = conversion_functions.get(to_type)

    if conversion_function is None:
        raise ValueError('Invalid data type specified!')
    
    for var_name in var_names:
        df[var_name] = df[var_name].map(conversion_function)
    
    return df

# Ciclical Encoding

In [None]:
import pandas as pd
import numpy as np

def CyclicalEncoding(dataset, variable, position):
    feature = dataset[variable]

    num_month = {'jan': 1, 'feb': 2, 'mar': 3, 'apr': 4, 'may': 5, 'jun': 6, 'jul': 7, 'aug': 8, 'sep': 9, 'oct': 10, 'nov': 11, 'dec': 12}

    # Map the months to numbers from 1 to 12
    map_month = feature.map(num_month)
    
    # Insert Numeric month feature into de Dataset
    dataset.insert(loc=position, column='num_month', value=map_month)

    # Apply Cyclical Encoding
    month_sin = np.sin(2 * np.pi * dataset['num_month'] / 12)
    month_cos = np.cos(2 * np.pi * dataset['num_month'] / 12)
    
    # Insert the new features into de Dataset
    dataset.insert(loc=position, column='month_sin', value=month_sin)
    dataset.insert(loc=(position+1), column="month_cos", value=month_cos)

    # Removing the num_month and original features from the dataset
    dataset = dataset.drop(columns=('num_month', variable))
    
    # Returning the dataset with the cyclical encoding
    return dataset

Esta função, faz um encoding no dataset para uma variável que caracteriza os meses. Isto é, primeiramento cria-se um dicionário com os vários meses do ano, de seguida mapeamos a variável que desejamos encodar (Tem de ser uma variável de meses e de preferência que esteja por extenso), ou seja, criamos uma variável nova onde os meses em vez de estar por extenso está numérica. De seguida aplicamos o tal **Cyclical Encoding**, onde criamos duas variável *seno* e *cosseno*, pois se olharmos no lado de matemática trigonométrica, vemos que na circunferência trigonométrica, o seno é o eixo do y e o cosseno o eixo do x, e que estas duas novas variáveis representam as coordenadas desse ponto de maneira que que o mês de dezembro fica mais perto de janeiro que março fica de janeiro. Para finalizar, adicionamos essas duas variáveis ao dataset como features, e removemos a features original e a que nos mostra os meses em numérico, sendo que já temos as coordenadas trigonométricas que representam os meses.


***IMPORTANTE:***

- Só devemos usar esta função para variável que representam os meses, e que de preferência estejam por extenso.
- Esta função recebe como entrada, o dataset, a variável que representa os meses, e a posição que desejamos colocar estas duas novas variáveis.
- Devemos também dar uma variável a esta funçao, por exemplo:
```Python
new_df = CyclicalEncoding(df, var, pos)
```
Onde new_df, é o nome que queremos dar ao nosso novo dataset, df o nome do nosso antigo dataset, var o nome da variável que queremos fazer o encoding, e pos a posição que desejamos adicionar as duas novas features.       
        