## Biblioteca Pandas

Pandas é uma biblioteca para análise de dados com código aberto e de uso gratuito. Através dela é possívela criação de DataFrames (conjunto de informações estruturadas de forma matricial, no qual cada linha representa um registro e cada coluna representa uma propriedade) para análise de dados.

A biblioteca Pandas se torna muito essencial para modelagem de dados já que através dela, é possível remodelar e reestrurar os DataFrames criados, bem como suas propriedades.

Dentro desta biblioteca é possível trabalhar com combinação de dois ou mais DataFrames, trabalhar com análise temporais, categorização de dados, entre outras diversas funcionalidades

https://pandas.pydata.org/docs/

## Importando a biblioteca Pandas

Para instalar a biblioteca Pandas, é necessário já estar com a linguagem Python instalada na máquina.

Após isso, para fazer a instalação, basta abrir o prompt de comando e digitar o comando pip install pandas

Para importar a biblioteca, é necessário utilizar o comando import e chamar a biblioteca, dessa forma:

import pandas as pd

In [None]:
import pandas as pd

## Tuplas, listas e dicionários

Dentro da ciência e análise de dados, é muito comum a necessidade de se trabalhar com tuplas, listas e dicionários:

Tuplas: Conjunto de valores sequenciais IMUTÁVEIS - representado por ();

EX: minha_tupla = ('valortupla1','valortupla2','valortupla3')

Listas: Conjuntos de valores sequenciais MUTÁVEIS - representado por [];

EX: minha_lista = ['valorlista1', 'valorlista2', 'valorlista3']

Dicionários: Conjunto de chaves + valores - representado por {};

EX: meu_dicionario = {'chavedicionario1': 'valordicionario1', 'chavedicionario2': 'valordicionario2'}

In [None]:
minha_tupla = ('valortupla1','valortupla2','valortupla3')
minha_tupla

In [None]:
minha_lista = ['valorlista1', 'valorlista2', 'valorlista3']
minha_lista

In [None]:
meu_dicionario = {'chavedicionario1': 'valordicionario1', 'chavedicionario2': 'valordicionario2'}
meu_dicionario

## Tipos de dados

É importante saber também quais são os tipos de dados mais comuns utilizados para transformação de dados.

Abaixo é mostrado quais são estes pricipais tipos encontrados:

In [None]:
import datetime as dt

var_Object = 'Isso é uma String'
var_Int64 = 64
var_Float = 52.925
var_Bool = True
var_datetime = dt.datetime(2022, 10, 4)

df_ExTiposDadosPandas = pd.DataFrame(data =  [[var_Object,  var_Int64,  var_Float,  var_Bool,  var_datetime]],\
                                    columns = ['object'  ,  'int64'  ,  'float64',  'bool'  ,  'date_time' ])
df_ExTiposDadosPandas
df_ExTiposDadosPandas.info()

Tipos de dados Pandas: https://blockgeni.com/data-types-in-pandas/

In [None]:
TiposDadosPandas = [['object', 'Texto ou valores numéricos e não numéricos mistos'],
                    ['int64', 'Números inteiros'],
                    ['float64', 'Números de ponto flutuante'],
                    ['bool', 'Valores verdadeiro/falso']]

TiposDadosPandas
df_TiposDadosPandas = pd.DataFrame(data = TiposDadosPandas, columns = ['Tipo de dados pandas', 'Uso'])
df_TiposDadosPandas

## Leitura de arquivos Pandas

Com o Pandas é possível fazer a leitura de vários tipos de dados, como json, csv, html, etc. 

read_json()

read_csv()

read_html()

Em nosso exemplo, vamos utilizar o comando read_csv() para efetuar a leitura do arquivo que faremos a modelagem multidimensional.

Trata-se dos dados de emissão de gás carbônico (CO2) em diversos países do mundo. Disponível em:

https://www.kaggle.com/datasets/koustavghosh149/co2-emission-around-the-world

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
CO2_emission = pd.read_csv('/content/drive/MyDrive/MiniCurso/bronze/CO2_emission/CO2_emission.csv', sep=',')

In [None]:
CO2_emission # visualizar todo o dataframe

#CO2_emission['Country Name'] # visualizar apenas a coluna informada (Country Name)

#CO2_emission['Country Name'][0] # visualizar apenas a coluna informada (Country Name) e apenas a linha informada (linha 0)

#CO2_emission[['country_code','Region','1993']] # visualizar mais de uma coluna. OBS: Note que foi utilizada uma lista com as
                                                # informações das colunas que se deseja
    
#CO2_emission.dtypes # visualizar o tipo de dados
        # ou
#CO2_emission.info()

In [None]:
data = []
for linha in CO2_emission.index: # Para cada valor contido em cada índice das linhas:
    #print(linha)
    Country_Name = CO2_emission['Country Name'][linha] # Armazene a informação da coluna Country Name de cada linha percorrida
                                                       # em uma variável chamada Country_Name
    country_code = CO2_emission['country_code'][linha] # Armazene a informação da coluna country_code de cada linha percorrida
                                                       # em uma variável chamada Country_Name
    Region = CO2_emission['Region'][linha] # Armazene a informação da coluna Region de cada linha percorrida em uma variável 
                                           # chamada Country_Name
    Indicator_Name = CO2_emission['Indicator Name'][linha]
    for count in enumerate(CO2_emission):
        if count[0] > 3:
            #print(linha)
            #print(count[1])
            Ano = count[1] # Armazene O NOME de cada coluna correspondente aos anos (for count) 
                           # de cada linha percorrida (for linha) em uma variável chamada Ano
            CO2_emission_value = CO2_emission[count[1]][linha] # Armazene A INFORMAÇÃO de cada coluna correspondente aos anos (for count) 
                           # de cada linha percorrida (for linha) em uma variável chamada Ano
            if Ano == '2019.1': # Para efeito didático, vamos tranformar o dado de 2019.1 como dado de 2020
                Ano = '2020'
            # Cada valor salvo nas variáveis acima será armazenado na lista data criado anteriormente
            data.append([Country_Name,country_code,Region,Indicator_Name,Ano,CO2_emission_value])
#print(data)
    
# Transformando a lista data em um dataframe
df_CO2_emission=pd.DataFrame(data,columns=['Country_Name','country_code','Region','Indicator_Name','Ano','CO2_emission_value'])


df_CO2_emission
#df_CO2_emission.info()

## Extraindo as tabelas dimensões

As tabelas dimensões são tabelas utilizadas, normalmente como filtros dentro de uma aplicação de Business Inteligence (BI)

Através dela, se tem as colunas que são denominados atributos (cada campo da tabela dimensão), sendo um atributo chave (semelhante à PK - primary key ou chave primária), ou seja, um valor exclusivo para cada membro da tabela (cada linha da tabela dimensão).

Assim, além de ser uma tabela específica que relaciona suas dependências (por exemplo a categoria de um produto depende do produto em si), este ainda diminui a quatidade de informações na tabela fato (será explicado posteriormente).

Além disso, para aplicações de BIs, torna-se interessante a criação de tabelas dimensões, uma vez que qualquer dado específico que se deseja verificar, a aplicação precisará consultar um número menor de registros quando comparado à tabela pura (sem as tabelas dimensões e fato), assim melhorando o processamento para o consumidor final.

Dessa forma, através do dataframe df_CO2_emission, vamos trabalhar com duas tabelas dimensões:

Dimensão de data, para fazer análises ao longo do tempo, conforme a coluna de ano.

Dimensão de país, para fazer as análises por região, conforme coluna country_code e suas dependências.

In [None]:
# Criação de funções para extrair uma tabela de calendário 

def create_dim_date(start_date, end_date):
    '''
    Create Dimension Date in Pandas
    
    :return df_date : DataFrame
    '''
    from pandas.tseries.offsets import MonthEnd, QuarterEnd

    # Construct DIM Date Dataframe
    df_date = pd.DataFrame({"Date": pd.date_range(start=f'{start_date}', end=f'{end_date}', freq='D')})

    # Add in attributes
    #df_date["Day"] = df_date.Date.dt.isocalendar()
    df_date["DayOfWeek"] = df_date.Date.dt.dayofweek
    df_date["Week"] = df_date.Date.dt.isocalendar().week
    df_date["Month"] = df_date.Date.dt.month
    df_date["Quarter"] = df_date.Date.dt.quarter
    df_date["Year"] = df_date.Date.dt.year
    df_date["Fiscal_Year"] = df_date['Date'].dt.to_period('A-JUN')
    df_date['EOM_YN'] = df_date['Date'].dt.is_month_end
    df_date['EOQ_YN'] = df_date['Date'].dt.is_quarter_end

    return df_date
    
# create data frame with dates
df_dim = create_dim_date(min(pd.DatetimeIndex(df_CO2_emission['Ano'])).strftime('%Y%m%d'), max(pd.DatetimeIndex(df_CO2_emission['Ano'])).strftime('%Y%m%d'))

columns_selected = ['Date','DayOfWeek','Week','Month','Quarter','Year']
df_dim = df_dim[columns_selected]

df_dim = df_dim.rename(columns={
    "Date": "date",
    "DayOfWeek": "day_of_week",
    "Week":"week_of_year",
    "Month": "month",
    "Quarter":"quarter",
    "Year":"year",
}, errors="raise")


df_dim["day"] = df_dim.date.dt.strftime('%d')
df_dim["key_date"] = df_dim.date.dt.strftime('%Y%m%d')

# add type description fields
months_map = [{
        'month': 1,
        'month_name_en_us': 'January',
        'month_name_pt_br': 'Janeiro',
        'month_abbrev_en_us': 'Jan',
        'month_abbrev_pt_br': 'Jan',
    },{
        'month': 2,
        'month_name_en_us': 'February',
        'month_name_pt_br': 'Fevereiro',
        'month_abbrev_en_us': 'Feb',
        'month_abbrev_pt_br': 'Fev',
    },{
        'month': 3,
        'month_name_en_us': 'March',
        'month_name_pt_br': 'Março',
        'month_abbrev_en_us': 'Mar',
        'month_abbrev_pt_br': 'Mar',
    },{
        'month': 4,
        'month_name_en_us': 'April',
        'month_name_pt_br': 'Abril',
        'month_abbrev_en_us': 'Apr',
        'month_abbrev_pt_br': 'Abr',
    },{
        'month': 5,
        'month_name_en_us': 'May',
        'month_name_pt_br': 'Maio',
        'month_abbrev_en_us': 'May',
        'month_abbrev_pt_br': 'Mai',
    },{
        'month': 6,
        'month_name_en_us': 'June',
        'month_name_pt_br': 'Junho',
        'month_abbrev_en_us': 'Jun',
        'month_abbrev_pt_br': 'Jun',
    },{
        'month': 7,
        'month_name_en_us': 'July',
        'month_name_pt_br': 'Julho',
        'month_abbrev_en_us': 'Jul',
        'month_abbrev_pt_br': 'Jul',
    },{
        'month': 8,
        'month_name_en_us': 'August',
        'month_name_pt_br': 'Agosto',
        'month_abbrev_en_us': 'Aug',
        'month_abbrev_pt_br': 'Ago',
    },{
        'month': 9,
        'month_name_en_us': 'September',
        'month_name_pt_br': 'Setembro',
        'month_abbrev_en_us': 'Sep',
        'month_abbrev_pt_br': 'Set',
    },{
        'month': 10,
        'month_name_en_us': 'October',
        'month_name_pt_br': 'Outubro',
        'month_abbrev_en_us': 'Oct',
        'month_abbrev_pt_br': 'Out',
    },{
        'month': 11,
        'month_name_en_us': 'November',
        'month_name_pt_br': 'Novembro',
        'month_abbrev_en_us': 'Nov',
        'month_abbrev_pt_br': 'Nov',
    },{
        'month': 12,
        'month_name_en_us': 'December',
        'month_name_pt_br': 'Dezembro',
        'month_abbrev_en_us': 'Dec',
        'month_abbrev_pt_br': 'Dez',
    },

]
df_months_map = pd.DataFrame(months_map)

result = pd.merge(
    df_dim, df_months_map, left_on='month', right_on='month', how="left", sort=False
)

df_dim = result

# add type description fields
day_of_weeks_map = [{
        'day_of_week': 0,
        'day_of_week_en_us': 'Monday',
        'day_of_week_pt_br': 'Segunda-feira',
        'day_of_week_abbrev_en_us': 'Mon',
        'day_of_week_abbrev_pt_br': 'Seg',
    },{
        'day_of_week': 1,
        'day_of_week_en_us': 'Tuesday',
        'day_of_week_pt_br': 'Terça-feira',
        'day_of_week_abbrev_en_us': 'Tue',
        'day_of_week_abbrev_pt_br': 'Ter',
    },{
        'day_of_week': 2,
        'day_of_week_en_us': 'Wednesday',
        'day_of_week_pt_br': 'Quarta-feira',
        'day_of_week_abbrev_en_us': 'Wed',
        'day_of_week_abbrev_pt_br': 'Qua',
    },{
        'day_of_week': 3,
        'day_of_week_en_us': 'Thursday',
        'day_of_week_pt_br': 'Quinta-feira',
        'day_of_week_abbrev_en_us': 'Mon',
        'day_of_week_abbrev_pt_br': 'Qui',
    },{
        'day_of_week': 4,
        'day_of_week_en_us': 'Friday',
        'day_of_week_pt_br': 'Sexta-feira',
        'day_of_week_abbrev_en_us': 'Fri',
        'day_of_week_abbrev_pt_br': 'Sex',
    },{
        'day_of_week': 5,
        'day_of_week_en_us': 'Saturday',
        'day_of_week_pt_br': 'Sábado',
        'day_of_week_abbrev_en_us': 'Sat',
        'day_of_week_abbrev_pt_br': 'Sab',
    },{
        'day_of_week': 6,
        'day_of_week_en_us': 'Sunday',
        'day_of_week_pt_br': 'Domingo',
        'day_of_week_abbrev_en_us': 'Sun',
        'day_of_week_abbrev_pt_br': 'Dom',
    }
]
df_day_of_weeks_map = pd.DataFrame(day_of_weeks_map)

result = pd.merge(
    df_dim, df_day_of_weeks_map, left_on='day_of_week', right_on='day_of_week', how="left", sort=False
)

columns_order = [
    'key_date', 
    'year', 
    'quarter', 
    'month',
    'month_name_en_us',
    'month_name_pt_br',
    'month_abbrev_en_us',
    'month_abbrev_pt_br',
    'week_of_year',
    'day_of_week',
    'day_of_week_en_us',
    'day_of_week_pt_br',
    'day_of_week_abbrev_en_us',
    'day_of_week_abbrev_pt_br',
    'day',
]

df_dim_date_start = result.reindex(columns=columns_order)
df_dim_date_start['date'] = pd.to_datetime(df_dim_date_start['key_date'])

In [None]:
#df_dim_date_start
#df_dim_date_start.info()

In [None]:
df_dim_date_start.to_csv('/content/drive/MyDrive/MiniCurso/gold/dim_date/dim_date.csv', sep=',', index=False)

In [None]:
dim_country = df_CO2_emission[['country_code','Country_Name','Region']]
dim_country = dim_country.drop_duplicates(['country_code','Country_Name','Region'])

dim_country = dim_country.rename(columns=
{
    "country_code": "key_country",
    "Country_Name": "country_name", 
    "Region": "region",
})

In [None]:
#dim_country
#dim_country.info()

In [None]:
dim_country.to_csv('/content/drive/MyDrive/MiniCurso/gold/dim_country/dim_country.csv', sep=',', index=False)

## Extraindo a tabela fato

A tabela fato é a tabela que armazena quais foram as métricas que de fato ocorreram na base de dados. Atravé dela podemos identificar os dados de maneira que mostre os fenômenos que ocorreram.

Devido ao fato de se ter desmembrado a tabela original em tabelas dimensões e fato, a tabela fato tende a ser mais enxuta quando se comparado à original.

Na tabela fato é necessário manter apenas as métricas e as referências que essas métricas pertencem, ou seja, cada atributo-chave criado nas dimensões, criando assim uma relação de dependência entre as tabelas dimensões e fato.

Dessa forma, a tabela fato irá receber o atributo-chave correspondente às tabelas dimensões (semelhante à FK - Foreign Key ou chaves estrangeiras) mais todas as métricas que ela possui.

Apenas relembrando, foi criado então a tabela dimensão data (em que o atributo chave é a key_date) e a tabela dimensão country (em que o atributo chave é a key_country). Dessa forma, na tabela fato é necessário ter esses campos para fazer a referência nessas tabelas dimensões. Além disso, como nosso intuito é analisar os dados de emissão de gás carbônico, a tabela fato é necessário ter também a métrica, ou seja, os valores efetivos de emissão de carbono. 

In [None]:
df_CO2_emission['key_date'] = pd.DatetimeIndex(df_CO2_emission['Ano']).strftime('%Y%m%d')
fact_CO2_emission = df_CO2_emission[['country_code','key_date','CO2_emission_value']]
fact_CO2_emission = fact_CO2_emission.rename(columns=
{
    "country_code": "key_country",
    "CO2_emission_value": "m_co2_emission",
})

In [None]:
#fact_CO2_emission
#fact_CO2_emission.info()

In [None]:
fact_CO2_emission.to_csv('/content/drive/MyDrive/MiniCurso/gold/fact_co2_emission/fact_co2_emission.csv', sep=',', index=False)