# Por que Julia?

## Por que escolher Julia?

-   A linguagem de programação `Julia`, lançada oficialmente em 2012, tem se destacado como uma alternativa moderna para ciência de dados e computação científica, competindo com linguagens como `Matlab`, `Python` e `R`;
-   É utilizada não apenas na academia, [mas também fora dela.](https://ime.unicamp.br/julialang/Blog/Julia%20no%20Mercado%20de%20Trabalho.html);
-   `Julia` é gratuita;
-   `Julia` oferece desempenho próximo ao de C++, aliado à facilidade de aprendizado e sintaxe simples, comparáveis a `Python` e `R`;
-   `Julia` permite escrever código com símbolos matemáticos diretamente `r emo::ji("nerd")`, facilitando a expressão de conceitos científicos;
-   `Julia` resolve o problema das duas linguagens `r emo::ji("cool")`;
-   Etc.

## Do Zero ao Julia

Conheça o nosso Blog!

www.ime.unicamp.br/julialang

# Importação de Dados

Nesta seção veremos como importar nossos datasets, estando eles armazenados localmente ou online. Também veremos a diferença na leitura de diferentes formatos, como **.csv**, **.txt** e **.xlsx**.

## Pacotes necessários

O `Julia` conta com diversos pacotes que usamos para leitura de datasets, dentre eles vamos focar nos seguintes:

``` julia
import Pkg

Pkg.add("DataFrames");
Pkg.add("CSV")
Pkg.add("XLSX")
```

- `DataFrames` : Manipulação e análise de dados em formato tabular, similar ao pandas (`Python`) ou data.frame (`R`);
- `CSV` : Leitura e escrita de arquivos CSV de forma rápida e eficiente;
- `XLSX` : Leitura e escrita de arquivos Excel (.xlsx).

## Funções básicas

Com os pacotes necessários instalados, agora vejamos como as funções de leitura funcionam:

``` julia
using DataFrames, CSV, XLSX

# .csv

df_csv = CSV.read("caminho/dados.csv", DataFrame)

# .txt

df_txt = CSV.read("caminho/dados.txt", DataFrame, delim=';')

# .xlsx

sheets = XLSX.readxlsx("caminho/dados.xlsx")
df_xlsx = DataFrame(sheets)
```

## Funções básicas

Podemos usar a função `download()` é usada para baixar um arquivo temporariamente e retorna o caminho local onde ele foi salvo.

**Ex.:**

``` julia
using DataFrames

dados_csv = CSV.read(download(url), DataFrame, delim=';')

first(dados_csv, 5) # Podemos usar a função first() para visualizar as primeiras linhas do dataset
```

## Importação dos pacotes

Agora, vamos botar a mão na massa e ler os dados que usaremos na aula de hoje!

Primeiramente, faremos a importação de todos os pacotes que usaremos ao longo do código.

Essa é uma prática recomendada quando o projeto já foi inteiramente desenvolvido e já sabemos de quais pacotes precisaremos.

Vale ressaltar que, apesar de esse ser nosso primeiro bloco (por motivos de praticidade e otimização de tempo no minicurso), na prática, essa é a última etapa feita.  


In [None]:
import Pkg
Pkg.add("CSV")
Pkg.add("DataFrames")
Pkg.add("StatsBase")
Pkg.add("Plots")
Pkg.add("TidierData")
Pkg.add("StatsPlots")
Pkg.add("MLJ")
Pkg.add("CategoricalArrays")
Pkg.add("GLM")

[32m[1m    Updating[22m[39m registry at `~/.julia/registries/General.toml`
[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Manifest.toml`
[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Manifest.toml`
[32m[1m   Resolving[22m[39m package versions...
[32m[1m    Updating[22m[39m `~/.julia/environments/v1.11/Project.toml`
  [90m[2913bbd2] [39m[92m+ StatsBase v0.34.6[39m
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Manifest.toml`
[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.11/Manifest.toml`
[32m[1m   Resolving[22m[39m pac

## Leitura da base de dados

Agora, vamos botar a mão na massa e ler os dados que usaremos na aula de hoje!

- **Exercício 1**
  - **1.1** Escreva o código para o ler o dataset vindo da url abaixo.
  - **1.2** Visualize as primeiras 10 linhas do seu dataset.
  

`https://raw.githubusercontent.com/Arthur-Dionizio/minicurso-julia/main/datasets/dataset.csv`

In [None]:
# Escreva seu código aqui

# Banco de dados

## Dados de faixas do Spotify

Vamos analisar um banco de dados de faixas do Spotify abrangendo 125 gêneros diferentes. Aqui estão as principais colunas do dataset:

1. **`track_id`**: O ID do Spotify para a faixa.

2. **`artists`**: Os nomes dos artistas que interpretaram a faixa. Se houver mais de um artista, eles serão separados por ";" ;

3. **`album_name`**: O nome do álbum de onde a faixa pertence;

4. **`track_name`**: Nome da faixa;

5. **`popularity`**: A popularidade de uma faixa é um valor entre 0 e 100, sendo 100 o mais popular, sendo calculada a partir (de forma geral) do número de streams daquela faixa, e o quão recente foram essas streams;

6. **`duration_ms`**: A duração da faixa em milissegundos;

7. **`explicit`**: Indica se a faixa contém letras explícitas (`true` = sim, contém; `false` = não contém ou desconhecido);

8. **`danceability`**: A dançabilidade descreve o quão adequada uma faixa é para dançar com base em uma combinação de elementos musicais, incluindo andamento, estabilidade do ritmo, força da batida e regularidade geral. Um valor de 0,0 é o menos dançante e 1,0 o mais dançante;

9. **`energy`**: Energia é uma medida de 0,0 a 1,0 e representa uma medida perceptual de intensidade e atividade. Normalmente, músicas energéticas parecem rápidas, altas e barulhentas. Por exemplo, o death metal tem alta energia, enquanto um prelúdio de Bach tem baixa pontuação na escala;

10. **`key`**: A tonalidade em que a faixa está. Os inteiros mapeiam para notas usando a notação de classe de alturas padrão (*Pitch Class*). Se nenhuma tonalidade for detectada, o valor é -1;

11. **`loudness`**: O volume total de uma faixa em decibéis (dB);

12. **`mode`**: O modo indica a modalidade (maior ou menor) de uma faixa, ou seja, o tipo de escala a partir da qual seu conteúdo melódico é derivado. O modo maior é representado por 1 e o menor por 0;

13. **`speechiness`**: Detecta a presença de palavras faladas em uma faixa. Quanto mais exclusivamente semelhante à fala for a gravação (por exemplo, talk show, audiolivro, poesia), mais próximo de 1,0 será o valor do atributo. Valores acima de 0,66 descrevem faixas que provavelmente são compostas inteiramente de palavras faladas. Valores entre 0,33 e 0,66 descrevem faixas que podem conter música e fala, seja em seções ou em camadas, incluindo casos como rap. Valores abaixo de 0,33 provavelmente representam música e outras faixas que não se assemelham à fala;

14. **`acousticness`**: Uma medida de confiança de 0,0 a 1,0 para determinar se a faixa é acústica. 1,0 representa alta confiança de que a faixa é acústica;

15. **`valence`**: Uma medida de 0,0 a 1,0 que descreve a positividade musical transmitida por uma faixa. Faixas com alta valência soam mais positivas (por exemplo, felizes, alegres, eufóricas), enquanto faixas com baixa valência soam mais negativas (por exemplo, tristes, deprimidas, raivosas);

16. **`tempo`**: O andamento estimado geral de uma faixa em batidas por minuto (BPM);

17. **`track_genre`**: O gênero da faixa;

18. **`instrumentalness`**: Prevê se uma faixa não contém vocais. Sons de "Ooh" e "aah" são tratados como instrumentais neste contexto. Faixas de rap ou palavra falada são claramente "vocais". Quanto mais próximo o valor de instrumentalidade estiver de 1,0, maior a probabilidade de a faixa não conter conteúdo vocal;

19. **`liveness`**: Detecta a presença de público na gravação. Valores mais altos de ao vivo representam uma probabilidade maior de que a faixa tenha sido tocada ao vivo. Um valor acima de 0,8 fornece alta probabilidade de que a faixa seja ao vivo;

20. **`time_signature`**: Fórmula de compasso estimada. O compasso é uma convenção de notação que especifica quantas batidas há em cada compasso. O valor varia de 3 a 7, representando compassos de 3/4 até 7/4.

# Manipulação de banco de dados

Agora que temos o nosso dataset, vamos passar por algumas funções e pacotes que vão nos auxiliar na limpeza dos nossos dados!

## Tidier.jl

A biblioteca `Tidier.jl` possui vários pacotes que auxiliam na manipulação e análise de datasets. Para quem está vindo do `R`, esses pacotes são bem similares e intuitivos. Aqui estão alguns dos pacotes:

- **`TidierData`** : Implementação 100% `Julia` dos pacotes `dplyr` e `tidyr` do `R`. Usado na tranformação e manipulação dos dados;
- **`TidierPlots`** : Implementação 100% `Julia` do pacote `ggplot2` do `R`;
- **`TidierStrings`** : O objetivo deste pacote é replicar o `stringr` do `R` em `Julia` de uma forma que funcione com o Tidier ou como uma função autônoma.

> Para saber mais sobre o uso do pacote Tidier.jl e suas funcionalidades, consulte a [documentação oficial](https://tidierorg.github.io/Tidier.jl/v1.6.1/) e o [artigo do blog do IMECC/Unicamp](https://ime.unicamp.br/julialang/Blog/tidierdata.html).

## Pacote TidierData.jl

Para a nossa análise de hoje, vamos utilizar principalmente o pacote `TidierData`.

### Funções Macro

Para suportar a programação no estilo `R`, o `TidierData.jl` é implementado usando **macros**. Isso ocorre porque as **macros** são capazes de "capturar" o código antes de executá-lo, o que permite que o pacote suporte "expressões *tidy*" semelhantes ao `R` que, de outra forma, não seriam consideradas código `Julia` válido.

In [None]:
# Não será necessário rodar esse código, pois já fizemos a importação de todos os pacotes logo no início do código!

"""import Pkg

Pkg.add("TidierData")"""

In [None]:
using TidierData

@chain df begin
    @filter(popularity > 50)
    @arrange(desc("energy"))
    @select(track_name, popularity, energy, acousticness)
    @slice(1:5)
end

- Para quem já está familiarizado com a linguagem `R`, a função `@chain()` é similar ao pipeline `%>%` ou `|>`, usado para encadear várias operações em sequência no mesmo conjunto de dados.

    - `@filter()` : Filtra as linhas com base em uma restrição;
    - `@arrange()` : Ordena as linhas com base em uma coluna (`desc()` para definir ordem crescente ou decrescente);
    - `@select()` : Seleciona as colunas de interesse;
    - `@slice()` : Seleciona as linhas para visualização.

> Obs.: A função `desc()` é uma função auxiliar.

---

### Funções auxiliares

Algumas funções auxiliares do pacote que é importante citarmos:

- `across()` : Aplica uma função a várias colunas de uma vez;
- `n()` e `row_number()` : Retornam o número total de linhas ou o número da linha;
- `replace_missing()` : Substitui valores ausentes em uma coluna por um valor especificado.

Outras funções auxiliares do pacote DataFrames.jl e da base do `Julia` que vale mencionar:

- `dropmissing()` : Remove as linhas que contêm valores faltantes (*missing*);
- `unique()` : Retorna os valores distintos únicos de um vetor ou coluna, removendo duplicatas;
- `nrow()` : Retorna o número de linhas de um DataFrame ou matriz;
- `any()` : Testa se **pelo menos um** elemento de uma coleção (ou resultado de uma condição) é verdadeiro; retorna `true` ou `false`.

## Limpeza de dados: Tratando valores faltantes

- **Exercício 2**
  - **2.1** Verifique quantas linhas possuem `missing` em alguma coluna.
  - **2.2** Retire essas linhas do dataset.

> Dica: Use a função `any()` e a função `ismissing` no formato `row -> any(ismissing, row)` para verificar se há colunas sem informação. Nesse caso, a função `filter()` da base do `Julia` é mais eficiente, no formato `filter(condição, dados)`.

In [None]:
# Escreva seu código aqui

Obs: Caso queira conferir o tipo dos dados de cada coluna, utilize:

In [None]:
# eltype.(eachcol(df))

## Limpeza de dados: Tratando valores duplicados

Agora sem valores faltantes, vamos verificar faixas duplicadas.

- **Exercício 3**
  - **3.1** Verifique quantas faixas duplicadas tem no dataset (filtre pelo `track_id`).
  - **3.2** Retire as faixas duplicadas.

In [None]:
# Escreva seu código aqui



---



# Análise Exploratória dos Dados (EDA)

Nesta etapa, exploramos as variáveis do dataset para entender a distribuição dos dados, identificar padrões e obter insights iniciais.

**`Statistics.jl`**: Biblioteca padrão do Julia que oferece funções estatísticas básicas, como média (mean), mediana (median), variância (var), desvio-padrão (std), entre outras.

**`StatsBase.jl`**: Complementa o pacote Statistics com funções estatísticas adicionais, como countmap (para criar tabelas de frequência), cálculo de quantis, amostragem aleatória e medidas de dispersão.

**`Plots.jl`**: Biblioteca versátil de criação de gráficos, permitindo gerar diferentes tipos de visualizações de forma simples e customizável.

**`StatsPlots.jl`**: Extensão do Plots.jl que integra funcionalidades estatísticas, permitindo criar gráficos como boxplots, violin plots e heatmaps diretamente a partir de DataFrames.

> Para aprender mais sobre a criação de gráficos no Julia, acesse o tutorial oficial disponível no site do [IMECC/Unicamp: Gráficos básicos em Julia](https://ime.unicamp.br/julialang/Tutoriais/graf_basico.html).


## EDA: Gerando estatísticas descritivas
Nesta etapa, utilizaremos funções básicas dos pacotes Statistics, StatsPlots e Plots para explorar e resumir o conjunto de dados.

- **Exercício 4**
  - **4.1** Importe as bibliotecas mencionadas acima para habilitar o cálculo de medidas estatísticas e a criação de visualizações.
  - **4.2** Identifique e liste os cinco (5) artistas com maior número de faixas no dataset, ou seja, aqueles mais presentes na base de dados — lembrando que isso não implica necessariamente que sejam os mais populares.
  - **4.3** Obtenha as estatísticas descritivas das variáveis numéricas referentes ao artista com o maior número de faixas no dataset.

In [None]:
# Escreva seu código aqui

## EDA: Gerando gráficos descritivos
- **Exercício 5**
  - **5.1** Converta a variável `duration_ms`, que está em milissegundos, para minutos utilizando o operador de divisão elemento a elemento ./. Nomeie a nova coluna como `duration_min`.
> Dica: 1 minuto equivale a 60.000 milissegundos.

  - **5.2** Crie um histograma representando o tempo de duração das músicas em minutos. Analise o gráfico e identifique em qual intervalo de tempo a duração é predominante.

  - **5.3** Gere o gráfico da curva de densidade para a variável `duration_min`, permitindo observar a distribuição de forma suavizada.


In [None]:
# Escreva seu código aqui

## EDA: Medidas de correlação
* A correlação é uma medida estatística que descreve a força e a direção do relacionamento linear entre duas variáveis quantitativas.
O coeficiente de correlação, r, varia entre -1 e 1:

  - indica correlação positiva perfeita,

  - -1 indica correlação negativa perfeita,

  - 0 indica ausência de correlação.

Uma correlação positiva significa que, à medida que uma variável aumenta, a outra também tende a aumentar.
Já uma correlação negativa significa que, à medida que uma variável aumenta, a outra tende a diminuir.

- **Exercício 6**
  - **6.1** Separe as colunas do dataframe em `var_numericas` e `var_categoricas`.
  - Exemplo:
    ``` julia
    var_numericas = [:popularity, :duration_ms]
    var_discretas = [:track_genre, :track_id]
    ```

  - **6.2** Gere uma nova tabela, derivada da tabela original, com apenas as variáveis numéricas. Chame essa nova tabela de `numdf`.
  - **6.3** Usando `cor(Matrix())`, faça uma matriz de correlação com as variáveis de `numdf`.

  - **6.4** Plote-a usando a função `heatmap()`. Quais variáveis se relacionam mais e quais se relacionam menos?
> Dica: a função `heatmap()` recebe valores tridimensionais. Converta a variável `var_numericas` para `String` e relacione com a matriz de correlação.

  - **6.5** Gere também uma outra tabela `X`, que conterá apenas as colunas numéricas e categóricas que usaremos em nosso modelo, e separe nossa variável resposta numa variável `Y` isolada.

In [None]:
# Escreva seu código aqui

In [None]:
# X = select(df, union(?, ?))
# y = df.variavel_resposta

  - Para verificar se deu certo, rode uma célula contendo apenas `X` e uma contendo apenas `y`
  - Para rodas ambos na mesma célula, você deve utilizar a função `display()`. Por padrão, Julia exibe somente o último objeto da célula

# Pré-processamento

## Pré-processamento: Divisão do dataset em dataset de treino e dataset de teste

In [None]:
using MLJ
# Substitua o parâmetro ? pela porcentagem (em decimal) do dataset total que você deseja designar para
# treino. O Restante ficará para com dataset de teste.
train_idx, test_idx = partition(collect(eachindex(y)), ?, shuffle=true, rng=42)

X_train = X[train_idx, :]
X_test  = X[test_idx, :]
y_train = y[train_idx]
y_test  = y[test_idx]

## Pré-processamento: Normalização das variáveis numéricas

In [None]:
# verificando as colunas numéricas:
describe(df[:, var_numericas], :min, :max)

In [None]:
using MLJ
using StatsBase

In [None]:
# --- 3. Normalização das colunas contínuas ---
X_train_scaled = deepcopy(X_train)
X_test_scaled  = deepcopy(X_test)

for col in var_numericas
    x_train = Float64.(X_train[!, col])
    scaler = fit(UnitRangeTransform, x_train)

    X_train_scaled[!, col] = StatsBase.transform(scaler, x_train)
    X_test_scaled[!, col]  = StatsBase.transform(scaler, Float64.(X_test[!, col]))
end

# colunas categóricas permanecem inalteradas

# Ver resumo estatístico das colunas numéricas
describe(X_train_scaled[:, var_numericas])

In [None]:
# Visualizar as primeiras 5 linhas do df original para comparar
first(X, 5)

In [None]:
# Visualizar as primeiras 5 linhas do df normalizado para comparar
first(X_train_scaled, 5)

In [None]:
# Ver resumo estatístico das colunas numéricas
describe(df[:, var_numericas])

## Pré-processamento: Encoding das variáveis categóricas

  - Aplicar one hot encoding em variáveis categóricas é uma técnica comum para converter essas variáveis em um formato que pode ser usado por algoritmos de aprendizado de máquina.
  - Isso envolve criar colunas binárias para cada categoria, permitindo que o modelo aprenda a partir dessas variáveis categóricas de forma mais eficaz.
  - Essa técnica é essencial em modelos como regressão linear, árvores de decisão e redes neurais, onde as variáveis categóricas precisam ser representadas numericamente.

In [None]:
using CategoricalArrays, MLJ

# --- converter colunas de string para categóricas (apenas nas features) ---
for col in names(X_train_scaled)
    if eltype(X_train_scaled[!, col]) <: AbstractString
        X_train_scaled[!, col] = categorical(X_train_scaled[!, col])
        X_test_scaled[!, col]  = categorical(X_test_scaled[!, col])
    end
end

# --- One-Hot Encoder (ajusta no treino, transforma treino e teste) ---
ohe = OneHotEncoder(drop_last=true)  # drop_last evita multicolinearidade para GLM

mach_ohe = MLJ.machine(ohe, X_train_scaled)
MLJ.fit!(mach_ohe)

X_train_cleaned = MLJ.transform(mach_ohe, X_train_scaled)
X_test_cleaned  = MLJ.transform(mach_ohe, X_test_scaled)


X_train_cleaned


In [None]:
typeof(X_train_cleaned)


## Pré-processamento: Transformar o df em matriz

  - Essa técnica é essencial para modelos de Regressão Linear Múltipla

  - `Float64.(Matrix(X_train_cleaned))` garante que todas as colunas sejam numéricas, requisito do `GLM.jl`, o pacote que usaremos para implementar nossa Reg. Lin. Múltipla.

  - Nesse pacote, quando temos múltiplas features, podemos usar a forma matricial `(X e y)` ou transformar `X_train_cleaned` em `DataFrame` com colunas nomeadas para usar fórmula.

  - Faremos uso da abordagem matricial, que funciona diretamente com `DataFrame` ou `Matrix`.

  - A função abaixo serve para retornar o tipo de dado de algum objeto. Em outras palavras:

  - - Ela não mostra o conteúdo da variável.

  - - Ela diz de que “classe” ou estrutura interna o objeto é, por exemplo: `DataFrame`, `Matrix{Float64}`, `CategoricalArray{String,1,UInt32}`, etc.

In [None]:
X_train_mat = Matrix(X_train_cleaned)
display(typeof(X_train_mat))

X_test_mat = Matrix(X_test_cleaned)
display(typeof(X_test_mat))

X_train_mat


  - Vetorização da variável resposta (*target variable*), `energy`:

In [None]:
y_train_vec = y_train
y_test_vec  = y_test

# Modelagem

  - Durante a etapa de modelagem, segue-se o seguinte fluxo:

  - **1.** Escolha de um algoritmo ou técnica

  - - Ex.: regressão linear, árvores de decisão, redes neurais, SVM etc.
  - - Essa escolha depende do tipo de problema (classificação, regressão, clustering, etc.) e das características dos dados.

  - **2.** Treinamento do modelo

  - - Alimentamos o algoritmo com os dados de treino.

  - - O modelo ajusta seus parâmetros internos para minimizar um erro ou maximizar um desempenho (função de custo/objetivo).

  - **3.** Validação e ajuste

  - - Utilização dos dados de validação para verificar se o modelo está generalizando bem (tendo bom desempenho nos dados de teste).

  - - Ajuste dos hiperparâmetros (ex.: profundidade da árvore, taxa de aprendizado, número de neurônios).

  - **(Opcional) 4.** Comparação de modelos diferentes

  - - Treina-se vários algoritmos e compara métricas (ex.: acurácia, precisão, recall, RMSE).

  - - Escolhe-se aquele com melhor equilíbrio entre desempenho e simplicidade.

In [None]:
using GLM, Statistics

"""
Treina um modelo de regressão linear múltipla e calcula métricas de avaliação.
Retorna um NamedTuple com o modelo e as métricas.
"""
function train_linear_regression(X_train, y_train, X_test, y_test)
    # Ajustar modelo
    model = lm(X_train_mat, y_train_vec)

    # Predições
    y_pred_train = GLM.predict(model, X_train_mat)
    y_pred_test  = GLM.predict(model, X_test_mat)

    # Métricas
    r2_train = 1 - sum((y_train_vec - y_pred_train).^2) / sum((y_train_vec .- mean(y_train_vec)).^2)
    r2_test  = 1 - sum((y_test_vec - y_pred_test).^2) / sum((y_test_vec .- mean(y_test_vec)).^2)

    rmse_train = sqrt(mean((y_train_vec - y_pred_train).^2))
    rmse_test  = sqrt(mean((y_test_vec - y_pred_test).^2))

    return (
        model       = model,
        r2_train    = r2_train,
        r2_test     = r2_test,
        rmse_train  = rmse_train,
        rmse_test   = rmse_test
    )
end

In [None]:
result = train_linear_regression(X_train_cleaned, y_train, X_test_cleaned, y_test)

println("R² treino: ", result.r2_train, " | R² teste: ", result.r2_test)
println("RMSE treino: ", result.rmse_train, " | RMSE teste: ", result.rmse_test)
