In [None]:
using Plots
using StatsBase
using DataFrames
using CSV
using Pkg
using Clustering
using Statistics
using GLM

# MATRICES Y VECTORES

In [None]:
matriz = [7 8 9;
          6 5 4]

In [None]:
vector = [1, 2, 3]

In [None]:
matriz * vector

Sintaxis muy facil y amigable

# BASE DE DATOS: SPOTIFY SONGS

In [None]:
data = CSV.read("C:/Users/oscar/Documents/ITESO/Septimo Semestre UBA/Teoría de lenguaje/tp_julia/universal_top_spotify_songs.csv", DataFrame)

In [None]:
# Visualización básica
# Histograma de la popularidad
histogram(data.popularity, bins=20, xlabel="Popularidad",
    ylabel="Frecuencia", title="Histograma de Popularidad")

Como podemos ver en el histograma, la mayoría de canciones contenidas en este Top de Spotify songs tienen rangos altos de popularidad, por lo que podemos considerar esta categoría con un valor muy importante a tener en cuenta.

Vamos a ver si existen ciertos patrones que nos permitan tener una popularidad más grande y como funcionan las demás características en relación a Popularidad.

In [None]:
columnas_clave = [:daily_movement, :weekly_movement, :popularity, :is_explicit, :duration_ms, 
    :danceability, :energy, :loudness, :speechiness, :acousticness, :instrumentalness, :liveness, :valence,
    :tempo, :time_signature]

In [None]:
# Análisis de estadísticas descriptivas
describe_cc = describe(data[:, columnas_clave])
describe_cc

Podemos darnos una idea de los valores más interesantes para estar dentro del Ranking. Podemos identificar el promedio de estas variables, y compararlo con la mediana también puede ser clave, para tener valores más certeros.

In [None]:
# Columnas que deseas incluir en el histograma
columnas_clave = [:daily_movement, :weekly_movement, :popularity, :is_explicit, :duration_ms,
    :danceability, :energy, :loudness, :speechiness, :acousticness, :instrumentalness, :liveness, :valence,
    :tempo, :time_signature]

# Configurar el tamaño de la figura general
plot_size = (1000, 800)  # Puedes ajustar estos valores según tus necesidades

# Crear histogramas para las columnas seleccionadas con tamaño personalizado
histogramas = [histogram(data[:, col], bins=20, xlabel=string(col), ylabel="Frecuencia", legend=false, size=plot_size) for col in columnas_clave]

# Calcular el número de filas y columnas necesarias
num_filas = div(length(columnas_clave), 2)
num_columnas = ceil(Int, length(columnas_clave) / num_filas)

# Mostrar los histogramas en filas de dos
plot(histogramas..., layout=(num_filas, num_columnas))

In [None]:
# Descubrir patrones de popularidad
# Correlación entre las diferentes variables y la popularidad
correlation_matrix = cor(Matrix(data[:, [:popularity, :danceability, :energy, :loudness, 
                :duration_ms, :speechiness, :acousticness, :liveness]]))

Realmente no tenemos valores tan altos en la correlación, hablando específicamente de la variable que más nos interesa, popularidad. Por lo que no podríamos concluir que alguno de estos parámetros afecten directamente.

Por ejemplo, Energy y Loudness tienen una correlación positiva bastante grande, pero eso no nos dice nada respecto a la popularidad.

In [None]:
# Análisis de movimientos diarios y semanales
println("Análisis de Movimientos Diarios:")
describe(data.daily_movement)

println("\nAnálisis de Movimientos Semanales:")
describe(data.weekly_movement)


In [None]:
# Calcular el promedio de valores positivos
promedio_positivos = mean(data[data.daily_movement .> 0, :daily_movement], dims=1)

# Calcular el promedio de valores negativos
promedio_negativos = mean(data[data.daily_movement .< 0, :daily_movement], dims=1)

# Mostrar los resultados
println("Promedio de valores positivos: ", promedio_positivos[1])
println("Promedio de valores negativos: ", promedio_negativos[1])

In [None]:
#### Calcular el promedio de la popularidad por fecha usando combine
mean_popularity_over_time = combine(groupby(data, :snapshot_date), :popularity => mean => :mean_popularity)

# Mostrar el resultado
println(mean_popularity_over_time)

In [None]:
# Gráfico de línea para mostrar el promedio de popularidad a lo largo del tiempo
plot(mean_popularity_over_time.snapshot_date, mean_popularity_over_time.mean_popularity, xlabel="Fecha", 
    ylabel="Popularidad Promedio", title="Popularidad Promedio a lo largo del Tiempo", label="Popularidad", fmt=:png)

In [None]:
function kmeans_clustering(data::DataFrame, features::Tuple{Symbol, Symbol}, num_clusters::Int)
    # Extraemos las características de la data
    caracteristicas = select(data, features...)

    # Realizamos el agrupamiento utilizando K-means
    resultados_kmeans = kmeans(Matrix(caracteristicas)', num_clusters)

    # Obtenemos las etiquetas de cluster asignadas a cada punto de datos
    etiquetas_clusters = resultados_kmeans.assignments

    # Visualizamos los datos agrupados por colores
    scatter(caracteristicas[!, features[1]], caracteristicas[!, features[2]], group=etiquetas_clusters,
        xlabel=string(features[1]), ylabel=string(features[2]), 
        title="$(features[1]) - $(features[2])")


    # Muestra los centros de los clusters como círculos rojos
    scatter!(resultados_kmeans.centers[1, :], resultados_kmeans.centers[2, :], color=:red, markersize=10, label="Centros de Clusters")
end

In [None]:
#Popularity - Danceability
#kmeans_clustering(data, (:popularity, :danceability), 2)

In [None]:
#Popularity - Energy 
#kmeans_clustering(data, (:popularity, :energy), 2)

In [None]:
#Popularity - Duration_ms
#kmeans_clustering(data, (:popularity, :duration_ms), 2)

In [None]:
#Popularity - Loudness
#kmeans_clustering(data, (:popularity, :loudness), 2)

## MUESTREO DE DATOS

In [None]:
using StatsBase

function kmeans_clustering(data::DataFrame, features::Tuple{Symbol, Symbol}, num_clusters::Int)
    # Muestreo aleatorio de datos
    indices_muestreo = sample(1:nrow(data), min(1000, nrow(data)), replace=false)
    data_muestreada = data[indices_muestreo, :]

    # Extraemos las características de la data
    caracteristicas = select(data_muestreada, features...)

    # Resto del código sigue igual
    resultados_kmeans = kmeans(Matrix(caracteristicas)', num_clusters)
    etiquetas_clusters = resultados_kmeans.assignments

    scatter(caracteristicas[!, features[1]], caracteristicas[!, features[2]], group=etiquetas_clusters,
        xlabel=string(features[1]), ylabel=string(features[2]), 
        title="$(features[1]) - $(features[2])")

    scatter!(resultados_kmeans.centers[1, :], resultados_kmeans.centers[2, :], color=:red, markersize=10, label="Centros de Clusters")
end



In [None]:
kmeans_clustering(data, (:popularity, :danceability), 2)

## GRÁFICO INTERACTIVO

In [None]:
using PlotlyJS

function kmeans_clustering_interactivo(data::DataFrame, features::Tuple{Symbol, Symbol}, num_clusters::Int)
    # Muestreo aleatorio de datos
    indices_muestreo = sample(1:nrow(data), min(1000, nrow(data)), replace=false)
    data_muestreada = data[indices_muestreo, :]

    # Extraemos las características de la data
    caracteristicas = select(data_muestreada, features...)

    # Resto del código sigue igual
    resultados_kmeans = kmeans(Matrix(caracteristicas)', num_clusters)
    etiquetas_clusters = resultados_kmeans.assignments

    # Cambia a un gráfico interactivo con PlotlyJS
    plotly()
    scatter(caracteristicas[!, features[1]], caracteristicas[!, features[2]], group=etiquetas_clusters,
        xlabel=string(features[1]), ylabel=string(features[2]), 
        title="$(features[1]) - $(features[2])")

    scatter!(resultados_kmeans.centers[1, :], resultados_kmeans.centers[2, :], color=:red, markersize=10, label="Centros de Clusters")
end


In [None]:
kmeans_clustering_interactivo(data, (:popularity, :danceability), 2)

## FILTRADO POR PAÍS

### Argentina

In [None]:
# Filtrar por país ('AR' en este caso), excluyendo valores Missing
data_ar = filter(row -> coalesce(get(row, :country, missing), "") == "AR", data)

In [None]:
# Visualización básica
# Histograma de la popularidad
histogram(data_ar.popularity, bins=20, xlabel="Popularidad",
    ylabel="Frecuencia", title="Histograma de Popularidad")

In [None]:
# Descubrir patrones de popularidad
# Correlación entre las diferentes variables y la popularidad
correlation_matrix = cor(Matrix(data_ar[:, [:popularity, :danceability, :energy, :loudness, 
                :duration_ms, :speechiness, :acousticness, :liveness]]))

In [None]:
kmeans_clustering_interactivo(data_ar, (:popularity, :danceability), 1)

### México

In [None]:
# Filtrar por país ('MX' en este caso), excluyendo valores Missing
data_mx = filter(row -> coalesce(get(row, :country, missing), "") == "MX", data)

In [None]:
# Visualización básica
# Histograma de la popularidad
histogram(data_mx.popularity, bins=20, xlabel="Popularidad",
    ylabel="Frecuencia", title="Histograma de Popularidad")

In [None]:
# Descubrir patrones de popularidad
# Correlación entre las diferentes variables y la popularidad
correlation_matrix = cor(Matrix(data_mx[:, [:popularity, :danceability, :energy, :loudness, 
                :duration_ms, :speechiness, :acousticness, :liveness]]))

In [None]:
kmeans_clustering_interactivo(data_mx, (:popularity, :acousticness), 1)

# MACROS 

In [None]:
macro sayhello(name)
    return :(println("Hello, ", $name, "!"))
end

@sayhello "Julia"


In [None]:
@time begin
    correlation_matrix = cor(Matrix(data_mx[:, [:popularity, :danceability, :energy, :loudness, 
                :duration_ms, :speechiness, :acousticness, :liveness]]))
end

In [None]:
@allocated begin
    correlation_matrix = cor(Matrix(data_mx[:, [:popularity, :danceability, :energy, :loudness, 
                :duration_ms, :speechiness, :acousticness, :liveness]]))
end

# FUNCIONES ANÓNIMAS

In [None]:
# Sintaxis general de una función anónima
f = x -> x^2

In [None]:
# Uso de la función anónima
resultado = f(3)  

In [None]:
# También se pueden utilizar directamente en lugar de asignarlas a una variable
resultado_2 = (x -> x^3)(2)  

# MULTIPLE DISPATCH

Capacidad de definir y llamar a funciones según los tipos de varios argumentos, en lugar de solo el tipo de un único argumento, como ocurre en la mayoría de los lenguajes de programación.

Para entender el despacho múltiple en Julia, observemos el operador **+**

Si llamamos *methods()* sobre **+**, podemos ver todas las definiciones de **+**

In [None]:
methods(+)

Podemos usar el macro de *@which* para saber qué método en particular estamos usando de **+**

Distintos métodos se usan en cada uno de estos ejemplos.

In [None]:
@which 3 + 3

In [None]:
@which 3.0 + 3.0 

In [None]:
@which 3 + 3.0

Aún más, pues podemos definir nuevos métodos de +.

Primero tenemos que importar + de Base.

In [None]:
import Base: +

Digamos que queremos concatenar elementos con +. Sin extender el método, no funciona

In [None]:
"hello " + "world!"

In [None]:
@which "hello " + "world!"

Entonces agregamos a + un método que toma dos cadenas y las concatena     

In [None]:
+(x::String, y::String) = string(x, y)

In [None]:
"hello " + "world!"

¡Funciona! Y si queremos más, podemos comprobarnos que Julia ha despachado sobre los tipos de "hello" y "world!", sobre el método que acabamos de definir

In [None]:
@which "hello " + "world!"

# REGRESIÓN LINEAL

In [None]:
# Crear el modelo de regresión lineal
regresion_ar = lm(@formula(danceability ~ popularity), data_ar)

# Obtener resumen del modelo
println("Resumen del modelo:")
println(summary(regresion_ar))

In [None]:
# Graficar el resultado de la regresión
scatter(data_ar.popularity, data_ar.danceability, label="Datos")
plot!(data_ar.popularity, predict(regresion_ar), label="Regresión Lineal", 
    xlabel="Popularity", ylabel="Danceability", legend=:top)

In [None]:
# Crear el modelo de regresión lineal
regresion_mx = lm(@formula(acousticness ~ popularity), data_mx)

# Obtener resumen del modelo
println("Resumen del modelo:")
println(summary(regresion_mx))

In [None]:
# Graficar el resultado de la regresión
scatter(data_mx.popularity, data_mx.acousticness, label="Datos")
plot!(data_mx.popularity, predict(regresion_mx), label="Regresión Lineal", 
    xlabel="Popularity", ylabel="Acousticness", legend=:top)

# DISTRIBUIDOS

In [None]:
# Paso 1: Iniciar el sistema distribuido
using Distributed
addprocs(4)  # Agregar 4 procesos (puedes ajustar según el número de núcleos en tu máquina)

In [None]:
# Paso 2: Cargar el paquete en todos los procesos
@everywhere using Distributed

In [None]:
# Paso 3: Función que imprime mensajes desde diferentes procesos
@everywhere function imprimir_mensaje(id::Int)
    println("Proceso $id: Hola desde el proceso $(myid())")
end

In [None]:
# Paso 4: Llamar a la función en paralelo
@distributed for i in 1:nprocs()
    imprimir_mensaje(i)
end

Los mensajes se imprimen en un orden no determinista, ya que cada proceso puede ejecutarse de manera independiente y en paralelo. Esto demuestra la capacidad de distribuir tareas entre diferentes procesos en Julia.

# MANEJO DE MEMORIA

In [None]:
# Crear un vector de enteros
vector_enteros = [1, 2, 3, 4, 5]

In [None]:
# Obtener el tamaño del vector en bytes
tamaño_en_bytes = sizeof(vector_enteros)
println("Tamaño del vector en bytes: $tamaño_en_bytes")

In [None]:
# Modificar el vector
push!(vector_enteros, 6)

In [None]:
# Obtener el nuevo tamaño del vector en bytes
nuevo_tamaño_en_bytes = sizeof(vector_enteros)
println("Nuevo tamaño del vector en bytes: $nuevo_tamaño_en_bytes")

### Recolector de basura

In [None]:
# Crear una función que genera basura (un vector temporal)
function generar_basura()
    basura = rand(1:100, 1000)
    return sum(basura)
end

In [None]:
# Crear una función principal que utiliza la función que genera basura
function funcion_principal()
    resultado = generar_basura()
    println("Resultado: $resultado")
end

In [None]:
# Obtener el uso de memoria antes de la ejecución
memoria_inicial = Sys.free_memory()
println("Uso de memoria antes de la ejecución: $memoria_inicial bytes")

In [None]:
# Llamar a la función principal
funcion_principal()

In [None]:
# Obtener el uso de memoria después de la ejecución
memoria_despues = Sys.free_memory()
println("Uso de memoria después de la ejecución: $memoria_despues bytes")

In [None]:
# Forzar la recolección de basura
GC.gc()

In [None]:
# Obtener el uso de memoria después de la recolección de basura
memoria_despues_gc = Sys.free_memory()
println("Uso de memoria después de la recolección de basura: $memoria_despues_gc bytes")

### Limpiar objetos innecesarios

In [6]:
x = rand(10^6)

1000000-element Vector{Float64}:
 0.8375721690097028
 0.46586682287201553
 0.27723269926706506
 0.887868444819091
 0.33040337890976224
 0.4135670700559536
 0.3774917549196677
 0.9473475134449896
 0.8217084269706704
 0.8581373495749125
 0.8860720934331439
 0.9918897135048328
 0.8910539092799242
 ⋮
 0.36640964919993024
 0.6496300368496941
 0.44887862433354986
 0.5050442620820892
 0.3630949582475602
 0.23962531652032226
 0.8798992954716333
 0.7707986825486851
 0.9607320411730108
 0.1985729701331076
 0.6547176382010719
 0.8788779990034901

In [7]:
x

1000000-element Vector{Float64}:
 0.8375721690097028
 0.46586682287201553
 0.27723269926706506
 0.887868444819091
 0.33040337890976224
 0.4135670700559536
 0.3774917549196677
 0.9473475134449896
 0.8217084269706704
 0.8581373495749125
 0.8860720934331439
 0.9918897135048328
 0.8910539092799242
 ⋮
 0.36640964919993024
 0.6496300368496941
 0.44887862433354986
 0.5050442620820892
 0.3630949582475602
 0.23962531652032226
 0.8798992954716333
 0.7707986825486851
 0.9607320411730108
 0.1985729701331076
 0.6547176382010719
 0.8788779990034901

In [8]:
# Al terminar de usar x
x = nothing  # Liberar la memoria

In [9]:
x

# PLUTO

Pluto.jl es un entorno interactivo para el lenguaje de programación Julia...

- Permite la ejecución de código de manera interactiva.
- Facilita la visualización de datos.
- Es ideal para la exploración y prototipado rápido.

In [None]:
#import Pkg
#Pkg.add("Pluto")

In [1]:
import Pluto
Pluto.run()

[36m[1m[ [22m[39m[36m[1mInfo: [22m[39mLoading...
[36m[1m┌ [22m[39m[36m[1mInfo: [22m[39m
[36m[1m└ [22m[39mOpening http://localhost:1234/?secret=5sYrTPMc in your default browser... ~ have fun!
[36m[1m┌ [22m[39m[36m[1mInfo: [22m[39m
[36m[1m│ [22m[39mPress Ctrl+C in this terminal to stop Pluto
[36m[1m└ [22m[39m
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Project.toml`
  [90m[a93c6f00] [39m[91m- DataFrames v1.6.1[39m
  [90m[c601a237] [39m[91m- Interact v0.10.5[39m
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Manifest.toml`
  [90m[bf4720bc] [39m[91m- AssetRegistry v0.1.0[39m
  [90m[70588ee8] [39m[91m- CSSUtil v0.1.1[39m
  [90m[a8cc5b0e] [39m[91m- Crayons v4.1.1[39m
  [90m[a93c6f00] [39m[91m- DataFrames v1.6.1[39m
  [90m[e2d170a0] [39m[91m- DataValueInterfaces v1.0.0[39m
  [90m[de31a74c] [39m[91m- FunctionalCollections v0.5.0[39m
  [90m[842dd82b] [39m[91m- In

Cell interrupted!


[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Project.toml`
  [90m[2913bbd2] [39m[91m- StatsBase v0.34.2[39m
[32m[1m  No Changes[22m[39m to `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Manifest.toml`
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Project.toml`
  [90m[aaaa29a8] [39m[91m- Clustering v0.15.5[39m
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Manifest.toml`
  [90m[aaaa29a8] [39m[91m- Clustering v0.15.5[39m
  [90m[b4f34e82] [39m[91m- Distances v0.10.11[39m
  [90m[b8a86587] [39m[91m- NearestNeighbors v0.4.15[39m
  [90m[90137ffa] [39m[91m- StaticArrays v1.8.0[39m
  [90m[1e83bf80] [39m[91m- StaticArraysCore v1.4.2[39m
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Project.toml`
  [90m[f0f68f2c] [39m[91m- PlotlyJS v0.18.11[39m
[32m[1m    Updating[22m[39m `C:\Users\oscar\AppData\Local\Temp\jl_UKyGKI\Manifest.toml`
  [90





[36m[1m┌ [22m[39m[36m[1mInfo: [22m[39m
[36m[1m│ [22m[39mClosing Pluto... Restart Julia for a fresh session. 
[36m[1m│ [22m[39m
[36m[1m│ [22m[39mHave a nice day! 🎈
[36m[1m└ [22m[39m


### `Bibliografía `

* https://docs.julialang.org/en/v1/

* https://help.juliahub.com/juliahub/stable/

* https://introajulia.org/#_el_primer_programa

* https://chifi.dev/weird-things-you-can-do-in-julia-3f10cacb8ef4

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Julia by Oscar Uriel Alvarado Garnica.
</footer>