In [8]:
#' # K-means Clustering Analysis
#' 
#' This notebook performs K-means clustering analysis on a given dataset. The analysis includes data preprocessing, 
#' determining the optimal number of clusters, and visualizing the clustering results.
#' 
#' ## Functions
#' 
#' ### sum_two_numbers
#' 
#' This function calculates the sum of two numbers.
#' 
#' #### Parameters
#' - `a`: A numeric value representing the first number.
#' - `b`: A numeric value representing the second number.
#' 
#' #### Returns
#' - The sum of the two numbers.
#' 
#' #### Examples
#' ```r
#' sum_two_numbers(3, 5)
#' sum_two_numbers(-2, 7)
#' ```
#' 
#' #### Export
#' # K-means Clustering and Visualization
#' 
#' This script performs K-means clustering on specific columns of a dataset and visualizes the results.
#' 
#' ## Libraries
#' 
#' The following libraries are required:
#' - `ggplot2`: For data visualization.
#' - `dplyr`: For data manipulation.
#' 
#' ## Data Loading
#' 
#' The dataset is loaded from a CSV file named `datos_limpios.csv`.
#' 
#' ## Functions
#' 
#' ### `categorizar_kmeans`
#' 
#' This function applies K-means clustering to a specified column of a dataframe and categorizes the data into clusters.
#' 
#' #### Parameters
#' - `data`: The dataframe containing the data.
#' - `columna`: The name of the column to which K-means clustering will be applied.
#' - `k`: The number of clusters to create (default is 3).
#' 
#' #### Returns
#' - The dataframe with an additional column indicating the cluster category for the specified column.
#' 
#' ## Main Script
#' 
#' The script applies the `categorizar_kmeans` function to a list of specified columns and prints the resulting dataframe. Optionally, it visualizes the distribution of categories for each column using histograms.
#' 
#' ### Columns to be Clustered
#' 
#' The columns to which K-means clustering is applied are:
#' - `Asociacion`
#' - `duracion_segundos`
#' - `impresiones`
#' - `vistas`
#' - `suscriptores`
#' 
#' ### Visualization
#' 
#' Histograms are generated to visualize the distribution of categories for each column.
#' - This function is exported for use in other scripts or packages.
#' 
#' ```r
#' sum_two_numbers <- function(a, b) {
#'   return(a + b)
#' }
#' ```

In [9]:
# Cargar librerías necesarias
library(ggplot2)
library(dplyr)
library(scales)

In [None]:
# Cargar el dataset limpio
df <- read.csv("datos_limpios.csv")

# Normalizar una columna
normalizar <- function(x) {
  return((x - min(x)) / (max(x) - min(x)))
}

# Función para aplicar K-means y obtener rangos
obtener_rangos_kmeans <- function(data, columna, k = 3) {
  set.seed(123)  # Reproducibilidad
  
  # Normalizar la columna
  columna_norm <- normalizar(data[[columna]])
  
  # Aplicar K-means
  kmeans_result <- kmeans(columna_norm, centers = k)
  
  # Ordenar los clusters por la media de los valores originales
  orden_clusters <- order(tapply(data[[columna]], kmeans_result$cluster, mean))
  
  # Crear un data frame con los valores originales y clusters
  data_clasificada <- data.frame(valor = data[[columna]], 
                                 cluster = factor(kmeans_result$cluster, levels = orden_clusters, labels = c("Bajo", "Medio", "Alto")))
  
  # Calcular los rangos mínimo y máximo de cada categoría
  rangos <-                                                  (valor ~ cluster, data_clasificada, function(x) c(min = min(x), max = max(x)))
  
  # Imprimir los rangos
  print(paste("Rangos para la columna:", columna))
  print(rangos)
  cat("\n")
  return (rangos)
}

# Aplicar la función a las columnas seleccionadas
columnas <- c("duracion_segundos", "impresiones", "vistas", "suscriptores")
for (columna in columnas) {
 rangos = obtener_rangos_kmeans(df, columna)

}


ERROR: Error in parse(text = input): <text>:27:78: unexpected ','
26:   # Calcular los rangos mínimo y máximo de cada categoría
27:   rangos <-                                                  (valor ~ cluster,
                                                                                 ^


In [28]:
# Cargar el dataset limpio
df <- read.csv("datos_limpios.csv")
df_remplazar <- read.csv("Asociacion.csv")

# Normalizar una columna
normalizar <- function(x) {
  return((x - min(x)) / (max(x) - min(x)))
}

# Función para aplicar K-means y reemplazar valores con categorías
categorizar_y_reemplazar <- function(data, columna, data_remplazar, k = 3) {
  set.seed(123)  # Reproducibilidad
  
  # Normalizar la columna
  columna_norm <- normalizar(data[[columna]])
  
  # Aplicar K-means
  kmeans_result <- kmeans(columna_norm, centers = k)
  
  # Ordenar los clusters por la media de los valores originales
  orden_clusters <- order(tapply(data[[columna]], kmeans_result$cluster, mean))
  
  # Reemplazar los valores originales por las etiquetas de categoría
  data[[columna]] <- factor(kmeans_result$cluster, levels = orden_clusters, labels = c("Bajo", "Medio", "Alto"))
  
  return(data)
}

# Aplicar la función a las columnas seleccionadas
columnas <- c("duracion_segundos", "impresiones", "vistas", "suscriptores")

for (columna in columnas) {
  df_remplazar <- categorizar_y_reemplazar(df, columna, df_remplazar)
}

# Mostrar el dataset con las categorías reemplazadas
print(df_remplazar)


      video_id duracion_segundos mayor_5_min promedio_tiempo_reproducido
1  LeVzouFBmzU                52       False                          23
2  9o2NvXVnNXk                40       False                          20
3  Bt62oT9YD5o               323        True                          76
4  HINQqOrQfyU                42       False                          20
5  UrQgZlRx5XE                57       False                          17
6  9gmTfQtWPJM                52       False                          23
7  wic0IkHb6VE                41       False                          20
8  qve0bhKccpo                40       False                          16
9  wV0mpy-nLUU                48       False                          16
10 yN1uoxZQVaU               407        True                         109
11 jMFoaRWq69Q               399        True                          79
12 dX356EC2A5c                36       False                          19
13 RfK1eP5MYS4               443        True       