Segmentación del mercado de adolecentes (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/12-kmeans-IPy-teen-market-segments.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/12-kmeans-kmeans-teen-market-segments.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)

In [None]:
#
# Lee el archivo. La función readlines() retorna una 
# una lista de strings donde cada string es una linea
# del archivo original.
#
teens = open('data/snsdata.csv').readlines()
#
# Convierte cada linea en una lista de strings, 
# partiendo la línea original por las comas.
#
teens = [x.split(',') for x in teens]
#
# Imprime los nombres de las columnas
#
teens[0]

In [None]:
# table(teens$gender)
#     F     M 
# 22054  5222

In [None]:
# La función excluye los NA
# a continuación se tienen en cuenta en el conteo
# table(teens$gender, useNA = "ifany")

In [None]:
# La muestra contiene un rango de edades 
# por fuera de la población de interés
# summary(teens$age)
#
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
#  3.086  16.312  17.287  17.994  18.259 106.927    5086 
#


In [None]:
# Se seleccionan las personas entre 13 y 20 años.
# teens$age <- ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)


In [None]:
# Se verifica la variable edad en los registros de las
# personas en la población de interés.
# summary(teens$age)
#
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
#  13.03   16.30   17.27   17.25   18.22   20.00    5523
#

In [None]:
# Se crean nuevas variables numéricas a partir 
# de información categórica
# teens$female <- ifelse(teens$gender == "F" & !is.na(teens$gender), 1, 0)
# teens$no_gender <- ifelse(is.na(teens$gender), 1, 0)

In [None]:
# Cantidad de hombres y mujeres en la muestra.
# table(teens$gender, useNA = "ifany")
#
#     F     M  <NA> 
# 22054  5222  2724 
#

In [None]:
# Cantidad de hombres y mujeres en la muestra
# 1=Female
# table(teens$female, useNA = "ifany")
#
#    0     1 
# 7946 22054 
#


In [None]:
# Cantidad de patrones para los que se 
# conoce y no se conoce el genero
# table(teens$no_gender, useNA = "ifany")

In [None]:
# La muestra contiene datos faltantes
# mean(teens$age)

In [None]:
# Edad sin tener en cuenta los datos faltantes
# mean(teens$age, na.rm = TRUE)
#
# 17.2524289332843

In [None]:
# Edad por año de graduación
# aggregate(data = teens, age ~ gradyear, mean, na.rm = TRUE)
#
# gradyear      age
#     2006 18.65586
#     2007 17.70617
#     2008 16.76770
#     2009 15.81957
#

In [None]:
# Los valores faltantes se llenan con el promedio
# de acuerdo con el año de graduación
# ave_age <- ave(teens$age, 
#               teens$gradyear, 
#               FUN = function(x) mean(x, na.rm = TRUE))
#                   
# teens$age <- ifelse(is.na(teens$age), ave_age, teens$age)
# summary(teens$age)

In [None]:
#
# Se separa la información de las palabras relacionadas
# con los intereses del resto de la información
# y se escala para eliminar problemas asociados
# a la medida de los datos.
#
# interests <- teens[5:40]
# interests_z <- as.data.frame(lapply(interests, scale))

In [None]:
#
# Se usa el algoritmo para determinar los centros de 5 grupos
#
# set.seed(2345)
# teen_clusters <- kmeans(interests_z, 5)
# 

In [None]:
# Número de ejemplos en cada cluster
# teen_clusters$size
#
# 871 600 5981 1034 21514
#

In [None]:
#
# Frecuencia de las palabras en cada cluster
# teen_clusters$centers
#

In [None]:
# Se asigna a cada ejemplo de los datos
# el cluster al que pertenece
# teens$cluster <- teen_clusters$cluster

In [None]:
# clusters a los que pertenecen los primeros cinco patrones
# teens[1:5, c("cluster", "gender", "age", "friends")]
# 
# cluster gender    age friends
#       5      M 18.982       7
#       3      F 18.801       0
#       5      M 18.335      69
#       5      F 18.875       0
#       4     NA 18.995      10
# 

In [None]:
# Características demográficas de los clusters
# aggregate(data = teens, age ~ cluster, mean)
#
# cluster      age
#       1 16.86497
#       2 17.39037
#       3 17.07656
#       4 17.11957
#       5 17.29849
#

In [None]:
# aggregate(data = teens, female ~ cluster, mean)
#
# cluster	female
#       1 0.8381171
#       2 0.7250000
#       3 0.8378198
#       4 0.8027079
#       5 0.6994515
#

In [None]:
# Cantidad promedio de amigos por cluster
# aggregate(data = teens, friends ~ cluster, mean)
#
# cluster  friends
#       1 41.43054
#       2 32.57333
#       3 37.16185
#       4 30.50290
#       5 27.70052
#

---

Segmentación del mercado de adolecentes (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/12-kmeans-IPy-teen-market-segments.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/12-kmeans-kmeans-teen-market-segments.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)