# Determinando la mejor agrupación de las tiendas de Starbucks según su ubicación geográfica



## 1. Descripción del problema 

Se desea conocer cuál es la mejor forma de agrupar las tiendas de Starbucks, a nivel mundial, según su ubicación geográfica. Con esta información, se puede decidir cómo estructurar los cargos administrativos de la empresa; por ejemplo, algunas compañías toman Centroamérica como una región, mientras que otras tienen operaciones específicas para Costa Rica. 

Para esto, se utilizarán técnicas de aprendizaje no supervisado, específicamente de *clustering*, pues no se conoce con antelación cuál es el mejor agrupamiento de las tiendas. En este contexto, el *mejor agrupamiento* no necesariamente será el óptimo, sino que se refiere al *mejor agrupamiento obtenido por algún algoritmo* pues, como en diversos problemas de aprendizaje no supervisado, no se conoce cuál es la solución óptima al problema.

## 2. Preprocesamiento y limpieza de datos

El preprocesamiento y limpieza de datos se llevó a cabo con **Open Refine**. Se adjunta en el repositorio el historial de acciones realizadas.

### 2.a Eliminar columnas redundantes o que no se utilizarán

Las columnas redundantes son aquellas que poseen poca variabilidad, es decir, que poseen el mismo valor en una gran mayoría de las entradas. En este *dataset*, las columnas **Brand** y **Ownership Type** tienen muy poca variabilidad, pues casi la totalidad de las filas tienen los valores *Starbucks* y *Licensed*, respectivamente. Por esta razón, se eliminan del *dataset*.

Adicionalmente, se eliminan las columnas que no se utilizarán en el trabajo. Específicamente:

- **Store Number**
- **Store Name**
- **Street Address**
- **City**
- **State/Province**
- **Postcode**
- **Phone Number**

Esta limpieza se realizara para disminuir el ruido que entrará al modelo, una vez se inicie con el aprendizaje no supervisado.

### 2.b Cambiar tipo de datos en columnas de Longitud y Latitud

Algunos valores en estas columnas son de tipo entero, mientras que la mayoría son de tipo *double*. Para corregir estas inconsistencias, se convertirán todos los valores en la columna a tipo *double*. Esto es necesario puesto que, en algunas ocasiones, los modelos no reconocen estas diferencias en los tipos, por lo que no pueden ejecutarse correctamete.

## 3. Transformación de datos

La transformación de datos se llevó a cabo con **Open Refine**. Se adjunta en el repositorio el historial de acciones realizadas.

### 3.a Transformación de la columna Timezone 

En el *dataset* original, esta columna indica la zona horaria, continente y país de ubicación de la tienda. Se aplicó una transformación para que, únicamente, muestre el continente. De esta forma, si el valor original era

> GMT+1:00 Europe/Andorra ,

se transforma a

> Europe.

Esta transformación se llevó a cabo con el siguiente código GREL:

```
# Tiene formato de código
```

### 3.b Creación de columna isUnitedStates a partir de Country

Se incluyó una nueva columna con valores booleanos, llamada *isUnitedStates*, creada a partir de la columna *Country*.

Esta transformación se llevó a cabo con el siguiente código GREL:

```
# Tiene formato de código
```


Ambas transformaciones se llevaron a cabo para ser utilizadas en la siguiente sección, Análisis Exploratorio de Datos, donde se lleva a cabo un estudio según las clases (es decir, ubicación) a la que pertenecen las tiendas.

## 4. Análisis Exploratorio de Datos

### 4.a Estadística Descriptiva

Primeramente, se observa cómo luce el conjunto de datos una vez limpiado:

In [None]:
data.head()

Luego, se pueden obtener las principales medidas estadísticas para cada atributo en los datos:

In [None]:
data.describe()

Seguidamente, se realizan distintos gráficos para obtener una impresión visual de la composición de los datos.

#### 4.a.1 Histograma para Continent

#### 4.a.2 Histograma para isUnitedStates

#### 4.a.3 Diagrama de cajas para Longitud

#### 4.a.4 Diagrama de cajas para Latitud

### 4.b Particionamiento en clases

Puesto que Starbucks es una compañía estadounidense, se espera que la mayoría de sus tiendas se encuentren en los Estados Unidos. Por ende, al confirmar esta suposición con la información proveniente de los datos, se agruparán en dos clases: las tienas que pertenecen a los Estados Unidos y las que no. Con esto, se pueden tener impresiones sobre sus coordenadas geográficas, una vez separadas en estos dos tipos.

En línea con el objetivo de la investigación, es común que las empresas administren sus cargos ejecutivos de una manera distinta según se trate de tiendas locales o en el extranjero. Por ende, es natural la separación entre tiendas ubicadas en el país de procedencia y aquellas ubicadas en otros países.

In [None]:
# Codigo particionamiento

#### 4.b.1 Diagrama de cajas para columna Longitud de tiendas en Estados Unidos

#### 4.b.2 Diagrama de cajas para columna Latitud de tiendas en Estados Unidos

#### 4.b.3 Diagrama de cajas para columna Longitud de tiendas fuera de Estados Unidos

#### 4.b.4 Diagrama de cajas para columna Latitud de tiendas fuera de Estados Unidos

## 5. Técnicas de segmentación

Explicar por qué sirven

### 5.a K-Means

### 5.b DBSCAN

## 6. Evaluación de modelos

### 6.a Silhouette Analysis - K-Means

### 6.b Silhouette Analysis - DBSCAN

## 7. Resultados

Gráfica + tabla

## 8. Análisis