# Técnicas de muestreo para proyectos ML con enfoque supervisado/no supervisado en AWS Sagemaker

Previo a todo proyecto de machine learning se tiene que realizar necesariamente un analisis exploratorio de datos antes de comenzar a modelas, esto con la idea de poder conocer mas a profundidad el comportamiento natural de la data y estar familiarizado con la informacion.

Este  AED en muchas casos es un trabajo tedioso y puede involucrar hasta el 80% de todo el desarrollo del protecto ML; por eso para aligerar esta carga de trabajo  existen muchas tecnicas estadisticas para limitar la cantidad de informacion a implementar, una de estos metodos es el desarrollo de tecnicas de muestreo, estas tecnicas estan orientadas a trabajr con menor cantidad de informacion pero sin perder relevancia de la misma, obtener muestras representativas de la poblacion.

Teniendo ese enfoque vamos a desarrollar un pipeline con la ayuda de los servicios de AWS para automatizar tecnicas de muestreo, este blog tiene como finalidad:

### - `minimizar costos:`  
Esto se ve reflejado en los tipos de instancia que se necesita levantar para analizar grandes cantidades de informacion, con estas tecnicas de muestreo no es necesario levantar maquinas super costosas para realizar el AED.

### - `minimizar tiempo en el analisis de datos:`  
Esto nos da una ventajas importante ya que vamos tener que preocuparnos mayormente en crear y mejorar modelos ML asi evitar el engorroso trabajo de analizar datos de toda la poblacion.

# Arquitectura  AWS

<img src="grafico/grafico_25.png"  width=550px height=60px/>

# Tecnicas de Muestreo

Toda las técnicas de muestreo consiste en realizar inferencias acerca de una población a partir de información contenida en una muestra seleccionada de esa población.

La inferencia toma forma de estimar una media de la población (como el ingreso promedio de vivienda), total de la población ( ingreso total de PEA) o una proporción (como la proporción de votantes favorables de un candidato).

## Términos técnicos

### - `Unidad de muestreo:`  
  conjunto no solapados de la población que cubren a la población completa, ejemplo un votante registrado en una comunidad.

### - `Población:` 
  conjunto de elementos sobre los que se desea realizar hacer una inferencia, ejemplo conjunto de votantes de la comunidad.

### - `Marco muestral:` 
  lista de unidades de muestreo, ejemplo lista de hogares, lista de manzanas, lista de urbanizaciones.


<img src="grafico/grafico_1.png" alt="New app" title="New app" width=450px height=250px/>


 El objetivo de toda técnica de muestreo es hacer inferencia acerca de los parametros de la población en función de la información contenida en la muestra. Hay 2 factores que intervienen en la cantidad de información contenida en la muestra:

- El tamaño de muestra ***n***.

- La magnitud de la variación en los datos, frecuentemente esta variabilidad se puede controlar mediante técnicas de selección de muestra.

Para un tamaño de muestra fijo, ***n***, se considera varios procedimientos de diseño para obtener las n observaciones de la muestra. El diseño básico de muestreo es el muestreo aleatorio simple.


## Muestreo aleatorio simple

Se selecciona un tamaño de muestra ***n*** de una población de tamaño ***N*** de tal manera que cada muestra posible de tamaño ***n*** tenga la misma posibilidad de ser seleccionada, este procedimiento de muestreo se denomina muestreo aleatorio simple.

Todos los elementos individuales de una población tiene la misma posibilidad de ser seleccionados, se utilizara el muestreo aleatorio simple para obtener estimadores de medias poblacionales, totales y proporciones.

#### `Ventajas:`

- Es la técnica de muestreo mas utilizada y mas simple usar.

- Tiene un costo ínfimo para su aplicación.


### Estimación de la media poblacional y de la proporción de una población


Una forma de hacer inferencia consiste en estimar ciertos parametros de la población, utilizando la información de muestra. Este objetivo frecuentemente busca estimar la media poblacional denotado por ***μ** 

Supongamos que se seleccione una muestra aleatoria simple de ***n*** cuentas y se desee estimar el valor medio por cuenta para la población total de registros de un hospital. Intuitivamente se utilizara el promedio muestral:


<img src="grafico/grafico_2.png" alt="New app" title="New app" width=150px height=100px/>

para estimar  ***μ***.


El valor $\hat{u}$ por si solo indica muy poco acerca de la media poblacional ***μ***, necesariamente se tiene que evaluar la bondad de ajuste. Así, además de estimar ***μ***, se desearía fijar un limite sobre el error de estimación, para esto, necesitaremos la varianza del estimador de una población de tamaño ***N***

<img src="grafico/grafico_3.png" alt="New app" title="New app" width=150px height=100px/>

teniendo en cuenta la **varianza muestral**.

<img src="grafico/grafico_4.png" alt="New app" title="New app" width=150px height=100px/>


**Limite del error estimado:**

<img src="grafico/grafico_5.png" alt="New app" title="New app" width=170px height=200px/>


Frecuentemente nos hace mas interesante estimar la proporción de una población que posee una característica especifica. Por ejemplo, desear estimar la proporción de posibles votantes en el distrito X entre edades de 18 a 21 años, estimar la proporción de televidentes que ven un programa en particular, etc. Estos ejemplos muestran una característica del experimento binomial, una observación/registro pertenece o no a una categoría de interés. 


Se denota la proporción poblacional y su estimador por $p$ y  $\hat{p}$ respectivamente. Las propiedades de $\hat{p}$ en M.A.S son equivalentes a las media muestrales de  $\overline y$, se define como: sea $y_i = 0$ si el i-ésimo elemento seleccionado no posee la característica especifica, $y_i = 1$ si la posee. Entonces el numero de elementos en una muestra de tamaño ***n*** que posee una característica especifica es

<img src="grafico/grafico_6.png" alt="New app" title="New app" width=36px height=100px/>

Si se selecciona una muestra aleatoria simple de tamaño $n$, la proporción muestral $\hat{p}$ es la fracción de elementos en la muestra que poseen la característica de interés.

<img src="grafico/grafico_7.png" alt="New app" title="New app" width=350px height=200px/>

o bien

<img src="grafico/grafico_8.png" alt="New app" title="New app" width=115px height=200px/>


En otras palabras, $\hat{p}$ es el promedio de los valores 0 y 1 de la muestra, se puede considerar la proporción poblacional como el promedio de los valores 0 y 1 de la población, esto es $p = μ$.


**Estimador de la proporción poblacional  $p$:**

<img src="grafico/grafico_9.png"  width=110px height=200px/>


**Varianza estimada de $\hat{p}$:**
<img src="grafico/grafico_10.png"  width=150px height=200px/>

donde 

#### $\hat{q} = 1 - \hat{p}$


**Limite para el error de estimación:**
<img src="grafico/grafico_11.png"  width=180px height=200px/>


## Muestreo sistematico

#### `Ventajas:`

- Proporciona una alternativa útil para el Muestreo aleatorio simple (MAS)
- EL muestreo sistemático es mas fácil de llevar a cabo en el campo, además esta menos expuesta a los errores de selección que comete el investigador.
- El muestreo sistemático es menos costoso de llevar a cabo que el MAS
- Es preferible llevar esta técnica de muestreo cuando la población esta ordenada y **N**, tamaño de la población, es grande.


El muestreo sistemático implica seleccionar aleatoriamente un elemento de los primeros ***k*** elementos y posteriormente la selección de cada ***k***-*esimo* elemento. Este procedimiento es mas fácil de realizar y usualmente, a diferencia del muestreo aleatorio simple, esta menos expuesto al error del entrevistador.  El investigador puede seleccionar una muestra sistemática de 1 - de cada - 3, una de 1 - de cada - 5, o en general, una de 1 - de cada - k. 

Para saber como se selecciona ***k*** en una situación dada. Si el tamaño de la población ***N***, podemos determinar un tamaño de muestra ***n*** aproximado y luego ***k*** para obtener el tamaño de muestra. Por ejemplo en la población para la encuesta medica hay ***N*** = 15 000 especialistas, suponga que el tamaño de muestra requerida es ***n*** = 100. Entonces debemos seleccionar un valor para k menor o igual a 150. Para ***k*** = 150 obtendríamos exactamente n = 100 observaciones, mientras que para $k < 150$, el tamaño de muestra seria 100.

En general, para una muestra sistemática de ***n*** elementos de una población de tamaño ***N***, ***k*** debe ser menor o igual que $N/n$ (esto es, $k ≤ N/n$). Tenga en cuenta que en el ejemplo anterior que ***k*** ≤ 15 000/100, esto es $k ≤ 150$.


### Estimación de la media poblacional y de la proporción de una población

Como lo hemos indicado, el objetivo de la mayoría de técnicas de muestreo es estimar uno o mas parametros de la población. Podemos estimar la media poblacional ***μ*** usando la media muestral $\overline y$ de una muestra sistemática.


**Estimador de la media poblacional μ:**
<img src="grafico/grafico_12.png"  width=140px height=200px/>

donde el subíndice $sy$ significa que se utilizo la muestra aleatoria


Varianza estimada de $\overline y_{sy} $:
<img src="grafico/grafico_13.png"  width=140px height=200px/>

Por ejemplo para determinar la proporción de votantes a favor de una emisión de bonos, él investigador podría utilizar una muestra sistemática de 1 - en - ***k*** de la lista de votantes inscritos. El estimador de la proporción población $p$ por muestreo sistemático se denota por  $\hat{p}_{sy}$  son análogas a las propieades dela media muestrak  $\overline y_{sy} $ cuando las mediciones de la respuesta se define como: sea $y_i = 0$ si el $i-esimo$ elemento muestreado no posee la caracteristica especifica, $y_i = 1$ si la posee. 

El estimador $\hat{p}_{sy}$ es entoces el promedio de los valores 0 y 1 de la muestra.


**Estimación de una proporción de la población**
<img src="grafico/grafico_14.png"  width=150px height=200px/>


**varianza estimada de $\hat{p}_{sy}$**
<img src="grafico/grafico_15.png"  width=150px height=200px/>

donde:
<img src="grafico/grafico_16.png"  width=95px height=200px/>

## Muestreo estratificado

Es obtenida mediante la separación de los elementos de la población en grupos no solapados, llamado estratos, y la selección posterior de una muestra aleatoria simple o sistematica de cada estrato.

#### `Ventajas:`

  - La varianza de dentro de cada estrato es normalmente mas pequeña que la de toda la población.

  - Se reduce a menudo el coste de recopilar la información mediante la separación de estratos.

  - Se puede obtener estimadores separados para estratos individuales sin seleccionar otra muestra.
  
**Estimación de la media y la proporción de una población**

El muestreo por conglomerados es muestreo aleatorio simple o sistematico, con cada unidad de muestreo conteniendo un  numero de elementos. Por tanto, los estimadores de la media poblacional $μ$ y el proporcional $p$, son similares al del muestreo aleatorio simple. 

Se utilizara la siguiente notación:

**N** = numero de conglomerados en la población

**n** = numero de conglomerados seleccionados en una muestra aleatoria simple

**$m_i$** = numero de elementos del conglomerado i, i = 1,..,N.

$\overline m$ = tamaño medio del conglomerado en la muestra
<img src="grafico/grafico_17.png"  width=100px height=200px/>

**M** = numero de elementos en la población
<img src="grafico/grafico_18.png"  width=80px height=200px/>

$\overline M = M/N $ = tamaño medio del conglomerado en la población

$y_i$ = total de todas las observaciones en el i-esimo conglomerado

El estimador de la media poblacional $μ$ es la media simple $\overline y$, que viene dada por
<img src="grafico/grafico_19.png"  width=120px height=200px/>


varianza estimada de $\overline y$: 
<img src="grafico/grafico_20.png"  width=150px height=200px/>

donde
<img src="grafico/grafico_21.png"  width=200px height=200px/>


**Estimación de una proporción poblacional**

Suponga que un investigador desea estimar una proporción población o fracción, como la proporción de una casa en un estado con instalaciones de cañería de mal estado. El mejor estimador de la proporción poblacional **p** es la proporción muestral $\hat{p}$.

La proporción de elementos en la muestra de **n** conglomerados que poseen la característica investigada viene dada por:
<img src="grafico/grafico_22.png"  width=100px height=200px/>

varianza estimada de $\hat{p}$:
<img src="grafico/grafico_23.png"  width=180px height=200px/>

donde:
<img src="grafico/grafico_24.png"  width=220px height=200px/>

# Demo utilizando training job

### Para la estimacion proporcional (muestreo alaeatorio simple)

### -`Ejecutamos 02muestreo_aleatorio_simple_pipeline`  

<img src="grafico/grafico_26.png"  width=950px height=600px/>

#### `Importante:`

  - Darle nombre adecuado al training job: para m.a.s, sistematico y estratificado.
  - Definir el nombre del contenedor  que se va a ejecutar: script_path

### Una vez ejecutado ` 02muestreo_aleatorio_simple_pipeline`  vamos a la lista de training job e identificamos el  que acabamos de ejecutar

<img src="grafico/grafico_27.png"  width=950px height=600px/>

### En la seccion de Monitor, vamos a los view Logs e ingresamos al cloudwatch

<img src="grafico/grafico_28.png"  width=950px height=600px/>

  - En el cloudwatch podemos vizualizar los resultados finales del trabajo de muestreo con sus respectivas metricas

###  El resultado del dataset muestreado se guarda en la ruta S3 pesonalizada dentro del contenedor, es este caso el dataset se renombro como `Telco_customer_churn_mas_proporcional.csv`

<img src="grafico/grafico_29.png"  width=950px height=600px/>

   - En cada carpeta de tecnica de muestreo se va a encontrar una forma paso a paso de como se esta construyendo cada muestra asi como su respectiva interpretacion teorica y de negocio.