# **Elección de grupos de población homogéneos**

Antecendentes: Una productora ganadera nos encarga la tarea de seleccionar grupos de
terneros para aplicar 3 tratamientos diferentes. Para cada uno de los
tratamientos debemos seleccionar 3 grupos de terneros que sean lo mas
homogéneos posible en peso para que en los resultados del tratamiento influya
lo menos posible el peso del animal. Disponemos de una población de N
animales entre machos y hembras

**Diseñar un algoritmo que cumpla con las siguientes especificaciones: **

*   Seleccionar 3 grupos de terneros que sean lo mas homogéneos posible en peso
*   Se dispone de una población de N animales entre machos y hembras



---

*Para efectos de este ejercicio se importará un dataset ficticio con los pesos de 84 vacas*

#### ¿Cuantas posibilidades hay sin tener en cuenta las restricciones?

Sin tomar en cuenta que las agrupaciones tienen que ser homogéneas, se calcula el número de permutaciones con la siguiente fórmula:

P (m) = m !

La expresión representa las permutaciones de los 84 pesos (m) tomando todos los elementos. Los subgrupos se diferenciaran únicamente por el orden de los elementos.

In [0]:
def factorial(n):
    num = 1
    while n >= 1:
        num = num * n
        n = n - 1
    return num
 
#Se calcula el factorial de los 84 pesos que hay
fact84 = factorial(84)
 
# Para visualizar el resultado:
print(fact84)

3314240134565353266999387579130131288000666286242049487118846032383059131291716864129885722968716753156177920000000000000000000


 **¿Cual es la estructura de datos que mejor se adapta al problema?**

Estructura lineal, esto debido a que tenemos una lista de números (pesos) que agrupar según un criterio. Una lista es un conjunto de datos del mismo tipo y cada elemento tiene un único predecesor y sucesor. 

En este caso se necesita recorrer toda la lista, e ir clasificando cada uno de los valores en 3 subgrupos si es mayor, menor o igual que el valor límite para cada grupo. 
  



**Función objetivo**

x1 = valores del grupo A
x2 = valores del grupo B
x3 = valores del grupo C

f(x) = (x1 - 1)^2 - (x2 - 1)^2 - (x3 -1)^2

Con las siguentes restricciones tomando el cuenta los valores mínimos y máximos de la lista: 7.93 y 13.612

7.93 <= x1 < x2 < x3 <= 13.612

En este caso correspondería minimizar, ya que se pide que los grupos sean lo más homogéneos posibles, lo cual corresponde a que tengan la menor diferencia. 

**Diseño de algoritmo por fuerza bruta**

In [0]:
import os
import numpy as np
import pandas as pd
from sklearn import preprocessing
import numpy as np
from pandas import Series
from matplotlib import pyplot

In [0]:
dfpeso = pd.read_csv('sampleweight.csv')

In [0]:
dfpeso.head

<bound method NDFrame.head of     Weight  Sex
0    8.570    0
1    8.490    1
2    8.350    1
3    8.310    1
4    8.160    1
5    8.000    0
6    8.170    1
7    8.510    1
8    8.670    0
9    8.690    1
10   8.810    1
11   9.140    1
12   9.060    1
13  10.040    1
14  11.070    0
15  11.550    1
16  11.400    1
17  11.130    0
18  11.450    1
19  11.770    1
20  11.650    1
21  12.210    1
22  11.270    1
23  11.310    1
24  11.270    0
25  11.400    1
26  11.400    1
27  11.600    1
28  11.860    0
29  11.820    1
..     ...  ...
45  12.850    0
46  13.570    1
47   8.070    1
48   7.930    1
49   7.970    1
50   8.100    1
51   8.100    1
52   8.450    1
53   8.160    1
54   8.290    1
55   8.610    1
56   8.650    1
57   8.910    1
58   8.650    1
59   8.790    1
60   8.880    1
61   9.710    1
62  10.370    1
63  10.970    1
64  10.880    1
65  10.830    1
66  11.010    1
67  10.700    0
68  10.640    1
69  10.590    1
70  10.060    1
71   9.990    1
72  10.008    1
73   9.630

In [0]:
peso_list = dfpeso["Weight"].values

In [0]:
print(peso_list)

[ 8.57   8.49   8.35   8.31   8.16   8.     8.17   8.51   8.67   8.69
  8.81   9.14   9.06  10.04  11.07  11.55  11.4   11.13  11.45  11.77
 11.65  12.21  11.27  11.31  11.27  11.4   11.4   11.6   11.86  11.82
 11.66  11.58  11.54  10.73  11.01  11.    10.7   10.67  10.71  10.85
 11.22  11.85  13.78  14.34  14.21  13.87  13.39  13.77  13.78  13.612
 14.29  13.62  13.02  12.85  13.57  14.27   8.07   7.93   7.97   8.1
  8.1    8.45   8.16   8.29   8.61   8.65   8.91   8.65   8.79   8.88
  9.71  10.37  10.97  10.88  10.83  11.01  10.7   10.64  10.59  10.06
  9.99  10.008  9.63   9.73 ]


In [0]:
peso_sorted = sorted(peso_list)

In [0]:
print(peso_sorted)

[7.93, 7.97, 8.0, 8.07, 8.1, 8.1, 8.16, 8.16, 8.17, 8.29, 8.31, 8.35, 8.45, 8.49, 8.51, 8.57, 8.61, 8.65, 8.65, 8.67, 8.69, 8.79, 8.81, 8.88, 8.91, 9.06, 9.14, 9.63, 9.71, 9.73, 9.99, 10.008, 10.04, 10.06, 10.37, 10.59, 10.64, 10.67, 10.7, 10.7, 10.71, 10.73, 10.83, 10.85, 10.88, 10.97, 11.0, 11.01, 11.01, 11.07, 11.13, 11.22, 11.27, 11.27, 11.31, 11.4, 11.4, 11.4, 11.45, 11.54, 11.55, 11.58, 11.6, 11.65, 11.66, 11.77, 11.82, 11.85, 11.86, 12.21, 12.85, 13.02, 13.39, 13.57, 13.612]


In [0]:
# Creación de la función "grupos" con 2 argumentos:
def grupos(l, n):
    # Para el ítem i en un rango que es de longitud 1,
    for i in range(0, len(l), n):
        # Se crea un rango de índice para l de n elementos:
        yield l[i:i+n]

Complejidad: O(log n), ya que se va reduciendo el tamaño de los datos en cada paso, porque se dividen los datos en 3 subgrupos. 

In [0]:
# De esta forma, con los valores ordenados, se divide en 3 grupos de 28 
#elementos cada uno. Sin embargo, esto no garantiza que haya homogeneidad. 
list(grupos(peso_sorted, 28))

[[7.93,
  7.97,
  8.0,
  8.07,
  8.1,
  8.1,
  8.16,
  8.16,
  8.17,
  8.29,
  8.31,
  8.35,
  8.45,
  8.49,
  8.51,
  8.57,
  8.61,
  8.65,
  8.65,
  8.67,
  8.69,
  8.79,
  8.81,
  8.88,
  8.91,
  9.06,
  9.14,
  9.63],
 [9.71,
  9.73,
  9.99,
  10.008,
  10.04,
  10.06,
  10.37,
  10.59,
  10.64,
  10.67,
  10.7,
  10.7,
  10.71,
  10.73,
  10.83,
  10.85,
  10.88,
  10.97,
  11.0,
  11.01,
  11.01,
  11.07,
  11.13,
  11.22,
  11.27,
  11.27,
  11.31,
  11.4],
 [11.4,
  11.4,
  11.45,
  11.54,
  11.55,
  11.58,
  11.6,
  11.65,
  11.66,
  11.77,
  11.82,
  11.85,
  11.86,
  12.21,
  12.85,
  13.02,
  13.39,
  13.57,
  13.612]]

**Otro tipo de análsis basado en supuestos**

Dosificación 

Al mayor número de la lista se le resta el menor y se divide entre 3 grupos (tratando de basarse un poco en la teoría real de como se dosifica pero basándose en supuestos)

(13.6 - 7.93)/3 = 1.89

Luego se obtiene el promedio en cada grupo y se multiplica por 1.89 para saber la dosis (nuevamente esto se considera un supuesto)


**G1**  7 <= n < 10

Se obtiene el promedio y el resultado se multiplica por 1.89 para obtener la dosificación exacta por grupo

---

**G2**  10 <= n <13

---

**G3**  13 <= n

In [0]:
# Se utiliza la misma lista
# La complejidad en este caso se podría definir como constante O(1) ya que no 
#depende del input de "n" en este caso los pesos. El tiempo para correr este 
#algoritmo siempre es el mismo. 

list = peso_sorted

for values in list:
    if values < 10:
        print('Grupo A')
    elif values < 13:
        print('Grupo B')
    else:
        print('Grupo C')

Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo A
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo B
Grupo C
Grupo C
Grupo C
Grupo C
