# Pistas

Como pista general: van a ser clave los índices de las personas según su orden en los archivos. Eso nos permitirá acceder a las diferentes variables para una única persona, pero también será muy importante para poder crear sub-poblaciones (e.g., aquellos que pertenecen a un estrato, o región, etc.) sin perder de vista su elemento identificador en la población completa. Tips sobre esto: mantener una variable que guarde la población completa y sus características y que esa nunca se modifique; podremos crear otras variables (ej., personas del género y región que estamos evaluando actualmente) y saber quiénes son; es decir, tener claro, en alguna variable, que mi lista de 6 personas que pertenecen a ese género y región son las personas 11, 85, 143, 287, 413 y 615 de la población total. Eso nos servirá, porque cuando encontremos las personas con desempeño superior, dentro de ese pequeño grupo, sabremos que esas serán las que tenemos que reportar como elegidos para las becas. Igualmente, esto último nos servirá para decir, en alguna ronda posterior, las personas 143 y 287 no pueden ser elegidas porque fueron elegidas en alguna ronda anterior (ya estarán en alguna estructura de datos que va consolidando los becados).

A continuación encontrarás algunos comentarios guía en caso de que tengas dificultades con alguna misión:

* **Misión 1**

    + Considera cuál de las estructuras de datos de Python vistas hasta ahora sería más conveniente para almacenar la información que se encuentra en los archivos. Piensa que tenemos una serie de variables (cuyo orden no es relevante) sobre la población encuestada, y para cada una, tenemos información de las personas, esas sí en un orden que vale la pena.
    
    + Considera empezar por un procedimiento que permita leer uno de los archivos y ponerlo en una estructura de datos conveniente. Cuando alcances esa meta, piensa como podrías aplicar ese mismo procedimiento de forma eficiente a todos los archivos de la carpeta.

* **Misión 2**
    
    + Empieza con lo básico: ¿qué información es importante sobre cada variable o archivo? Pensemos en nuestro contexto: nos importa ver las características de una población dada, pero principalmente ver si cierto criterio de selección de candidatos para becas logra conducir a una población que tenga unas características adecuadas desde el punto de vista de la Universidad. ¿Será que la población obtenida está desbalanceada en género? ¿Será que está desbalanceada en estratos? Ver cómo se distribuye la población en términos de las diferentes caracaterísticas es un paso básico. Ten en mente que esto funciona diferente para las variables numéricas y las categóricas.
    
    + Como nivel avanzado, considera que una funcionalidad interesante sería poder comparar dos poblaciones. Por ejemplo, si tengo dos criterios de selección en competencia, sería valioso ver qué distribución causa cada uno de ellos en la población elegida para las diferentes variables de interés.

* **Misión 3**
 
Utiliza las pistas de las misiones anteriores para desarrollar tu propia idea de *qué se busca responder a nivel directivo* y, por otro lado, *cuál debería ser el objetivo de la herramienta analítica*. Lo primero nos habla de la motivación misional, desde los stakeholders, mientras que lo segundo nos ayuda a concretar qué acciones podemos proponer con los datos disponibles para mejorar la evidencia o insumos que esos stakeholders tienen para la toma de decisiones.

* **Misión 4**

    + Un tip general: pensarlo como una función que luego podremos utilizar. 
    
    + Tips específicos para poner el procedimiento descrito en código. 
        
        * Hay un proceso para el cual podemos identificar unas repeticiones fijas. Sabemos que, para todo estrato, tenemos que hacer dos cosas: primero, identificar y filtrar a las personas que pertenecen a ese estrato; y segundo, entre esas personas, aplicar un nuevo filtro que seleccione solo a los de desempeño académico superior. Cada una de esas cosas podría también pensarse como una función, si eso facilita la vida.
        
        * Con el proceso anterior cubierto, hay otro proceso pendiente. Si logramos hacer una ronda de seleccionar el 2% superior de cada estrato, es posible que haya que hacer más rondas, si es que todavía quedan becas por asignar. En general, no sabemos si las becas se acabaran durante la primera ronda, o si alcancen a hacerse muchas rondas antes de agotar el número de becas.
        
        * Es importante tener una variable que, dentro de cada ronda, pueda almacenar el conjunto de personas que se han seleccionado en esa ronda (e.g., del estrato 2, quiénes serían los seleccionados del 2% superior en esta ronda).
        
        * Es importante que una variable (diferente a la anterior) vaya acumulando el grupo de los becados. Es decir, una en la que se van anexando los elegidos de un estrato, del siguiente, etc.
        
        * Es muy importante tener en cuenta que quienes hayan sido elegidos para algún estrato en una ronda, no pueden considerarse como candidatos para ser elegidos si llega a haber una ronda siguiente que considere de nuevo ese mismo estrato.

* **Misión 5**

    + Esta misión es un poco más sencilla que la anterior. Basta con definir los grupos que pueden darse según género y región y saber que a cada uno de ellos se asignará una proporción de las becas. La lógica principal será lograr identificar, de la población completa, qué individuos pertenecen al grupo en consideración. Luego, bastará recorrer los grupos que se hayan establecido, en cada uno identificar quiénes pertenecen a él, y de esos, elegir los de desempeño académico superior (tantos como número de becas se decida asignar a esa población). 
    
* **Misión 6**
    
    + En las misiones 4 y 5 hemos construido procedimientos que logran lo siguiente. Si parto de la población inicial, tengo un procedimiento que logra identificar cuál sería la sub-población becada bajo los criterios del primer grupo de personas del comité, y otro que hace lo mismo para el segundo grupo. Con eso, debería poder guardar en alguna estructura de datos las sub-poblaciones que se obtendrían en cada caso. Adicionalmente, en la misión 2, logramos hacer un procedimiento que visualice las características de una población dada (la población completa). No debería ser muy difícil modificar ese procedimiento para que se le pueda pasar una población cualquiera (ej. los elegidos según un criterio o el otro) y que se logren visualizar las características relevantes de esas poblaciones ya filtradas.

* **Misión 7**
    
    * Trata de generalizar las pistas que ofrecimos para las misiones 4 y 5.

* **Misión 8**
    
    + Cuando busques hacer tu propia propuesta de algún criterio de selección que te parezca más adecuado que los propuestos por el comité, ten en cuenta lo siguiente:
        
        + Como profesionales en analítica de datos, somo peritos. Somos los encargados de procesar racionalmente la evidencia que hay en los datos. Es cierto que ayudamos a los stakeholders a construir las preguntas que se quiere responder, pero allí somos instrumentales, les aportamos desde nuestra experiencia qué preguntas pueden tener sentido dados los datos. Sin embargo, los decisores son ellos.
        
        + Sí podemos aportar desde lo personal pero: (i) dejando claro cuando estamos sugiriendo algo desde allí; y (ii) utilizando los datos y análisis para justificar o sustentar por qué la propuesta puede ser del interés de los stakeholders. Por ejemplo, si alguien, por alguna convicción personal, cree que basta con usar el criterio de región, puede intentar analizar su política usando la herramienta analítica desarrollada, y presentar ante el comité sus resultados (ej., propongo este criterio por un motivo personal pero los resultados de la herramienta muestran que se alcanzan poblaciones más diversas, y se ven menos injusticias respecto a los logros académicos de las personas en la asignación de becas).

* **Misión 9**
    
    + Puedes partir de una propuesta basada en tu conocimiento o inclinaciones personales y utilizar la herramienta para refinar el criterio. Recuerda que se trata de datos generados arbitrariamente, así que la información previa que traigamos de la vida real puede conducir a un sesgo. El papel del profesional en analítica de datos es el de un perito: si los datos no concuerdan con alguna expectativa personal, será necesario indagar más o re-considerar dicha posición.