# Laboratorio 1

## Desarrollo de una herramienta analítica usando recursos nativos de Python

Para el desarrollo de esta actividad debes utilizar únicamente recursos nativos de Python (puedes usar librerías como `math` y `random`). Está prohibido el uso de librerías externas, a excepción de `matplotlib`. Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el propósito global de la actividad y puedas desarrollar tu solución apuntando a él desde el inicio.

En algunas de las misiones encontrarás: una **versión base**, la cual indica el requerimiento mínimo de la misión; una **versión completa**, la cual indica mejoras deseables o complementos a la **versión base**. Un desarrollo aceptable del laboratorio debe satisfacer la **versión base** y un desarrollo correcto del laboratorio debe satisfacer la **versión completa**. Cumplir con el desarrollo de la **versión completa** desde un inicio hará más sencillas las misiones siguientes.

Al desarrollar este laboratorio pondrás a prueba tus habilidades para:

1. Identificar y abordar preguntas de negocio y de *analytics*.
2. Leer datos desde archivos y almacenarlos en estructuras de Python.
3. Crear y llamar funciones.
4. Implementar condicionales diferenciando `if`, `elif` y `else`.
5. Implementar ciclos diferenciando el propósito de `for` y `while`.

## Contexto: exploración del potencial para asignar becas Unialpes

La Universidad ean se ha caracterizado por su compromiso con la generación de impacto en la sociedad a través de diferentes programas de becas. Programas como Becas para los Mejores, entre otros, han sido revolucionarios al permitir que estudiantes de bajos recursos puedan acceder a una de las universidades más prestigiosas del país.

Actualmente, la universidad quiere evaluar el potencial impacto que tendrían algunos programas de acción afirmativa para asignación de becas, con base en información demográfica que ha obtenido a través de encuestas a personas interesadas en becas. Se cuenta con información respecto a la edad, género, estado civil, estrato socioeconómico, región de proveniencia, desempeño académico y nivel de escolaridad de las personas encuestadas. Los encargados de diseñar el programa saben que utilizar criterios basados en este tipo de variables es un tema sensible, pero es necesario si se quieren focalizar las oportunidades en poblaciones menos representadas.

El objetivo de este laboratorio es crear una herramienta computacional que permita a un tomador de decisiones explorar qué efecto podría tener el uso de diferentes reglas para seleccionar a los beneficiarios de las becas. Puntualmente, se espera que, para distintas reglas de selección (ej., pertenecer a cierta región, rango de edad, etc.), la herramienta ofrezca una caracterización de los potenciales beneficiarios de las becas (a partir de estadísticas descriptivas y visualizaciones), de forma que exista un sustento para elegir la regla de selección adecuada.

## Fase 1: obtener e inspeccionar archivos

Los datos de encuestas fueron obtenidos como parte de un trabajo de campo y, por limitaciones tecnológicas, solo se cuenta con la información en archivos de texto plano (`.txt`). Cada archivo corresponde a uno de los atributos antes mencionados y están estructurados de forma que todos relacionan a las personas encuestadas en el mismo orden (i.e., en cada archivo la primera línea corresponde a un dato de la primera persona encuestada, la segunda línea corresponde a un dato de la segunda persona encuestada, etc.).

Los archivos con los que cuentas son:

* `"edad.txt"`: un archivo con la edad de cada persona encuestada;
* `"escolaridad.txt"`: un archivo con el nivel de escolaridad de cada persona encuestada;
* `"estado_civil.txt"`: un archivo con el estado civil de cada persona encuestada;
* `"estrato.txt"`: un archivo con el estrato socioeconómico de cada persona encuestada;
* `"genero.txt"`: un archivo con el género de cada persona encuestada;
* `"promedio.txt"`: un archivo con el promedio académico de cada persona encuestada;
* `"region.txt"`: un archivo con la región de proveniencia de cada persona encuestada.

### Misión 1

**Versión base**: utiliza métodos de lectura de archivos para guardar la información de cada archivo en una estructura de datos de Python, de manera que se respete el orden y la categoría de los datos.

**Versión completa**: escribe una función que sea capaz de ejecutar la **versión base** y llámala dentro de un ciclo para automatizar la lectura de los archivos.

In [None]:
"""# Implementa tu respuesta en esta celda
def analisis (id, ruta):
    def info_edad ():
        archivo = open(f"{ruta}/edad.txt", "r",encoding="UTF-8")
        edad = []
        for i in archivo:
            edad.append(int(i.strip()))
        return edad

    def info_escolaridad ():
        archivo = open(f"{ruta}/escolaridad.txt", "r",encoding="UTF-8")
        escolaridad = []
        for i in archivo:
            escolaridad.append(str(i.strip()))
        return escolaridad

    def info_estado_civil ():
        archivo = open(f"{ruta}/estado_civil.txt", "r",encoding="UTF-8")
        estado_civil = []
        for i in archivo:
            estado_civil.append(str(i.strip()))
        return estado_civil

    def info_estrato ():
        archivo = open(f"{ruta}/estrato.txt", "r",encoding="UTF-8")
        estrato = []
        for i in archivo:
            estrato.append(int(i.strip()))
        return estrato

    def info_genero ():
        archivo = open(f"{ruta}/genero.txt", "r",encoding="UTF-8")
        genero = []
        for i in archivo:
            genero.append(str(i.strip()))
        return genero

    def info_promedio ():
        archivo = open(f"{ruta}/promedio.txt", "r",encoding="UTF-8")
        promedio = []
        for i in archivo:
            promedio.append(float(i.strip()))
        return promedio

    def info_region ():
        archivo = open(f"{ruta}/region.txt", "r",encoding="UTF-8")
        region = []
        for i in archivo:
            region.append(str(i.strip()))
        return region

    informacion_edad = info_edad()
    informacion_escolaridad = info_escolaridad()
    informacion_estado_civil = info_estado_civil()
    informacion_estrato = info_estrato()
    informacion_genero = info_genero()
    informacion_promedio = info_promedio()
    informacion_region = info_region()

    
    datos_finales = []
    for i in range(0, id):
        datos = {"id":(i+1),
        "estrato": informacion_estrato[i],
        "estado_civil": informacion_estado_civil[i], 
        "edad": informacion_edad[i], 
        "region" : informacion_region[i], 
        "genero" : informacion_genero[i], 
        "escolaridad": informacion_escolaridad[i], 
        "promedio" : informacion_promedio[i]}
        datos_finales.append(datos)
        
    print(datos_finales)

analisis(1, "Archivos")"""

In [None]:
def info_edad():
        archivo = open(f"Archivos/edad.txt", "r", encoding="UTF-8")
        edad = []
        for i in archivo:
            edad.append(int(i.strip()))
        return edad

def info_escolaridad ():
    archivo = open(f"Archivos/escolaridad.txt", "r",encoding="UTF-8")
    escolaridad = []
    for i in archivo:
        escolaridad.append(str(i.strip()))
    return escolaridad

def info_estado_civil ():
    archivo = open(f"Archivos/estado_civil.txt", "r",encoding="UTF-8")
    estado_civil = []
    for i in archivo:
        estado_civil.append(str(i.strip()))
    return estado_civil

def info_estrato ():
    archivo = open(f"Archivos/estrato.txt", "r",encoding="UTF-8")
    estrato = []
    for i in archivo:
        estrato.append(int(i.strip()))
    return estrato

def info_genero ():
    archivo = open(f"Archivos/genero.txt", "r",encoding="UTF-8")
    genero = []
    for i in archivo:
        genero.append(str(i.strip()))
    return genero

def info_promedio ():
    archivo = open(f"Archivos/promedio.txt", "r",encoding="UTF-8")
    promedio = []
    for i in archivo:
        promedio.append(float(i.strip()))
    return promedio

def info_region ():
    archivo = open(f"Archivos/region.txt", "r",encoding="UTF-8")
    region = []
    for i in archivo:
        region.append(str(i.strip()))
    return region

informacion_edad = info_edad()
informacion_escolaridad = info_escolaridad()
informacion_estado_civil = info_estado_civil()
informacion_estrato = info_estrato()
informacion_genero = info_genero()
informacion_promedio = info_promedio()
informacion_region = info_region()

    
datos_finales = []
for i in range(0, id):
    datos = {"id":(i+1),
    "estrato": informacion_estrato[i],
    "estado_civil": informacion_estado_civil[i], 
    "edad": informacion_edad[i], 
    "region" : informacion_region[i], 
    "genero" : informacion_genero[i], 
    "escolaridad": informacion_escolaridad[i], 
    "promedio" : informacion_promedio[i]}
    datos_finales.append(datos)
        
print(datos_finales)

### Misión 2

**Versión base**: calcula estadísticas descriptivas básicas (por lo menos, media/mediana y varianza/desviación) para cada variable relevante en el contexto del problema y repórtalas concluyendo acerca de las principales características de los datos.

**Versión completa**: complementa la **versión base** con visualizaciones informativas sobre los datos (ej., histogramas, gráficos de dispersión, boxplots, etc.), relevantes para el problema.

In [49]:
# Implementa tu respuesta en esta celda
def estadistica (lista):
    # Numero de datos
    numero_datos = len(lista)

    # Promedio
    suma_promedio = 0
    for i in lista:
        suma_promedio += i
    promedio = suma_promedio / numero_datos

    # Mediana
    mitad = numero_datos // 2
    lista.sort()
    mediana = (lista[mitad-1] + lista[mitad])/2
    
    # Varianza
    suma_varianza = 0
    for j in lista:
        sumatoria = (i-promedio)**2
        suma_varianza += sumatoria
    varianza = suma_varianza / numero_datos

    # Desviacion estandar
    desviacion_estandar = (varianza)**0.5

    # Rango 
    rango = max(lista) - min(lista)

    return numero_datos, promedio, mediana, varianza, desviacion_estandar, rango

def imprimir(valores):
    (n,p,m,v,d,r) = valores
    print(f"Numero de filas = {n}")
    print(f"promedio = {p}")
    print(f"mediana = {m}")
    print(f"varianza = {v}")
    print(f"desviacion estandar = {d}")
    print(f"rango = {r}")

imprimir(estadistica(informacion_edad))
imprimir(estadistica(informacion_estrato))
imprimir(estadistica(informacion_promedio))



Numero de filas = 500
promedio = 48.748
mediana = 49.0
varianza = 976.6875039999878
desviacion estandar = 31.251999999999803
rango = 62



Numero de filas = 500
promedio = 48.748
mediana = 49.0
varianza = 345.76849599999997
desviacion estandar = 18.59485133040864
rango = 62 
Edad None

Numero de filas = 500
promedio = 2.308
mediana = 25.5
varianza = 0.9531359999999962
desviacion estandar = 0.9762868430947926
rango = 4 
Estrato None

Numero de filas = 500
promedio = 2.6212000000000004
mediana = 25.85
varianza = 1.2452705600000027
desviacion estandar = 1.1159169144698913
rango = 5.0 
promedio None


AttributeError: module 'matplotlib' has no attribute 'hist'

## Referencias

* Discriminación Positiva<br>
https://es.wikipedia.org/wiki/Discriminaci%C3%B3n_positiva
* Análisis de formulación del programa “Ser Pilo Paga”<br>
https://repository.urosario.edu.co/handle/10336/12526
* La acción afirmativa en la Universidad de los Andes: El caso del programa "Oportunidades para talentos nacionales"<br> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0123-885X2004000300005
* Acción afirmativa y equidad: un análisis desde la propuesta de Thomas Nagel<br>
http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-24062016000200049

## Créditos

__Autores__: Camilo Hernando Gómez Castro, Alejandro Mantilla Redondo, Diego Alejandro Cely Gómez.
 
__Fecha última actualización__: 11/07/2022