# El consumo de alcohol en los estudiantes.
#### María de los Reyes Roldán López

## Introducción

Los datos fueron obtenidos en una encuesta de estudiantes de matemáticas y cursos de lengua portuguesa en la escuela secundaria. El objetivo principal de este proyecto es analizar las correlación de factores como el tiempo de estudio y las relaciones familiares con el consumo de alcohol en estudiantes, aunque también se abordan interrelaciones entre otros factores. Contiene mucha información social, de género y de estudio interesante sobre los estudiantes.

## Contenido 

Atributos para los conjuntos de datos student-mat.csv (curso de matemáticas) y student-por.csv (curso de portugués):

1. <code>school</code> - escuela del estudiante (binario: 'GP' - Gabriel Pereira o 'MS' - Mousinho da Silveira)

2. <code>sex</code> - sexo del estudiante (binario: 'F' - femenino o 'M' - masculino)

3. <code>age</code> - edad del estudiante (numérico: de 15 a 22)

6. <code>Pstatus</code> - estado de cohabitación de los padres (binario: 'T' - viviendo juntos o 'A' - separados)

8. <code>studytime</code> - tiempo de estudio semanal (numérico: 1 - <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas, o 4 - >10 horas)

9. <code>famsup</code> - apoyo educativo familiar (binario: si o no)

10. <code>romantic</code> - con una relación romántica (binario: sí o no)

11. <code>famrel</code> - calidad de las relaciones familiares (numérico: de 1 - muy mala a 5 - excelente)

12. <code>freetime</code> - tiempo libre después de la escuela (numérico: de 1 - muy bajo a 5 - muy alto)

13. <code>goout</code> - salir con amigos (numérico: de 1 - muy bajo a 5 - muy alto)

14. <code>Dalc</code> - consumo de alcohol en jornada laboral (numérico: de 1 - muy bajo a 5 - muy alto)

15. <code>Walc</code> - consumo de alcohol en fin de semana (numérico: de 1 - muy bajo a 5 - muy alto)

16. <code>health</code> - estado de salud actual (numérico: de 1 - muy malo a 5 - muy bueno)


Estas calificaciones están relacionadas con la materia del curso, Matemáticas o Portugués:

17. <code>G1</code> - nota del primer período (numérico: de 0 a 20)
18. <code>G2</code> - calificación del segundo período (numérico: de 0 a 20)
19. <code>G3</code> - calificación final (numérica: de 0 a 20, objetivo de salida)

Debemos importar módulos de la librería estandar, y un único paquete externo (matplotlib):

In [44]:
import csv
from datetime import datetime
from math import sin, cos, sqrt, atan2, radians
from matplotlib import pyplot as plt
from matplotlib import image as mpimg
from collections import namedtuple

In [45]:
import pandas as pd
data = pd.read_csv('studentmat - studentmat.csv')
print (data)

    school sex  age famsize Pstatus  studytime famsup romantic  famrel  \
0       GP   F   18     GT3       A          2     no       no       4   
1       GP   F   17     GT3       T          2    yes       no       5   
2       GP   F   15     LE3       T          2     no       no       4   
3       GP   F   15     GT3       T          3    yes      yes       3   
4       GP   F   16     GT3       T          2    yes       no       4   
..     ...  ..  ...     ...     ...        ...    ...      ...     ...   
144     GP   M   17     GT3       T          1    yes       no       5   
145     GP   F   15     GT3       T          2    yes       no       4   
146     GP   F   15     GT3       T          2    yes       no       3   
147     GP   F   15     GT3       T          2    yes       no       4   
148     GP   M   16     GT3       T          1    yes      yes       3   

     freetime  goout  Dalc  Walc  health  G1  G2  G3  
0           3      4     1     1       3   5   6   6  
1

### Función de lectura de texto.
Abriremos el fichero en modo texto, así es posible leer todo el contenido y guardarlo en una variable de tipo cadena mediante el método read:

In [46]:
with open('studentmat2.txt', encoding='utf-8') as f:
    for linea in f:
        print(linea)

school,sex,age,famsize,Pstatus,studytime,famsup,romantic,famrel,freetime,goout,Dalc,Walc,health,G1,G2,G3

GP,F,18,GT3,A,2,no,no,4,3,4,1,1,3,5,6,6

GP,F,17,GT3,T,2,yes,no,5,3,3,1,1,3,5,5,6

GP,F,15,LE3,T,2,no,no,4,3,2,2,3,3,7,8,10

GP,F,15,GT3,T,3,yes,yes,3,2,2,1,1,5,15,14,15

GP,F,16,GT3,T,2,yes,no,4,3,2,1,2,5,6,10,10

GP,M,16,LE3,T,2,yes,no,5,4,2,1,2,5,15,15,15

GP,M,16,LE3,T,2,no,no,4,4,4,1,1,3,12,12,11

GP,F,17,GT3,A,2,yes,no,4,1,4,1,1,1,6,5,6

GP,M,15,LE3,A,2,yes,no,4,2,2,1,1,1,16,18,19

GP,M,15,GT3,T,2,yes,no,5,5,1,1,1,5,14,15,15

GP,F,15,GT3,T,2,yes,no,3,3,3,1,2,2,10,8,9

GP,F,15,GT3,T,3,yes,no,5,2,2,1,1,4,10,12,12

GP,M,15,LE3,T,1,yes,no,4,3,3,1,3,5,14,14,14

GP,M,15,GT3,T,2,yes,no,5,4,3,1,2,3,10,10,11

GP,M,15,GT3,A,3,yes,yes,4,5,2,1,1,3,14,16,16

GP,F,16,GT3,T,1,yes,no,4,4,4,1,2,2,14,14,14

GP,F,16,GT3,T,3,yes,no,3,2,3,1,2,2,13,14,14

GP,F,16,GT3,T,2,yes,no,5,3,2,1,1,4,8,10,10

GP,M,17,GT3,T,1,yes,no,5,5,5,2,4,5,6,5,5

GP,M,16,LE3,T,1,no,no,3,1,3,1,3,5,8,10,10

GP,M,15,GT3,T,2

Se puede observar cada línea separada por una línea vacía, esto se debe a que hemos usado el descriptor del fichero dentro de un bucle for, como si se tratara de una secuencia de cadenas, de manera que en cada paso del bucle obtendremos la siguiente línea del fichero.

La siguiente función será la encargada de leer el fichero de entrada, y construir a partir de él una estructura de datos en memoria.

In [47]:
def lee_estudiantes(fichero):
    with open(fichero, encoding='utf-8') as f:
        # Se crea un objeto lector (un iterator) que separará los valores por comas
        lector = csv.reader(f)
        next(lector) 
        # Lista por comprensión sobre el objeto lector
        l_estudiantes = [(str(school), str(sex), int(age), str(famsize), str(Pstatus), int(studytime), str(famsup), str(romantic), int(famrel), int(freetime), int(goout), int(Dalc), int(Walc), int(health), int(G1), int(G2), int(G3)) for school, sex, age, famsize, Pstatus, studytime, famsup, romantic, famrel, freetime, goout, Dalc, Walc, health, G1, G2, G3 in lector]
        return l_estudiantes

In [48]:
# Test de la función lee_estudiantes
ESTUDIANTES = lee_estudiantes('studentmat - studentmat.csv')
print(len(ESTUDIANTES))
print(ESTUDIANTES[:7])

149
[('GP', 'F', 18, 'GT3', 'A', 2, 'no', 'no', 4, 3, 4, 1, 1, 3, 5, 6, 6), ('GP', 'F', 17, 'GT3', 'T', 2, 'yes', 'no', 5, 3, 3, 1, 1, 3, 5, 5, 6), ('GP', 'F', 15, 'LE3', 'T', 2, 'no', 'no', 4, 3, 2, 2, 3, 3, 7, 8, 10), ('GP', 'F', 15, 'GT3', 'T', 3, 'yes', 'yes', 3, 2, 2, 1, 1, 5, 15, 14, 15), ('GP', 'F', 16, 'GT3', 'T', 2, 'yes', 'no', 4, 3, 2, 1, 2, 5, 6, 10, 10), ('GP', 'M', 16, 'LE3', 'T', 2, 'yes', 'no', 5, 4, 2, 1, 2, 5, 15, 15, 15), ('GP', 'M', 16, 'LE3', 'T', 2, 'no', 'no', 4, 4, 4, 1, 1, 3, 12, 12, 11)]


### Función de transformación.

Una vez cargados los datos ya podremos trabajar con ellos. La primera función que realizaremos será la función <code>calcula_edades</code> de la cual obtendremos, a partir de los datos de entrada, una lista con todas las edades de los estudiantes. Las siguientes celdas contienen la implementación y el test, respectivamente, de esta función:

In [49]:
def calcula_edades(l_estudiantes):
    ''' Calcula las edades presentes en una lista de estudiantes
    
    ENTRADA: 
       - l_estudiantes: lista de estudiantes -> [(str, str, int, str, str, int, str, str, int, int, int, int, int, int, int, int, int)]
    SALIDA: 
       - lista de edades -> [int] 

    Toma como entrada una lista de tupla y produce como
    salida una lista con todas las edades.
    '''
    # Calculamos el conjunto de ediciones presentes
    edades = [age for _, _, age, _, _, _, _, _, _, _, _, _, _, _, _, _, _, in ESTUDIANTES]
    return edades

In [50]:
# Test de la función calcula_ediciones
edades = calcula_edades(ESTUDIANTES)
print(edades)

[18, 17, 15, 15, 16, 16, 16, 17, 15, 15, 15, 15, 15, 15, 15, 16, 16, 16, 17, 16, 15, 15, 16, 16, 15, 16, 15, 15, 16, 16, 15, 15, 15, 15, 16, 15, 15, 16, 15, 15, 16, 15, 15, 15, 16, 15, 16, 16, 15, 15, 16, 15, 15, 15, 15, 16, 15, 15, 15, 16, 16, 16, 16, 16, 15, 16, 15, 16, 15, 15, 16, 15, 15, 16, 16, 15, 15, 16, 17, 16, 15, 15, 15, 15, 15, 15, 16, 15, 16, 16, 16, 15, 16, 16, 15, 15, 16, 16, 16, 16, 16, 16, 15, 15, 15, 15, 15, 16, 15, 16, 15, 16, 16, 15, 15, 16, 15, 16, 17, 15, 15, 15, 16, 16, 16, 15, 15, 19, 18, 16, 15, 15, 17, 16, 15, 15, 17, 16, 16, 15, 15, 16, 15, 16, 17, 15, 15, 15, 16]


La segunda de las funciones, <code>media_por_edades</code>, es una función de _transformación_. Se encargará de calcular la media de edades de los estudiantes registrados. 

In [51]:
def medias_por_edades(l_estudiantes):
    ''' Calcula la media de edades de estudiantes.
    
    ENTRADA: 
       - l_estudiantes: lista de estudiantes -> [(str, str, int, str, str, int, str, str, int, int, int, int, int, int, int, int, int)]
    SALIDA:
       - medias de edades de estudiantes -> float

    Toma como entrada una lista de tuplas y produce como
    salida la media de las edades de los estudiantes .
    '''
    medias = sum(edades)/len(edades)
    return medias


In [52]:
# Test de la función medias_por_edades
medias = medias_por_edades(ESTUDIANTES)
print("La media de edad de estudiantes es", medias)

La media de edad de estudiantes es 15.577181208053691


### Función de filtrado.

In [67]:
def filtra_por_edades(l_estudiantes, edades):
    filtrados = [c for a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q in l_estudiantes if c in edades]
    return filtrados

In [68]:
print(filtra_por_edades)

<function filtra_por_edades at 0x0000016D56CB0EE0>
