# Exploratory Data Analysis para el consumo de alcohol en estudiantes universitarios

Se nos presentan datos sobre el consumo de alcohol en estudiantes universitarios de primer año, además de su rendimiento académico, relaciones personales, estado de salud, etc.
Deberemos analizar los datos recibidos y llegar a conclusiones al respecto.

## 1. Primero importamos las librerías correspondientes

In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 2. Extraemos los datos

Notamos que los datos están en un arhivo csv, por lo que usaremos pandas para crear un dataframe de los mismos

In [6]:
df_data = pd.read_csv(filepath_or_buffer="C:/Users/franc/Desktop/EDA_ML/estudialcohol.csv", sep=",",encoding='latin-1')

Imprimimos los datos por pantalla para ver como se muestran

In [7]:
df_data

Unnamed: 0,ï»¿ciudad,genero,edad,direccion,famtam,estadoP,eduM,eduP,trabM,trabP,...,pololea,qfamrel,tpolibre,saleamigos,salud,inasistencia,G1,G2,G3,nivelalco
0,La Serena,M,25,URB,MI3,SEP,0,2,servicios,otro,...,si,3,5,4,2,30,6.1,6.4,5.7,BAJO
1,Valparaiso,M,23,RUR,MQ3,SEP,2,4,otro,salud,...,si,1,4,2,1,8,4.0,5.2,4.2,MUYBAJO
2,La Serena,F,18,URB,MQ3,SEP,4,2,profesor,servicios,...,si,4,5,3,2,26,3.3,4.2,3.6,ALTO
3,La Serena,F,22,URB,MQ3,JUN,4,1,servicios,otro,...,si,3,3,4,2,18,4.0,1.0,2.8,BAJO
4,La Serena,F,23,RUR,MQ3,JUN,1,4,en_casa,profesor,...,si,5,3,4,3,28,4.1,3.6,3.5,ALTO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,Valparaiso,F,20,RUR,MQ3,JUN,2,3,servicios,en_casa,...,no,1,4,1,5,56,2.1,1.7,1.7,NORMAL
2996,La Serena,F,23,RUR,MQ3,JUN,3,2,servicios,en_casa,...,no,2,2,3,4,26,4.0,4.1,4.3,ALTO
2997,La Serena,M,20,RUR,MI3,JUN,1,3,en_casa,en_casa,...,si,5,2,1,3,12,3.0,2.8,2.7,ALTO
2998,La Serena,M,23,RUR,MI3,SEP,0,2,en_casa,servicios,...,no,2,4,4,1,3,5.5,5.8,5.1,BAJO


### El dataset contiene las siguientes variables

1. ciudad: Ciudad de residencia del estudiante
2. genero: Género del estudiante (M = Masculino, F = Femenino)
3. edad: Edad del estudiante
4. direccion: Tipo de dirección del estudiante (URB = Urbana, RUR = Rural)
5. famtam: Tamaño de la familia del estudiante (MI3 = Menor o igual a 3 integrantes, MQ3 = más de 3 integrantes en la familia)
6. estadoP: Estado parental (SEP = Separados, JUN = Juntos)
7. eduM: Nivel educativo de la madre (0: Ninguna, 1: E.Básica, 2: E.Media, 3: Técnica, 4:Universitaria)
8. eduP: Nivel educativo del padre (0: Ninguna, 1: E.Básica, 2: E.Media, 3: Técnica, 4:Universitaria)
9. trabM: Trabajo de la madre
10. trabP: Trabajo del padre
11. razon: Razón de elección de la escuela
12. asistioNMM: Asistió al nivel medio mayor (preescolar)
13. internet: Dispone de acceso a internet en casa
14. tutor: Tutor asignado
15. tpoviaje: Tiempo de viaje (total) a la universidad
16. tpoestudio: Tiempo dedicado al estudio
17. areprobadas: Número de asignaturas reprobadas
18. apoyoextra: Recibe algún apoyo extra de la universidad
19. apoyofam: Recibe apoyo familiar en los estudios
20. extrapaga: Recibe clases particulares pagadas
21. activextra: Realiza actividades extracurriculares
22. qsuperior: Quería seguir con estudios superiores (está convencido que son útiles)
23. pololea: Tiene pololo/a
24. qfamrel: Calidad de las relaciones familiares
25. tpolibre: Tiempo libre tras la escuela
26. saleamigos: Sale con amigos los fines de semana
27. salud: Percepción de salud del estudiante.
28. inasistencia: Número de inasistencias
29. G1: Nota en el primer periodo
30. G2: Nota en el segundo periodo
31. G3: Nota en el tercer periodo
32. nivelalco: Nivel de consumo de alcohol.

Verifiacmos que no falten datos en el dataset

In [8]:
null_values = df_data.isnull().sum()

null_values

ï»¿ciudad       0
genero          0
edad            0
direccion       0
famtam          0
estadoP         0
eduM            0
eduP            0
trabM           0
trabP           0
razon           0
asistioNMM      0
internet        0
tutor           0
tpoviaje        0
tpoestudio      0
areprobadas     0
apoyoextra      0
apoyofam        0
extrapaga       0
activextra      0
qsuperior       0
pololea         0
qfamrel         0
tpolibre        0
saleamigos      0
salud           0
inasistencia    0
G1              0
G2              0
G3              0
nivelalco       0
dtype: int64

Notamos que una columna se encuentra mal escrita, así que la corregimos

In [9]:
df_data.rename(columns={'ï»¿ciudad': 'ciudad'}, inplace=True)


df_data.head()

Unnamed: 0,ciudad,genero,edad,direccion,famtam,estadoP,eduM,eduP,trabM,trabP,...,pololea,qfamrel,tpolibre,saleamigos,salud,inasistencia,G1,G2,G3,nivelalco
0,La Serena,M,25,URB,MI3,SEP,0,2,servicios,otro,...,si,3,5,4,2,30,6.1,6.4,5.7,BAJO
1,Valparaiso,M,23,RUR,MQ3,SEP,2,4,otro,salud,...,si,1,4,2,1,8,4.0,5.2,4.2,MUYBAJO
2,La Serena,F,18,URB,MQ3,SEP,4,2,profesor,servicios,...,si,4,5,3,2,26,3.3,4.2,3.6,ALTO
3,La Serena,F,22,URB,MQ3,JUN,4,1,servicios,otro,...,si,3,3,4,2,18,4.0,1.0,2.8,BAJO
4,La Serena,F,23,RUR,MQ3,JUN,1,4,en_casa,profesor,...,si,5,3,4,3,28,4.1,3.6,3.5,ALTO


Evaluamos su estadística descriptiva de forma preliminar

In [11]:
df_stats = df_data.describe()

df_stats

Unnamed: 0,edad,eduM,eduP,tpoviaje,tpoestudio,areprobadas,qfamrel,tpolibre,saleamigos,salud,inasistencia,G1,G2,G3
count,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0
mean,21.218667,2.602667,2.567333,2.517,2.49,1.486,3.009333,2.993667,3.007667,3.024667,18.634,4.085533,4.1029,4.403667
std,2.226321,1.353047,1.361158,1.130547,1.121451,1.109451,1.410405,1.413138,1.406983,1.424571,16.356096,1.290201,1.344514,1.385145
min,18.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,0.0,1.4,1.0,1.3
25%,19.0,2.0,1.0,1.0,1.0,1.0,2.0,2.0,2.0,2.0,7.0,3.3,3.3,3.5
50%,21.0,3.0,3.0,3.0,2.0,1.0,3.0,3.0,3.0,3.0,15.0,4.0,4.0,4.5
75%,23.0,4.0,4.0,4.0,4.0,2.0,4.0,4.0,4.0,4.0,24.0,4.9,4.9,5.4
max,25.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,75.0,6.7,6.7,7.0


Podemos realizar un mapa de calor para visualizar correlaciones entre variables numéricas

In [None]:
corr_matrix = boston_df.corr()
plt.figure(figsize=(12, 9))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=1, linecolor='black')
plt.title("Mapa de Calor - Correlación")
plt.show()