<a href="https://colab.research.google.com/github/Jesus-David-Silva-Rangel-19/Student-Data-Analysis-with-Python/blob/main/Student_Data_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.
import kagglehub
erqizhou_students_data_analysis_path = kagglehub.dataset_download('erqizhou/students-data-analysis')

print('Data source import complete.')


# **Objetivos**

Se quiere responder 5 preguntas clave:

- ¿Cuáles son los factores que influyen en el rendimiento de los estudiantes?
- ¿Cuáles son los temas que mejor dominan los estudiantes?
- ¿Cuáles son los temas que peor rendimiento registran los estudiantes?
- ¿Cuál es el GPA promedio de los estudiantes y que factores influencian el resultado?
- ¿Qué estudiantes obtienen mejor desempeño según su género?

# **Metodología**

Para este proyecto se ha elegido la metodología CRISP-DM que define una serie de pasos y fases estructuradas para estandarizar el proceso de análisis y la presentación de resultados.

La metodología CRISP-DM (Cross Industry Standard Process for Data Mining) es una de las más usadas para proyectos de análisis de datos y minería. Sus fases principales son:

#### **Fases de CRISP-DM**

1. **Comprensión del negocio (Business Understanding)**

   * Definir los objetivos del proyecto desde la perspectiva del negocio.
   * Identificar los problemas a resolver y los criterios de éxito.

2. **Comprensión de los datos (Data Understanding)**

   * Recolectar los datos iniciales.
   * Explorar sus características, calidad, completitud y posibles problemas.

3. **Preparación de los datos (Data Preparation)**

   * Limpiar datos, manejar nulos y outliers.
   * Seleccionar variables relevantes.
   * Transformar y formatear datos para el análisis o modelado.

4. **Modelado (Modeling)**

   * Seleccionar técnicas de modelado adecuadas (regresión, clasificación, clustering, etc.).
   * Entrenar y validar modelos.
   * Ajustar parámetros para optimizar rendimiento.

5. **Evaluación (Evaluation)**

   * Medir qué tan bien el modelo responde al problema del negocio.
   * Validar con métricas estadísticas y con criterios del negocio.
   * Decidir si avanzar a implementación o volver a fases previas.

6. **Despliegue (Deployment)**

   * Poner en práctica el modelo o los resultados del análisis.
   * Puede ser desde un informe hasta un sistema automatizado en producción.
   * Documentar, monitorear y dar mantenimiento.

#### **Alcance**

Durante el análisis solo se tratará de responder a las preguntas indicadas y se relacionará información clave a medida que vaya surgiendo en el proceso de exploración.

Este proyecto busca encontrar datos que permiten tomar decisiones administrativas que beneficien a los estudiantes, adoptando la metodología de caso de estudio como base para el análisis en el conjunto de datos de Kaggle.

El fin último del proyecto es servir de práctica para entrenar las habilidades técnicas en el manejo de proyectos de análisis de datos con Python, usando librerías como `Numpy`, `Pandas`, `Matplotlib`, `Seaborn` o `Scikit-Learn`.

# Importaciones

In [None]:
# importa las librerias necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# desactiva las advertencias
warnings.filterwarnings('ignore')

# obtiene la ruta de los datos de Kaggle
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
# lee el conjunto de datos
df = pd.read_csv('/kaggle/input/students-data-analysis/Students data.csv')

# imprime un mensaje de confirmación
print('El conjunto de datos fue leído exitosamente.')

# **Análisis Exploratorio de datos (EDA)**

In [None]:
# imprime las 8 primeras filas
print(df.head(8))

In [None]:
# imprime la estructura del dataset
print(df.shape)

**NOTAS:**

- El conjunto de datos cuenta con **105** registros y **17** columnas.
- Este es un registro modesto para un análisis que se enfoca en encontrar información clave.

In [None]:
# imprime el nombre de las columnas en orden alfabético
print(df.columns.sort_values(ascending=True).tolist())

#### **Notas**

- Columnas como 'Algebra', 'Calculo 1', 'Calculo 2' y 'GPA' muestrarían información de los temas que ven los estudiantes.
- El conjunto de datos parece centrado en tópicos que se relacionan con las matemáticas y la ingeniería.
- Lo anterior es clave para elegir un enfoque basado en el análisis cuantitativo de los datos.

In [None]:
# Imprime la información del dataset
print(df.info())

**NOTAS:**

- El conjunto de datos registra varias columnas númericas con predominancia de tipos enteros (**int64**).
- También se registra un columna de tipo flotante (**Int64**).
- Las columnas restantes pertenecen al tipo objetos (**object**).

In [None]:
# imprime el recuento de columnas por tipo de dato
print(df.dtypes.value_counts().sort_values(ascending=False))

In [None]:
# imprime el recuento de tipo de datos por proporciones
print(round(df.dtypes.value_counts(normalize=True)* 100, 2).sort_values(ascending=False))

**NOTAS:**

- **11** columnas de tipo entero representan el **64.71%** de todas las columnas.
- **5** columnas de tipo objetos representan el **29.41%** de todas las columnas.
- **1** columna de tipo flotante representa el **5.88%** restante.

**¿Qué sigue?**

- La preponderancia de datos enteros confirma la naturaleza cuantitativa del análisis.
- Ahora se puede seguir explorando más información que permita conocer el origen y la calidad de los datos.

In [None]:
# imprime las últimas 8 filas
print(df.tail(8))

#### **Verificación de valores faltantes, nulos o atípicos**

In [None]:
# obtiene el total de valores nulos y ordena de forma descendente
print(df.isnull().sum().sort_values(ascending=False))

In [None]:
# obtiene el total de valores NaN y ordena de forma descendente
print(df.isna().sum().sort_values(ascending=False))

**NOTAS:**

- No se halla evidencia de valores nulos, faltantes o atípicos.
- Los datos parecen completos.
- Hace falta mayor profundidad de análisis para verificar la calidad e integridad de los datos.

In [None]:
# obtiene el resumen estadístico de los datos
print(df.describe())

In [None]:
# obtiene el GPA promedio y almacena en una variable
course_score = df[['GPA']].mean().round(2).sort_values(ascending=False)

# imprime el resultado
print(course_score)

In [None]:
# agrupa por GPA y calcula la suma de varios cursos de matemáticas
gpa_and_course_score = df.groupby('GPA')[['Algebra', 'Calculus1', 'Calculus2']].agg({'mean', 'median', 'min', 'max'}).reset_index().sort_values(by=['GPA'], ascending=False)

# imprime el resultado
print(gpa_and_course_score)

# **Visualización de datos**

In [None]:
# crea un histograma de GPA
sns.histplot(df['GPA'], alpha = 0.9)
plt.title('Distribución del puntaje de GPA')
plt.ylabel('Conteo')

In [None]:
# crea un histograma de Calculo 1 y 2
sns.histplot(df[['Calculus1', 'Calculus2']], alpha=0.8, bins = 10)
plt.title('Distribución del puntaje entre Calculo 1 y 2')
plt.xlabel('Puntaje')
plt.ylabel('Conteo')

In [None]:
# crea un histograma de estadística y probabilidad
sns.histplot(df[['Statistics', 'Probability']], alpha = 0.65, bins = 10)
plt.title('Distribución del puntaje (estadística y probabilidad)')
plt.xlabel('Puntaje')
plt.ylabel('Conteo')

**NOTAS**

- La distribución de los cursos anteriores sigue una tendencia similar a la del GPA.
- Es lógico pensar que los estudiantes con un mejor GPA acumulado son:
    - Aquellos que obtienen una puntuación más alta en cursos de matemáticas y estadísticas.
    - Aquellos que reportan una asistencia constante a sus clases.


In [None]:
# crea una variable con el recuento de generos
gender_counts = df['gender'].value_counts()

# Aplica el estilo de Seaborn
sns.set(style="whitegrid")

# crea un gráfico circular con la distribución de los géneros
plt.pie(gender_counts, labels=gender_counts.index, autopct='%.2f%%', startangle=90)
plt.title('Distribución de géneros')
plt.axis('equal')
plt.show()

In [None]:
# imprime el recuento de generos
print(gender_counts)

**NOTAS:**

- Se cuenta con registros de 68 estudiantes femeninas y 28 masculinos.
- La distribución y el recuento de géneros siguen un patron de tendencia global.
- Las mujeres se hacen cada vez más participes en áreas clave como STEM.


In [None]:
# imprime la proporción de estudiantes masculinos y femeninos
print(round(df['gender'].value_counts(normalize=True) * 100, 2))

**NOTAS:**

- La proporción de estudiantes identificados como masculinos es de 35.24%.
- Mientras que las estudiantes que se identifican como femeninas asciende e 64.76%.
- Esto muestra una participación mayoritaria del grupo femenino en este conjunto de datos.

In [None]:
# visualiza un gráfico de pares
sns.pairplot(df[['GPA', 'Calculus1', 'Calculus2', 'Algebra', 'Statistics']])

In [None]:
print(df.columns.tolist())

In [None]:
print(df.info())

In [None]:
df

In [None]:
# imprime los valores únicos
print(df.nunique())

In [None]:
# imprime todos los valores únicos de calificaciones en from1
print('Valores únicos de from1:\n', df['from1'].unique().tolist())

In [None]:
# imprime los valores únicos de calificaciones en from2
print('Valores únicos de from2:\n', df['from2'].unique().tolist())

In [None]:
# imprime los valores únicos de calificaciones en from3
print('Valores únicos de from3:\n', df['from3'].unique().tolist())

In [None]:
# imprime el recuento de valoes de calificaciones from1
print(df['from1'].value_counts())

In [None]:
# imprime el recuento de valoes de calificaciones from2
print(df['from2'].value_counts())

In [None]:
# imprime el recuento de valoes de calificaciones from3
print(df['from3'].value_counts())

In [None]:
# crea un gráfico de dispersión entre GPA y Algebra
sns.scatterplot(x = df['GPA'], y = df['Algebra'])
plt.title('GPA vs Algebra')

In [None]:
# crea un gráfico de dispersión entre GPA y Estadística
sns.scatterplot(x = df['GPA'], y = df['Statistics'])
plt.title('GPA vs Estadística')

In [None]:
# crea un gráfico de subparcelas
fig, axs = plt.subplots(nrows = 1, ncols = 2, figsize=(10, 6))
sns.scatterplot(x = df['GPA'], y = df['Statistics'], ax = axs[0])
sns.scatterplot(x = df['GPA'], y = df['Algebra'], ax = axs[1])
plt.show()

In [None]:
# crea un gráfico de subparcelas
fig, axs = plt.subplots(nrows = 1, ncols = 2, figsize=(10, 6))
sns.scatterplot(x = df['GPA'], y = df['Calculus1'], ax = axs[0])
sns.scatterplot(x = df['GPA'], y = df['Calculus2'], ax = axs[1])
plt.show()

In [None]:
# crea un gráfico con subparcelas
fig, axs = plt.subplots(nrows = 2, ncols = 2, figsize=(12, 8))

axs[0, 0].hist(df['Probability'])
axs[0, 0].set_xlabel('Probabilidad')
axs[0, 0].set_ylabel('Frecuencia')

axs[0, 1].hist(df['Measure'])
axs[0, 1].set_xlabel('Medición')
axs[0, 1].set_ylabel('Frecuencia')

axs[1, 0].hist(df['Functional_analysis'])
axs[1, 0].set_xlabel('Análisis Funcional')
axs[1, 0].set_ylabel('Frecuencia')

axs[1, 1].hist(df['Statistics'])
axs[1, 1].set_xlabel('Estadística')
axs[1, 1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

#### **¿Cuál es el GPA promedio de los estudiantes y que factores influencian el resultado?**

In [None]:
# obtiene el promedio de GPA y redondea a dos decimales
gpa_mean = df['GPA'].mean().round(2)

# imprime el resultado
print(f'El puntuaje de GPA promedio de los estudiantes es: {gpa_mean}')

In [None]:
# Paleta
paleta = sns.color_palette("viridis", n_colors=5)

In [None]:
# histograma de GPA
plt.hist(df['GPA'], bins = 10)
plt.title('Distribución de GPA')
plt.xlabel('Puntaje')
plt.ylabel('Frecuencia')
plt.show()

**NOTAS:**

- GPA sigue una distribución sesgada a la derecha con una pequeña cola a la izquierda.
- Tiene un pico máximo de entre 85 y 88 puntos.
- Este pico tiene una frecuencia de histograma de 25 estudiantes con una puntuación comprendida en esos puntos.

In [None]:
# histograma de GPA
sns.histplot(df[['GPA', 'Calculus1']], bins = 20, alpha = 0.8)
plt.xlabel('Puntaje')
plt.ylabel('Frecuencia')
plt.title('Distribución de de GPA y Calculo 1')

In [None]:
# histograma de GPA
sns.histplot(df[['GPA', 'Calculus2']], bins = 20, alpha = 0.8)
plt.xlabel('Puntaje')
plt.ylabel('Frecuencia')
plt.title('Distribución de GPA y Calculo 2')

In [None]:
sns.histplot(df[['GPA', 'Probability']], alpha = 0.8)
plt.title('Distribución de GPA y Probabilidad')

In [None]:
df[['GPA', 'Probability', 'Statistics', 'Functional_analysis']].hist(figsize=(10, 8))

**NOTAS:**

- Las puntuaciones de GPA, Probability, Statistics y Functional analysis siguen una distribución similar.

In [None]:
# obtiene el promedio de GPA por género
df.groupby('gender')['GPA'].mean().sort_values(ascending = False)

In [None]:
# obtiene el promedio de GPA por género
df.groupby('gender')['GPA'].sum().sort_values(ascending = False)

**NOTAS:**

- Hay una pequeña superioridad del género femenino en el promedio de puntuación de GPA.
- El puntaje total acumulado de este género asciende a 5681.96, en contraparte del 3028.53 de los masculinos.

In [None]:
# obtiene el recuento de estudiantes por género
df['gender'].value_counts().sort_values(ascending = False)

In [None]:
# cuenta los estudiantes con puntuaje de GPA por género
count_male = df[df['gender'] == 'male']['GPA'].count()
count_female = df[df['gender'] == 'female']['GPA'].count()

# imprime el resultado
print(f'La diferencia cuantitaiva entre el género femenino y masculino es de {count_female - count_male} estudiantes.')

**NOTAS:**

- Los resultados anteriores pueden ser explicados por el mayor número de estudiantes femininas en el conjunto de datos.

In [None]:
# calcula el rango general de las puntuaciones de GPA
gpa_range = df['GPA'].max() - df['GPA'].min()

# imprime el resultado
print(f"El rango general es: {round(gpa_range, 2)}")

In [None]:
# calcula el rango del puntaje obtenido en GPA por género
gpa_count_male = df[df['gender'] == 'male']['GPA'].max() - df[df['gender'] == 'male']['GPA'].min()
gpa_count_female = df[df['gender'] == 'female']['GPA'].max() - df[df['gender'] == 'female']['GPA'].min()

# imprime los resultados
print(f'El rango de GPA para el género masculino es: {round(gpa_count_male, 2)}')
print(f'El rango de GPA para el género femenino es: {round(gpa_count_female, 2)}')

#### **¿Cuáles son los temas que mejor dominan los estudiantes?**

In [None]:
# obtiene el nombre de las columnas
df.columns

In [None]:
# agrupa por GPA y calcula el promedio y el total de calificaciones
df.groupby('GPA')[['Algebra', 'Calculus1', 'Calculus2', 'Statistics', 'Probability', 'Measure', 'Functional_analysis']].agg({'sum', 'mean'})

In [None]:
# obtiene el promedio por asignatura
df[['Algebra', 'Calculus1', 'Calculus2', 'Statistics', 'Probability', 'Measure', 'Functional_analysis']].mean().sort_values(ascending = False)

**NOTAS:**

- Los cursos que mejor dominan los estudiantes son:
    - Estadística (85.13).
    - Probabilidad (83.87).
    - Medición (80.76).
- Por lo general, los estudiantes obtienen un rendimiento medio-alto en todas las materias.

In [None]:
# calcular la media por columna
means = df[['Algebra', 'Calculus1', 'Calculus2', 'Statistics', 'Probability', 'Measure', 'Functional_analysis']].mean()

# convertir a DataFrame para Seaborn
means_df = means.reset_index()
means_df.columns = ['Asignatura', 'Promedio']

# gráfico de barras
plt.figure(figsize=(8,5))
sns.barplot(data=means_df, x='Asignatura', y='Promedio',  hue='Asignatura', dodge=False, palette='tab10')
plt.xticks(rotation=45)
plt.title("Promedio por asignatura")
plt.legend([],[], frameon=False)
plt.show()

#### **¿Cuáles son los temas que peor rendimiento registran los estudiantes?**

- De media, los estudiantes obtuvieron un buen rendimiento en todos los cursos.
- Las asignaturas con la menor puntuación promedio son:
    - Functional_analysis (75.32).
    - Calculus1 (71.96).

#### **¿Cuál es el GPA promedio de los estudiantes y que factores influencian el resultado?**

In [None]:
# obtiene el GPA promedio
df['GPA'].mean().round(2)

**NOTAS:**
- El promedio general de GPA es de 82.96.
- Esto indica un desempeño adecuado de los estudiantes en distintas áreas de aprendizaje.
- Los factores que influencian el resultado de GPA son:
    - las puntuaciones en cursos de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM).
    - La asistencia y participación en clase.
    - La realización de trabajos, talleres y proyectos.

Es necesario mencionar que la forma en que se calcula el GPA tiene en cuenta los factores anteriores. En todo caso, el conjunto de datos nos muestra una ditribución similar entre el rendimiento en las asignaturas y el GPA obtenido.

#### **¿Qué estudiantes obtienen mejor desempeño según su género?**

In [None]:
# obtiene el GPA promedio según el género
df.groupby('gender')['GPA'].mean().round(2).sort_values(ascending = False)

**NOTAS:**

- Observamos un mejor rendimiento similar en ambos géneros.
- Las estudiantes de género femenino obtienen de media dos puntos más en su puntuación de GPA que sus pares masculinos.
- Esto se explica por la sobrerepresentación de las muejeres en el conjunto de datos.