In [10]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
import plotly.express as px
import plotly.graph_objects as go

In [11]:

import os

# Download latest version
path = 'Cleaned_Students_Performance.csv'

print("Path to dataset files:", path)

# Find the CSV file within the downloaded directory
for root, dirs, files in os.walk(path):
    for file in files:
        if file.endswith(".csv"):
            csv_file_path = os.path.join(root, file)
            break  # Stop searching once found

Path to dataset files: Cleaned_Students_Performance.csv


In [12]:
df = pd.read_csv(path)
df

Unnamed: 0,gender,race_ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score,average_score
0,0,group B,bachelor's degree,1,0,72,72,74,218,72.666667
1,0,group C,some college,1,1,69,90,88,247,82.333333
2,0,group B,master's degree,1,0,90,95,93,278,92.666667
3,1,group A,associate's degree,0,0,47,57,44,148,49.333333
4,1,group C,some college,1,0,76,78,75,229,76.333333
...,...,...,...,...,...,...,...,...,...,...
995,0,group E,master's degree,1,1,88,99,95,282,94.000000
996,1,group C,high school,0,0,62,55,55,172,57.333333
997,0,group C,high school,0,1,59,71,65,195,65.000000
998,0,group D,some college,1,1,68,78,77,223,74.333333


In [13]:
columnas_renombradas = {
    "gender": "género",
    "race_ethnicity": "raza_etnia",
    "parental_level_of_education": "nivel_educativo_parental",
    "lunch": "almuerzo",
    "test_preparation_course": "curso_preparación_examen",
    "math_score": "puntaje_matemáticas",
    "reading_score": "puntaje_lectura",
    "writing_score": "puntaje_escritura",
    "total_score": "puntaje_total",
    "average_score": "puntaje_promedio"
}


In [14]:
df = df.rename(columns=columnas_renombradas)
df

Unnamed: 0,género,raza_etnia,nivel_educativo_parental,almuerzo,curso_preparación_examen,puntaje_matemáticas,puntaje_lectura,puntaje_escritura,puntaje_total,puntaje_promedio
0,0,group B,bachelor's degree,1,0,72,72,74,218,72.666667
1,0,group C,some college,1,1,69,90,88,247,82.333333
2,0,group B,master's degree,1,0,90,95,93,278,92.666667
3,1,group A,associate's degree,0,0,47,57,44,148,49.333333
4,1,group C,some college,1,0,76,78,75,229,76.333333
...,...,...,...,...,...,...,...,...,...,...
995,0,group E,master's degree,1,1,88,99,95,282,94.000000
996,1,group C,high school,0,0,62,55,55,172,57.333333
997,0,group C,high school,0,1,59,71,65,195,65.000000
998,0,group D,some college,1,1,68,78,77,223,74.333333


In [15]:
df['nivel_educativo_parental'].unique()

array(["bachelor's degree", 'some college', "master's degree",
       "associate's degree", 'high school', 'some high school'],
      dtype=object)

In [16]:
translations = {
        "bachelor's degree": "licenciatura",
        'some college': "algún curso universitario",
        "master's degree": "maestría",
        "associate's degree": "título universitario de asociado",
        'high school': "secundaria",
        'some high school': "secundaria incompleta"
    }

In [17]:
df = df.replace({"nivel_educativo_parental": translations})
df

Unnamed: 0,género,raza_etnia,nivel_educativo_parental,almuerzo,curso_preparación_examen,puntaje_matemáticas,puntaje_lectura,puntaje_escritura,puntaje_total,puntaje_promedio
0,0,group B,licenciatura,1,0,72,72,74,218,72.666667
1,0,group C,algún curso universitario,1,1,69,90,88,247,82.333333
2,0,group B,maestría,1,0,90,95,93,278,92.666667
3,1,group A,título universitario de asociado,0,0,47,57,44,148,49.333333
4,1,group C,algún curso universitario,1,0,76,78,75,229,76.333333
...,...,...,...,...,...,...,...,...,...,...
995,0,group E,maestría,1,1,88,99,95,282,94.000000
996,1,group C,secundaria,0,0,62,55,55,172,57.333333
997,0,group C,secundaria,0,1,59,71,65,195,65.000000
998,0,group D,algún curso universitario,1,1,68,78,77,223,74.333333


In [18]:
fig = px.box(df, x='género', y='puntaje_total', title='Distribución de Puntajes Totales por Género', color='género')
fig.show()

In [19]:
fig = px.histogram(df, x='puntaje_total', nbins=50, color='género', title='Distribución de Puntajes Totales por Género')
fig.show()

In [20]:
fig = px.histogram(df, x='puntaje_matemáticas', nbins=50, color='raza_etnia', title='Distribución de Puntajes Matemáticos por Etnia')
fig.show()

In [21]:
fig  = px.density_heatmap(df.groupby(['raza_etnia', 'nivel_educativo_parental']).size().reset_index(name='count'),
                         x='raza_etnia',
                         y='nivel_educativo_parental',
                         z='count',
                         text_auto=True,
                         title='Distribución por Raza/Etnia y Nivel Educativo')
fig.show()

In [22]:
fig = px.violin(df, x='género', y='puntaje_promedio', color='raza_etnia', title='Puntaje Promedio por Género')
fig.show()

In [23]:
fig = px.violin(df, x='género', y='raza_etnia', color='raza_etnia', title='raza_etnia vs género' )
fig.show()

In [24]:
fig = px.bar(df.groupby('nivel_educativo_parental').size(),  title='Distribución por Nivel Educativo del Padre', color= df.groupby('nivel_educativo_parental').size().index, orientation='h')
fig.show()

In [25]:
fig = px.bar(df.groupby('raza_etnia').size(),  title='Distribución por Raza/Etnia', color= df.groupby('raza_etnia').size().index, orientation='h',)
fig.show()

In [26]:
fig = px.bar(df.groupby('género').size(),  title='Distribución por Género', color= df.groupby('género').size().index, orientation='h')
fig.show()

In [27]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import numpy as np

In [28]:
df['y'] = 2 * df['puntaje_total'] + np.random.normal(0, 2, size=len(df))

# Separar variables independientes y dependientes
X = df[['puntaje_total']]  # Variable independiente
y = df['y']    # Variable dependiente

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear modelo
model = LinearRegression()

# Entrenar modelo
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

# Métricas
print(f"Coeficiente: {model.coef_[0]:.2f}")
print(f"Intersección: {model.intercept_:.2f}")
print(f"Error cuadrático medio: {mean_squared_error(y_test, y_pred):.2f}")
print(f"R^2: {r2_score(y_test, y_pred):.2f}")

# Visualización
fig = px.scatter(df, x='puntaje_total', y='y', title='Relación entre Puntaje Total y y')
fig.add_trace(px.line(x=X_test['puntaje_total'], y=y_pred, title='Regresión Lineal').data[0])
fig.show()

Coeficiente: 2.00
Intersección: -0.20
Error cuadrático medio: 5.05
R^2: 1.00


In [29]:
fig = px.density_heatmap(df.groupby(['puntaje_total', 'y']).size().reset_index(name='count'),
                         x='puntaje_total',
                         y='y',
                         z='count',
                         text_auto=True,
                         title='Distribución de Puntaje Total vs y')
fig.show()

In [30]:
import statsmodels.api as sm

# Añadir constante para el intercepto
X = sm.add_constant(df['puntaje_total'])  # sm.add_constant añade un término de intersección (bias)
y = df['y']

# Ajustar el modelo
model = sm.OLS(y, X).fit()

# Resumen del modelo
print(model.summary())

# Predicción
y_pred = model.predict(X)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.999
Model:                            OLS   Adj. R-squared:                  0.999
Method:                 Least Squares   F-statistic:                 1.884e+06
Date:                Sun, 05 Jan 2025   Prob (F-statistic):               0.00
Time:                        23:01:52   Log-Likelihood:                -2096.1
No. Observations:                1000   AIC:                             4196.
Df Residuals:                     998   BIC:                             4206.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
const            -0.1261      0.303     -0.416

In [31]:
# Crear gráfico de dispersión
fig = px.scatter(
    df,
    x='puntaje_total',
    y='y',
    color_discrete_sequence=['blue'],
    labels={'puntaje_total': 'Variable Independiente (X)', 'y': 'Variable Dependiente (Y)'},
    title='Regresión Lineal (Statsmodels)'
)

# Agregar línea de regresión
fig.add_trace(
    go.Scatter(
        x=df['puntaje_total'],
        y=y_pred,
        mode='lines',
        name='Línea de regresión',
        line=dict(color='red', width=2)
    )
)

# Personalización del diseño
fig.update_layout(
    xaxis_title='Variable Independiente (X)',
    yaxis_title='Variable Dependiente (Y)',
    legend=dict(title='Leyenda'),
    title_font=dict(size=15, color='black', family='Arial'),
    xaxis=dict(title_font=dict(size=12, color='black')),
    yaxis=dict(title_font=dict(size=12, color='black')),
)

fig.show()


Este notebook presenta un análisis integral de datos empleando herramientas y bibliotecas populares de Python. Su estructura está diseñada para guiar el flujo del análisis desde la carga de datos hasta las visualizaciones finales, con un enfoque claro y bien documentado.

Bibliotecas Utilizadas

Pandas: Fundamental para la manipulación y transformación de datos.

Plotly.express: Herramienta principal para la creación de visualizaciones básicas.

Plotly.express: Ideal para visualizaciones avanzadas y más estéticas.

Numpy: Utilizada para operaciones matemáticas y manejo eficiente de arreglos.

Secciones Principales

Carga de Datos:
Se trabajó con archivos CSV, cargándolos mediante Pandas para facilitar su manipulación. Además, se exploraron las primeras filas para entender la estructura del dataset y sus valores.

Preprocesamiento de Datos:
Este paso incluyó:

Limpieza de valores nulos para asegurar la integridad del análisis.

Modificación de nombres de columnas para mayor legibilidad.

Creación de nuevas columnas derivadas, aportando valor al conjunto de datos.

Análisis Exploratorio de Datos (EDA):
Utilicé estadísticas descriptivas para comprender las distribuciones y tendencias de las variables.
Además, generé visualizaciones como histogramas y diagramas de caja para detectar patrones, outliers y posibles relaciones entre variables.

Visualización de Datos:
Diseñé gráficos avanzados utilizando Plotly.express, como mapas de calor para identificar correlaciones significativas. También incorporé gráficos de barras y líneas para resaltar tendencias clave.