# **Análisis Exploratorio de los Datos (EDA)**

En esta sección se tiene como objetivo realizar un análisis exploratorio de un conjunto de datos cargado en formato CSV. El propósito es comprender mejor las variables disponibles, identificar patrones generales, detectar valores atípicos y preparar el terreno para análisis posteriores.

Trabajaremos paso a paso a través de la carga, inspección, limpieza y visualización de los datos, utilizando Python y bibliotecas como `pandas`, `matplotlib`, y `seaborn`.


## 📦 **Importación de Librerías**

En esta sección cargamos las bibliotecas necesarias para la manipulación y visualización de datos.


In [1]:
# Importamos las librerías básicas necesarias para el análisis
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn import neighbors
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_squared_log_error
from sklearn.metrics import r2_score
from sklearn.metrics import explained_variance_score
# Establecemos el estilo de los gráficos
sns.set(style="whitegrid", palette="pastel")


## **📂 Cargar la base de datos**

Aquí leemos el archivo CSV que contiene los datos. Es importante verificar que se cargue correctamente y revisar las primeras filas para asegurarnos de que la estructura sea la esperada.


In [2]:
# Cargamos el archivo CSV que contiene los datos
df = pd.read_csv("data.csv")  # Asegúrate de que el archivo esté en la misma carpeta del notebook

# Mostramos las dimensiones del dataset
print("Dimensiones del dataset:", df.shape)

# Mostramos las primeras filas del conjunto de datos
df.head()


Dimensiones del dataset: (4424, 1)


Unnamed: 0,"Marital status;Application mode;Application order;Course;""Daytime/evening attendance\t"";Previous qualification;Previous qualification (grade);Nacionality;Mother's qualification;Father's qualification;Mother's occupation;Father's occupation;Admission grade;Displaced;Educational special needs;Debtor;Tuition fees up to date;Gender;Scholarship holder;Age at enrollment;International;Curricular units 1st sem (credited);Curricular units 1st sem (enrolled);Curricular units 1st sem (evaluations);Curricular units 1st sem (approved);Curricular units 1st sem (grade);Curricular units 1st sem (without evaluations);Curricular units 2nd sem (credited);Curricular units 2nd sem (enrolled);Curricular units 2nd sem (evaluations);Curricular units 2nd sem (approved);Curricular units 2nd sem (grade);Curricular units 2nd sem (without evaluations);Unemployment rate;Inflation rate;GDP;Target"
0,1;17;5;171;1;1;122.0;1;19;12;5;9;127.3;1;0;0;1...
1,1;15;1;9254;1;1;160.0;1;1;3;3;3;142.5;1;0;0;0;...
2,1;1;5;9070;1;1;122.0;1;37;37;9;9;124.8;1;0;0;0...
3,1;17;2;9773;1;1;122.0;1;38;37;5;3;119.6;1;0;0;...
4,2;39;1;8014;0;1;100.0;1;37;38;9;9;141.5;0;0;0;...


## **🔍 Exploración general del dataset**

In [3]:
# Comprobamos si hay valores faltantes
df.isnull().sum()

# Tipos de variables
df.info()

# Estadísticas básicas de variables numéricas
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4424 entries, 0 to 4423
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         Non-Null C

Unnamed: 0,"Marital status;Application mode;Application order;Course;""Daytime/evening attendance\t"";Previous qualification;Previous qualification (grade);Nacionality;Mother's qualification;Father's qualification;Mother's occupation;Father's occupation;Admission grade;Displaced;Educational special needs;Debtor;Tuition fees up to date;Gender;Scholarship holder;Age at enrollment;International;Curricular units 1st sem (credited);Curricular units 1st sem (enrolled);Curricular units 1st sem (evaluations);Curricular units 1st sem (approved);Curricular units 1st sem (grade);Curricular units 1st sem (without evaluations);Curricular units 2nd sem (credited);Curricular units 2nd sem (enrolled);Curricular units 2nd sem (evaluations);Curricular units 2nd sem (approved);Curricular units 2nd sem (grade);Curricular units 2nd sem (without evaluations);Unemployment rate;Inflation rate;GDP;Target"
count,4424
unique,4424
top,1;17;5;171;1;1;122.0;1;19;12;5;9;127.3;1;0;0;1...
freq,1
