# 1. Análisis Exploratorio de Datos (EDA) - Preguntas de Ciencia

**Objetivo:** Analizar el conjunto de datos `cien_demre_nn.csv` para entender su estructura, contenido y calidad. Específicamente, se busca:
1. Determinar el número de filas (preguntas).
2. Identificar las columnas, su tipo de dato y su significado.
3. Cuantificar los valores faltantes en cada columna.

In [1]:
# Cargar la sesión de Kedro para acceder al catálogo de datos
%load_ext kedro.ipython
%reload_kedro

The kedro.ipython extension is already loaded. To reload it, use:
  %reload_ext kedro.ipython


## Carga de Datos
Cargamos el conjunto de datos `science_mcq_raw` definido en `conf/base/catalog.yml`.

In [7]:
data = catalog.load("science_mcq_raw")

## 1. Número de Filas

In [8]:
num_rows = data.shape[0]
print(f"La base de datos tiene {num_rows} filas.")

La base de datos tiene 2900 filas.


## 2. Tipos de Datos y Valores Faltantes

In [9]:
print("Información general del DataFrame:")
data.info()

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2900 entries, 0 to 2899
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  2900 non-null   int64  
 1   prompt      2900 non-null   object 
 2   choice_0    2900 non-null   object 
 3   choice_1    2900 non-null   object 
 4   choice_2    2900 non-null   object 
 5   choice_3    2900 non-null   object 
 6   choice_4    2900 non-null   object 
 7   subject     2900 non-null   object 
 8   key         2900 non-null   float64
 9   DIFICULTAD  2900 non-null   float64
 10  flag        2900 non-null   object 
dtypes: float64(2), int64(1), object(8)
memory usage: 249.3+ KB


A continuación se presenta un resumen de los valores nulos por columna y una interpretación preliminar de cada una:

In [11]:
missing_values = data.isnull().sum()
print("\nValores faltantes por columna:")
print(missing_values)


Valores faltantes por columna:
Unnamed: 0    0
prompt        0
choice_0      0
choice_1      0
choice_2      0
choice_3      0
choice_4      0
subject       0
key           0
DIFICULTAD    0
flag          0
dtype: int64


### Interpretación de Columnas

- **Unnamed: 0**: Índice del dataset original. *(Tipo: numérico)*.
- **prompt**: El enunciado o cuerpo principal de la pregunta. *(Tipo: texto/object)*.
- **choice_0, choice_1, choice_2, choice_3, choice_4**: El texto de cada una de las 5 alternativas de respuesta. *(Tipo: texto/object)*.
- **subject**: La materia o asignatura a la que pertenece la pregunta. *(Tipo: texto/object)*.
- **key**: La alternativa correcta (valor numérico: 0-4). *(Tipo: numérico/flotante)*.
- **DIFICULTAD**: El parámetro de dificultad de la pregunta, nuestra variable objetivo. *(Tipo: numérico/flotante)*.
- **flag**: Variable categórica adicional que podría indicar algún tipo de clasificación o etiqueta. *(Tipo: texto/object)*.

## 3. Análisis de Valores Únicos

Es importante entender la diversidad de datos en cada columna para identificar patrones y características del dataset.

In [13]:
# Contar valores únicos por columna
unique_counts = data.nunique()
print("Número de valores únicos por columna:")
print("=" * 40)
for column, count in unique_counts.items():
    print(f"{column:15} : {count:,} valores únicos")

# Calcular el porcentaje de valores únicos respecto al total
print("\n" + "=" * 40)
print("Porcentaje de valores únicos respecto al total de filas:")
print("=" * 40)
for column, count in unique_counts.items():
    percentage = (count / len(data)) * 100
    print(f"{column:15} : {percentage:6.2f}%")

Número de valores únicos por columna:
Unnamed: 0      : 2,900 valores únicos
prompt          : 941 valores únicos
choice_0        : 746 valores únicos
choice_1        : 737 valores únicos
choice_2        : 739 valores únicos
choice_3        : 738 valores únicos
choice_4        : 736 valores únicos
subject         : 1 valores únicos
key             : 5 valores únicos
DIFICULTAD      : 779 valores únicos
flag            : 2 valores únicos

Porcentaje de valores únicos respecto al total de filas:
Unnamed: 0      : 100.00%
prompt          :  32.45%
choice_0        :  25.72%
choice_1        :  25.41%
choice_2        :  25.48%
choice_3        :  25.45%
choice_4        :  25.38%
subject         :   0.03%
key             :   0.17%
DIFICULTAD      :  26.86%
flag            :   0.07%


### Análisis Detallado de Variables Categóricas

Examinemos más de cerca las variables con pocos valores únicos para entender mejor su distribución.

In [14]:
# Analizar variables con pocos valores únicos (categóricas)
categorical_vars = ['subject', 'key', 'flag']

for var in categorical_vars:
    print(f"\n--- Distribución de '{var}' ---")
    value_counts = data[var].value_counts()
    print(value_counts)
    
    # Calcular porcentajes
    print(f"\nPorcentajes para '{var}':")
    percentages = data[var].value_counts(normalize=True) * 100
    for value, percentage in percentages.items():
        print(f"  {value}: {percentage:.2f}%")


--- Distribución de 'subject' ---
subject
ciencia    2900
Name: count, dtype: int64

Porcentajes para 'subject':
  ciencia: 100.00%

--- Distribución de 'key' ---
key
4.0    652
3.0    599
2.0    579
1.0    579
0.0    491
Name: count, dtype: int64

Porcentajes para 'key':
  4.0: 22.48%
  3.0: 20.66%
  2.0: 19.97%
  1.0: 19.97%
  0.0: 16.93%

--- Distribución de 'flag' ---
flag
train    2175
test      725
Name: count, dtype: int64

Porcentajes para 'flag':
  train: 75.00%
  test: 25.00%
