# Generación de Datos Sintéticos
Este notebook genera datos sintéticos para estudiantes, asignaturas y notas, y los guarda en archivos CSV.

## Generación del archivo `estudiantes.csv`
Este archivo contiene información sobre los estudiantes, incluyendo su nombre, apellido, edad, sexo, ciudad y fecha de registro.

In [None]:


import pandas as pd
import numpy as np
from faker import Faker
import random

fake = Faker('es_ES')
np.random.seed(42)
random.seed(42)

# -----------------------------
# CSV 1: estudiantes.csv
# -----------------------------
num_estudiantes = 100

estudiantes = []
for i in range(1, num_estudiantes + 1):
    estudiantes.append({
        'id_estudiante': i,
        'nombre': fake.first_name(),
        'apellido': fake.last_name(),
        'edad': random.randint(18, 30),
        'sexo': random.choice(['M', 'F']),
        'ciudad': fake.city(),
        'fecha_registro': fake.date_between(start_date='-3y', end_date='today')
    })

df_estudiantes = pd.DataFrame(estudiantes)
df_estudiantes.to_csv('estudiantes.csv', index=False)



Defaulting to user installation because normal site-packages is not writeable
Collecting faker
  Using cached faker-37.1.0-py3-none-any.whl.metadata (15 kB)
Using cached faker-37.1.0-py3-none-any.whl (1.9 MB)
Installing collected packages: faker
Successfully installed faker-37.1.0
Note: you may need to restart the kernel to use updated packages.


## Generación del archivo `asignaturas.csv`
Este archivo contiene información sobre las asignaturas, incluyendo su nombre, departamento y número de créditos.

In [6]:
asignaturas = [
    {'id_asignatura': 1, 'nombre_asignatura': 'Matemáticas', 'departamento': 'Ciencias', 'creditos': 6},
    {'id_asignatura': 2, 'nombre_asignatura': 'Física', 'departamento': 'Ciencias', 'creditos': 5},
    {'id_asignatura': 3, 'nombre_asignatura': 'Historia', 'departamento': 'Humanidades', 'creditos': 4},
    {'id_asignatura': 4, 'nombre_asignatura': 'Lengua Española', 'departamento': 'Humanidades', 'creditos': 5},
    {'id_asignatura': 5, 'nombre_asignatura': 'Informática', 'departamento': 'Ingeniería', 'creditos': 6},
    {'id_asignatura': 6, 'nombre_asignatura': 'Biología', 'departamento': 'Ciencias', 'creditos': 5}
]

df_asignaturas = pd.DataFrame(asignaturas)
df_asignaturas.to_csv('asignaturas.csv', index=False)

## Generación del archivo `notas.csv`
Este archivo contiene información sobre las notas de los estudiantes en diferentes asignaturas, incluyendo la convocatoria y la fecha del examen.

In [10]:
notas = []
convocatorias = ['Ordinaria', 'Extraordinaria']

for estudiante in df_estudiantes['id_estudiante']:
    asignaturas_sample = random.sample(df_asignaturas['id_asignatura'].tolist(), k=3)
    for asignatura in asignaturas_sample:
        notas.append({
            'id_estudiante': estudiante,
            'id_asignatura': asignatura,
            'nota': round(np.random.normal(loc=6.5, scale=1.5), 2),  # media 6.5, desviación 1.5
            'convocatoria': random.choice(convocatorias),
            'fecha_examen': fake.date_between(start_date='-2y', end_date='today')
        })

df_notas = pd.DataFrame(notas)
df_notas['nota'] = df_notas['nota'].clip(0, 10)  # Limitar notas entre 0 y 10
df_notas.to_csv('notas.csv', index=False)