AI-Code-Detector es una herramienta de machine learning que analiza código Python y detecta si fue escrito por un humano o por inteligencia artificial, usando procesamiento de lenguaje natural y modelos de clasificación.
🚧 Proyecto en desarrollo - 2025
Esta aplicación permite a desarrolladores, docentes y revisores analizar fragmentos de código Python y obtener una predicción automática sobre su origen (humano o IA). Utiliza embeddings generados con CodeBERT y un clasificador XGBoost entrenado con cientos de ejemplos reales y sintéticos.
- Clona el repositorio y entra al directorio:
git clone https://github.com/mat1520/AI-Code-Detector.git cd AI-Code-Detector
- Crea y activa un entorno virtual:
python -m venv venv # En Windows: venv\Scripts\activate # En Linux/Mac: source venv/bin/activate
- Instala las dependencias:
pip install -r requirements.txt
- Genera los datos de código humano e IA (ver scripts en
src/data_collection/
). - Extrae los embeddings:
python -m src.preprocessing.feature_extractor
- Entrena el modelo:
python -m src.training.train
- Lanza la app web:
streamlit run src/app/main.py
def suma(a, b):
return a + b
print(suma(2, 3))
def calculate_sum(a: int, b: int) -> int:
"""
Calcula la suma de dos números enteros.
"""
return a + b
- El modelo fue entrenado y evaluado con 819 ejemplos de código humano y 819 de IA.
- Precisión superior al 95% en pruebas internas.
- El sistema muestra la probabilidad de cada clase y una barra de progreso visual.
AI-Code-Detector/
├── data/
│ ├── raw_ai/
│ ├── raw_human/
│ └── processed/
├── src/
│ ├── app/
│ ├── data_collection/
│ ├── preprocessing/
│ ├── training/
│ └── utils/
├── models/
├── notebooks/
├── README.md
├── LICENSE
└── requirements.txt
MIT License 2025. Consulta el archivo LICENSE para más detalles.