# 📊 Predicción del Trastorno del Espectro Autista en Niños mediante Aprendizaje Automático  

## 📖 Objetivo del Proyecto  
Este proyecto busca desarrollar **modelos de aprendizaje automático** que permitan **predecir indicadores del Trastorno del Espectro Autista (TEA) en niños**, con el objetivo de facilitar el diagnóstico en contextos donde el acceso a profesionales especializados es limitado, como en Tierra del Fuego. 

## 📌 Fuente de Datos  
Thabtah, F. (2017). Autistic Spectrum Disorder Screening Data for Children  
[Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5659W 

## 🔍 Descripción del Dataset  
El conjunto de datos contiene **292 registros** con **21 atributos**, incluyendo variables sociodemográficas y respuestas a los ítems del **AQ-10-Child**, utilizada para evaluar rasgos conductuales asociados al TEA.  

En este proyecto, analizaremos la relación entre las respuestas a las preguntas del **AQ-10-Child****A1 - A10** (**10 características conductuales**) y otras características individuales para entrenar modelos de predicción que puedan aplicarse en entornos de salud pública.  

# 🔍 Preguntas AQ-10-Child (A1 - A10)  
Estas preguntas incluyen aspectos como la capacidad de seguir conversaciones, interpretar emociones en rostros, facilidad para hacer amigos y patrones de atención a detalles. Las mismas se encuentra en el siguiente link: https://www.autismresearchcentre.com/tests/autism-spectrum-quotient-10-items-aq-10-child/
A saber:


1️⃣ **¿El niño suele notar pequeños sonidos que otros no perciben?**  
2️⃣ **¿Se enfoca más en la imagen completa en lugar de los pequeños detalles?**  
3️⃣ **¿Puede seguir conversaciones en un grupo social?**  
4️⃣ **¿Le resulta fácil cambiar entre distintas actividades?**  
5️⃣ **¿Tiene dificultades para mantener una conversación con sus compañeros?**  
6️⃣ **¿Es bueno en conversaciones sociales?**  
7️⃣ **¿Le cuesta interpretar intenciones, sentimientos o características en cuentos?**  
8️⃣ **¿Utilizaba el juego para interactuar con otros niños en preescolar?**  
9️⃣ **¿Le resulta fácil interpretar emociones en los rostros de otras personas?**  
🔟 **¿Le cuesta hacer nuevos amigos?**  

Cada respuesta se registra en el dataset como un valor binario (**0 = No, 1 = Sí**), lo que permite analizar patrones de comportamiento y su relación con el diagnóstico de TEA.  

## 🛠 Preparación del Dataset  
Para garantizar que el conjunto de datos sea **adecuado para su aplicación en Tierra del Fuego**, se llevarán a cabo los siguientes pasos:  
- **Limpieza** de datos: eliminación de valores nulos y verificación de inconsistencias.  
- **Análisis exploratorio** para entender la distribución de las variables clave.  
- **Selección de atributos** relevantes para la predicción del TEA.  
- **Transformaciones** necesarias para la implementación de los modelos. 

## 🏆 Modelos de Predicción  
Para evaluar la capacidad de clasificación del TEA, se entrenarán los siguientes modelos:  
- **Regresión Logística** (modelo base, interpretable)  
- **Árbol de Decisión** (visualizable)  
- **Random Forest** (modelo más robusto)  

Las métricas utilizadas para evaluar el desempeño incluyen **Accuracy, Precision, Recall, F1-score** y **matriz de confusión**, además de aplicar **validación cruzada** para medir la estabilidad del modelo.  

---


# Predicción de TEA en la infancia

Este proyecto tiene la finalidad de predecir si una persona tiene autismo o no, basándote en una serie de características. Sobre las preguntas 1 a 10, corresponden a los ítems del AQ-10-Child, una escala utilizada para evaluar rasgos de comportamiento asociados al TEA en niños. Estas preguntas incluyen aspectos como la capacidad de seguir conversaciones, interpretar emociones en rostros, facilidad para hacer amigos y patrones de atención a detalles.

### Importar Librerías para carga de datos

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carga del dataset

Fuente de datos
Thabtah, F. (2017). Autistic Spectrum Disorder Screening Data for Children  
[Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5659W


In [4]:
url = 'https://archive.ics.uci.edu/static/public/419/data.csv'
df = pd.read_csv(url)

### Verificar la estructura del dataset:

In [None]:
print(df.head())  # Verificar las primeras filas del dataset
print(df.info())  # Verificar la estructura del dataset (tipos de datos, número de filas, etc.)
print(df.describe())  # Verificar las estadísticas descriptivas del dataset (media, mediana, etc.)

Según la documentación incorporada al dataset, en este conjunto de datos se registran diez características conductuales (AQ-10-Child) más diez características individuales que han demostrado ser eficaces para diferenciar casos de TEA de controles dentro de la ciencia del comportamiento.
Las columnas A1_Score a A10_Score se corresponden a los ítems del AQ-10-Child, una escala utilizada para evaluar rasgos de comportamiento asociados al TEA en niños. Estas preguntas incluyen aspectos como la capacidad de seguir conversaciones, interpretar emociones en rostros, facilidad para hacer amigos y patrones de atención a detalles. Las mismas se encuentra en el siguiente link: https://www.autismresearchcentre.com/tests/autism-spectrum-quotient-10-items-aq-10-child/

Vemos que la variable objetivo es: "class"

## 🛠 Preparación del Dataset  
Para garantizar que el conjunto de datos sea **adecuado para su aplicación en Tierra del Fuego**, se llevarán a cabo los siguientes pasos:  
- **Limpieza** de datos: eliminación de valores nulos y verificación de inconsistencias.  
- **Análisis exploratorio** para entender la distribución de las variables clave.  
- **Selección de atributos** relevantes para la predicción del TEA.  
- **Transformaciones** necesarias para la implementación de los modelos. 

EDA

Verificar la distribución de la variable objetivo: Utiliza la función para ver la distribución de la variable objetivo (autismo/no autismo). Esto te ayudará a entender si hay un desequilibrio en la distribución de la variable objetivo.value_counts()

In [None]:
print(df['class'].value_counts())

In [None]:
# Eliminar variables no relevantes
df = df.drop(['country_of_res', 'ethnicity', 'used_app_before', 'result', 'age_desc', 'relation'], axis=1)

In [None]:
# Verificar la presencia de valores nulos
print(df.isnull().sum())

Ahora que has eliminado las variables no relevantes, puedes proceder con el análisis exploratorio de datos (EDA) para entender mejor la distribución de las variables y la relación entre ellas.

In [None]:
# Reemplazar valores faltantes de age con la moda
df['age'] = df['age'].fillna(df['age'].mode()[0])

In [None]:
# Verificar que los valores faltantes hayan sido reemplazados correctamente
print(df['age'].isnull().sum())

In [None]:
# Verificar la estadística de la columna age después de reemplazar los valores faltantes
print(df['age'].describe())