Skip to content
/ pima Public

Análisis y modelo predictivo del dataset Pima Indians Diabetes Database de Kaggle

Notifications You must be signed in to change notification settings

joselquin/pima

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

pima

Análisis y modelo predictivo del dataset Pima Indians Diabetes Database de Kaggle.

Este notebook utiliza el dataset que se puede encontrar en la siguiente URL: https://www.kaggle.com/uciml/pima-indians-diabetes-database

Primero se hace un interesante EDA del dataset, enocntrándonos valores erróneos que hay que corregir. También nos encontramos con que el dataset está desequilibrado, dado que hay 2/3 de las observaciones de pacientes sin diabetes y solo 1/3 con la enfermedad, aspecto que también hay que tratar.

Después se hace una validación cruzada para ir descartando modelos y quedarnos solo con tres (RandomForest, ADABoost y Regresión Logística). Entrenamos con los tres (después de dividir el modelo en set de entrenamiento y de test) y después aplicamos el modelo a todo el dataset.

Este es un ejemplo de dataset donde no debería emprearse una red neuronal, ya que el número de observaciones es muy bajo (<1000).

About

Análisis y modelo predictivo del dataset Pima Indians Diabetes Database de Kaggle

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published