CountyExercisePredictions

I put together this series of notebooks as an example machine learning problem in Python. The purpose is to predict the level of physical inactivity in a county based on other measurements on health, etc. Currently, I make no effort to address the correlation-causation issue. That is, the model can include variables that are likely to depend at least partly on the "outcome" measure (e.g. obesity).

Notebooks

(1) ExploreCountyData

Import data, look at distributions of individual columns, and save for future use.

(2) BuildRegressionModels

Use data from previous step to predict inactivity by county. Use holdout cross-validation for simplicity.

Altervative: ModelsWithKFoldValidation

This version uses k-fold CV instead of holdout CV. It should give more reliable validation performance but is less straightforward. In practice, the holdout validation set has enough samples (~600) that model performance doesn't seem to vary much across the folds.

Data source

All data files and documentation were obtained from County Health Rankings & Roadmaps at http://www.countyhealthrankings.org/.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
2015CHRAnalyticData.csv		2015CHRAnalyticData.csv
2015CHRSASAnalyticDataDocumentation.pdf		2015CHRSASAnalyticDataDocumentation.pdf
2015CHRTrendsDataDocumentation.pdf		2015CHRTrendsDataDocumentation.pdf
2015CountyHealthRankingsNationalData.xls		2015CountyHealthRankingsNationalData.xls
BuildRegressionModel.ipynb		BuildRegressionModel.ipynb
ExploreCountyData.ipynb		ExploreCountyData.ipynb
LICENSE		LICENSE
ModelsWithKFoldValidation.ipynb		ModelsWithKFoldValidation.ipynb
README.md		README.md
data_nonan_test.csv		data_nonan_test.csv
data_nonan_train.csv		data_nonan_train.csv
data_nonan_valid.csv		data_nonan_valid.csv
labels_test.csv		labels_test.csv
labels_train.csv		labels_train.csv
labels_valid.csv		labels_valid.csv

License

kdsimmons/CountyExercisePredictions

Folders and files

Latest commit

History

Repository files navigation

CountyExercisePredictions

Notebooks

(1) ExploreCountyData

(2) BuildRegressionModels

Altervative: ModelsWithKFoldValidation

Data source

About

Resources

License

Stars

Watchers

Forks