GitHub - ksv-muralidhar/incremental_machine_learning: EDA, data preprocessing and model training on large datasets

Incremental Machine Learning

This project demonstrates the process of

Preprocessing and incrementally training SGD classifer on a dataset having ~33.5M samples and 23 features (~9.5 GB in size).
Parallelizing the EDA and data preprocessing tasks using multiprocessing package.

Following are the steps involved in the project

Split data into train, validation and test sets.
EDA
- Find data shape.
- Find data types.
- Find min, max and mean of numeric columns.
- Find value counts of categorical columns.
- Find misisng value couts and proportion.
- Find target distribution.
Data preprocessing
- Clean Size and Install columns.
- Clean date columns and compute the no. of days elapsed till date.
- Delete unwanted columns.
- Label encoding and compute class weights.
- Missing value Imputation.
- Rare category encoding.
- Boolean feature encoding.
- One hot encoding.
- Dimensionality reduction using IncrementalPCA. 4 Incremental model training using SGDClassifier. 5 Model evaluation using AUC ROC on train, validation and tests sets.

For this project, the Google Playstore dataset downloaded from Kaggle (~2.3M samples and ~676 MB in size) is replicated multiple times to get ~50M samples (~14 GB in size). The dataset is split into training set (~33.5M samples, ~9.5 GB in size), validation set (~8M samples, ~2 GB in size) and test set (~8M samples, ~2 GB in size).

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
models		models
utils		utils
1. Train_Val_Test_Split.ipynb		1. Train_Val_Test_Split.ipynb
2. EDA.ipynb		2. EDA.ipynb
3. Data Preprocessing.ipynb		3. Data Preprocessing.ipynb
4. Model Training.ipynb		4. Model Training.ipynb
5. Model Evaluation.ipynb		5. Model Evaluation.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

models

models

utils

utils

1. Train_Val_Test_Split.ipynb

1. Train_Val_Test_Split.ipynb

2. EDA.ipynb

2. EDA.ipynb

3. Data Preprocessing.ipynb

3. Data Preprocessing.ipynb

4. Model Training.ipynb

4. Model Training.ipynb

5. Model Evaluation.ipynb

5. Model Evaluation.ipynb

README.md

README.md

Repository files navigation

Incremental Machine Learning

About

Releases

Packages

Languages

ksv-muralidhar/incremental_machine_learning

Folders and files

Latest commit

History

Repository files navigation

Incremental Machine Learning

About

Resources

Stars

Watchers

Forks

Languages