Automated Data Analysis and Preprocessing System

A comprehensive Python-based system for automated data analysis and preprocessing of CSV/Excel datasets.

Features

Data Upload: Support for CSV and Excel files
Automated Analysis: Detailed insights including statistics, correlations, distributions, missing values, and outliers
Preprocessing Pipeline:
- Missing value handling (drop, fill, interpolation)
- Categorical encoding (label, one-hot)
- Scaling and normalization
- Feature selection and dimensionality reduction
Visualizations: Histograms, boxplots, heatmaps, scatter plots
Report Generation: PDF/HTML reports with findings and transformations
Export: Processed data ready for ML pipelines

Installation

pip install -r requirements.txt

Usage

Interactive Mode (Streamlit)

streamlit run main.py

Programmatic Mode

from data_analyzer import DataAnalyzer

analyzer = DataAnalyzer()
analyzer.load_data('your_dataset.csv')
analyzer.analyze()
analyzer.preprocess()
analyzer.export_processed_data('processed_data.csv')
analyzer.generate_report('report.html')

Project Structure

├── main.py                 # Main Streamlit interface
├── data_analyzer.py        # Core analysis class
├── data_loader.py          # Data loading utilities
├── preprocessing.py        # Preprocessing pipeline
├── visualizations.py       # Visualization functions
├── report_generator.py     # Report generation
├── utils.py               # Utility functions
└── requirements.txt       # Dependencies

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
sample_data		sample_data
.gitignore		.gitignore
ENHANCEMENTS_SUMMARY.md		ENHANCEMENTS_SUMMARY.md
PROJECT_SUMMARY.md		PROJECT_SUMMARY.md
README.md		README.md
cli.py		cli.py
data_analyzer.py		data_analyzer.py
data_loader.py		data_loader.py
eda_plots.py		eda_plots.py
main.py		main.py
ml_focused_eda.py		ml_focused_eda.py
preprocessing.py		preprocessing.py
quick_start.py		quick_start.py
report_generator.py		report_generator.py
requirements.txt		requirements.txt
runtime.txt		runtime.txt
sample_data_generator.py		sample_data_generator.py
setup.py		setup.py
simple_demo.py		simple_demo.py
simple_report_generator.py		simple_report_generator.py
test_system.py		test_system.py
utils.py		utils.py
visualizations.py		visualizations.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Automated Data Analysis and Preprocessing System

Features

Installation

Usage

Interactive Mode (Streamlit)

Programmatic Mode

Project Structure

About

Uh oh!

Releases

Packages

Languages

maniparvas/Automation_of_data_preprocessing

Folders and files

Latest commit

History

Repository files navigation

Automated Data Analysis and Preprocessing System

Features

Installation

Usage

Interactive Mode (Streamlit)

Programmatic Mode

Project Structure

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages