<a href="https://colab.research.google.com/github/VitaliiKras/GCollabPublic/blob/main/PublicGoogleCollab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Шаблон PET проекту для EDA / Template of PET project for EDA




**[ ENG: ] General Introduction:**
---
> Welcome to this Python workbook dedicated to Exploratory Data Analysis (EDA)!

>In the world of data science, EDA is a crucial first step in understanding your data before diving into complex modeling or hypothesis testing. It's an iterative process of inspecting, cleaning, and visualizing data to uncover patterns, detect anomalies, test assumptions, and generate insights. Think of it as a detective's work – meticulously examining clues to piece together the full story hidden within your dataset. (IMHO Just in case - do not push too much detective aproach - keep it reasonable ⏰ )

>This template will guide through the fundamental concepts of EDA and provide a practical, step-by-step approach to performing it effectively using Python's powerful data science libraries. It covers 8 key stages or steps of EDA, from initial data acquisition and handling missing values to advanced data transformation and insightful visualization.

>By working based on template, the goal is to gain a solid understanding of:

>* The "Why" of EDA: Why it's indispensable for any data-driven project.
>* The "How" of EDA: Practical techniques and Python tools to perform each step.
>* The "What" of EDA: How to interpret your findings and translate them into actionable insights.

> Despite the level of data skill this template will equip project with the essential references to explore, understand, and derive value from your datasets.

> Let data exploration journey will begin!

> *Additional info:*

*  PET project - created in Google Colab to demonstrate the capabilities of EDA (Exploratory Data Analysis). More about EDA here in AI overview [link](https://www.google.com/search?q=exploratory+data+analysis&oq=explanatory+data+&gs_lcrp=EgZjaHJvbWUqCQgBEAAYChiABDIGCAAQRRg5MgkIARAAGAoYgAQyCQgCEAAYChiABDIJCAMQABgKGIAEMgkIBBAAGAoYgAQyCQgFEAAYChiABDIJCAYQABgKGIAEMgkIBxAAGAoYgAQyCQgIEAAYChiABDIJCAkQABgKGIAE0gEJMTAyODNqMGo3qAIAsAIA&sourceid=chrome&ie=UTF-8)

* The following list of steps is comprehensive, according to the source.
 [ Source with description here ](https://www.geeksforgeeks.org/data-analysis/what-is-exploratory-data-analysis/)

* Worth to admit that not all steps from this list may be used in a specific project.

* Stage or Steps for Performing EDA provided below in this template


# Крок 1: Розуміння проблеми та даних / Step 1: Understanding the Problem and the Data


---

[ **UKR:** ] Перший крок у будь-якому проєкті з аналізу даних — це повністю зрозуміти проблему, яку ми вирішуємо, і дані, які ми маємо. Це включає відповіді на ключові питання:
*   Яка бізнес-мета чи дослідницьке питання?
*   Які змінні є в даних і що вони означають?
*   Які типи даних ви маєте (числові, категоріальні, текстові тощо)?
*   Чи є відомі проблеми з якістю даних або обмеження?
*   Чи існують якісь специфічні для предметної області проблеми або обмеження?

Розуміючи проблему та дані, ми можемо ефективніше планувати наш аналіз, уникати неправильних припущень та забезпечити точність висновків.

---
[ **ENG:** ] The first step in any data analysis project is to fully understand the problem we're solving and the data we have. This includes asking key questions like:

*   What is the business goal or research question?
*   What are the variables in the data and what do they represent?
*   What types of data (numerical, categorical, text, etc.) do you have?
*   Are there any known data quality issues or limitations?
*   Are there any domain-specific concerns or restrictions?

By understanding the problem and the data, we can plan our analysis
more effectively, avoid incorrect assumptions and ensure accurate conclusions.


# Крок 2: Імпорт та перевірка даних / Step 2: Importing and Inspecting the Data

---
[ **UKR:** ] Після того, як ми зрозуміли проблему та дані, наступний крок — імпортувати дані у наше середовище для аналізу, наприклад, у Python, R або табличний редактор. Важливо вивчити дані, щоб отримати базове уявлення про їхню структуру, типи змінних та будь-які потенційні проблеми. Ось що ми можемо зробити:

1.   Завантажте дані у ваше середовище, роблячи це обережно, щоб уникнути помилок або обрізання даних.
2.   Перевірте розмір даних, наприклад, кількість рядків та стовпців, щоб зрозуміти їхню складність.
3.    Перевірте наявність пропущених значень і подивіться, як вони розподілені між змінними, оскільки відсутні дані можуть вплинути на якість аналізу.
4.   Визначте типи даних для кожної змінної (числові, категоріальні тощо), що допоможе на наступних етапах обробки та аналізу даних.
5.   Знайдіть помилки або невідповідності, такі як недійсні значення, неузгоджені одиниці виміру або викиди, які можуть свідчити про серйозні проблеми з даними. 🔎

Виконавши ці завдання, ми будемо готові до більш ефективного очищення та аналізу даних.

---
[ **ENG:** ] After understanding the problem and the data, next step is to import the data into our analysis environment such as Python, R or a spreadsheet tool. It’s important to find data to gain an basic understanding of its structure, variable types and any potential issues. Here’s what we can do:

1.   Load the data into our environment carefully to avoid errors or truncations.
2.   Check the size of the data like number of rows and columns to understand its complexity.
3.   Check for missing values and see how they are distributed across variables since missing data can impact the quality of your analysis.
4.   Identify data types for each variable like numerical, categorical, etc which will help in the next steps of data manipulation and analysis.
5.   Look for errors or inconsistencies such as invalid values, mismatched units or outliers which could show major issues with the data.

By completing these tasks we'll be prepared to clean and analyze the data more effectively.

Створення нового проекту по гугл колаб.

# Крок 3: Обробка відсутніх даних / Step 3: Handling Missing Data

---
[ **UKR:** ] Відсутні дані є поширеним явищем у багатьох наборах даних і можуть впливати на якість нашого аналізу. Під час розвідувального аналізу даних (EDA) важливо виявити та належним чином обробити відсутні дані, щоб уникнути упереджених або оманливих результатів. Ось як це зробити:

1. Зрозумійте закономірності та можливі причини відсутності даних. Чи відсутні дані повністю випадково (MCAR), відсутні випадково (MAR) або відсутні не випадково (MNAR)? Визначення цього допомагає знайти найкращий спосіб обробки відсутніх даних.
2. Вирішіть, чи видаляти відсутні дані, чи замінювати (заповнювати) відсутні значення. Видалення даних може призвести до упереджених результатів, якщо відсутні дані не є MCAR. Заповнення значень допомагає зберегти дані, але має виконуватися обережно.
3. Використовуйте відповідні методи імпутації, такі як імпутація середнім або медіанним значенням, регресійна імпутація або методи машинного навчання, такі як KNN або дерева рішень, виходячи з характеристик даних.
4. Враховуйте вплив відсутніх даних. Навіть після імпутації відсутні дані можуть спричинити невизначеність та упередженість, тому ставтеся до результатів з обережністю.

Належна обробка відсутніх даних покращує точність нашого аналізу та запобігає оманливим висновкам.

---
[ **ENG:** ] Missing data is common in many datasets and can affect the quality of our analysis. During EDA it's important to identify and handle missing data properly to avoid biased or misleading results. Here’s how to handle it:

1. Understand the patterns and possible causes of missing data. Is it missing completely at random (MCAR), missing at random (MAR) or missing not at random (MNAR). Identifying this helps us to find best way to handle the missing data.
2. Decide whether to remove missing data or impute (fill in) the missing values. Removing data can lead to biased outcomes if the missing data isn’t MCAR. Filling values helps to preserve data but should be done carefully.
3. Use appropriate imputation methods like mean or median imputation, regression imputation or machine learning techniques like KNN or decision trees based on the data’s characteristics.
4. Consider the impact of missing data. Even after imputing, missing data can cause uncertainty and bias so understands the result with caution.

Properly handling of missing data improves the accuracy of our analysis and prevents misleading conclusions.

# Крок 4: Дослідження характеристик даних / Step 4: Exploring Data Characteristics

---
[ **UKR:** ] Після обробки відсутніх даних ми вивчаємо **характеристики наших даних**, перевіряючи **розподіл, центральну тенденцію та мінливість** наших змінних, а також виявляючи **викиди** чи **аномалії**. Це допомагає у виборі відповідних методів аналізу та виявленні основних проблем з даними.

Ми повинні розрахувати **зведені статистичні показники**, такі як середнє значення, медіана, мода, стандартне відхилення, асиметрія та ексцес для числових змінних. Ці показники дають загальне уявлення про розподіл даних та допомагають нам виявити будь-які нерегулярні закономірності чи проблеми.

---
[ **ENG:** ] After addressing missing data we find **the characteristics of our data** by checking the **distribution, central tendency and variability** of our variables and identifying outliers or anomalies. This helps in selecting appropriate analysis methods and finding major data issues.

We should calculate **summary statistics** like mean, median, mode, standard deviation, skewness and kurtosis for numerical variables. These provide an overview of the data’s distribution and helps us to identify any irregular patterns or issues.

# Крок 5: Виконання перетворення даних / Step 5: Performing Data Transformation

---
[ **UKR:** ] Перетворення даних є важливим кроком у розвідувальному аналізі даних (EDA), оскільки воно готує наші дані для точного аналізу та моделювання. Залежно від характеристик наших даних та потреб аналізу, нам може знадобитися трансформувати їх, щоб переконатися, що вони знаходяться у правильному форматі.

Поширені методи трансформації включають:
* Масштабування або нормалізація числових змінних, наприклад, масштабування мінімум-максимум або стандартизація.
* Кодування категоріальних змінних для машинного навчання, наприклад, one-hot кодування або кодування мітками.
* Застосування математичних перетворень, таких як логарифмічний або квадратний корінь, для виправлення асиметрії або нелінійності.
* Створення нових змінних з існуючих, наприклад, обчислення співвідношень або комбінування змінних.
* Агрегування або групування даних на основі певних змінних або умов.

---
[ **ENG:** ] Data transformation is an important step in EDA as it prepares our data for accurate analysis and modeling. Depending on our data's characteristics and analysis needs, we may need to transform it to ensure it's in the right format. Common transformation techniques include:
* Scaling or normalizing numerical variables like min-max scaling or standardization.
* Encoding categorical variables for machine learning like one-hot encoding or label encoding.
* Applying mathematical transformations like logarithmic square root to correct skewness or non-linearity.
* Creating new variables from existing ones like calculating ratios or combining variables.
* Aggregating or grouping data based on specific variables or conditions.

# Крок 6: Візуалізація зв'язків між даними / Step 6: Visualizing Relationship of Data

---
[ **UKR:** ] Візуалізація допомагає знайти взаємозв'язки між змінними та виявити закономірності чи тенденції, які неможливо побачити лише за допомогою зведеної статистики.
* Для **категоріальних змінних** створюйте таблиці частот, стовпчасті діаграми та кругові діаграми, щоб зрозуміти розподіл категорій та виявити дисбаланс або незвичайні закономірності.
* Для **числових змінних** генеруйте гістограми, коробкові діаграми (box plots), скрипкові діаграми (violin plots) та графіки щільності, щоб візуалізувати розподіл, форму, розкид та потенційні викиди.
* Щоб знайти **взаємозв'язки між змінними**, використовуйте діаграми розсіювання, кореляційні матриці або статистичні тести, такі як коефіцієнт кореляції Пірсона або рангова кореляція Спірмена.

---
[ **ENG:** ] Visualization helps to find relationships between variables and identify patterns or trends that may not be seen from summary statistics alone.
* For **categorical variables**, create frequency tables, bar plots and pie charts to understand the distribution of categories and identify imbalances or unusual patterns.
* For **numerical variables** generate histograms, box plots, violin plots and density plots to visualize distribution, shape, spread and potential outliers.
* To find **relationships between variables** use scatter plots, correlation matrices or statistical tests like Pearson’s correlation coefficient or Spearman’s rank correlation.

# Крок 7: Обробка викидів / Step 7: Handling Outliers

---
[ **UKR:** ] **Викиди** — це точки даних, які значно відрізняються від решти даних, що може бути спричинено помилками вимірювання або введення даних. Виявлення та обробка викидів є важливими, оскільки вони можуть спотворювати наш аналіз та впливати на продуктивність моделі.

Ми можемо ідентифікувати викиди, використовуючи такі методи, як **міжквартильний розмах (IQR), Z-показники** або **правила, специфічні для предметної області**. Після виявлення їх можна видалити або скоригувати залежно від контексту. Належне керування викидами гарантує, що наш аналіз є точним та надійним.

---
[ **ENG:** ] **Outliers** are data points that differs from the rest of the data may caused by errors in measurement or data entry. Detecting and handling outliers is important because they can skew our analysis and affect model performance.

We can identify outliers using methods like **interquartile range (IQR), Z-scores** or **domain-specific rules**. Once identified it can be removed or adjusted depending on the context. Properly managing outliers shows our analysis is accurate and reliable.

# Крок 8: Повідомлення про висновки та інсайти /  Step 8: Communicate Findings and Insights

---
[ **UKR:** ] Останній крок у розвідувальному аналізі даних (EDA) — це чітке повідомлення про наші висновки. Це передбачає узагальнення аналізу, виділення ключових відкриттів та чітке представлення наших результатів.

* **Чітко сформулюйте цілі та обсяг** вашого аналізу.
* **Надайте контекст та довідкову інформацію**, щоб допомогти іншим зрозуміти ваш підхід.
* **Використовуйте візуалізації** для підтвердження наших висновків та полегшення їх розуміння.
* **Виділіть ключові інсайти**, закономірності чи аномалії, виявлені в ході дослідження.
* **Згадайте будь-які обмеження** чи проблеми, що виникли під час аналізу.
* **Запропонуйте наступні кроки** або області, що потребують подальшого дослідження.

Ефективна комунікація важлива для того, щоб наші зусилля з EDA мали вплив, а зацікавлені сторони розуміли та діяли на основі наших інсайтів. Дотримуючись цих кроків та використовуючи правильні інструменти, EDA допомагає підвищити якість наших даних, що призводить до більш обґрунтованих рішень та успішних результатів у будь-якому проекті, керованому даними.

---
[ **ENG:** ] The final step in EDA is to communicate our findings clearly. This involves summarizing the analysis, pointing out key discoveries and presenting our results in a clear way.

* **Clearly state the goals and scope** of your analysis.
* **Provide context and background** to help others understand your approach.
* **Use visualizations** to support our findings and make them easier to understand.
* **Highlight key insights**, patterns or anomalies discovered.
* **Mention any limitations** or challenges faced during the analysis.
* **Suggest next steps** or areas that need further investigation.

Effective communication is important to ensure that our EDA efforts make an impact and that stakeholders understand and act on our insights. By following these steps and using the right tools, EDA helps in increasing the quality of our data, leading to more informed decisions and successful outcomes in any data-driven project.