# Week 10 - Data Analysis

# Workflow

## Step 1: Load the Dataset

In [None]:
import pandas as pd
data = pd.read_csv('dataset.csv')

## Step 2: Initial Data Inspection

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data.info()

In [None]:
data.describe()

- Mean:
  >also known as the **average**, is the sum of all values in a dataset **divided** by the total number of values. 
It represents the central tendency of the data. Mathematically,
  >it is calculated as:
  > - Mean (average) = Sum of all values / Total number of values
- المتوسط:
  > هو مجموع جميع القيم في مجموعة البيانات **مقسوماً** على إجمالي عدد القيم. يُمثّل هذا المقدار الميل المركزي للبيانات. رياضياً،
  > يُحسب كما يلي:
  المتوسط (المتوسط) = مجموع جميع القيم / إجمالي عدد القيم


- Standard Deviation (std)
  > measures the dispersion or spread of the data points around the mean. It indicates how much individual data points deviate from the mean. A higher standard deviation indicates greater variability in the dataset
- الانحراف المعياري 
  >  يقيس تشتت أو انتشار نقاط البيانات حول المتوسط. يُشير إلى مدى انحراف البيانات الفردية عن المتوسط. قيمة الانحراف المعياري الأعلى تُشير إلى وجود تباين أكبر في مجموعة البيانات..

- Percentiles
  > Percentiles are specific points in a dataset that divide the data into 100 equal parts
-  النسب المئوية : هي نقاط محددة في مجموعة البيانات تقسم البيانات إلى 100 أجزاء متساوية..

    - 25th Percentile (Q1)
   > The value below which 25% of the data points fall. It represents the lower quartile
    -  النسبة المئوية الـ 25 (الربع الأول - Q1):
    >   هي القيمة التي تحتها يقع 25% من نقاط البيانات. وتُمثل الربع الأول من البيانات..

    - 50th Percentile (Q2)
      >  The value below which 50% of the data points fall. It is also known as the median. Half of the data points lie below and half lie above the median
    -  النسبة المئوية الـ 50 (الربع الثاني - Q2):
        > هي القيمة التي تحتها يقع 50% من نقاط البيانات. وهي معروفة أيضاً باسم الوسيط. حيث تقع نصف نقاط البيانات أدناها ونصفها أعلاها..

    - 75th Percentile (Q3)
      >  The value below which 75% of the data points fall. It represents the upper quartile
    - النسبة المئوية الـ 75 (الربع الثالث - Q3):
    >  هي القيمة التي تحتها يقع 75% من نقاط البيانات. وتُمثل الربع الثالث من البيانات..

### Step 3: Conclusions 

1. Dataset contains 10 entries
2. Dataset has 6 features/columns
3. No null values exist in the dataset
4. Average item prices is 0.67
5. Max item price is 1.2
6. Min item price is 0.4

## Step 3: Identify Missing Values

In [None]:
missing_values = data.isnull().sum()
print(missing_values)

## Step 4: Handle Missing Values

In [None]:
data_cleaned = data.dropna() # The dropna() method removes rows with missing values
# data_cleaned = data.fillna(10) # The fillna() method replaces the NULL values with a specified value

## Step 5: Identify and Handle Outliers

#### An outlier is a data point that lies outside the overall pattern in a distribution.
A commonly used rule says that a data point is an outlier if it is more than 1.5*IQR above the third quartile or below the first quartile. \
**Low** outliers are below (Q1 - 1.5*IQR) and **high** outliers are above (Q3 + 1.5*IQR)

In [None]:
# Example: Remove outliers using the IQR method
Q1 = data_cleaned['Quantity'].quantile(0.25)
Q3 = data_cleaned['Quantity'].quantile(0.75)
IQR = Q3 - Q1
data_cleaned = data_cleaned[(data_cleaned['Quantity'] >= Q1 - 1.5*IQR) & (data_cleaned['Quantity'] <= Q3 + 1.5*IQR)]

## Step 6: Data Type Conversion

In [None]:
data_cleaned['Date'] = pd.to_datetime(data_cleaned['Date'])
data_cleaned.info()

## Step 7: Data Cleaning (e.g., removing duplicates, standardizing text)

In [None]:
data_cleaned = data_cleaned.drop_duplicates()
data_cleaned['Product'] = data_cleaned['Product'].str.upper()

## Step 8: Save the Cleaned Dataset

In [None]:
data_cleaned.to_csv('cleaned_customer_transactions.csv', index=False)

## Additional Visual

In [None]:
import seaborn as sns
sns.histplot(data_cleaned['Price'])