# Project 1 ‚Äî E-commerce Data Exploration

This notebook uses the **ecommerce_dataset.csv**.  
It follows the class requirements: working with a new dataset, computing summary statistics using **pandas** and the **Python standard library**, and creating a simple **text-based visualization**.

I analyze an e-commerce dataset containing product prices.
The goal is to:
	‚Ä¢	understand the basic distribution of prices,
	‚Ä¢	compute descriptive statistics (mean, median, mode),
	‚Ä¢	perform the same calculations using both pandas and pure Python (the ‚Äúhard way‚Äù),
	‚Ä¢	and build a simple ASCII visualization using only the Python standard library.

The dataset contains over 1,000 rows and at least one numeric column, meeting the project requirements.

üîó Dataset link (required by rubric)

The dataset used in this project is publicly available on my portfolio site:

üëâ https://yh3811.github.io/ecommerce_dataset.csv


---

In [12]:
import pandas as pd

# Load dataset safely from project root
df = pd.read_csv("ecommerce_dataset.csv")

df.head()

Unnamed: 0,order_id,customer_id,product_category,price,quantity,discount,order_date,total_value
0,1,8270,Sports,267.6,5,0.13,2023-01-01 00:00:00,1164.06
1,2,1860,Electronics,280.4,5,0.16,2023-01-01 01:00:00,1177.68
2,3,6390,Books,249.54,4,0.07,2023-01-01 02:00:00,928.2888
3,4,6191,Sports,207.89,1,0.14,2023-01-01 03:00:00,178.7854
4,5,6734,Electronics,129.88,1,0.09,2023-01-01 04:00:00,118.1908


In [13]:
numeric_col = "price"
prices = df[numeric_col].dropna()

prices.describe()

count    10000.000000
mean       251.790563
std        143.282960
min          5.000000
25%        127.472500
50%        249.930000
75%        376.095000
max        499.910000
Name: price, dtype: float64

In [14]:
mean_p = prices.mean()
median_p = prices.median()
mode_p = prices.mode()[0]  # pandas returns a Series

print("Mean:", mean_p)
print("Median:", median_p)
print("Mode:", mode_p)

Mean: 251.790563
Median: 249.93
Mode: 85.75


In [15]:
import csv
from collections import defaultdict

values = []

# Load values manually
with open("ecommerce_dataset.csv", "r") as f:
    reader = csv.DictReader(f)
    for row in reader:
        if row["price"]:
            values.append(float(row["price"]))

# Mean
mean_h = sum(values) / len(values)

# Median
values_sorted = sorted(values)
n = len(values_sorted)

if n % 2 == 1:
    median_h = values_sorted[n // 2]
else:
    median_h = (values_sorted[n//2 - 1] + values_sorted[n//2]) / 2

# Mode using dictionary
freq = defaultdict(int)
for v in values:
    freq[v] += 1

mode_h = max(freq, key=freq.get)

print("Mean (hard way):", mean_h)
print("Median (hard way):", median_h)
print("Mode (hard way):", mode_h)

Mean (hard way): 251.790563
Median (hard way): 249.93
Mode (hard way): 85.75


In [5]:
#‚úî Visualization title:
#Price Distribution (ASCII Visualization)
# ‚úî Axes description:
#	‚Ä¢	Y-axis: each row = one transaction
#	‚Ä¢	X-axis: each ‚Äú‚ñá‚Äù represents $10

print("Price Distribution (ASCII Visualization)")
print("Each ‚ñá = $10")
print("Y-axis: each row represents a transaction\n")

# Limit to avoid overly wide charts
for p in values[:50]:  
    bar = "‚ñá" * int(p // 10)
    print(f"${p:7.2f} | {bar}")

Price Distribution (ASCII Visualization)
Each ‚ñá = $10
Y-axis: each row represents a transaction

$ 267.60 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 280.40 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 249.54 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 207.89 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 129.88 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 203.34 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$  73.69 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$  62.05 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 153.47 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 497.70 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 166.62 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 468.55 | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñ

In [6]:
print("Summary of Findings:\n")
print(f"Mean price:   {mean_p:.2f}")
print(f"Median price: {median_p:.2f}")
print(f"Mode price:   {mode_p:.2f}")

print("""
Interpretation:
The price distribution is right-skewed ‚Äî most purchases fall in the low-to-mid price
range, while a smaller number of high-priced items pull the mean above the median.
The ASCII visualization clearly shows this pattern.
""")

Summary of Findings:

Mean price:   251.79
Median price: 249.93
Mode price:   85.75

Interpretation:
The price distribution is right-skewed ‚Äî most purchases fall in the low-to-mid price
range, while a smaller number of high-priced items pull the mean above the median.
The ASCII visualization clearly shows this pattern.



In [8]:
print("Histogram of Price Ranges")
print("Bucket size = $50\n")

buckets = {}
for p in values:
    bucket = int(p // 50) * 50
    buckets[bucket] = buckets.get(bucket, 0) + 1

# sorted buckets
for b in sorted(buckets.keys()):
    bar = "‚ñá" * (buckets[b] // 5)
    print(f"${str(b).rjust(3)}‚Äì{str(b+49).ljust(3)} | {bar}")

Histogram of Price Ranges
Bucket size = $50

$  0‚Äì49  | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá
$ 50‚Äì99  | ‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚ñá‚

In [9]:
print("ASCII Box Plot for Prices\n")

sorted_vals = sorted(values)
q1 = sorted_vals[len(sorted_vals)//4]
median = sorted_vals[len(sorted_vals)//2]
q3 = sorted_vals[3*len(sorted_vals)//4]

print("Min:", min(values))
print("Q1 :", q1)
print("Med:", median)
print("Q3 :", q3)
print("Max:", max(values))

# simple ASCII box plot
print("\nASCII Box Plot:")
print(f"{min(values)} --- {q1} [==== {median} ====] {q3} --- {max(values)}")

ASCII Box Plot for Prices

Min: 5.0
Q1 : 127.48
Med: 249.97
Q3 : 376.11
Max: 499.91

ASCII Box Plot:
5.0 --- 127.48 [==== 249.97 ====] 376.11 --- 499.91


In [11]:
reflection = """
Reflection

This project helped me slow down and revisit the basics of data analysis. 
I‚Äôm used to relying on pandas or visualization libraries, so doing everything 
manually ‚Äî reading the CSV, calculating mean/median/mode, and building the 
ASCII charts ‚Äî reminded me how these tools actually work behind the scenes.

The ASCII visualization was also a good lesson. Even without fancy packages, 
it‚Äôs still possible to show patterns clearly. It made me realize that good 
visualization is more about clarity than complexity.

Writing the notebook in a blog-like style also pushed me to explain my work 
more clearly instead of just showing code. Overall, this project helped me 
rebuild some fundamental skills and understand the core logic of data analysis 
in a more hands-on way.
"""

print(reflection)


Reflection

This project helped me slow down and revisit the basics of data analysis. 
I‚Äôm used to relying on pandas or visualization libraries, so doing everything 
manually ‚Äî reading the CSV, calculating mean/median/mode, and building the 
ASCII charts ‚Äî reminded me how these tools actually work behind the scenes.

The ASCII visualization was also a good lesson. Even without fancy packages, 
it‚Äôs still possible to show patterns clearly. It made me realize that good 
visualization is more about clarity than complexity.

Writing the notebook in a blog-like style also pushed me to explain my work 
more clearly instead of just showing code. Overall, this project helped me 
rebuild some fundamental skills and understand the core logic of data analysis 
in a more hands-on way.

