## Project 1
First, I imported pandas, loaded the dataset, and viewed the first few rows to 
ensure that it had loaded properly. 

The dataset building_energy_data_extended.csv contains 7,200 records with 
detailed hourly observations related to building energy consumption. It 
includes seven key variables: Timestamp, Building_ID, Energy_Usage (kWh), 
Temperature (°C), Humidity (%), Building_Type, and Occupancy_Level. 
It is a public domain dataset downloaded from Kaggle.

In [2]:
import pandas as pd

# Load the dataset
file_path = "building_energy_data_extended.csv"
df = pd.read_csv(file_path)

# Preview a few rows
df.head()


Unnamed: 0,Timestamp,Building_ID,Energy_Usage (kWh),Temperature (°C),Humidity (%),Building_Type,Occupancy_Level
0,2025-01-01 00:00:00,B001,121.3,-7.2,79.36,Industrial,Low
1,2025-01-01 01:00:00,B001,230.76,12.62,80.37,Industrial,High
2,2025-01-01 02:00:00,B001,187.21,-1.33,37.74,Industrial,High
3,2025-01-01 03:00:00,B001,262.23,0.24,39.97,Industrial,High
4,2025-01-01 04:00:00,B001,472.97,5.44,89.29,Industrial,Medium


Then, I identified numeric columns and computed summary statistics, using pandas.

In [3]:
energy_usage = "Energy_Usage (kWh)"

mean = df[energy_usage].mean()
median = df[energy_usage].median()
mode = df[energy_usage].mode()[0]

print(f"Mean: {mean:.2f}")
print(f"Median: {median:.2f}")
print(f"Mode: {mode:.2f}")

Mean: 277.87
Median: 279.41
Mode: 486.91


Then, I computed mean, median, and mode using only the Python standard library.

In [None]:
import csv

energy_data_file_path = "building_energy_data_extended.csv"
energy_usage = "Energy_Usage (kWh)"

values = []

# Step 1: I read the CSV using the csv module, which is in the Python standard
# library, and allows me to access columns by name. 
with open(energy_data_file_path) as f:
    reader = csv.DictReader(f)
    for row in reader:
        val = row[energy_usage].strip()
        if val != "":
            values.append(float(val))

# Step 2: I computed the mean manually
total = 0
for v in values:
    total += v
mean = total / len(values)

# Step 3: I computed the median manually
sorted_values = sorted(values)
n = len(sorted_values)
if n % 2 == 1:
    median = sorted_values[n // 2]
else:
    median = (sorted_values[n // 2 - 1] + sorted_values[n // 2]) / 2

# Step 4: I computed the mode manually.

# I counted how many times each value appears
counts = {}
for v in values:
    if v in counts:
        counts[v] += 1  # increment existing count
    else:
        counts[v] = 1  # first time seeing this value

# I found the highest count
max_count = max(counts.values())

# I found the first value with that count
mode = None
for key, value in counts.items():
    if value == max_count:
        mode = key
        break  # stop after finding the first mode

# Step 5: I printed results
print("Results (Hard Way):")
print(f"Mean: {mean:.2f}")
print(f"Median: {median:.2f}")
print(f"Mode: {mode:.2f}")


Results (Hard Way):
Mean: 277.87
Median: 279.41
Mode: 486.91


Next I created a data visualization. We were instructed to code the drawing 
only using the Python standard library, not with plot(), Plotly, or 
any other external packages. The visualization should use shape, 
size, symbols, etc. to represent the values. 

To meet these specifications, I created a text-based “bar chart”  using 
repeated symbols. I used the values from the previous calculations as the data 
to generate and display labels for each row corresponding to the row indices, 
numbering each household. To make the visualization readable, 
I scaled all bars so that the largest value would correspond to a maximum 
length of 50 characters, maintaining the relative proportions of all other 
values. For each value, I calculated a scaled bar length and then constructed 
a visual bar by repeating a block symbol (■) that many times. 

Finally, I printed each row with the label, the visual bar, and the original 
numeric value in parentheses, creating a simple, readable chart that shows the 
relative energy usage of each household.

In [None]:
# Step 6: Text-based visualization (Python standard library only)

# I used values from the previous calculations as my numeric column and created
# labels for each row that quantified the energy usage for that household. 
# I created labels as row indices
labels = list(range(1, len(values) + 1))  # 1, 2, 3, ... for each row

# To make the visual manageable, I scaled the bars to fit within a maximum 
# length of 100 characters.
max_bar_length = 50
max_value = max(values)
scale = max_bar_length / max_value

print("Energy Usage Visualization (scaled):")
for i in range(len(values)):
    bar_length = int(values[i] * scale)  # scale the value to fit max_bar_length
    bar = "■" * bar_length  # repeated block symbol for the visual
    print(f"{labels[i]:>3}: {bar} ({values[i]})")


Energy Usage Visualization (scaled):
  1: ■■■■■■■■■■■■■■■■■■■■■■■■ (121.3)
  2: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (230.76)
  3: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (187.21)
  4: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (262.23)
  5: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (472.97)
  6: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (198.15)
  7: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (369.35)
  8: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (374.21)
  9: ■■■■■■■■■■■■■■■■■ (85.65)
 10: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (260.47)
 11: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (180.61)
 12: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (305.79)
 13: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (279.35)
 14: ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ (326.78)
 15: ■■■■■■■■■■■■■■ (72.73)
 1