In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt



In [None]:
#read csv data
data = pd.read_csv("HeightWeight.csv")

# afew of the data
print(data.head())


In [None]:
"""
1. Mean (Durchschnitt)

Der Mean ist der Durchschnittswert einer Datenreihe.

In deinem Datensatz ist der Durchschnitt der Größe etwa 68 Zoll.

Der Durchschnitt des Gewichts liegt bei etwa 127 Pfund.

Das bedeutet, die meisten Personen in deinem Datensatz haben ungefähr diese Größe und dieses Gewicht.

Warum das in Machine Learning wichtig ist:

Der Mean hilft zu verstehen, was ein typischer Wert ist.

Beim Vorbereiten der Daten wird oft der Durchschnitt abgezogen, damit die Werte zentriert sind.

Wenn die Daten zentriert sind, lernt das Modell schneller und genauer, weil die Werte nicht zu groß oder zu klein sind.

Mean of Height:  67.9931135968
Mean of Weight:  127.07942116080001


"""


# calculate the Mean
# convert height and weight to numpy arrays
heights = data['Height(Inches)'].values
weights = data['Weight(Pounds)'].values

# mean
mean_height = np.mean(heights)
mean_weight = np.mean(weights)

print("Mean of Height: ", mean_height)
print("Mean of Weight: " , mean_weight)


mean_height_manual = sum(heights) / len(heights)
mean_weight_manual = sum(weights) / len(weights)
print("Mean of the height manual: " , mean_height_manual)
print("Mean of the weight manaul: ", mean_weight_manual)

In [None]:
"""
2. Standard Deviation (Streuung, standardabweichung)

Die Standard Deviation zeigt, wie stark die Werte vom Durchschnitt abweichen.

Bei der Größe ist die Standardabweichung etwa 1,9, das heißt die meisten Personen sind sehr ähnlich groß.

Beim Gewicht ist die Standardabweichung etwa 11,7, das bedeutet das Gewicht ist stärker unterschiedlich.

Warum das in Machine Learning wichtig ist:

Die Standardabweichung sagt, welche Merkmale sehr gleichmäßig und welche sehr unterschiedlich sind.

Wenn du die Daten standardisierst, teilst du durch die Standardabweichung. Dadurch werden alle Merkmale vergleichbar.

Modelle wie lineare Regression, neuronale Netze oder Support Vector Machines arbeiten besser, wenn die Werte ähnlich skaliert sind.

Standard deviation of the Height:  1.9016407372498432
Standard deviation of the Weight:  11.66066434332078

"""

# calculate the standard Deviation 
std_height = np.std(heights)
std_weight = np.std(weights)

print("Standard deviation of the Height: " , std_height)
print("Standard deviation of the Weight: ", std_weight)


In [None]:
# Plot Histograms

# Histogram for the Height
plt.hist(heights, bins=20, color='skyblue', edgecolor= 'black')
plt.title("Height Distribution")
plt.xlabel("Height")
plt.ylabel("Count")
#plt.show



In [None]:
#Histogram for the weight
plt.hist(weights, bins=20, color='blue', edgecolor='black')
plt.title("Weight Distribution")
plt.xlabel("Weight")
plt.ylabel("Count")
#plt.show

In [None]:
"""
Was ist Korrelation?

Korrelation zeigt, wie zwei Variablen zusammenhängen.

Bei deinen Variablen Height (Größe) und Weight (Gewicht) bedeutet das:

+1 → perfekte positive Beziehung: Wenn die Height größer wird, wird Weight auch größer.

0 → keine lineare Beziehung: Height sagt nichts über Weight aus.

-1 → perfekte negative Beziehung: Wenn Height größer wird, wird Weight kleiner.

Die Korrelation zeigt, welche Variablen zusammenhängen.

Starke positive Korrelation → Variable Height kann helfen, Weight vorherzusagen.

Sehr schwache Korrelation → Height hilft wenig, Gewicht vorherzusagen.

Negative Korrelation → Height würde das Gegenteil von Weight vorhersagen.

r = Cov(X,Y) / σX * σY

Was das bedeutet

Das Vorzeichen (+)

Positiv → wenn die Höhe steigt, steigt auch tendenziell das Gewicht.

Es gibt also einen positiven Zusammenhang zwischen Größe und Gewicht.

Die Größe (0.50 ≈ 0.5)

Beträgt zwischen 0 und 1 → mäßig stark.

0,5 bedeutet: Es gibt einen klaren, aber nicht perfekten linearen Zusammenhang.

Menschen, die größer sind, sind im Durchschnitt schwerer, aber nicht immer genau proportional.

Interpretation in Alltagssprache:

Wenn jemand größer ist, ist er wahrscheinlich schwerer, aber es gibt viele Ausnahmen (z. B. dünne große Menschen oder kleine kräftige Menschen).

Ein Wert von 1 wäre perfekt proportional, ein Wert von 0 würde bedeuten kein linearer Zusammenhang.



Korrelation zeigt, wie stark zwei Variablen zusammenhängen.

0,0 bis 0,2: sehr schwach oder keine Beziehung

0,3 bis 0,5: mittlere positive Beziehung

0,6 bis 1,0: starke positive Beziehung

Eine Korrelation von 0,5 bedeutet also eine mittlere positive Beziehung – es gibt einen Zusammenhang, aber er ist nicht perfekt.


Je näher der Wert an +1 ist, desto stärker ist die positive Beziehung.
Je näher der Wert an –1 ist, desto stärker ist die negative Beziehung.
Ein Wert um 0 bedeutet, dass es kaum oder gar keinen Zusammenhang zwischen den Variablen gibt.

orrelation between height and Weight:  0.502858520602844


"""

# Correlation between height and the weight from the Scratch

# 1) deviation from the mean 
height_diff = heights - mean_height
weight_diff = weights - mean_weight

# 2) covariance
covariance = np.mean(height_diff * weight_diff)

# 3) correlation
correlation = covariance / (std_height * std_weight)

print("Correlation between height and Weight: ", correlation)


In [None]:
"""

 Non linear regression Model
equation    y = a*e^bt
y = bacteria count
t = time (hours)
a = initial count
b = growth rate



Das Modell y = a * e^(b * t) beschreibt das Wachstum der Bakterien sehr genau.

a = 100 → Anfangsmenge der Bakterien

b = 0.59 → Wachstumsrate (positiv, also Wachstum)

R² = 1.0 → Das Modell passt fast perfekt zu den Daten

Die Kurve zeigt, dass die Bakterienzahl mit der Zeit exponentiell steigt

"""

from scipy.optimize import curve_fit
from sklearn.metrics import r2_score

# give the data
t= np.array([0, 1, 2, 3, 4, 5])
y= np.array([100, 180, 324, 583.2, 1049.76, 1889.57])

# Define the exponential model: y = a * e^(b*t)
def exp_growth(t, a, b):
    return a*np.exp(b*t)

#Fit the model to data using curve_fit
params, covariance = curve_fit(exp_growth, t, y)

# extract fitted parameters
a, b = params
print(f"a (intial count): {a}")
print(f"b ( growth rate ): {b}")


# Predict y values using the fitted model
y_pred = exp_growth(t, a, b)

# Compute R² score
r2 = r2_score(y, y_pred)
print(f"R² (coefficient of determination): {r2}")


# plot data points and fitted curve
plt.scatter(t,y, color='blue', label='Acual Data')
plt.plot(t, y_pred, color='red', label=f'Fitted Curve: y = {a:.2f} * e^({b:.2f}t)')
plt.title('Exponential Growth Fit')
plt.xlabel('Time (hours)')
plt.ylabel('Bacteria Count')
#plt.legend()
#plt.show()

In [None]:



from mpl_toolkits.mplot3d import Axes3D
from matplotlib.animation import  FuncAnimation, PillowWriter


# animated 3D Torus
# Parameters
R = 5 # Distance from the center of the tube to the center of the torus
r = 2 # Radius of the tube

# mashgrid for torus
u = np.linspace(0, 2 * np.pi, 100)
v = np.linspace(0, 2 * np.pi, 100)
u, v = np.meshgrid(u, v)

# parameters equation for the torus
x = (R + r * np.cos(v)) * np.cos(u)
y = (R + r * np.cos(v)) * np.sin(u)
z = r * np.sin(v)

# create 3D plot
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# intitial surface plot
torus = [ax.plot_surface(x, y, z, color='orange', edgecolor='k', rstride=2, cstride=2, alpha=0.8 )]

# Set plot limits and labels 
ax.set_xlim(-8, 8)
ax.set_ylim(-8, 8)
ax.set_zlim(-3, 3)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
ax.set_title('Rotating 3D Torus')


# --- Animation function ---
def update(frame):
    ax.view_init(elev=30, azim=frame)
    return torus

# --- Create animation (rotating around z-axis) ---
ani = FuncAnimation(fig, update, frames=np.linspace(0, 360, 100), interval=100)

# --- Save animation as GIF (10 seconds ≈ 100 frames) ---
ani.save('torus_rotation.gif', writer=PillowWriter(fps=10))

plt.show()

