In [7]:
import pandas as pd
import plotly.express as px
df = pd.read_csv('chickweight.csv')

### Dataset
|Name 	|Description|
|-----|------------------|
|Chick 	|The id for the chicken.|
|weight |The weight of the chicken.|
|Time 	|The timestamp of the measurement.|
|Diet 	|The diet of the chicken. |



### 1. Aufgabe: Deskriptive Statistik
   a) Berechne den Durchschnitt, die Standardabweichung, das Minimum und das Maximum des Gewichts der Hühner.

In [31]:
df.describe()

Unnamed: 0,weight,Time,Chick,Diet
count,578.0,578.0,578.0,578.0
mean,121.818339,10.717993,25.750865,2.235294
std,71.07196,6.7584,14.568795,1.162678
min,35.0,0.0,1.0,1.0
25%,63.0,4.0,13.0,1.0
50%,103.0,10.0,26.0,2.0
75%,163.75,16.0,38.0,3.0
max,373.0,21.0,50.0,4.0


In [32]:
average_weight = df['weight'].mean()
std_deviation = df['weight'].std()
min_weight = df['weight'].min()
max_weight = df['weight'].max()
print(f"Durchschnittsgewicht: {average_weight}")
print(f"Standardabweichung: {std_deviation}")
print(f"Minimales Gewicht: {min_weight}")
print(f"Maximales Gewicht: {max_weight}")

Durchschnittsgewicht: 121.81833910034602
Standardabweichung: 71.07195959910933
Minimales Gewicht: 35
Maximales Gewicht: 373


   b) Welche Diät hat das schwerste Huhn?


In [33]:
diät_heaviest_chicken = df.groupby(df.Diet,as_index=False)[["weight"]].max().max()
print(f"Das schwerste Huhn: {diät_heaviest_chicken.weight} hat Diet {diät_heaviest_chicken.Diet}")

Das schwerste Huhn: 373 hat Diet 4


   c) Wie viele verschiedene Hühner gibt es in dem Datensatz?


In [34]:
num_unique_chickens = df['Chick'].nunique()
print(f"Anzahl der verschiedenen Hühner: {num_unique_chickens}")

Anzahl der verschiedenen Hühner: 50


### 2. Aufgabe: Visualisierung
   a) Erstelle einen Liniendiagramm, das das Gewicht eines zufällinge Huhns im Laufe der Zeit zeigt.
   


In [63]:
import random
chicken_id = random.randint(df.Chick.min(),df.Chick.max())
chicken_data = df[df['Chick'] == chicken_id]
fig1 = px.line(chicken_data, x='Time', y='weight', title=f"Gewichtsverlauf Huhn {chicken_id}")
fig1.show()

   b) Erstelle ein Violindiagramm, das die Verteilung des Gewichts für jede Diät zeigt.


In [59]:
fig2 = px.violin(df, x='Diet', y='weight', title='Durchschnittsgewicht pro Diät')
fig2.show()


### 3. Aufgabe: Datenfilterung
   a) Filtere den Datensatz, um nur die Daten für Hühner mit einer bestimmten Diät anzuzeigen.
   

In [40]:
diet_id = 1
filtered_data = df[df['Diet'] == diet_id]
print(f"Gefilterte Daten für Diät {diet_id}:\n{filtered_data}")

Gefilterte Daten für Diät 1:
     weight  Time  Chick  Diet
0        42     0      1     1
1        51     2      1     1
2        59     4      1     1
3        64     6      1     1
4        76     8      1     1
..      ...   ...    ...   ...
215      89    14     20     1
216      98    16     20     1
217     107    18     20     1
218     115    20     20     1
219     117    21     20     1

[220 rows x 4 columns]


b) Filtere den Datensatz, um nur die Daten für Hühner mit einem bestimmten Gewichtsbereich anzuzeigen.


In [41]:
weight_range = (150, 200)
filtered_data2 = df[(df['weight'] >= weight_range[0]) & (df['weight'] <= weight_range[1])]
print(f"Gefilterte Daten für Gewichtsbereich {weight_range}:\n{filtered_data2}")



Gefilterte Daten für Gewichtsbereich (150, 200):
     weight  Time  Chick  Diet
9       171    18      1     1
10      199    20      1     1
20      162    16      2     1
21      187    18      2     1
32      163    16      3     1
..      ...   ...    ...   ...
560     152    12     49     4
561     166    14     49     4
562     184    16     49     4
572     155    12     50     4
573     175    14     50     4

[96 rows x 4 columns]


   c) Filtere den Datensatz, um nur die Daten für eine bestimmte Zeitspanne anzuzeigen.


In [42]:
time_range = (10, 20)
filtered_data3 = df[(df['Time'] >= time_range[0]) & (df['Time'] <= time_range[1])]
print(f"Gefilterte Daten für Zeitspanne {time_range}:\n{filtered_data3}")

Gefilterte Daten für Zeitspanne (10, 20):
     weight  Time  Chick  Diet
5        93    10      1     1
6       106    12      1     1
7       125    14      1     1
8       149    16      1     1
9       171    18      1     1
..      ...   ...    ...   ...
572     155    12     50     4
573     175    14     50     4
574     205    16     50     4
575     234    18     50     4
576     264    20     50     4

[286 rows x 4 columns]



### 4. Aufgabe: Zeitreihenanalyse
a) Erstelle einen Boxplot, um die Verteilung des Gewichts für jede Zeitstufe zu visualisieren.
   
   

In [73]:
fig = px.box(df, x='Time', y='weight', title='Verteilung des Gewichts pro Zeitstufe')
fig.show()

b) Berechne die Korrelation Korrelationsmatrix um eventuelle zusamen hänge erkenne zu können.


In [57]:
import plotly.figure_factory as ff

# Berechnung der Korrelationsmatrix
correlation_matrix = df[['weight', 'Time', 'Diet']].corr()
colorscale = [[0.0, 'rgb(255, 50, 50)'], [1.0, 'rgb(50, 50, 255)']]  # Start: Rot, Ende: Blau

# Erstellung des Heatmaps
fig = ff.create_annotated_heatmap(z=correlation_matrix.values,
                                  x=list(correlation_matrix.columns),
                                  y=list(correlation_matrix.index),
                                  colorscale=colorscale)

# Anpassung der Achsentitel
fig.update_layout(title="Korrelationsmatrix",
                  xaxis_title="Variablen",
                  yaxis_title="Variablen")

# Anzeige des Heatmaps
fig.show()


   c) Untersuche, ob es einen deutlichen Trend im Gewicht der Hühner im Laufe der Zeit gibt und ob sich diser von der Diet her unterscheidt.


In [None]:
df.Diet = df.Diet.astype('category')

fig4 = px.scatter(df, x='Time',color="Diet", y='weight',trendline="ols", title='Gewichtstrend über die Zeit')
fig4.show()