### Importiere Bibliotheken

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import plotly.express as px

### Lese die Daten

In [None]:
df = pd.read_csv("StudentsPerformance.csv")

### Untersuche den Datensatz

In [None]:
df.head(10)

In [None]:
df.info()

>Der Datensatz enthält 8 Spalten mit 1000 Einträgen.  
3 Spalten mit Continuirliche Werten und 5 Spalten mit Diskrete Werten.


>Es gibt keine fehlenden Werte im Datensatz.  


In [None]:
df_1 = df[['gender', 'race/ethnicity', 'parental level of education', 'lunch','test preparation course']]

for col in df_1.columns:
    if col != ('math score','reading score','writing score'):
        print('Count is:',len(Counter(df[col])))
        print(df[col].value_counts(),end="\n")

In [None]:
#Berechnung der Gesamtnote

x = df['math score']
y = df['reading score']
z = df['writing score']
total_marks = x+y+z

df['total marks'] = total_marks

In [None]:
df.head(3)

### Darstellung der Korrelation von Spalten

In [None]:
#sns.heatmap(df.corr(),annot=True,cmap = 'PRGn')

import plotly.graph_objects as go

corr = df.corr()

trace = go.Heatmap(z=corr.values,
                  x=corr.index.values,
                  y=corr.columns.values)

fig = go.Figure()
fig.add_trace(trace)
fig.show()

# Visualisierung der Daten

## Balkendiagramm
#### Vergleich bei einer diskreten Variable
### Gesamtzahl der weiblichen männlichen Studenten

In [None]:
print(df['gender'].value_counts())
#sns.barplot(x = df['gender'].value_counts().index, y = df['gender'].value_counts().values,palette = "RdPu")
import plotly.express as px
fig = px.bar(df, x='gender', color="gender", title="Gesamtzahl der weiblichen männlichen Studenten",
            labels={
                     "gender": "Geschlecht",
                     "count": "Anzahl"
                 }
            )
fig.show()

#### Vergleich Race/ethnicity 

In [None]:
import plotly.express as px
fig = px.bar(df, x='race/ethnicity', color="race/ethnicity", title="Gesamtzahl der Nationalitäten der Studenten",
            labels={
                     "race/ethnicity": "Nationalität",
                     "count": "Anzahl"
                 }
            )
fig.show()

## Balkendiagramm
#### Vergleich bei mehreren diskreten Variable

In [None]:
import plotly.express as px
fig = px.bar(df, x='race/ethnicity', color="gender", title="Gesamtzahl der Nationalitäten der Studenten",
            labels={
                     "race/ethnicity": "Nationalität",
                     "gender": "Geschlecht",
                     "count": "Anzahl"
                 }
            )
fig.show()

fig = px.bar(df, x='race/ethnicity', color="gender", barmode='group', title="Gesamtzahl der Nationalitäten der Studenten",
            labels={
                     "race/ethnicity": "Nationalität",
                     "gender": "Geschlecht",
                     "count": "Anzahl"
                 }
            )
fig.show()

### Geschlechtsspezifische Verteilung des elterlichen Bildungsniveaus im Verhältnis zu den Gesamtnoten

In [None]:
import plotly.express as px
fig = px.bar(df, x='parental level of education',y='total marks', color="gender", title="Geschlechtsspezifische Verteilung des elterlichen Bildungsniveaus im Verhältnis zu den Gesamtnoten",
            labels={
                     "total marks": "Gesamtnote",
                     "parental level of education": "Bildungsniveau der Eltern",
                     "count": "Anzahl",
                "gender": "Geschlecht"
                 }
            )
fig.show()


fig = px.bar(df, x='parental level of education',y='total marks', barmode='group', color="gender", title="Geschlechtsspezifische Verteilung des elterlichen Bildungsniveaus im Verhältnis zu den Gesamtnoten",
            labels={
                     "total marks": "Gesamtnote",
                     "parental level of education": "Bildungsniveau der Eltern",
                     "count": "Anzahl",
                "gender": "Geschlecht"
                 }
            )
fig.show()

## Kuchendiagramm
#### Vergleich bei einer diskreten Variable

In [None]:
fig = px.pie(df, names='gender', title="Gesamtzahl der weiblichen männlichen Studenten",
            labels={
                     "gender": "Geschlecht"
                 })
fig.show()

## Kuchendiagramm
#### Vergleich bei einer diskreten Variable und einer kontinuierlichen

In [None]:
fig = px.pie(df, values='total marks', names='gender', title="Geschlechtsspezifische Gesamtnote")
fig.show()

## Histogramm
### Untersuchung der Verteilung bei kontinuierlichen Variablen

### Verteilung Gesamtnote

In [None]:
fig = px.histogram(df, x="total marks", title="Histogramm für die Gesamtnote")
fig.show()

fig = px.histogram(df, x="total marks", nbins=10)
fig.show()

## Histogramm bei diskreten Variablen

In [None]:
fig = px.histogram(df, x="parental level of education")
fig.show()


## Boxplot
##### Ein Boxplot ist eine statistische Darstellung der Verteilung einer Variablen durch ihre Quartile. Die Enden der Box stellen das untere und das obere Quartil dar, während der Median (zweites Quartil) durch eine Linie innerhalb der Box markiert ist. 

In [None]:
fig = px.box(df, y="total marks",
             labels={
                     "total marks": "Gesamtnote"
                 },
                title="Verteilung der Gesamtnote")
fig.show()

## Punktdiagramm
## Verteilung bei mehreren Variablen

In [None]:
fig = px.scatter(df, y="total marks", color="gender",
                 labels={
                     "total marks": "Gesamtnote",
                     "gender": "Geschlecht"
                 },
                title="Geschlechtsspezifische Verteilung der Gesamtnote")
fig.show()

## Beziehungen zwieschen Variablen

In [None]:
fig = px.scatter(df, x="writing score", y="total marks", color="gender",
                 labels={
                     "total marks": "Gesamtnote",
                     "writing score": "Schriftliche Note",
                     "gender": "Geschlecht"
                 },
                title="Geschlechtsspezifische Verteilung der Gesamtnote vs Schriftliche Note")
fig.show()


## Blasendiagramm

In [None]:


fig = px.scatter(df, x="writing score", y="total marks", color="gender",
                 size='reading score',
                 labels={
                     "total marks": "Gesamtnote",
                     "writing score": "Schriftliche Note",
                     "gender": "Geschlecht"
                 },
                title="Geschlechtsspezifische Verteilung der Gesamtnote vs Schriftliche Note")

fig.show()

### Beziehungen zwieschen Variablen und Korrelation

In [None]:
df_kont = df.copy()
df_kont = df_kont[['writing score', 'total marks', 'math score', 'reading score']]
fig = px.scatter_matrix(df_kont)

fig.show()

In [None]:
fig = px.scatter_matrix(df,
    dimensions=['writing score', 'total marks', 'math score', 'reading score'],
    color="gender")
fig.show()

In [None]:
fig = px.scatter_matrix(df,
    dimensions=['writing score', 'total marks', 'math score', 'reading score'],
    color="race/ethnicity", symbol="race/ethnicity")
fig.show()

## Lineare Regression

In [None]:
#pip install statsmodels 
fig = px.scatter(df, x="writing score", y="total marks", trendline="ols")
fig.show()




## Zeitreihe- Liniendiagramm

In [None]:
df_zeitreihe = pd.read_csv("london_weather.csv")

df_zeitreihe.head()
df_zeitreihe.info()

df_zeitreihe['date'] = pd.to_datetime(df_zeitreihe['date'], format='%Y%m%d')

df_zeitreihe.head()
df_zeitreihe.info()

In [None]:
fig = px.line(df_zeitreihe, x='date', y='sunshine')
fig.show()