# Pandas - Rensa och sammanfatta

In [1]:
import pandas as pd

df = pd.read_csv("studietimmar_poang.csv")

df.columns = (df.columns
              .str.strip()
              .str.replace(" ", "_")
              .str.lower())
df.head()

Unnamed: 0,student,studietimmar,provpoäng,klass
0,Elev 065,0.7,55.0,B
1,Elev 059,,94.0,A
2,Elev 060,8.0,100.0,A
3,Elev 005,5.8,100.0,A
4,Elev 070,,93.0,B


In [4]:
print(df.info())
print()
print(df.isna().sum())
print()
print(df.dtypes)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   student       80 non-null     object 
 1   studietimmar  76 non-null     float64
 2   provpoäng     78 non-null     float64
 3   klass         80 non-null     object 
dtypes: float64(2), object(2)
memory usage: 2.6+ KB
None

student         0
studietimmar    4
provpoäng       2
klass           0
dtype: int64

student          object
studietimmar    float64
provpoäng       float64
klass            object
dtype: object


In [5]:
df_clean = df.dropna(subset=["provpoäng"])

df_clean.loc[df_clean["studietimmar"].isna(), "studietimmar"] = 0

In [7]:
print("Dublettrader:", df_clean.duplicated().sum())
df_clean = df_clean.drop_duplicates().reset_index(drop=True)
print("Unika studenter:", df_clean["student"].nunique())

Dublettrader: 0
Unika studenter: 78


In [None]:
df_clean["klass"] = df_clean["klass"].astype("category")

# df_clean["datum"] = pd.to_datetime(df_clean["datum"], dayfirst=True, errors="coerce")
df_clean.dtypes

student           object
studietimmar     float64
provpoäng        float64
klass           category
dtype: object

In [9]:
df_clean = df_clean.assign(
    poang_per_timme = df_clean["provpoäng"]
    .where(df_clean["studietimmar"] > 0, other=pd.NA)
    / df_clean["studietimmar"]
)
df_clean[["student", "klass", "studietimmar", "provpoäng", "poang_per_timme"]].head()

Unnamed: 0,student,klass,studietimmar,provpoäng,poang_per_timme
0,Elev 065,B,0.7,55.0,78.571429
1,Elev 059,A,0.0,94.0,
2,Elev 060,A,8.0,100.0,12.5
3,Elev 005,A,5.8,100.0,17.241379
4,Elev 070,B,0.0,93.0,


In [11]:
summary_klass = (df_clean
                 .groupby("klass", dropna=False, observed=True)
                 .agg(
                     antal = ("student", "count"),
                     medel_poäng = ("provpoäng", "mean"),
                     median_poäng = ("provpoäng", "median"),
                     std_poäng = ("provpoäng", "std"),
                     medel_timmar = ("studietimmar", "mean")
                    )
                    .reset_index()
                 )

summary_klass

Unnamed: 0,klass,antal,medel_poäng,median_poäng,std_poäng,medel_timmar
0,A,25,85.72,89.0,11.9007,5.184
1,B,27,73.148148,70.0,13.863909,4.685185
2,C,26,71.307692,70.0,9.926809,3.915385


In [19]:
bins = [0, 60, 80, 100]

andelar = pd.crosstab(
    df_clean["klass"],
    pd.cut(df_clean["provpoäng"], bins=bins, right=True),
    normalize="index"
).round(2)

andelar

provpoäng,"(0, 60]","(60, 80]","(80, 100]"
klass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.0,0.4,0.6
B,0.19,0.59,0.22
C,0.15,0.69,0.15


In [22]:
assert df_clean["provpoäng"].between(0, 100).all()
assert (df_clean["studietimmar"] >= 0).all()

corr = df_clean[["studietimmar", "provpoäng"]].corr().iloc[0, 1]
print("korrelation timmar-poäng", round(float(corr), 2))

korrelation timmar-poäng 0.59


In [23]:
df_clean.to_csv("resultat_städad.csv", index=False)
summary_klass.to_csv("summary_by_class.csv", index=False)
andelar.to_csv("summary_by_class_bins.csv", index=False)