# Loading a DataFrame from a file

In [9]:
import pandas as pd
import wget

df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()



Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


gestione valori nulli

In [16]:
print(df_students.isnull().head()) #isnull method to identify which individual values are null

print("\n", df_students.isnull().sum()) #get the sum of missing values for each column

print("\n",df_students[df_students.isnull().any(axis=1)]) # filter the dataframe to include only rows where any of the columns are null.





    Name  StudyHours  Grade
0  False       False  False
1  False       False  False
2  False       False  False
3  False       False  False
4  False       False  False

 Name          0
StudyHours    1
Grade         2
dtype: int64

     Name  StudyHours  Grade
22  Bill         8.0    NaN
23   Ted         NaN    NaN


Un approccio comune per gestire valori mancanti è quello di inserire i valori sostitutivi. Ad esempio, se manca il numero di ore di studio, si può ipotizzare che lo studente abbia studiato per un tempo medio e sostituire il valore mancante con la media delle ore di studio. Per fare ciò, si può utilizzare il metodo fillna

In [17]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


In alternativa, potrebbe essere importante assicurarsi di utilizzare solo i dati di cui si conosce l'assoluta correttezza; è quindi possibile eliminare le righe o le colonne che contengono valori nulli utilizzando il metodo dropna.

In [18]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


# Explore data in the DataFrame

In [21]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print("Average weekly study hours: ", mean_study, "\nAverage grade: ", mean_grade)

Average weekly study hours:  10.522727272727273 
Average grade:  49.18181818181818


trovare solo gli studenti che hanno studiato per un periodo di tempo superiore alla media

In [22]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Trovare la media dei voti degli studenti che hanno studiato più della media.

In [23]:
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7

Supponiamo che il voto per la sufficienza per il corso sia 60.

Possiamo usare questa informazione per aggiungere una nuova colonna al DataFrame, indicando se ogni studente ha superato il corso o meno.

Per prima cosa, creeremo una serie Pandas contenente un indice per il superamento del corso (Vero o Falso) e poi concateneremo questa serie come una nuova colonna nel DataFrame.

In [24]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


metodo groupby per raggruppare i dati degli studenti in gruppi basati sulla colonna Pass

In [25]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64


È possibile aggregare più campi in un gruppo utilizzando qualsiasi funzione di aggregazione disponibile. Ad esempio, è possibile trovare il tempo medio di studio e il voto per i gruppi di studenti che hanno superato e non superato il corso.

In [None]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

In [29]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False
