# **Unique Minds Software Workshop 2024** - Σάββατο 20 Απριλίου 2024

**Coordinators**

| Όνομα                              | Εmail                   |
| ----------------------------------- | ---------------------- |
| Ανδρεάς Χρυσοβαλάντης-Κωνσταντίνος | *valantis2000@hotmail.com* |
| Μανιάτης Ανδρέας | *maniatis.andreas@gmail.com* |
| Παπανικολάου Ιωάννης              | *johnpapani1@gmail.com* |


<img src="https://github.com/AndrewManiatis/Unique-Minds-SW-Workshop-2024/blob/main/pexels-brett-sayles.jpg?raw=true" alt="Image Alt Text">

## Διαχείριση δεδομένων με Pandas

Σε αυτό την υποενότητα θα δούμε:
- Διάβασμα Αρχείου
- Βασικές Εντολές
- Πρόσβαση σε γραμμές
- Πρόσβαση σε στήλες



In [None]:
!pip install seaborn

In [None]:
#Φόρτωση των κατάλληλων βιβλιοθηκών που περιέχουν διάφορες έτοιμες συναρτήσεις που θα χρησιμοποιήσουμε
from google.colab import files
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from io import BytesIO
from PIL import Image

In [None]:
# Φορτώνουμε το csv αρχείο με τα δεδομένα μας
!wget -O ryanair_reviews.csv https://raw.githubusercontent.com/AndrewManiatis/Unique-Minds-SW-Workshop-2024/main/ryanair_reviews.csv

In [None]:
# Load the CSV file into a DataFrame (αντικείμενο της βιβλιοθήκης Pandas)
file_path = "ryanair_reviews.csv"

df = pd.read_csv(file_path,index_col=0,parse_dates=True)

In [None]:
#Η μέθοδος head επιστρέφει τις x πρώτες γραμμές
df.head(3)

In [None]:
# Μπορούμε επίσης να λάβουμε μερικά στατιστικά στοιχεία για τα περιεχόμενα κάθε στήλης με τη μέθοδο describe!
df.describe()

In [None]:
#df.info()

In [None]:
# Μετατρέπουμε τις στήλες με ημερομηνίες σε αντικείμενα ημερομηνιών.
df['Date Published'] = pd.to_datetime(df['Date Published'])
df['Date Flown'] = pd.to_datetime(df['Date Flown'])

### Πρόσβαση σε γραμμές (rows)

In [None]:
#Χρησιμοποιώντας το label της γραμμής με το χαρακτηριστικό loc
#https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html
#Προσοχή! Η αρίθμηση αρχίζει από το 0
df.loc[0]

In [None]:
#Χρησιμοποιώντας τον αριθμό της γραμμής (βλέπε index) με το χαρακτηριστικό iloc
#https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc
df.iloc[0]

Στην προκειμένη περίπτωση έχουμε το ίδιο ακριβώς αποτέλεσμα. <br/> **Αν αντίθετα είχαμε κατηγορικές τιμές (λέξεις) στο index μας θα έπρεπε να χειριστούμε το πρόβλημα διαφορετικά:**


In [None]:
df2 = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                   index=['cobra', 'viper', 'sidewinder'],
                   columns=['max_speed', 'shield'])
df2

Προσπαθήστε να μαντέψετε ποιο θα είναι το αποτέλεσμα σε κάθε μία από τις παρακάτω περιπτώσεις και έπειτα δοκιμάστε να τρέξετε κάθε μία αφαιρώντας το "#" (uncomment).

In [None]:
# df2.iloc[0]

In [None]:
# df2.loc['cobra']

Για ταυτόχρονη πρόσβαση σε **περισσότερες από μία γραμμές** μπορούμε να χρησιμοποιήσουμε τις παρακάτω εντολές:

In [None]:
#slice
df.iloc[2:5]

Προσέξτε ότι στην παραπάνω περίπτωση δεν περιλάμβανεται η γραμμή με index = 5

In [None]:
#Χρήση λίστας με integers
list_of_rows = [2,4,6]
df.iloc[list_of_rows]

### Πρόσβαση σε στήλες (columns)

In [None]:
df["Comment title"]

Πρόσβαση στη στήλη συγκεκριμένης γραμμής:

In [None]:
df.iloc[3]["Comment title"]

Πρόσβαση σε **περισσότερες από μία στήλες**:

In [None]:
#Με slice
df.iloc[:,0:3]
#πρώτο όρισμα (πριν το κόμμα) γραμμές, δεύτερο όρισμα (μετά το κόμμα) στήλες
#προσέξτε πώς όταν δεν ορίζουμε τα όρια του slice παίρνουμε πίσω όλες τις γραμμές (:)

In [None]:
#Με λίστα
#...κάπως διαφορετικά
list_of_columns = ["Overall Rating", "Passenger Country", "Seat Type"]
df.iloc[1:3][list_of_columns]

**Σημαντικό!** Μπορούμε επίσης να χρησιμοποιούμε **λογικές εκφράσεις** για να βρούμε τις κατάλληλες πληροφορίες.

Ας βρούμε όλες τις καταχωρήσεις όπου το "Overall Rating" ήταν πάνω από 5:

In [None]:
df[df["Overall Rating"] > 5]

Για πιο σύνθετα ζητούμενα με **πολλά conditions**, κλείνουμε το κάθε condition σε παρένθεση και χρησιμοποιούμε τα σύμβολα:
- & : και
- | : ή
- ~ : όχι

In [None]:
df[(df["Overall Rating"] > 5) & (df["Passenger Country"] == "United Kingdom")]

In [None]:
#Βρίσκουμε όλες τις δυνατές τιμές μιας κατηγορίας (στήλης)
#π.χ.
df['Origin'].unique()
#Τι προβλήματα παρατηρείτε στα δεδομένα;
#hint Ctrl+F ->type London

Αναδεικνύεται η ανάγκη λοιπόν **καθαρισμού των δεδομένων (data cleaning)**, ένα απαραίτητο βήμα κάθε έργου που φιλοδοξεί να αναλύσει και να εξάγει συμπεράσματα από τα δεδομένα.


> Ο **καθαρισμός δεδομένων** είναι η διαδικασία διόρθωσης ή αφαίρεσης εσφαλμένων, αλλοιωμένων, εσφαλμένα μορφοποιημένων, διπλών ή ελλιπών δεδομένων σε ένα σύνολο δεδομένων. Όταν συνδυάζονται πολλαπλές πηγές δεδομένων, υπάρχουν πολλές ευκαιρίες για δεδομένα που είναι διπλά ή εσφαλμένως επισημασμένα. Εάν τα δεδομένα είναι εσφαλμένα, τα αποτελέσματα και οι αλγόριθμοι είναι αναξιόπιστα, ακόμη και αν φαίνονται σωστά. Δεν υπάρχει ένας απόλυτος τρόπος για να προδιαγράψει κανείς τα ακριβή βήματα στη διαδικασία καθαρισμού δεδομένων, επειδή οι διαδικασίες διαφέρουν από σύνολο δεδομένων σε σύνολο δεδομένων.

Πηγή:https://www.tableau.com/learn/articles/what-is-data-cleaning#definition






---

*Ερωτήσεις*


---



## Προεπεξεργασία και εξερεύνηση δεδομένων

### Ελλιπείς τιμές

Απαραίτητη διαδικασία σε κάθε dataset.<br/>

- Ελέγχουμε για ελλιπείς τιμές *(μηδενικά/ NaN)*
- Καθαρίζουμε τα δεδομένα αποβάλλοντας γραμμές με ελλιπείς τιμές.

In [None]:
# Check for missing values
missing_values = df.isnull().sum()
print("Missing values in each column:")
print(missing_values)

In [None]:
# Αφαιρούμε στήλες που δεν θα χρησιμοποιήσουμε στην ταξινόμηση

df_cleaned = df.drop(columns=['Trip_verified', 'Date Published', 'Date Flown','Comment', 'Comment title',
                              'Aircraft', 'Type Of Traveller',
                              'Inflight Entertainment', 'Wifi & Connectivity',
                              'Origin', 'Destination']
                     )

In [None]:
# Αντικαθιστούμε τις απουσιάζουσες τιμές με την πιο συχνή τιμή της εκάστοτε στήλης
# Συνήθης πρακτική για την διαχείρηση NaN values

for column in ['Seat Comfort', 'Cabin Staff Service', 'Food & Beverages', 'Ground Service', 'Value For Money']:
  mode_value = df_cleaned[column].mode()[0]
  df_cleaned[column].fillna(mode_value, inplace=True)

### Κατηγορικά δεδομένα

Οι αλγόριθμοι πρόβλεψης χρησιμοποιούν στατιστικά μοντέλα για την πρόβλεψη τιμών. Ως εκ τούτου δεδομένα τα οποία δεν αποτελούνται από αριθμητικές τιμές και ονομάζονται κατηγορικά, αλλά ακόμα μπορούν να μας χρησιμεύσουν στην πρόβλεψη χρειάζονται μια διαφορετική προσέγγιση. Παρακάτω, βλέπουμε τις δύο στήλες που αποτελούνται από κατηγορικά δεδομένα και τις διαφορετικές τιμές που μπορούν να λάβουν.

In [None]:
print(df_cleaned['Seat Type'].unique(),"\n")
print(df_cleaned['Passenger Country'].unique())

Μια τεχνική για να διαχειριστούμε λοιπόν τα κατηγορικά δεδομένα και την οποία θα χρησιμοποιήσουμε παρακάτω ονομάζεται **Label Encoding**. Συνίσταται από την αντιστοίχιση κάθε κατηγορικής τιμής σε μια αριθμητική (κωδικοποίηση). Μια άλλη τεχνική που μπορείτε να αναζητήσετε ονομάζετε One-Hot Encoding.

In [None]:
## class mapping

df_enc = df_cleaned.copy(deep=True)

# βρίσκουμε τις μοναδικές ετικέτες
class_mapping = {st:idx for idx,st in enumerate(np.unique(df_enc['Seat Type']))}
print(class_mapping,'\n')

# και κάνουμε την μετατροπή
df_enc['Seat Type'] = df_enc['Seat Type'].map(class_mapping)

class_mapping = {pc:idx for idx,pc in enumerate(np.unique(df_enc['Passenger Country']))}

#αντιστοίχιση
print(class_mapping,'\n')

df_enc['Passenger Country'] = df_enc['Passenger Country'].map(class_mapping)

class_mapping = {rec:idx for idx,rec in enumerate(np.unique(df_enc['Recommended']))}

#αντιστοίχιση
print(class_mapping)

df_enc['Recommended'] = df_enc['Recommended'].map(class_mapping)

Λόγω του ότι θα χρησιμοποιήσουμε την κατηγορία Overall Rating στη συνέχεια για να κάνουμε προβλέψεις οι γραμμές χωρίς τιμή δεν μας είναι χρήσιμες. Έτσι, δεν έχει νοήμα να συμπληρώσουμε αυθαίρετες τιμές όποτε και διαγράφουμε τις συγκεκριμένες γραμμές.

In [None]:
df_enc.dropna(subset=['Overall Rating'],inplace=True)

In [None]:
missing_values = df_enc.isnull().sum()
print("Missing values in each column:")
print(missing_values)

**Ερώτηση:** Βρείτε πόσοι πελάτες προτείνουν την εταιρία και πόσοι όχι. Μπορείτε να ανατρέξετε στα αρχικά κεφάλαια.

In [None]:
#συμπληρώστε εδώ...

In [None]:
#ή εναλλακτικά: df_enc['Recommended'].value_counts()

### Στατιστικές συσχετίσεις μεταξύ στηλών
Η **εξάρτηση δύο μεταβλητών (correlation)** φανερώνει μια στατιστική σχέση μεταξύ τους. Δηλαδή το πώς μπορεί να επηρεαστεί η τιμή της μίας από την άλλη (συχνότερα εννούμε μια γραμμική σχέση). Οι συσχετισμοί αυτοί είναι χρήσιμοι, καθώς μπορούν να υποδείξουν μια προγνωστική σχέση που μπορεί να εφαρμοστεί στην πράξη (παραγωγή προβλέψεων). Στο παρακάτω κελί βλέπουμε πώς με τις κατάλληλες εντολές μπορούμε να δούμε εποπτικά τις εξαρτήσεις όλων των πιθανών συνδυασμών μεταβλητών.



In [None]:
corr = df.corr()
plt.figure(figsize=(10, 8))
sb.heatmap(corr, cmap="Blues", annot=True)

### Κορυφαιοι προορισμοί

 #### Από Αθήνα

In [None]:
athens_destinations = df[df['Origin'] == 'Athens']

destination_counts_from_athens = athens_destinations['Destination'].value_counts()

#Επιλέξτε τους πρώτους 5 μόνο προορισμούς συμπληρώνοντας κάτι στο τέλος της παρακάτω εντολής και αφαιρώντας το #

#top_5_destinations_from_athens = destination_counts_from_athens

print("Top 5 Προορισμοί από Athens:")
print(top_5_destinations_from_athens)


#### Δική σου αφετηρία
Παραπάνω, βλέπουμε τους τοπ 5 προορισμούς απο την Αθήνα.<br/>
Πάμε να δούμε για άλλη πόλη. <br/>
*Συμπληρώσε στο **your_origin** -μόνο στην πρώτη γραμμή- μία δική σου πόλη. (Δοκίμασε Budapest, Dublin ή Luton)*

In [None]:
your_origin = "Budapest"
destinations = df[df['Origin'] == your_origin]

destination_counts_from_your_origin = destinations['Destination'].value_counts()

#Συμπληρώστε με τον ίδιο τρόπο

#top_5_destinations_from_your_origin = destination_counts_from_your_origin

print(f"Top 5 Προορισμοί από {your_origin}:")
print(top_5_destinations_from_your_origin)


### Οπτικοποίηση

Σημαντικό κομμάτι κάθε εργασίας ανάλυσης. Μερικά παραδείγματα:

In [None]:
df_enc['Overall Rating'].plot(kind='hist',bins=20, title='Συνολική Βαθμολογία')
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# Plot the pie chart
plt.figure(figsize=(8, 8))
plt.pie(top_5_destinations_from_athens, labels=top_5_destinations_from_athens.index, autopct='%1.0f%%')
plt.title('Οι 5 Κορυφαίοι προορισμοί με αφετηρία την Αθήνα')
plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sb.barplot(x='Seat Type', y='Overall Rating', data=df, palette='viridis')
plt.title('Overall Rating vs Seat Type')
plt.xlabel('Seat Type')
plt.ylabel('Average Overall Rating')
plt.show()

### Κορυφαίες λεξεις στα σχόλια

In [None]:
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter
import nltk
from tabulate import tabulate
nltk.download('punkt')
nltk.download('stopwords')


In [None]:
# Concatenate all comments into a single string
all_comments = ' '.join(df['Comment'].dropna())

# Tokenize the comments
tokens = word_tokenize(all_comments)

# Remove stop words
stop_words = set(stopwords.words('english'))
additional_stop_words = ["would", 'us']
stop_words.update(additional_stop_words)  # Append additional stop words
filtered_tokens = [word.lower() for word in tokens if word.isalnum() and word.lower() not in stop_words]

# Calculate word frequency
word_freq = Counter(filtered_tokens)

# Get the top 10 most frequent words
top_keywords = word_freq.most_common(10)

# Print the top keywords in a table
print(tabulate(top_keywords, headers=['Keyword', 'Frequency'], tablefmt='grid'))


Σε τι θα μπορόυσαν να μας χρησιμεύσουν τα παραπάνω στοιχεία;

## Κάνοντας προβλέψεις με τα δεδομένα

### Ταξινόμηση
έχουμε όταν θέλουμε να προβλέψουμε σε ποια κατηγορία ανήκει ένα δείγμα.

Μπορούμε να εφαρμόσουμε την ίδια μέθοδο για δύο κατηγορίες ("Προείνουν την αεροπορική: Ναι ή Όχι") ή και περισσότερες (Overall Rating). Παρακάτω χρησιμοποιούμε τον αλγόριθμο **Logistic Regression** για να παράξουμε προβλέψεις υπολογίζουμε το accuracy, δηλαδή τον αριθμό των σωστών ταξινομήσεων προς το συνολικό αριθμό προβλέψεων που έγιναν.

In [None]:
X = df_enc.drop(['Recommended'], axis=1)  # Features (excluding target)
y = df_enc['Recommended']  # Target variable

# Splitting the data into training and testing sets (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initializing and fitting the logistic regression model
logreg = LogisticRegression(class_weight={0: 1, 1: 2.009}, max_iter=1000)
logreg.fit(X_train, y_train)

# Predicting on the test set
y_pred = logreg.predict(X_test)

# Calculating accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


In [None]:
X = df_enc.drop(['Overall Rating'], axis=1)  # Features (excluding target)
y = df_enc['Overall Rating']  # Target variable

# Splitting the data into training and testing sets (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initializing and fitting the logistic regression model
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

# Predicting on the test set
y_pred = logreg.predict(X_test)

# Calculating accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


### Bonus ερώτημα

Χρησιμοποιώντας τον πίνακα correlation αφαιρέστε από τα χαρακτηριστικά εισόδου (X) πρώτα μια μεταβλητή που έχει μεγάλο correlation με την μεταβλητή πρόβλεψης y (στην περίπτωση "Reccomended") και έπειτα μια με μικρό. Παρατηρείστε πώς μεταβάλλεται το accuracy. Γιατί συμβαίνει αυτό;

# Ευχαριστούμε για την προσοχή σας ⚠

**Ερωτήσεις!**