In [None]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import seaborn as sns

# קריאת הקובץ עם טיפול בערכים מעורבים
file_path = 'flights_cleaned.csv'  # ודא שהשם של הקובץ נכון
data = pd.read_csv(file_path, dtype={'ORIGIN_AIRPORT': str, 'DESTINATION_AIRPORT': str}, low_memory=False)

# יצירת גרף מכוון מהנתונים
def create_directed_graph(data):
    G = nx.DiGraph()
    for index, row in data.iterrows():
        G.add_edge(row['ORIGIN_AIRPORT'], row['DESTINATION_AIRPORT'])
    return G

graph = create_directed_graph(data)

# חישוב Closeness Centrality
closeness = nx.closeness_centrality(graph)

# יצירת DataFrame עבור מדדי המרכזיות
centrality_df = pd.DataFrame(list(closeness.items()), columns=['Airport', 'Closeness_Centrality'])

# חישוב מספר הטיסות לכל נמל תעופה
origin_counts = data['ORIGIN_AIRPORT'].value_counts()
destination_counts = data['DESTINATION_AIRPORT'].value_counts()
total_counts = origin_counts.add(destination_counts, fill_value=0).reset_index()
total_counts.columns = ['Airport', 'Total_Flights']

# מיזוג הנתונים
merged_data = pd.merge(centrality_df, total_counts, on='Airport')

# גרף פיזור (scatter plot) של Closeness Centrality לפי מספר הטיסות
plt.figure(figsize=(12, 6))
sns.scatterplot(x='Closeness_Centrality', y='Total_Flights', data=merged_data)
plt.title('Closeness Centrality vs Total Flights')
plt.xlabel('Closeness Centrality')
plt.ylabel('Total Flights')
plt.show()

# חישוב הקורלציה
correlation = merged_data['Closeness_Centrality'].corr(merged_data['Total_Flights'])
print(f'Correlation between Closeness Centrality and Total Flights: {correlation}')