In [1]:
import dataflows as DF
import pandas as pd
import numpy as np

QUERY = 'select name, header, value from lamas_muni  where year = 2021'
DB = 'postgresql://readonly:readonly@db.datacity.org.il/datasets'

DATA = DF.Flow(
    DF.load(DB, query=QUERY, name='lamas_muni'),
    DF.checkpoint('lamas_muni'),
).results()[0][0]

HELLO


using checkpoint data from .checkpoints/lamas_muni


In [2]:
IGNORE_HEADERS = [
    'כללי - שנת קבלת מעמד מוניציפלי'
]

per_header = {}
for row in DATA:
    header = row['header']
    value = None
    try:
        value = float(row['value'])
    except:
        try:
            value = int(row['value'])
        except:
            name = None
            pass
    per_header.setdefault(header, []).append(value)

valid_headers = []
for header, values in per_header.items():
    valid = [x for x in values if x is not None and isinstance(x, (int, float))]
    if header in IGNORE_HEADERS:
        continue
    if len(values) > 300:
        continue
    if len(valid) < 200:
        continue
    valid_headers.append(header)

DATA = [x for x in DATA if x['header'] in valid_headers]


In [3]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Convert to DataFrame
df = pd.DataFrame(DATA)

# Pivot the data to get cities as rows and indicators as columns
pivoted_df = df.pivot(index='name', columns='header', values='value')



In [4]:
# Handle missing values
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
data_imputed = imputer.fit_transform(pivoted_df)

# Standardize the features
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_imputed)

# Apply PCA
pca = PCA(n_components=10)  # for example, reduce to 2 dimensions
principal_components = pca.fit_transform(data_scaled)

In [5]:
# Explained variance ratio
explained_variance_ratio = pca.explained_variance_ratio_

# Print the explained variance ratio for each principal component
for i, variance in enumerate(explained_variance_ratio):
    print(f"Principal Component {i+1}: {variance:.2f}")
    

Principal Component 1: 0.43
Principal Component 2: 0.08
Principal Component 3: 0.05
Principal Component 4: 0.04
Principal Component 5: 0.03
Principal Component 6: 0.03
Principal Component 7: 0.02
Principal Component 8: 0.02
Principal Component 9: 0.01
Principal Component 10: 0.01


In [6]:
# Get the first principal component
first_component = pca.components_[0]

# Match each weight with its corresponding feature
feature_weights = zip(pivoted_df.columns, first_component)

# Sort by the absolute value of the weights
sorted_features = sorted(feature_weights, key=lambda x: np.abs(x[1]), reverse=True)

# Print the sorted features and their weights
for feature, weight in sorted_features:
    print(f"{feature}: {weight:.2f}")

הוצאות בתקציב הרגיל - סה"כ שירותים ממלכתיים (אלפי ש"ח): 0.09
הכנסות - סה"כ הכנסות מהתקציב הרגיל והבלתי רגיל (אלפי ש"ח): 0.09
הכנסות בתקציב הרגיל - ארנונה למגורים, חיוב בשנת החשבון (אלפי ש"ח): 0.09
דמוגרפיה - הגירה בתוך הרשות המקומית (סה"כ): 0.09
דמוגרפיה - נשים (סה"כ): 0.09
הוצאות בתקציב הרגיל - רווחה (אלפי ש"ח): 0.09
דמוגרפיה - אוכלוסייה (סה"כ): 0.09
שימושי קרקע - אוכלוסייה סוף סך הכל אלפים: 0.09
הוצאות - סה"כ הוצאות של הרשות - תקציב רגיל ובלתי רגיל (אלפי ש"ח): 0.09
הכנסות בתקציב הרגיל - חיוב ארנונה למגורים (שטח באלפי מ"ר): 0.09
שכר ורווחה - מספר הילדים מקבלי קצבאות בגין ילדים במשפחות עם 1-2 ילדים: 0.09
דמוגרפיה - גברים (סה"כ): 0.09
שכר ורווחה - מספר משפחות של מקבלי קצבאות בגין ילדים עם 1-2 ילדים במשפחה (סה"כ): 0.09
שכר ורווחה - מקבלי דמי אבטלה (סה"כ): 0.09
הכנסות בתקציב הרגיל - ארנונה למגורים, סה"כ חיובים נטו (אלפי ש"ח): 0.09
הוצאות בתקציב הרגיל - חינוך (אלפי ש"ח): 0.09
שכר ורווחה - מקבלי דמי אבטלה (ממוצע חודשי): 0.09
הכנסות בתקציב הרגיל - הכנסות של הרשות מרווחה (אלפי ש"ח): 0.09
הכנס