In [None]:
%matplotlib inline

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import pysal as ps
import geopandas as gpd
from sklearn import cluster
from sklearn.preprocessing import scale
from libpysal.weights import Queen
from pysal import region
import libpysal
from libpysal import examples
import os
import region as rg

sns.set(style="whitegrid")


In [None]:
abb_link = 'C:\\Users\\user\\Desktop\\datas\\listings.csv'
zc_link = 'C:\\Users\\user\\Desktop\\datas\\Zipcodes.geojson'

In [None]:
lst=pd.read_csv(abb_link)  # abb_link ile bir data frame olusturduk

In [None]:
varis=['bedrooms','bathrooms','beds']

In [None]:
aves = lst.groupby('zipcode')[varis].mean()
aves.info()
# zipcode lara göre bedrooms,bathrooms,beds verilerini ayırıyor bir zipcode ile eşleşen sayıların ortalamasını alıyor
# mesela 3000 zipcode lu evlerde ortalama 3 yatak var gibi sıralıyor

In [None]:
types = pd.get_dummies(lst['property_type']) # evlere göre property typeları ayırıyor.
# eger bir ev villa ise villaya 1 yazıyor apartmana 0 yazıyor gibi 
prop_types = types.join(lst['zipcode']).groupby('zipcode').sum()  
# .join icin => types diye tamamen farklı bir data seti yarattık. Bunu datamızda olan zipcodelarla birleştiriyoruz.
# .groupby icin=> üstte yaptığımız gibi zipcodelara göre grupluyoruz
# .sum icin=>  Bu sefer ortalamalarına değil toplamlaraına göre sıralıyoruz. Eger apartman ise apartman bloguna 1 yazmıştık. 
# Bunları toplayarak aslında bir zipcode da kaç apartman olduğunu görebiliyoruz.
prop_types_pct = (prop_types * 100.).div(prop_types.sum(axis=1), axis=0) # div fonksiyonu icinde: 
# toplam apartman sayısını hesaplıyor daha sonra rowlara bölüyor. Yani bir zipcode da kaç apartman olma olasılığını yazıyor.
# Hepsine bunu yapıyor (villa,bungalow vb.) 
prop_types_pct.info()

In [None]:
aves_props = aves.join(prop_types_pct)
db = pd.DataFrame(\
                 scale(aves_props),index=aves_props.index,columns=aves_props.columns).rename(lambda x: str(int(x)))  
#  scale() => dataları uygun distributionlara fitlemek için bir stanrdization yapılıyor burda. 
# Mesela normal distributiondan standard normal distribution a geçiş gibi. Veya binomial dan normal distributiona geçmek gibi.
#  index =>indexlerin ismine index veriliyor
#  columns => columnsların ismine columns veriliyor
# .rename => veriler sıralanırken kullanılan 1,2,3,4... sayıları str olarak veiliyor.

In [None]:
zc = gpd.read_file(zc_link)  
# zc_link dosyasında geometrik datalar oluşturabilecek datalar var o yüzden geopandas ile okutuyoruz
zc.plot(color='red');

In [None]:
zdb = zc[['geometry', 'zipcode', 'name']].join(db, on='zipcode').dropna()  # .dropna() => drops the null values
                                                                        #join => zc ile db yi birlestiriyor.
    
                                         

In [None]:
f, ax = plt.subplots(1, figsize=(9, 9))  # cıkacak görüntünün boyutunu figsize ile ayarlıyoruz

zc.plot(color='grey', linewidth=0, ax=ax) 
# sınırların aralarındaki çizgilerin genişlikleri(belirginlikleri) linewidth ile ayarlanıyor
zdb.plot(color='red', linewidth=0.1 , ax=ax)
# ax bizim olusturdugumuz bir plot alanı. ax=ax yaparak ikisinide aynı alanda gösteriyoruz. 
# eğer birine yazmazsak başka bir alanda gösterilir.


ax.set_axis_off()   # axisleri kapatıyor
plt.show()  # plotu yazdırmak için 
# Ustte dusurdugumuz nulll degerleri bizim kaybettigimiz alanlar oluyor. 
# Zc bütün zipcodelara sahip ama zbd sadece bizim girdiğimiz verilerle sınırlı o yüzden kayıp yaşanıyor. 
# gri zc kırmızı zbd olarak plotlanıyor.
    

In [None]:
km5 = cluster.KMeans(n_clusters=5) # 5 küme oluşturmasını söylüyoruz.


In [None]:
km5cls = km5.fit(zdb.drop(['geometry', 'name'], axis=1).values) 
# geometry ve name columnlarını dropluyor ve sadece values larını alıp KMeans ile fitliyor.
#Rastgele 5 nokta belirliyor.
#Dataların noktalara uzaklıkları alınıyor
#Data hangi noktaya daha yakınsa o noktanın kümseine dahil oluyor
#Kümelendikten sonra kümelerdeki dataların ortalamaları alınıyor.
#Ortalamaya göre merkez noktası kayıyor ve aynı işlem baştan tekrar  gerçekleşiyor


In [None]:
f, ax = plt.subplots(1, figsize=(9, 9))

zdb.assign(cl=km5cls.labels_)\
   .plot(column='cl', categorical=True,legend=True,\
         linewidth=0.1, edgecolor='white', ax=ax)
#.assign () => dataların kmeans ile oluşturulmuş labellaarını yeni bir column (cl olarak adlandırıyor) oluşturarak dataya yazıyor.
# cl column unu gösterecek şekilde plotlanıyor. 
#categorical 0-1-2-3-4 olarak categorize edilmesine yarıyor, legend ise sağ üstte bulunan göstergeyi açıyor.
# kmeans in atamış olduğu labels lar rastgele atanıyor. önemli olan belirttiği alanlar.
ax.set_axis_off() # axisleri kapatıyor

plt.show()


In [None]:
cl_pcts = prop_types_pct.rename(lambda x: str(int(x)))\
                          .reindex(zdb['zipcode'])\
                          .assign(cl=km5cls.labels_)\
                          .groupby('cl')\
                          .mean()
# burda kmeans ile dataları ayırmış olduğumuz labellara göre datayı sınıflandırıyor. Ortalamalarını alarak sıralıyor.

In [None]:
f, ax = plt.subplots(1, figsize=(18, 9))
cl_pcts.plot(kind='barh', stacked=True, ax=ax, \
            linewidth=0)
ax.legend(ncol=1, loc="right");
# cmap Set2 yaptığımızda renkler çok yakın oluyor düzgün gözükmüyor o yüzden o kodu sildim.


In [None]:
ratings = [i for i in lst if 'review_scores_' in i]
ratings
# lst datasındaki rewiew_scores_ ile başlayan variable listelerini içine yazıyor

In [None]:
rt_av = lst.groupby('zipcode')[ratings]\
           .mean()\
           .rename(lambda x: str(int(x)))
# Burda üstlerde yaptığımız gibi ratingsleri zipcode'a göre sıralıyor. 
# Sıralarken ratingslerin ortalamalarını alarak sıralıyor.

In [None]:
zrt = zc[['geometry', 'zipcode']].join(rt_av, on='zipcode')\
                                 .dropna()
zrt.info()
# üstte oluşturduğumuz datayı zipcodeların geometrisiyle birleştiriyoruz. Bu sayede geometrik bir plot alacağız.

In [None]:
zrt.to_file('tmp')   # zrt datasını tmp dosyasına ye atıyoruz 
w =Queen.from_shapefile('C:\\Users\\user\\Desktop\\Arastirma Gorevi\\tmp\\tmp.shp', idVariable='zipcode')
# Queen spatial weight teknigiyle iki alanın komsu olup olmadıgını belirleyebiliyoruz. Burda onu yapıyoruz.

os.remove('C:\\Users\\user\\Desktop\\Arastirma Gorevi\\tmp\\tmp.shp') # tmp dosyasını siliyoruz


# Burda zipcode ların sahip oldukları weightleri görüyoruz. Her 1 sayısı bir komsusu oldugunu belirtir.
queen_card = pd.Series(w.cardinalities)
queen_card.head()
sns.distplot(queen_card, bins=10)
# daha iyi anlamak için görselleştirdim

In [None]:
n_rev = lst.groupby('zipcode')\
           .sum()\
           ['number_of_reviews']\
           .rename(lambda x: str(int(x)))\
           .reindex(zrt['zipcode'])
thr = np.round(0.1 * n_rev.sum())
thr
# Burda görüntüleyeceğimiz bölgelerin en az toplam görüntülenmenin %10 una sahip olması için 
# toplam görüntülenmenin %10'unu hesaplıyoruz

In [None]:
np.random.seed(1234)  # tek ve belirli bir random number yaratmak için kullanılıyor

z = zrt.drop(['geometry', 'zipcode'], axis=1).values 
# önceden yaptıgımız gibi datanın sadece variablelarını alıyor ki maxp yi beslesin
maxp = ps.region.Maxp(w, z, thr, n_rev.values[:, None],initial=1000)  # %10 altındaki değerleri elimine ediyor
# maxp =>  review sayılarının toplamına göre bir gruplama yapıyor.

In [None]:
%%time
np.random.seed(1234)
maxp.cinference(nperm=999)

In [None]:
maxp.cpvalue

In [None]:
lbls = pd.Series(maxp.area2region).reindex(zrt['zipcode'])  
# dataları işaretlemek için maxp ile elde ettiğimiz işaretlemeleri zipcode ile birleştiriyoruz.

In [None]:
f, ax = plt.subplots(1, figsize=(9, 9))

zrt.assign(cl=lbls.values)\
   .plot(column='cl', categorical=True, legend=True, \
         linewidth=0.1, edgecolor='white', ax=ax)

ax.set_axis_off()

plt.show()

In [None]:
zrt[ratings].groupby(lbls.values).mean().T