## VERİ GÖRSELEŞTİRME ÖDEVİ 

Bu notebook'ta 50_Startups.csv veri seti üzerinde görevleri gerçekleştireceğiz.
Önce gerekli kütüphaneleri yükleyip veri setini inceleyelim.

->Görev 1: R&D Harcaması İle Kar İlişkisi
Bu hücrede, Ar-Ge harcaması ile kâr arasındaki ilişkiyi scatter plot ile görselleştiriyoruz.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv(r"C:\Users\EXCALIBUR\OneDrive\Masaüstü\Programlama\Proje\50_Startups.csv")


print(df.head())

plt.figure(figsize=(8,6))
plt.scatter(df["R&D Spend"], df["Profit"], alpha=0.7, color="blue")

plt.xlabel("R&D Spend (Ar-Ge Harcaması)")
plt.ylabel("Profit (Kâr)")
plt.title("R&D Harcaması ile Kâr Arasındaki İlişki")

plt.grid(True)
plt.show()


Grafikte, R&D harcaması arttıkça kârın da arttığı görülüyor. Bu pozitif ilişki, Ar-Ge yatırımının kârı artırabileceğini gösteriyor. Birkaç nokta trendin dışında; bunlar olası uç değerler (outlier) olabilir.


-> Görev 2: Yönetim Harcaması ile Kâr İlişkisi
Scatter plot ile yönetim harcaması ve kâr arasındaki ilişkiyi inceleyeceğiz.

In [None]:
plt.figure(figsize=(8,6))
plt.scatter(df["Administration"], df["Profit"], alpha=0.7, color="green")
plt.xlabel("Administration (Yönetim Harcaması)")
plt.ylabel("Profit (Kâr)")
plt.title("Yönetim Harcaması ile Kâr Arasındaki İlişki")
plt.grid(True)
plt.show()

Grafikte net bir ilişki gözlemlenmiyor; yönetim harcaması ile kâr arasında belirgin bir artış veya azalış görünmüyor.
Bu durum, yönetim harcamasının kâr üzerinde doğrudan bir etkisinin olmadığını veya diğer faktörlere bağlı olduğunu gösterebilir.


-> Görev 3: Eyaletlere Göre Ortalama Kar
Bar chart kullanarak her eyaletin ortalama kârını karşılaştıracağız.

In [None]:
plt.figure(figsize=(8,6))
state_means = df.groupby("State")["Profit"].mean().reset_index()
sns.barplot(x="State", y="Profit", data=state_means, palette="Set2")
plt.title("Eyaletlere Göre Ortalama Kâr")
plt.ylabel("Ortalama Kâr")
plt.xlabel("Eyalet")
plt.show()

Grafik gösteriyor ki, bazı eyaletlerde şirketler diğerlerine göre daha yüksek ortalama kâr elde etmiş. 
Bu, bölgesel farklılıkların kâr üzerinde etkili olabileceğini düşündürüyor.


-> Görev 4: Harcama Türlerinin Dağılımı
R&D, Yönetim ve Pazarlama harcamalarının dağılımını boxplot ile karşılaştıracağız.

In [None]:
plt.figure(figsize=(8,6))
sns.boxplot(data=df[["R&D Spend", "Administration", "Marketing Spend"]])
plt.title("Harcama Türlerinin Dağılımı (Boxplot)")
plt.ylabel("Harcama Tutarı")
plt.show()

Boxplot gösteriyor ki:
- R&D harcamaları genellikle daha yüksek ve değişken, birkaç uç değer bulunuyor.
- Yönetim harcamaları daha dar bir dağılıma sahip.
- Pazarlama harcamaları orta seviyede, bazı uç değerler mevcut.
Bu, şirketlerin bütçe dağılımı hakkında fikir veriyor.


## Decision Tree Ödevi (dava_sonuclari.csv)

-> Görev 1: Eksik veya aykırı değerleri kontrol et

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt


Kütüphaneler import edildi.

In [None]:
df = pd.read_csv(r"C:\Users\EXCALIBUR\OneDrive\Masaüstü\Programlama\Proje\dava_sonuclari.csv")

Veri yükleme yapıldı.

In [None]:
print(df.isnull().sum())

Eksik değerler kontrol edilir.

In [None]:
df = df.dropna()

Eksik değerler kaldırıldı.

In [None]:
numeric_cols = df.select_dtypes(include='number').columns
print(df[numeric_cols].describe())

Sayısal sütunlar için aykırı değer kontrolü

-> Görev 2: Eğitim ve test seti

In [None]:
X = df.drop("karar", axis=1)   # karar = sınıf sütunu
y = df["karar"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Veriyi eğitim ve test seti olarak ayırma (%80 eğitim ,%20 test)

-> Görev 3: Decision Tree Modeli

In [None]:
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

Model oluşturma ve eğitim

-> Görev 4: Metrik hesaplama

In [None]:
# Tahmin
y_pred = dt_model.predict(X_test)

# Metrikler
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred, average="weighted"))
print("Recall:", recall_score(y_test, y_pred, average="weighted"))
print("F1-Score:", f1_score(y_test, y_pred, average="weighted"))

-> Görev 5: Karar Ağacı Görselleştirme

In [None]:
plt.figure(figsize=(20,10))
plot_tree(dt_model, feature_names=X.columns, class_names=dt_model.classes_, filled=True, rounded=True)
plt.show()

Ağacın üst düğümleri karar verirken daha etkili özellikleri gösterir.

Derinlik arttıkça detaylar artar ancak overfitting riski oluşur.

## K-Means Kümeleme Ödevi (dava.csv)

-> Görev 1: Uygun özellikleri seç

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import seaborn as sns

df2 = pd.read_csv(r"C:\Users\EXCALIBUR\OneDrive\Masaüstü\Programlama\Proje\dava.csv")

X2 = df2.select_dtypes(include='number')

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X2)

-> Görev 2: Elbow Yöntemi ile Küme Sayısı

In [None]:
inertia = []
K_range = range(1, 11)
for k in K_range:
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(X_scaled)
    inertia.append(km.inertia_)

# Grafik
plt.figure(figsize=(8,5))
plt.plot(K_range, inertia, marker='o')
plt.xlabel("Küme Sayısı")
plt.ylabel("Inertia")
plt.title("Elbow Yöntemi ile Optimal Küme Sayısı")
plt.show()

“Dirsek noktası”nın olduğu k değeri optimal küme sayısıdır.

-> Görev 3: K-Means ile Kümeleme

In [None]:
optimal_k = 3 
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
clusters = kmeans.fit_predict(X_scaled)

df2['Cluster'] = clusters

-> Görev 4: Sonuçların Görselleştirilmesi

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x=X2.iloc[:,0], y=X2.iloc[:,1], hue=df2['Cluster'], palette='Set1')
plt.title("Kümeleme Sonuçları (İlk 2 Özellik)")
plt.show()

Her renk bir kümeyi temsil eder.
Küme içi benzerlik ve kümeler arası farklılık gözlemlenebilir.