<a href="https://colab.research.google.com/github/LotusEater04/NLP/blob/main/2_SparseMatrix.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# COO Formatında Sparse Matris Oluşturma

Coo (Coordinate List) formatında, yalnızca sıfır olmayan elemanlar saklanır ve her eleman için aşağıdaki bilgiler tutulur:


1.   Satır (Row) İndeksi
2.   Sütun (Column) İndeksi
3.   Değer (Value)


Örnek olarak şu 3x3 matrisini ele alalım:

[0 0 3 <br>
 4 0 0 <br>
 0 5 0]
​<br>
0 olmayan değerler: <br>
0. satır 2. sütunda 3 değeri ile,
1. satır 0. sütunda 4 değeri ile,
2. satır 1. sütunda 5 değeri ile tutulmaktadır.


In [1]:
import numpy as np
from scipy.sparse import coo_matrix

In [2]:
#Dense (yoğun/normal) matris oluşturma
dense_matrix = np.array([
    [0, 0, 3],
    [4, 0, 0],
    [0, 5, 0]
])

In [3]:
#Sıfır olmayan elemanların indekslerini ve değerlerini bulma
rows, cols = np.nonzero(dense_matrix)
values = dense_matrix[rows, cols]

In [4]:
#COO formatında sparse matris oluşturma
sparse_coo = coo_matrix((values, (rows, cols)), shape = dense_matrix.shape)

In [5]:
print("Sparse Matrix (COO Formatında):")
print(sparse_coo)

Sparse Matrix (COO Formatted):
  (0, 2)	3
  (1, 0)	4
  (2, 1)	5


# CSR (Compressed Sparse Row) Formatı

Bu format sparse matrislerin verimli bir şekilde saklanması ve işlemlesi için kullanılır. Sıfır olmayan elemanların indeks bilgilerini daha sıkıştırılmış bir şekilde saklar.

In [7]:
from scipy.sparse import csr_matrix

In [8]:
#CSR formatına dönüştürme
sparse_csr = csr_matrix(dense_matrix)

In [9]:
print("Sparse Matrix (CSR Formatında):")
print(sparse_csr)

Sparse Matrix (CSR Formatında):
  (0, 2)	3
  (1, 0)	4
  (2, 1)	5


# Sparse Matristen Dense Matrise Dönüştürme

In [10]:
#Sparse matristen Numpy matrisine dönüşüm
dense_recovered = sparse_csr.toarray()
print("Geri Dönüştürülen Dense Matris:")
print(dense_recovered)

Geri Dönüştürülen Dense Matris:
[[0 0 3]
 [4 0 0]
 [0 5 0]]


# Büyük Sparse Matrislerde Bellek Kullanımı

In [11]:
#Büyük bir sparse matris oluşturma
large_sparse = csr_matrix((10000, 10000))  #Tüm elemanları sıfır olan büyük matris
large_sparse[0, 9999] = 5  # Rastgele bir elemana değer atama
large_sparse[9999, 0] = 10

  self._set_intXint(row, col, x.flat[0])


In [12]:
print("Dense Matrisin Bellekte Kapladığı Alan: ", large_sparse.toarray().nbytes, "bayt")
print("Sparse Matrisin Bellekte Kapladığı Alan: ", large_sparse.data.nbytes, "bayt")

Dense Matrisin Bellekte Kapladığı Alan:  800000000 bayt
Sparse Matrisin Bellekte Kapladığı Alan:  16 bayt


# NLP'de Kullanım Örneği

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import csr_matrix
import numpy as np

In [14]:
documents = [
    "Veri bilimi yapay zeka ile gelişiyor.",
    "Makine öğrenmesi ve yapay zeka geleceği şekillendiriyor.",
    "Derin öğrenme, makine öğrenmesi ile ilgilidir."
]

In [19]:
#TF-IDF Vektörizasyonu
vectorizer =TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

#Çıktı sparse matris olarak döner
print("Matrisin Tipi: ", type(tfidf_matrix))

Matrisin Tipi:  <class 'scipy.sparse._csr.csr_matrix'>


In [16]:
#Sparse matrisin detayları
print("TF-IDF Sparse Matris (CSR formatında):")
print(tfidf_matrix)

TF-IDF Sparse Matris (CSR formatında):
  (0, 8)	0.45954803293870056
  (0, 0)	0.45954803293870056
  (0, 9)	0.3494981241087058
  (0, 10)	0.3494981241087058
  (0, 4)	0.3494981241087058
  (0, 3)	0.45954803293870056
  (1, 9)	0.3299283214573658
  (1, 10)	0.3299283214573658
  (1, 6)	0.3299283214573658
  (1, 12)	0.3299283214573658
  (1, 7)	0.4338160942155483
  (1, 2)	0.4338160942155483
  (1, 13)	0.4338160942155483
  (2, 4)	0.3494981241087058
  (2, 6)	0.3494981241087058
  (2, 12)	0.3494981241087058
  (2, 1)	0.45954803293870056
  (2, 11)	0.45954803293870056
  (2, 5)	0.45954803293870056


In [17]:
#Matrisin içerdiği kelimeler
print("\nKelimeler (Sütun isimleri):")
print(vectorizer.get_feature_names_out())


Kelimeler (Sütun isimleri):
['bilimi' 'derin' 'geleceği' 'gelişiyor' 'ile' 'ilgilidir' 'makine' 've'
 'veri' 'yapay' 'zeka' 'öğrenme' 'öğrenmesi' 'şekillendiriyor']


In [18]:
#Dense matris olarak saklansaydı bellek tüketimi
dense_matrix = tfidf_matrix.toarray()
print("Dense Matrisin Boyutu (Bellekte):", dense_matrix.nbytes, "bayt")
print("\nSparse Matrisin Boyutu (Bellekte):", tfidf_matrix.data.nbytes, "bayt")

Dense Matrisin Boyutu (Bellekte): 336 bayt

Sparse Matrisin Boyutu (Bellekte): 152 bayt
