# Veri Okuma

### Veriler her zaman hazır olarak mı gelir?

Veriler her zaman hazır olarak gelmez; genellikle ham veriler çeşitli işlemlerden geçmek zorundadır. Bu, verilerin doğru ve güvenilir bir şekilde analiz edilip kullanılabilmesi için gereklidir. Ham veriler, eksik, hatalı, tutarsız veya gereksiz bilgiler içerebilir. Dolayısıyla, veri hazırlama süreci çok önemlidir ve bu süreç genellikle veri temizleme, veri dönüştürme, veri yeniden yapılandırma gibi adımlardan oluşur.

### Veriler Hazır Olmadan Önce Yapılması Gereken İşlemler
### 1)Veri Temizleme (Data Cleaning):
Ham veriler eksik, hatalı veya tutarsız olabilir. Bu veriler analiz için uygun hale getirilmelidir. Veri temizleme işlemi, aşağıdaki durumları içerir:

#### Eksik veri doldurma:
Eksik değerler yerine ortalama, medyan gibi değerler koyulabilir veya bu satırlar/sütunlar tamamen çıkarılabilir.
#### Hatalı veri düzeltme: 
Yazım hataları, yanlış formatta veya mantıksal hatalar içeren veriler düzeltilmelidir.
#### Aykırı değerlerin tespiti: 
Normalden çok farklı değerler analiz sonuçlarını bozabilir; bunlar tespit edilip işlenmelidir.

### 2)Veri Dönüştürme (Data Transformation):
Verilerin formatı analiz için uygun olmayabilir. Bu durumda, veriler dönüştürülerek analiz için kullanılabilir hale getirilir. Örneğin, metin verileri sayısal verilere dönüştürülebilir ya da birim değişiklikleri yapılabilir.

###  3)Veri Yeniden Yapılandırma (Data Reshaping): 
Verilerin analize uygun bir yapıya dönüştürülmesi gerekir. Verilerin belirli bir düzen içinde olmadığı durumlarda yeniden yapılandırmak gerekebilir. Bu işlemler, verileri birleştirme, bölme ya da pivotlama gibi işlemleri içerebilir.

### 4)Veri Doğrulama (Data Validation):
Verilerin doğruluğu ve tutarlılığı kontrol edilmelidir. Analiz öncesinde verilerin gerçeği ne kadar yansıttığını kontrol etmek önemlidir. Yanlış veya tutarsız veriler hatalı sonuçlara yol açabilir.

### 5)Özellik Mühendisliği (Feature Engineering):
Bu adımda, ham verilerden yeni değişkenler veya özellikler türetilir. Örneğin, tarih bilgisi olan bir veri setinde yıl, ay, gün gibi ayrı sütunlar oluşturulabilir.

### 6)Veri Normalizasyonu ve Standardizasyonu: 
Verilerin farklı ölçekte olduğu durumlarda, aynı ölçeğe getirilmesi gerekir. Bu, verilerin daha düzgün bir şekilde analiz edilmesine yardımcı olur. Örneğin, bazı algoritmalar, verilerin aynı ölçeğe sahip olmasını gerektirir.

Sklearn ile veri standardizasyonu:

###  Verileri hangi kaynaklardan çekebiliriz?


Veriler, çeşitli kaynaklardan okunabilir ve Python gibi programlama dilleri ile işlenebilir. Verileri okumak ve analiz etmek için kullanılan yaygın veri kaynakları ve bu verilerin nasıl okunabileceği hakkında bazı örnekler şunlardır:



#### 1. Dosyalardan Veri Okuma
Veriler genellikle dosya formatlarında saklanır ve bu dosyalar Python gibi dillerle okunup işlenebilir.

#### CSV Dosyaları (Comma Separated Values): 
Verilerin sütunlar halinde saklandığı, virgüllerle ayrılmış dosyalardır.

#### Excel Dosyaları (.xls, .xlsx):
Genellikle veri analizi için kullanılan Excel formatındaki dosyalardır.

#### JSON Dosyaları (JavaScript Object Notation):
Verilerin hiyerarşik bir yapıda saklandığı, hafif ve yaygın kullanılan bir formattır.

#### Text Dosyaları (.txt): 
Düz metin dosyalarıdır. Veri genellikle satırlar veya ayrılmış alanlar şeklinde düzenlenir.

### 2. Veritabanlarından Veri Okuma

#### MySQL/PostgreSQL/SQLite: 
Yapısal verilerin saklandığı ilişkisel veritabanlarıdır.

#### NoSQL Veritabanları (MongoDB): 
Daha esnek ve yapılandırılmamış veri saklama çözümüdür. JSON benzeri doküman yapısını kullanır.

### 3. API'lerden Veri Çekme

Web servisleri ve uygulamaların sağladığı API'ler (Application Programming Interface) üzerinden veri çekilebilir.

#### REST API’ler:
RESTful API’ler, veri almak ve göndermek için kullanılan HTTP tabanlı servislerdir. Genellikle JSON veya XML formatında veri sağlarlar.

#### GraphQL API’ler: 
API sorgularının daha esnek olduğu bir yapıdır. REST’e göre daha detaylı ve karmaşık veri çekimlerine imkan verir.

### 4. Web'den Veri Çekme (Web Scraping)

 Veriler bazen doğrudan web sayfalarında bulunabilir. Web scraping ile bu veriler sayfalardan çekilebilir.

#### BeautifulSoup ve Selenium: 
Web sayfalarını kazımak (scrape) ve istenilen veriyi almak için kullanılan kütüphanelerdir.

### 5. Bulut Platformlarından ve Büyük Veri Kaynaklarından Veri Çekme

Veriler bazen büyük bulut depolama çözümlerinde tutulur ve bulut servis sağlayıcılarından indirilebilir.

#### Amazon S3: 
AWS S3 bulut depolama çözümüdür.

#### Google BigQuery: 
Büyük veri analiz platformu.

### 6. Sensörlerden ve IoT Cihazlarından Veri Okuma
IoT cihazları ve sensörler veri toplayabilir. Bu veriler çeşitli protokollerle cihazlardan çekilebilir. 

#### MQTT Protokolü:
IoT cihazlarından veri alımı için kullanılır.

### 7. Log ve Sistem Dosyalarından Veri Okuma
Sistemler tarafından üretilen log dosyaları genellikle analiz edilir.

### 8. Dış Kaynaklardan Gelen Veri Akışları (Streaming Data)
Veriler, sürekli akan bir veri kaynağından alınabilir. 

#### Apache Kafka: 
Büyük ölçekli gerçek zamanlı veri akışlarını yönetir

# Metin Dosyalarında Veri Okuma

Python ile metin dosyalarından veri okumak oldukça basittir. Metin dosyalarındaki veriler genellikle .txt uzantılı dosyalarda saklanır ve Python'ın yerleşik fonksiyonları sayesinde kolayca okunabilir. Python, dosya işlemleri için open() fonksiyonunu kullanır ve metin dosyasındaki veriyi okumak için çeşitli yöntemler sunar.

## Temel Dosya Okuma Yöntemleri
### open() fonksiyonu:
Bir dosyayı açmak ve üzerinde işlem yapmak için kullanılır.
### read(): 
Dosyanın tamamını tek seferde okumak için kullanılır.
### readline():
Dosyadan satır satır okumak için kullanılır.
### readlines():
Dosyadaki tüm satırları bir listeye alarak okumak için kullanılır.

In [2]:
# Dosyayı aç ve oku
with open('iris.data.txt', 'r', encoding='utf-8') as dosya:
    veri = dosya.read()
    print(veri)

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

open() ile dosya açılır. 'r' parametresi, dosyayı okuma modunda açar (read). Dosya otomatik olarak kapatılır.
read() ile dosyanın tamamı tek bir string olarak okunur.

### 2. readline(): Satır Satır Okuma


In [3]:
# Dosyayı satır satır oku
with open('iris.data.txt', 'r', encoding='utf-8') as dosya:
    satir = dosya.readline()
    while satir:
        print(satir, end='')  # Satırlar arasında ekstra boşluk olmasın diye 'end' parametresi kullanılır
        satir = dosya.readline()

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

readline() fonksiyonu, her çağrıldığında dosyadan bir satır okur.

## 3. readlines(): 
Tüm Satırları Liste Halinde Okuma

In [4]:
with open('iris.data.txt', 'r', encoding='utf-8') as dosya:
    satirlar = dosya.readlines()
    print(satirlar)

['5.1,3.5,1.4,0.2,Iris-setosa\n', '4.9,3.0,1.4,0.2,Iris-setosa\n', '4.7,3.2,1.3,0.2,Iris-setosa\n', '4.6,3.1,1.5,0.2,Iris-setosa\n', '5.0,3.6,1.4,0.2,Iris-setosa\n', '5.4,3.9,1.7,0.4,Iris-setosa\n', '4.6,3.4,1.4,0.3,Iris-setosa\n', '5.0,3.4,1.5,0.2,Iris-setosa\n', '4.4,2.9,1.4,0.2,Iris-setosa\n', '4.9,3.1,1.5,0.1,Iris-setosa\n', '5.4,3.7,1.5,0.2,Iris-setosa\n', '4.8,3.4,1.6,0.2,Iris-setosa\n', '4.8,3.0,1.4,0.1,Iris-setosa\n', '4.3,3.0,1.1,0.1,Iris-setosa\n', '5.8,4.0,1.2,0.2,Iris-setosa\n', '5.7,4.4,1.5,0.4,Iris-setosa\n', '5.4,3.9,1.3,0.4,Iris-setosa\n', '5.1,3.5,1.4,0.3,Iris-setosa\n', '5.7,3.8,1.7,0.3,Iris-setosa\n', '5.1,3.8,1.5,0.3,Iris-setosa\n', '5.4,3.4,1.7,0.2,Iris-setosa\n', '5.1,3.7,1.5,0.4,Iris-setosa\n', '4.6,3.6,1.0,0.2,Iris-setosa\n', '5.1,3.3,1.7,0.5,Iris-setosa\n', '4.8,3.4,1.9,0.2,Iris-setosa\n', '5.0,3.0,1.6,0.2,Iris-setosa\n', '5.0,3.4,1.6,0.4,Iris-setosa\n', '5.2,3.5,1.5,0.2,Iris-setosa\n', '5.2,3.4,1.4,0.2,Iris-setosa\n', '4.7,3.2,1.6,0.2,Iris-setosa\n', '4.8,3.1,

readlines() fonksiyonu, dosyadaki tüm satırları bir listeye aktarır. Her satır listenin bir elemanı olur.

In [5]:
#dosya ile bağlantı kurma
#fonksiyondaki ilk arguman dosya ismi
#ikinci argüman ise dosyanın hangi formatta okunacağı
baglanti=open("iris.data.txt",mode='r')

In [6]:
veri=baglanti.read()
baglanti.close()
print(veri)

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

### Dosyanın tamamının tek seferde değilde satır satır okunması mümkün mü? Dosyanın sonu nasıl bilinir ? Tüm veriye satır satır okuyarak nasıl ulaşırım?

Evet, Python'da bir dosyanın tamamını tek seferde okumak yerine satır satır okumak mümkündür. Bu yöntem özellikle büyük dosyalarla çalışırken bellekte fazla yer kaplamadan işlemleri gerçekleştirmenizi sağlar.

### Dosyayı Satır Satır Okuma
Python'da dosyanın tamamını tek seferde değil, satır satır okumak için readline() veya bir döngü kullanarak dosyanın sonuna kadar tüm satırları işleyebilirsiniz.

In [7]:
with open('iris.data.txt', 'r', encoding='utf-8') as dosya:
    satir = dosya.readline()  # İlk satırı oku
    while satir:  # Dosyanın sonuna gelene kadar devam et
        print(satir.strip())  # Satırı yazdır (strip() boşlukları temizler)
        satir = dosya.readline()  # Sonraki satırı oku

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

readline() her çağrıldığında dosyadan bir satır okur. Eğer dosyanın sonuna ulaşıldıysa boş bir string ("") döner ve while döngüsü sona erer. Bu şekilde dosyanın sonunun geldiğini anlayabilirsiniz.

### Dosyayı Döngü ile Satır Satır Okuma:
Python, dosya üzerinde bir döngü kurarak her satırı otomatik olarak okuyabilir:

In [8]:
with open('iris.data.txt', 'r', encoding='utf-8') as dosya:
    for satir in dosya:
        print(satir.strip())  # Her satırı yazdır

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

Bu yöntem readline() kullanmaya gerek kalmadan dosyayı satır satır okumanın daha pratik bir yoludur. Döngü, dosyanın sonuna kadar devam eder ve dosyanın sonunu kontrol etmek zorunda kalmazsınız; Python bunu sizin yerinize yapar.

# Dosyanın Sonunu Anlamak
Python'da dosyanın sonuna ulaşıldığını anlamanın birkaç yolu vardır:

## Boş bir satır:
readline() kullanıyorsanız, dosyanın sonuna ulaşıldığında boş bir string ("") döner.
## Döngü bitişi:
for döngüsü kullanıyorsanız, dosya içindeki tüm satırlar işlendikten sonra döngü otomatik olarak sona erer.