# 4_reading_data.py

This notebook was automatically converted from a Python script.

# Pandas ile Veri Okuma: CSV ve JSON


Pandas, farklı formatlardaki verileri okumak ve yazmak için güçlü ve esnek fonksiyonlar sağlar. Bu bölümde, en yaygın kullanılan iki veri formatı olan CSV ve JSON dosyalarından veri okuma işlemlerini öğreneceğiz.


## Veri Okumada Genel Prensipler


Pandas ile veri okumanın genel yapısı şu şekildedir:


1. İlgili `read_*` fonksiyonu çağrılır (örn: `read_csv`, `read_json`, `read_excel`)


2. Gerekirse parameterler ile okuma işlemi özelleştirilir (ayraç, kodlama, vb.)


3. Veriler bir DataFrame'e yüklenir


4. Gerekirse yüklenen veri üzerinde temizleme ve dönüşüm işlemleri yapılır


Gerekli kütüphaneleri import edelim


In [None]:
import pandas as pd
import numpy as np
import os



## CSV Dosyalarından Veri Okuma


CSV (Comma-Separated Values) dosyaları, verilerin virgülle (veya başka bir ayraçla) ayrıldığı düz metin dosyalarıdır. Pandas'ın `read_csv()` fonksiyonu bu dosyaları okumak için kullanılır.


Örnek bir CSV dosyası oluşturalım


In [None]:
csv_data = '''Ad,Yaş,Şehir,Maaş
Ali,25,İstanbul,5000
Ayşe,30,Ankara,6000
Mehmet,35,İzmir,7500
Zeynep,28,Bursa,4500
Ahmet,42,Antalya,8000
'''

with open('ornek.csv', 'w', encoding='utf-8') as f:
    f.write(csv_data)



### Temel CSV Okuma


En basit haliyle CSV okuma


In [None]:
df_csv = pd.read_csv('ornek.csv')
print("Temel CSV okuma:")
print(df_csv)



### CSV Okuma Seçenekleri


1. Farklı ayraç kullanma (noktalı virgül ile ayrılmış CSV)


In [None]:
csv_data_semicolon = '''Ad;Yaş;Şehir;Maaş
Ali;25;İstanbul;5000
Ayşe;30;Ankara;6000
Mehmet;35;İzmir;7500
Zeynep;28;Bursa;4500
Ahmet;42;Antalya;8000
'''

with open('ornek_semicolon.csv', 'w', encoding='utf-8') as f:
    f.write(csv_data_semicolon)

df_csv_semicolon = pd.read_csv('ornek_semicolon.csv', sep=';')
print("\nNoktalı virgül ayraçlı CSV okuma:")
print(df_csv_semicolon)



2. Belirli sütunları seçme


In [None]:
df_csv_cols = pd.read_csv('ornek.csv', usecols=['Ad', 'Maaş'])
print("\nSadece belirli sütunları okuma:")
print(df_csv_cols)



3. Veri tiplerini belirleme


In [None]:
df_csv_dtypes = pd.read_csv('ornek.csv', dtype={'Yaş': str, 'Maaş': float})
print("\nVeri tiplerini belirleyerek okuma:")
print(df_csv_dtypes.dtypes)



4. İlk satırı başlık olarak kullanmama


In [None]:
df_csv_no_header = pd.read_csv('ornek.csv', header=None)
print("\nBaşlıksız okuma:")
print(df_csv_no_header)



5. Özel başlık isimleri atama


In [None]:
df_csv_names = pd.read_csv('ornek.csv', names=['İsim', 'Age', 'City', 'Salary'])
print("\nÖzel başlık isimleriyle okuma:")
print(df_csv_names)



6. Satır indeksini belirli bir sütundan alma


In [None]:
df_csv_index = pd.read_csv('ornek.csv', index_col='Ad')
print("\nSütunu indeks olarak kullanma:")
print(df_csv_index)



7. Belirli sayıda satır okuma


In [None]:
df_csv_nrows = pd.read_csv('ornek.csv', nrows=3)
print("\nSadece ilk 3 satırı okuma:")
print(df_csv_nrows)



8. Eksik değerleri işleme


In [None]:
csv_data_missing = '''Ad,Yaş,Şehir,Maaş
Ali,25,İstanbul,5000
Ayşe,,Ankara,6000
Mehmet,35,,7500
Zeynep,28,Bursa,
,42,Antalya,8000
'''

with open('ornek_missing.csv', 'w', encoding='utf-8') as f:
    f.write(csv_data_missing)

df_csv_missing = pd.read_csv('ornek_missing.csv')
print("\nEksik değerler ile CSV okuma:")
print(df_csv_missing)



Eksik değerler için özel değerler atama


In [None]:
df_csv_na = pd.read_csv('ornek_missing.csv', na_values=['', 'NA', 'N/A'])
print("\nEksik değerleri belirleme:")
print(df_csv_na)



9. Satır atlama


In [None]:
df_csv_skiprows = pd.read_csv('ornek.csv', skiprows=2)  # İlk 2 satırı atla
print("\nİlk 2 satırı atlayarak okuma:")
print(df_csv_skiprows)



### Büyük CSV Dosyalarını Okuma


Büyük CSV dosyalarını okumak için chunks kullanabiliriz.


Büyük bir CSV dosyası simülasyonu


In [None]:
csv_data_large = "Id,Value\n"
for i in range(1000):
    csv_data_large += f"{i},{np.random.randint(1, 100)}\n"

with open('large_data.csv', 'w') as f:
    f.write(csv_data_large)



Parça parça (chunks) okuma


In [None]:
chunk_size = 200
chunks = pd.read_csv('large_data.csv', chunksize=chunk_size)



Her bir parçayı işleme


In [None]:
results = []
for i, chunk in enumerate(chunks):
    # Örnek işlem: Her parçanın ortalamasını alma
    avg = chunk['Value'].mean()
    results.append(avg)
    print(f"Parça {i+1} ortalama değeri: {avg}")

print("\nTüm parçaların ortalamaları:", results)
print("Genel ortalama:", sum(results)/len(results))



## JSON Dosyalarından Veri Okuma


JSON (JavaScript Object Notation), yapılandırılmış verileri depolamak ve iletmek için yaygın olarak kullanılan bir formattır. Pandas'ın `read_json()` fonksiyonu bu dosyaları okumak için kullanılır.


Örnek bir JSON dosyası oluşturalım


In [None]:
json_data = '''
{
  "çalışanlar": [
    {
      "ad": "Ali",
      "yaş": 25,
      "şehir": "İstanbul",
      "pozisyon": "Yazılım Geliştirici",
      "maaş": 5000
    },
    {
      "ad": "Ayşe",
      "yaş": 30,
      "şehir": "Ankara",
      "pozisyon": "Veri Analisti",
      "maaş": 6000
    },
    {
      "ad": "Mehmet",
      "yaş": 35,
      "şehir": "İzmir",
      "pozisyon": "Proje Yöneticisi",
      "maaş": 7500
    }
  ],
  "şirket": {
    "isim": "Tech ABC",
    "kuruluş": 2010,
    "lokasyon": "İstanbul"
  }
}
'''

with open('ornek.json', 'w', encoding='utf-8') as f:
    f.write(json_data)



### Temel JSON Okuma


JSON dosyasını okuma


In [None]:
df_json = pd.read_json('ornek.json')
print("\nTemel JSON okuma:")
print(df_json)



JSON içindeki belirli bir anahtarı okuma (normalleştirme)


In [None]:
df_json_normalized = pd.json_normalize(pd.read_json('ornek.json')['çalışanlar'])
print("\nJSON normalize kullanımı:")
print(df_json_normalized)



### JSON Okuma Seçenekleri


1. Orient parametresi ile farklı JSON yapılarını okuma


In [None]:
json_records = '''
[
  {"ad": "Ali", "yaş": 25, "şehir": "İstanbul"},
  {"ad": "Ayşe", "yaş": 30, "şehir": "Ankara"},
  {"ad": "Mehmet", "yaş": 35, "şehir": "İzmir"}
]
'''

with open('records.json', 'w', encoding='utf-8') as f:
    f.write(json_records)

df_json_records = pd.read_json('records.json', orient='records')
print("\nRecords formatında JSON okuma:")
print(df_json_records)



2. Split formatı (sütunlar ve veriler ayrı)


In [None]:
json_split = '''
{
  "columns": ["ad", "yaş", "şehir"],
  "data": [
    ["Ali", 25, "İstanbul"],
    ["Ayşe", 30, "Ankara"],
    ["Mehmet", 35, "İzmir"]
  ]
}
'''

with open('split.json', 'w', encoding='utf-8') as f:
    f.write(json_split)

df_json_split = pd.read_json('split.json', orient='split')
print("\nSplit formatında JSON okuma:")
print(df_json_split)



3. Satırları indeks olarak kullanma


In [None]:
json_index = '''
{
  "Ali": {"yaş": 25, "şehir": "İstanbul"},
  "Ayşe": {"yaş": 30, "şehir": "Ankara"},
  "Mehmet": {"yaş": 35, "şehir": "İzmir"}
}
'''

with open('index.json', 'w', encoding='utf-8') as f:
    f.write(json_index)

df_json_index = pd.read_json('index.json', orient='index')
print("\nIndex formatında JSON okuma:")
print(df_json_index)



## URL'lerden Veri Okuma


Pandas, internet üzerindeki CSV, JSON ve diğer veri dosyalarını doğrudan okuyabilir.


Örnek URL'den CSV okuma (not: çalışabilirlik URL'e bağlıdır)


In [None]:
try:
    url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/iris.csv"
    df_url = pd.read_csv(url)
    print("\nURL'den CSV okuma:")
    print(df_url.head())
except Exception as e:
    print(f"\nURL'den okuma hatası: {e}")



## Diğer Veri Formatlarını Okuma


Pandas ayrıca Excel, HTML, SQL, Parquet, HDF5 gibi birçok veri formatını da okuyabilir.


Pandas'ın desteklediği diğer okuma fonksiyonları:


In [None]:
print("\n--- Pandas'ın Desteklediği Diğer Okuma Fonksiyonları ---")
print("Excel: pd.read_excel()")
print("HTML: pd.read_html()")
print("SQL: pd.read_sql()")
print("Parquet: pd.read_parquet()")
print("HDF5: pd.read_hdf()")
print("Pickle: pd.read_pickle()")
print("SAS: pd.read_sas()")
print("SPSS: pd.read_spss()")
print("Stata: pd.read_stata()")



## Veri Yazmak (Kaydetmek)


Pandas aynı zamanda DataFrames'leri çeşitli formatlara yazabilir.


Veriyi CSV olarak kaydetme


In [None]:
df_csv.to_csv('exported.csv', index=False)
print("\nDataFrame CSV olarak kaydedildi: exported.csv")



Veriyi JSON olarak kaydetme


In [None]:
df_json_records.to_json('exported.json', orient='records')
print("DataFrame JSON olarak kaydedildi: exported.json")



Veriyi Excel olarak kaydetme (openpyxl veya xlsxwriter kütüphanesi gerektirir)


In [None]:
try:
    df_csv.to_excel('exported.xlsx', index=False)
    print("DataFrame Excel olarak kaydedildi: exported.xlsx")
except ImportError:
    print("Excel'e yazma için openpyxl veya xlsxwriter kütüphanesi gerekiyor.")



## Oluşturulan Dosyaları Temizleme


Oluşturulan örnek dosyaları silelim


In [None]:
for file in ['ornek.csv', 'ornek_semicolon.csv', 'ornek_missing.csv', 
             'large_data.csv', 'ornek.json', 'records.json', 'split.json', 
             'index.json', 'exported.csv', 'exported.json']:
    try:
        os.remove(file)
        print(f"Dosya silindi: {file}")
    except:
        pass

try:
    os.remove('exported.xlsx')
    print("Dosya silindi: exported.xlsx")
except:
    pass



## Özet


Bu bölümde pandas ile veri okuma ve yazma işlemlerini öğrendik:


- CSV dosyalarını okuma ve yazma


- JSON dosyalarını okuma ve yazma


- URL'lerden veri okuma


- Pandas'ın desteklediği diğer veri formatları


- Veriyi farklı formatlarda kaydetme


Pandas'ın esnek veri okuma ve yazma özellikleri, veri bilimi ve analizi projelerinde büyük bir kolaylık sağlar. Dosya formatı ne olursa olsun, Pandas sayesinde veriyi kolayca DataFrame'e dönüştürebilir ve işleyebilirsiniz.


Bir sonraki bölümde, veri analizi tekniklerini ve yöntemlerini inceleyeceğiz. 
