Veri bilimi projelerinin ilk adımı, veriyi çalışma ortamımıza doğru şekilde aktarmaktır. Bu bölümde farklı formatlardaki (.txt, .csv, .xlsx, .sas, .mat) verileri ve internet üzerindeki kaynakları nasıl okuyacağımızı öğreneceğiz.

Öncelikle çalışma klasörümüzde hangi dosyaların olduğuna bakalım.

In [1]:
import os

# Mevcut dizindeki dosyaları listeler
print(os.listdir('.'))

['.ipynb_checkpoints', 'cars_train_annos.mat', 'coor.csv', 'credit.txt', 'lorem_ipsum.txt', 'mutluluk_indeksi.xlsx', 'netflix.csv', 'tax.dta', 'tax.sas7bdat', 'titanic.csv', 'traffic_density_202010.csv', 'unite 09 veri okuma.ipynb']


## 1. Düz Metin Dosyalarını Okuma (.txt)

Metin dosyalarını okumanın en güvenli yolu `with` yapısını kullanmaktır. Bu yapı, işlem bittiğinde dosyanın otomatik olarak kapatılmasını garanti eder.

Örnek: `lorem_ipsum.txt` dosyasını okuyalım.

In [2]:
# 'r' modu read (okuma) anlamına gelir.
with open('lorem_ipsum.txt', 'r') as dosya:
    icerik = dosya.read()
    print(icerik)

# Not: 'with' bloğundan çıktığımız an dosya otomatik kapanır.
print(f"\nDosya kapalı mı? {dosya.closed}")

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc volutpat vestibulum turpis vitae eleifend. Nullam vitae sollicitudin erat, non interdum felis. Aenean fringilla nec orci eu eleifend. Suspendisse semper turpis nec libero finibus, eget viverra ante molestie. Proin quis pulvinar metus. Nunc tortor felis, faucibus ac purus eu, suscipit dictum dolor. Nullam vel mi sed nibh varius cursus.

Phasellus aliquet nunc nec ex convallis tincidunt. Phasellus ac pretium massa. Aenean purus urna, egestas sit amet pharetra non, volutpat ut metus. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi non mauris non mauris interdum eleifend. Cras ex purus, dignissim sit amet velit at, molestie scelerisque justo. Phasellus sit amet placerat lorem. Pellentesque sodales, lacus in cursus faucibus, nulla sem egestas nisl, sit amet molestie lorem nunc eget nibh. Vestibulum fringilla risus nec ipsum semper, fermentum facilisis eros aliquam. Nulla porttitor risus ut diam accumsan maximus at 

In [3]:
# pandas kütüphanesini yükleyelim.
import pandas as pd

# Dosya ismini belirleyelim.
dosya = 'mutluluk_indeksi.xlsx'

# Excel dosyasını yükleyerek xl veri dosyasını oluşturalım.
xl = pd.ExcelFile(dosya)

# Excel dosyası içinde kayıtlı olan hesap tablolarını (ayrı sekmeler halinde saklanır) ekrana verelim.
print(xl.sheet_names)
print(type(xl))

['2019', '2018']
<class 'pandas.io.excel._base.ExcelFile'>


Dosyada ülkelerin mutluluk indeksi verileri hem 2019 hem de 2018 yılları için ayrı ayrı hesap tablosu sekmesinde saklanmaktadır. Bu her iki hesap tablosu için ayrı veri çerçeveleri oluşturabiliriz. Bunun için `.parse()` yöntemi kullanılır.

In [4]:
df1 = xl.parse('2019')
print(df1.head())

   Overall rank Country or region  Score  GDP per capita  Social support  \
0             1           Finland   7769          1340.0          1587.0   
1             2           Denmark   7600          1383.0          1573.0   
2             3            Norway   7554          1488.0          1582.0   
3             4           Iceland   7494          1380.0          1624.0   
4             5       Netherlands   7488          1396.0          1522.0   

   Healthy life expectancy  Freedom to make life choices  Generosity  \
0                    0.986                         0.596       0.153   
1                    0.996                         0.592       0.252   
2                 1028.000                         0.603       0.271   
3                 1026.000                         0.591       0.354   
4                    0.999                         0.557       0.322   

   Perceptions of corruption  
0                      0.393  
1                      0.410  
2                

`.parse()` yönteminin içine hesap tablosunun ismini yazabileceğimiz gibi sıra numarasını (indeksini) de yazabiliriz. 2018 yılı için deneyelim.


In [5]:
df2 = xl.parse(1)
print(df2.head())

   Overall rank Country or region  Score  GDP per capita  Social support  \
0             1           Finland   7632          1305.0          1592.0   
1             2            Norway   7594          1456.0          1582.0   
2             3           Denmark   7555          1351.0          1590.0   
3             4           Iceland   7495          1343.0          1644.0   
4             5       Switzerland   7487          1420.0          1549.0   

   Healthy life expectancy  Freedom to make life choices  Generosity  \
0                    0.874                         0.681       0.202   
1                    0.861                         0.686       0.286   
2                    0.868                         0.683       0.284   
3                    0.914                         0.677       0.353   
4                    0.927                         0.660       0.256   

   Perceptions of corruption  
0                      0.393  
1                      0.340  
2                

Şimdi ilk hesap tablosunu, `.parse()` yöntemi ile veri çerçevesi haline getirelim. İlk satırı atlayalım ve sütunları Türkçe'ye çevirelim.

In [6]:
df1 = xl.parse(0, skiprows=[0], names=['Genel Sıralama','Ülke', 'Skor', 'Kişi Başına Milli Gelir Puanı', 
                                       'Sosyal Destek Puanı', 'Sağlıklı Yaşam Beklentisi Puanı', 
                                       'Yaşam Tercihlerinde Özgürlük Puanı', 'Cömertlik Puanı', 'Yolsuzluk Algısı Puanı'])
print(df1.head())
print(type(df1))

   Genel Sıralama         Ülke  Skor  Kişi Başına Milli Gelir Puanı  \
0               2      Denmark  7600                         1383.0   
1               3       Norway  7554                         1488.0   
2               4      Iceland  7494                         1380.0   
3               5  Netherlands  7488                         1396.0   
4               6  Switzerland  7480                         1452.0   

   Sosyal Destek Puanı  Sağlıklı Yaşam Beklentisi Puanı  \
0               1573.0                            0.996   
1               1582.0                         1028.000   
2               1624.0                         1026.000   
3               1522.0                            0.999   
4               1526.0                         1052.000   

   Yaşam Tercihlerinde Özgürlük Puanı  Cömertlik Puanı  Yolsuzluk Algısı Puanı  
0                               0.592            0.252                   0.410  
1                               0.603            0.271  

Web ortamındaki bağlantıları kullanarak da, Jupyter Notebook içerisine veri aktarımı yapmamız mümkündür. 
İstanbul Büyükşehir Belediyesi Açık Veri Portalı'ndan Ekim 2020 trafik verilerini kullanmak isteyelim.  (https://data.ibb.gov.tr/dataset/saatlik-trafik-yogunluk-veri-seti/resource/949d4a3b-91d2-4c56-b82f-4ef081e39c45)
Bu sayfadaki verileri indirmeden, doğrudan bağlantı adresi alarak, veriyi çalışma ortamına eklememiz için `urllib.request` modülünün `urlretrieve` fonksiyonunu kullanabiliriz. 

In [7]:
from urllib.request import urlretrieve

url = 'https://data.ibb.gov.tr/dataset/3ee6d744-5da2-40c8-9cd6-0e3e41f1928f/resource/949d4a3b-91d2-4c56-b82f-4ef081e39c45/download/traffic_density_202010.csv'
    
urlretrieve(url, 'traffic_density_202010.csv') 
    

('traffic_density_202010.csv', <http.client.HTTPMessage at 0x237058596d0>)

In [8]:
import pandas as pd
df = pd.read_csv('traffic_density_202010.csv', sep=',')
print(df.head())

             DATE_TIME   LATITUDE  LONGITUDE GEOHASH  MINIMUM_SPEED  \
0  2020-10-01 00:00:00  41.195984  28.767700  sxk6qe             18   
1  2020-10-01 00:00:00  41.009216  29.042358  sxk9kc              9   
2  2020-10-01 00:00:00  40.970764  29.075317  sxk9jd              9   
3  2020-10-01 00:00:00  41.069641  28.888550  sxk99k              6   
4  2020-10-01 00:00:00  40.838928  29.415894  sxkbm6              6   

   MAXIMUM_SPEED  AVERAGE_SPEED  NUMBER_OF_VEHICLES  
0             70             37                   9  
1             56             27                  13  
2             51             27                  11  
3             74             28                  49  
4            177             76                 116  


.csv dosyalar haricinde .xlsx dosyaları da bağlantıdan çekebilmek mümkündür. Bunun için pd.read_excel fonksiyonunu kullanarak, argüman oalrak bağlantı adresini kullanacağız. İstanbul Büyükşehir Belediyesi Açık Veri Portalı'nda sunulan İtfaiye Konum Verileri excel dosyasını (https://data.ibb.gov.tr/dataset/itfaiye-istasyonlari-konum-bilgileri/resource/c611b9a1-8a1a-44a9-816b-eb6dfcd37c42) kullanalım. 

In [9]:
# pandas kütüphanesini yükleyelim. 
import pandas as pd

# Bağlantı adresini oluşturulalım: url
url = 'https://data.ibb.gov.tr/dataset/75cd7b09-dafb-41fa-90c9-9c7396a58700/resource/c611b9a1-8a1a-44a9-816b-eb6dfcd37c42/download/itfaiye-konum-verisi.xlsx'

# Excel dosyasındaki tüm sayfaları okuyalım: xl
xl = pd.read_excel(url, sheet_name=None)

# Excel dosyasındaki tüm sayfa isimlerini ekrana verelim.
print(xl.keys())


dict_keys(['Metadata_TR', 'istasyonlar', 'müfrezeler'])


In [10]:
# Excel dosyasındaki ikinci çalışma sayfasının ilk beş satırını ekrana verelim (çalışma sayfası ismini kullanarak)
print(xl['istasyonlar'].head())
print(type(xl))

                                  İstasyon Adı Bulunduğu İlçe  \
0                     Adalar İtfaiye İstasyonu         ADALAR   
1  Akpınar Mahallesi Gönüllü İtfaiye İstasyonu     EYÜPSULTAN   
2                Akşemsettin İtfaiye İstasyonu  GAZİOSMANPAŞA   
3  Alacalı Mahallesi Gönüllü İtfaiye İstasyonu           ŞİLE   
4                  Alibeyköy İtfaiye İstasyonu     EYÜPSULTAN   

                 Koordinat  
0  40.87172994,29.13762931  
1  41.27821768,28.80994231  
2     41.091980, 28.917401  
3  41.18315865,29.45650909  
4     41.079838, 28.937221  
<class 'dict'>


## 2. NumPy ile Sayısal Veri Okuma
Eğer veriniz sadece sayılardan oluşuyorsa (örneğin bilimsel ölçümler, koordinatlar), NumPy kütüphanesi oldukça hızlıdır.

Örnek: Sadece enlem-boylam verisi içeren `coor.csv` dosyasını okuyalım.

In [11]:
import numpy as np

dosya_ismi = "coor.csv"
# delimiter=',' verilerin virgülle ayrıldığını belirtir.
veri = np.loadtxt(dosya_ismi, delimiter=',')

print(veri[:5]) # İlk 5 satırı görelim

[[-11.1215276 -75.3587075]
 [  3.4802964  97.8120924]
 [  8.2301756 -80.5549561]
 [ -7.0848567 111.3947978]
 [ -6.5951    111.0566   ]]


Örnek 2: `credit.txt` dosyasını okurken, sadece belirli sütunları almak ve başlık satırını atlamak isteyebiliriz.

In [12]:
# skiprows=1: Başlığı atla
# usecols=[1]: Sadece 2. sütunu (indeks 1) al
kredi_verisi = np.loadtxt('credit.txt', delimiter=';', skiprows=1, usecols=[1])

print(kredi_verisi[:10]) # İlk 10 veriyi görelim

[40017. 11854. 23624. 24944. 24996. 32537. 33251. 12867.  8936. 32053.]


## 3. Pandas ile Veri Çerçeveleri (DataFrames)

Veri biliminde en sık kullanılan yapı DataFrame'dir. Sütun isimleri olan, farklı veri tiplerini barındırabilen (Excel tablosu gibi) yapılardır.

Örnek: Titanic veri setini (.csv) okuyalım.

In [13]:
import pandas as pd

# pd.read_csv en sık kullanacağımız fonksiyondur.
df_titanic = pd.read_csv('titanic.csv')

# .head() fonksiyonu verinin ilk 5 satırını gösterir.
print(df_titanic.head())

   PassengerId  Survived  Pclass     Sex   Age  SibSp  Parch  \
0            1         0       3    male  22.0      1      0   
1            2         1       1  female  38.0      1      0   
2            3         1       3  female  26.0      0      0   
3            4         1       1  female  35.0      1      0   
4            5         0       3    male  35.0      0      0   

             Ticket     Fare Cabin Embarked  
0         A/5 21171   7.2500   NaN        S  
1          PC 17599  71.2833   C85        C  
2  STON/O2. 3101282   7.9250   NaN        S  
3            113803  53.1000  C123        S  
4            373450   8.0500   NaN        S  


Örnek: Netflix veri setini okuyalım ve veri hakkında genel bilgi alalım.

In [14]:
df_netflix = pd.read_csv('netflix.csv')

print(df_netflix.head())

         id      tur                                   baslik  \
0  81145628    Movie  Norm of the North: King Sized Adventure   
1  80117401    Movie               Jandino: Whatever it Takes   
2  70234439  TV Show                       Transformers Prime   
3  80058654  TV Show         Transformers: Robots in Disguise   
4  80125979    Movie                             #realityhigh   

                   yonetmen  \
0  Richard Finn, Tim Maltby   
1                       NaN   
2                       NaN   
3                       NaN   
4          Fernando Lebrija   

                                                cast  \
0  Alan Marriott, Andrew Toth, Brian Dobson, Cole...   
1                                   Jandino Asporaat   
2  Peter Cullen, Sumalee Montano, Frank Welker, J...   
3  Will Friedle, Darren Criss, Constance Zimmer, ...   
4  Nesta Cooper, Kate Walsh, John Michael Higgins...   

                                       ulke     eklenme_tarihi  \
0  United States, I

Pandas DataFrame'ini istediğimiz zaman NumPy dizisine (array) çevirebiliriz:

In [15]:
# Sadece ilk 5 satırı okuyup numpy dizisine çevirelim
veri_dizisi = df_netflix.head(5).to_numpy()

print(type(veri_dizisi))
print(veri_dizisi)

<class 'numpy.ndarray'>
[[81145628 'Movie' 'Norm of the North: King Sized Adventure'
  'Richard Finn, Tim Maltby'
  'Alan Marriott, Andrew Toth, Brian Dobson, Cole Howard, Jennifer Cameron, Jonathan Holmes, Lee Tockar, Lisa Durupt, Maya Kay, Michael Dobson'
  'United States, India, South Korea, China' 'September 9, 2019' 2019
  'TV-PG' '90 min' 'Children & Family Movies, Comedies'
  'Before planning an awesome wedding for his grandfather, a polar bear king must take back a stolen artifact from an evil archaeologist first.']
 [80117401 'Movie' 'Jandino: Whatever it Takes' nan 'Jandino Asporaat'
  'United Kingdom' 'September 9, 2016' 2016 'TV-MA' '94 min'
  'Stand-Up Comedy'
  'Jandino Asporaat riffs on the challenges of raising kids and serenades the audience with a rousing rendition of "Sex on Fire" in his comedy show.']
 [70234439 'TV Show' 'Transformers Prime' nan
  'Peter Cullen, Sumalee Montano, Frank Welker, Jeffrey Combs, Kevin Michael Richardson, Tania Gunadi, Josh Keaton, Steve

## 4. Excel Dosyalarını Okuma (.xlsx)

Excel dosyaları genellikle birden fazla sayfa (sheet) içerir. Pandas ile bunları yönetmek çok kolaydır.

Örnek: Dünya Mutluluk Raporu (mutluluk_indeksi.xlsx) dosyasını inceleyelim.

In [16]:
# Excel dosyasını yükle
excel_dosyasi = pd.ExcelFile('mutluluk_indeksi.xlsx')

# Sayfa isimlerini gör
print(f"Sayfalar: {excel_dosyasi.sheet_names}")

Sayfalar: ['2019', '2018']


Belirli bir sayfayı okumak için read_excel veya parse kullanabiliriz.

In [17]:
# '2019' isimli sayfayı okuyalım
df_2019 = pd.read_excel('mutluluk_indeksi.xlsx', sheet_name='2019')

print(df_2019.head())

   Overall rank Country or region  Score  GDP per capita  Social support  \
0             1           Finland   7769          1340.0          1587.0   
1             2           Denmark   7600          1383.0          1573.0   
2             3            Norway   7554          1488.0          1582.0   
3             4           Iceland   7494          1380.0          1624.0   
4             5       Netherlands   7488          1396.0          1522.0   

   Healthy life expectancy  Freedom to make life choices  Generosity  \
0                    0.986                         0.596       0.153   
1                    0.996                         0.592       0.252   
2                 1028.000                         0.603       0.271   
3                 1026.000                         0.591       0.354   
4                    0.999                         0.557       0.322   

   Perceptions of corruption  
0                      0.393  
1                      0.410  
2                

Gelişmiş Okuma: Başlık satırını atlayıp, sütun isimlerini kendimiz vererek okuyalım.

In [18]:
yeni_isimler = ['Genel Sıralama','Ülke', 'Skor', 'Kişi Başı Gelir', 
                'Sosyal Destek', 'Sağlıklı Yaşam', 'Özgürlük', 
                'Cömertlik', 'Yolsuzluk Algısı']

# sheet_name=0 -> İlk sayfayı ifade eder (indeks ile)
df_ozel = pd.read_excel('mutluluk_indeksi.xlsx', sheet_name=0, header=0, names=yeni_isimler)

print(df_ozel.head())

   Genel Sıralama         Ülke  Skor  Kişi Başı Gelir  Sosyal Destek  \
0               1      Finland  7769           1340.0         1587.0   
1               2      Denmark  7600           1383.0         1573.0   
2               3       Norway  7554           1488.0         1582.0   
3               4      Iceland  7494           1380.0         1624.0   
4               5  Netherlands  7488           1396.0         1522.0   

   Sağlıklı Yaşam  Özgürlük  Cömertlik  Yolsuzluk Algısı  
0           0.986     0.596      0.153             0.393  
1           0.996     0.592      0.252             0.410  
2        1028.000     0.603      0.271             0.341  
3        1026.000     0.591      0.354             0.118  
4           0.999     0.557      0.322             0.298  


## 5. İstatistiksel Veri Dosyalarını Okuma (SAS ve Stata)

Eskiden bu dosyalar için ek kütüphaneler gerekirdi. Artık Pandas bunları yerleşik olarak okuyabilir.

SAS Dosyası Okuma (.sas7bdat):

In [19]:
# Eskiden 'sas7bdat' kütüphanesi kullanılırdı, şimdi Pandas yeterli.
df_sas = pd.read_sas('tax.sas7bdat')

# SAS dosyalarındaki metinler bazen byte formatında gelir, okurken decode gerekebilir ama temel okuma şöyledir:
print(df_sas.head())

   INC88  TAX88  INC89  TAX89
0  9.215  1.643  9.518  2.125
1  2.047  0.413  2.068  0.565
2  9.989  1.752  9.992  2.221
3  8.321  1.408  8.515  1.905
4  4.588  0.838  4.389  0.943


Stata Dosyası Okuma (.dta):

In [20]:
df_stata = pd.read_stata('tax.dta')
print(df_stata.head())

   inc88  tax88  inc89  tax89
0  9.215  1.643  9.518  2.125
1  2.047  0.413  2.068  0.565
2  9.989  1.752  9.992  2.221
3  8.321  1.408  8.515  1.905
4  4.588  0.838  4.389  0.943


## 6. MATLAB Dosyalarını Okuma (.mat)

MATLAB verileri genellikle .mat formatındadır. Bunu okumak için SciPy kütüphanesi standarttır.

In [21]:
import scipy.io

mat_verisi = scipy.io.loadmat('cars_train_annos.mat')

print(type(mat_verisi))
print(mat_verisi.keys()) # Dosya içindeki değişkenleri görelim

<class 'dict'>
dict_keys(['__header__', '__version__', '__globals__', 'annotations'])


## 7. Web Üzerinden Doğrudan Veri Okuma

Veriyi bilgisayara indirmeden, doğrudan internet bağlantısı (URL) ile Pandas içine çekebiliriz. Bu yöntem kodunuzu çok daha temiz hale getirir.

Örnek 1: İBB Trafik Verisi (.csv)

In [22]:
url_csv = 'https://data.ibb.gov.tr/dataset/3ee6d744-5da2-40c8-9cd6-0e3e41f1928f/resource/949d4a3b-91d2-4c56-b82f-4ef081e39c45/download/traffic_density_202010.csv'

# URL'i sanki dosya yoluymuş gibi veriyoruz
df_trafik = pd.read_csv(url_csv)

print(df_trafik.head())

             DATE_TIME   LATITUDE  LONGITUDE GEOHASH  MINIMUM_SPEED  \
0  2020-10-01 00:00:00  41.195984  28.767700  sxk6qe             18   
1  2020-10-01 00:00:00  41.009216  29.042358  sxk9kc              9   
2  2020-10-01 00:00:00  40.970764  29.075317  sxk9jd              9   
3  2020-10-01 00:00:00  41.069641  28.888550  sxk99k              6   
4  2020-10-01 00:00:00  40.838928  29.415894  sxkbm6              6   

   MAXIMUM_SPEED  AVERAGE_SPEED  NUMBER_OF_VEHICLES  
0             70             37                   9  
1             56             27                  13  
2             51             27                  11  
3             74             28                  49  
4            177             76                 116  


Örnek 2: İBB İtfaiye Verisi (.xlsx)

Excel dosyalarını da doğrudan linkten okuyabiliriz. sheet_name=None parametresi, dosyadaki tüm sayfaları bir sözlük (dictionary) olarak okumamızı sağlar.

In [23]:
url_excel = 'https://data.ibb.gov.tr/dataset/75cd7b09-dafb-41fa-90c9-9c7396a58700/resource/c611b9a1-8a1a-44a9-816b-eb6dfcd37c42/download/itfaiye-konum-verisi.xlsx'

# Tüm sayfaları oku
itfaiye_verisi = pd.read_excel(url_excel, sheet_name=None)

# Sayfa isimlerini görelim
print(itfaiye_verisi.keys())

# 'istasyonlar' sayfasını ekrana yazdıralım
print(itfaiye_verisi['istasyonlar'].head())

dict_keys(['Metadata_TR', 'istasyonlar', 'müfrezeler'])
                                  İstasyon Adı Bulunduğu İlçe  \
0                     Adalar İtfaiye İstasyonu         ADALAR   
1  Akpınar Mahallesi Gönüllü İtfaiye İstasyonu     EYÜPSULTAN   
2                Akşemsettin İtfaiye İstasyonu  GAZİOSMANPAŞA   
3  Alacalı Mahallesi Gönüllü İtfaiye İstasyonu           ŞİLE   
4                  Alibeyköy İtfaiye İstasyonu     EYÜPSULTAN   

                 Koordinat  
0  40.87172994,29.13762931  
1  41.27821768,28.80994231  
2     41.091980, 28.917401  
3  41.18315865,29.45650909  
4     41.079838, 28.937221  
