In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

In [3]:
# how to read data with python
filepath = "btc-market-price.csv"

with open(filepath, "r") as reader:
    print(reader)

<_io.TextIOWrapper name='btc-market-price.csv' mode='r' encoding='UTF-8'>


In [4]:
filepath = "btc-market-price.csv"

with open(filepath, "r") as reader:
    for index, line in enumerate(reader.readlines()):
        #read just the first 10 lines
        if index < 10:
            print(index, line)

0 2/4/17 0:00,1099.169125

1 3/4/17 0:00,1141.813

2 4/4/17 0:00,?

3 5/4/17 0:00,1133.079314

4 6/4/17 0:00,-

5 7/4/17 0:00,-

6 8/4/17 0:00,1181.149838

7 9/4/17 0:00,1208.8005

8 10/4/17 0:00,1207.744875

9 11/4/17 0:00,1226.617038



## The `read_csv` method

The first method we'll learn is **read_csv**, that let us read comma-separated values (CSV) files and raw text (TXT) files into a `DataFrame`.

The `read_csv` function is extremely powerful and you can specify a very broad set of parameters at import time that allow us to accurately configure how the data will be read and parsed by specifying the correct structure, enconding and other details. The most common parameters are as follows:

- `filepath`: Path of the file to be read.
- `sep`: Character(s) that are used as a field separator in the file.
- `header`: Index of the row containing the names of the columns (None if none).
- `index_col`: Index of the column or sequence of indexes that should be used as index of rows of the data.
- `names`: Sequence containing the names of the columns (used together with header = None).
- `skiprows`: Number of rows or sequence of row indexes to ignore in the load.
- `na_values`: Sequence of values that, if found in the file, should be treated as NaN.
- `dtype`: Dictionary in which the keys will be column names and the values will be types of NumPy to which their content must be converted.
- `parse_dates`: Flag that indicates if Python should try to parse data with a format similar to dates as dates. You can enter a list of column names that must be joined for the parsing as a date.
- `date_parser`: Function to use to try to parse dates.
- `nrows`: Number of rows to read from the beginning of the file.
- `skip_footer`: Number of rows to ignore at the end of the file.
- `encoding`: Encoding to be expected from the file read.
- `thousands`: Character to use to detect the thousands separator.
- `decimal`: Character to use to detect the decimal separator.
- `skip_blank_lines`: Flag that indicates whether blank lines should be ignored.

> Full `read_csv` documentation can be found here: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html.


## `read_csv` Metodu

Öğreneceğimiz ilk metod **read_csv** metodu olacaktır. Bu metod, virgülle ayrılmış değerleri (CSV) ve ham metin (TXT) dosyalarını bir `DataFrame` içine okumamıza olanak tanır.

`read_csv` fonksiyonu oldukça güçlüdür ve verilerin nasıl okunup işleneceğini belirlemek için birçok farklı parametre ile yapılandırılabilir. Bu parametreler arasında doğru yapılandırma, kodlama ve diğer detaylar yer alabilir. En yaygın kullanılan parametreler şu şekildedir:

- `filepath`: Okunacak dosyanın yolu.
- `sep`: Dosyada alan ayırıcı olarak kullanılan karakter(ler).
- `header`: Sütun isimlerinin bulunduğu satırın indeksi (hiçbiri yoksa None).
- `index_col`: Satır indeksleri olarak kullanılacak sütunun veya sütunların indeksi.
- `names`: Sütun isimlerini içeren dizi (header=None ile birlikte kullanılır).
- `skiprows`: Başında atlanacak satır sayısı ya da atlanacak satır indekslerinin listesi.
- `na_values`: Dosyada NaN olarak değerlendirilmesi istenen değerlerin listesi.
- `dtype`: Anahtarları sütun isimleri, değerleri ise içeriklerinin dönüştürüleceği NumPy veri tipleri olan bir sözlük.
- `parse_dates`: Tarih formatına benzeyen verilerin tarih olarak otomatik olarak analiz edilip edilmeyeceğini belirten bayrak. Bir listesi de verilebilir; bu liste, tarihe çevrilmesi gereken sütunları ifade eder.
- `date_parser`: Tarihleri ayrıştırmak için kullanılacak fonksiyon.
- `nrows`: Dosyanın başından itibaren kaç satır okunacağını belirtir.
- `skip_footer`: Dosyanın sonunda kaç satırın atlanacağı.
- `encoding`: Beklenen dosya kodlaması.
- `thousands`: Binlik ayıracı olarak kullanılacak karakter.
- `decimal`: Ondalık ayıracı olarak kullanılacak karakter.
- `skip_blank_lines`: Boş satırların atlanıp atlanmayacağı bilgisini tutan bayrak.

> `read_csv` dökümantasyonuna buradan ulaşabilirsiniz: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html.

In [5]:
# the pandas library offers us functions to read and write files in multiple formats like CSV, JSON, XML and Excel's XLSX, all of them creating a `DataFrame` with the information read from the file.

csv_url = "https://raw.githubusercontent.com/datasets/gdp/master/data/gdp.csv" # url to csv file

pd.read_csv(csv_url).head()

Unnamed: 0,Country Name,Country Code,Year,Value
0,Afghanistan,AFG,2000,3521418000.0
1,Afghanistan,AFG,2001,2813572000.0
2,Afghanistan,AFG,2002,3825701000.0
3,Afghanistan,AFG,2003,4520947000.0
4,Afghanistan,AFG,2004,5224897000.0


In [6]:
df = pd.read_csv("btc-market-price.csv")
df.head()

Unnamed: 0,2/4/17 0:00,1099.169125
0,3/4/17 0:00,1141.813
1,4/4/17 0:00,?
2,5/4/17 0:00,1133.079314
3,6/4/17 0:00,-
4,7/4/17 0:00,-


In [7]:
# header Parametresi ile İlk Satır Davranışı Belirleme

# `header=None` parametresini kullanarak ilk satırı başlık olarak değil, veri sütunu olarak okuyabiliriz.
df = pd.read_csv("btc-market-price.csv", header=None)
df.head()

Unnamed: 0,0,1
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,?
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,-


In [8]:
# Belirli bir satırı header olarak belirlemek için `header` parametresini kullanabiliriz. Örneğin 3. satırı (0-based index) header olarak kullanmak istiyorsak:
df = pd.read_csv("btc-market-price.csv", header=2)
df.head()


Unnamed: 0,4/4/17 0:00,?
0,5/4/17 0:00,1133.079314
1,6/4/17 0:00,-
2,7/4/17 0:00,-
3,8/4/17 0:00,1181.149838
4,9/4/17 0:00,1208.8005


In [9]:
# çoklu satırlı bir string listesi veya pandas Series olarak belirtebiliriz.
header_list = ["Date", "Price"]
df = pd.read_csv("btc-market-price.csv", names=header_list)
df.head()

Unnamed: 0,Date,Price
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,?
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,-


In [10]:
# veya liste olarak belirtebiliriz:
df = pd.read_csv("btc-market-price.csv", header=[0, 1])
df.head()

Unnamed: 0_level_0,2/4/17 0:00,1099.169125
Unnamed: 0_level_1,3/4/17 0:00,1141.813
0,4/4/17 0:00,?
1,5/4/17 0:00,1133.079314
2,6/4/17 0:00,-
3,7/4/17 0:00,-
4,8/4/17 0:00,1181.149838


In [11]:
# Türkçe karakterler içeren başlıklar için encoding parametresini kullanmayı unutmayın:
df = pd.read_csv("btc-market-price.csv", header=None, names=["Tarih", "Fiyat"], encoding="ISO-8859-1") # veya encoding="utf-8"
df.head()

Unnamed: 0,Tarih,Fiyat
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,?
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,-


In [12]:
# Pandas'ta read_csv() fonksiyonunda na_values parametresi, hangi değerlerin NaN (Not a Number - Eksik Değer) olarak kabul edileceğini belirler.
df = pd.read_csv('btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'])
df.head()

Unnamed: 0,0,1
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,


In [13]:
#özel eksik değerler için:
# 'NA', 'boş', 'yok' ve 999 değerlerini NaN olarak işaretle
na_list = ['NA', 'boş', 'yok', 999]
df = pd.read_csv('btc-market-price.csv', na_values=na_list)
df.head()

Unnamed: 0,2/4/17 0:00,1099.169125
0,3/4/17 0:00,1141.813
1,4/4/17 0:00,?
2,5/4/17 0:00,1133.079314
3,6/4/17 0:00,-
4,7/4/17 0:00,-


In [14]:
# sütun bazında eksik değerler belirleme:
# 'Fiyat' sütununda 0 değerlerini, 'Miktar' sütununda -1 değerlerini NaN yap
df = pd.read_csv('btc-market-price.csv', na_values={'Fiyat': [0], 'Miktar': [-1]})
df.head()

Unnamed: 0,2/4/17 0:00,1099.169125
0,3/4/17 0:00,1141.813
1,4/4/17 0:00,?
2,5/4/17 0:00,1133.079314
3,6/4/17 0:00,-
4,7/4/17 0:00,-


In [15]:
# names parametresiyle sütun isimlerini belirleme:
column_names = ['Tarih', 'Fiyat']
df = pd.read_csv('btc-market-price.csv', header=None, names=column_names)
df.head()


Unnamed: 0,Tarih,Fiyat
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,?
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,-


In [16]:
# dtype parametresiyle sütun tiplerini belirleme:
df = pd.read_csv('btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'})

In [17]:
df.dtypes # sütun tiplerini görüntüleme

Timestamp     object
Price        float64
dtype: object

In [18]:
df.head()

Unnamed: 0,Timestamp,Price
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,


In [19]:
# timestamp sütununu datetime tipine dönüştürme:
df['Timestamp'] = pd.to_datetime(df['Timestamp']).astype('datetime64[ns]')
df.dtypes # tarih formatına çevrildi mi?

  df['Timestamp'] = pd.to_datetime(df['Timestamp']).astype('datetime64[ns]')


Timestamp    datetime64[ns]
Price               float64
dtype: object

In [20]:
df["Timestamp"].head()

0   2017-02-04
1   2017-03-04
2   2017-04-04
3   2017-05-04
4   2017-06-04
Name: Timestamp, dtype: datetime64[ns]

In [21]:
df = pd.read_csv('btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=["Timestamp"],
                 date_format=lambda x: pd.to_datetime(x, format="mixed") )# date_format parametresiyle datetime tipine dönüştürme işlemi yapılabilir



In [22]:
df


Unnamed: 0,Timestamp,Price
0,2/4/17 0:00,1099.169125
1,3/4/17 0:00,1141.813000
2,4/4/17 0:00,
3,5/4/17 0:00,1133.079314
4,6/4/17 0:00,
...,...,...
360,28/3/18 0:00,7960.380000
361,29/3/18 0:00,7172.280000
362,30/3/18 0:00,6882.531667
363,31/3/18 0:00,6935.480000


In [23]:
# index_col parametresiyle timestamp sütununu index olarak belirleme:

df = pd.read_csv('btc-market-price.csv', 
                 header=None, 
                 na_values=['', '?', '-'], 
                 names=['Timestamp', 'Price'], 
                 dtype={'Price': 'float'}, 
                 parse_dates=["Timestamp"], 
                 index_col='Timestamp',
                 date_format=lambda x: pd.to_datetime(x, format="mixed"))

df.head()

Unnamed: 0_level_0,Price
Timestamp,Unnamed: 1_level_1
2/4/17 0:00,1099.169125
3/4/17 0:00,1141.813
4/4/17 0:00,
5/4/17 0:00,1133.079314
6/4/17 0:00,


In [24]:
# veya index=0 olarak index_col belirleyebiliriz:
df = pd.read_csv('btc-market-price.csv', 
                 header=None, 
                 na_values=['', '?', '-'], 
                 names=['Timestamp', 'Price'], 
                 dtype={'Price': 'float'}, 
                 parse_dates=["Timestamp"], 
                 index_col=[0],
                 date_format=lambda x: pd.to_datetime(x, format="mixed"))
df.head()

Unnamed: 0_level_0,Price
Timestamp,Unnamed: 1_level_1
2/4/17 0:00,1099.169125
3/4/17 0:00,1141.813
4/4/17 0:00,
5/4/17 0:00,1133.079314
6/4/17 0:00,


In [25]:
df.dtypes

Price    float64
dtype: object

In [26]:
# another example
exam = pd.read_csv("exam_review.csv")

In [27]:
exam

Unnamed: 0,Unnamed: 1,first_name>last_name>age>math_score>french_score
"Ray>Morley>18>""68","000"">""75","000"""
Melvin>Scott>24>77>83,,
Amirah>Haley>22>92>67,,
"Gerard>Mills>19>""78","000"">72",
Amy>Grimes>23>91>81,,


In [28]:
exam.columns

Index(['first_name>last_name>age>math_score>french_score'], dtype='object')

In [29]:
#sep parametresi ile ayırma işlemi yapabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">")

exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


In [30]:
exam[["math_score", "french_score"]].dtypes # to solve the problem of scores being considered object type, strings not numeric

math_score      object
french_score    object
dtype: object

In [31]:
# decimal parametresi ile sayısal değerlerin nokta veya virgül kullanmasına göre ayırma yapabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">", decimal=",")
exam[["math_score", "french_score"]].dtypes 
exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68.0,75.0
1,Melvin,Scott,24,77.0,83.0
2,Amirah,Haley,22,92.0,67.0
3,Gerard,Mills,19,78.0,72.0
4,Amy,Grimes,23,91.0,81.0


In [32]:
exam.dtypes

first_name       object
last_name        object
age               int64
math_score      float64
french_score    float64
dtype: object

In [33]:
# thousands parametresi ile binlik ayraç olarak nokta veya virgül kullanmasına göre ayırma yapabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">", thousands=",")
exam[["math_score", "french_score"]].dtypes 
exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


In [34]:
# belirli satırları atlamak için skiprows parametresini kullanabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">", skiprows=2) # ilk 2 satırı atlar, okumaz
exam

Unnamed: 0,Melvin,Scott,24,77,83
0,Amirah,Haley,22,92,67
1,Gerard,Mills,19,78000,72
2,Amy,Grimes,23,91,81


In [35]:
# ilk satır header olduğundan ilk iki satırı headerdan sonra atlamak için:
exam = pd.read_csv("exam_review.csv", sep=">", skiprows=[1,3]) # 1 ve 3 numaralı satırları atlar(index olarak 0 ve 2), ray ve amirah satırlarını okumuyor
exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Melvin,Scott,24,77,83
1,Gerard,Mills,19,78000,72
2,Amy,Grimes,23,91,81


In [36]:
# skip_blank_lines=True parametresi ile boş satırları atlayabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">", skip_blank_lines=True) # boş satırları atlar
exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18,68000,75000
1,Melvin,Scott,24,77,83
2,Amirah,Haley,22,92,67
3,Gerard,Mills,19,78000,72
4,Amy,Grimes,23,91,81


In [37]:
# eğer skip_blank_lines=False olursa, boş satırlar okunur ve NaN değeri alır:
exam = pd.read_csv("exam_review.csv", sep=">", skip_blank_lines=False) # boş satırlar okunur ve NaN değeri alır
exam

Unnamed: 0,first_name,last_name,age,math_score,french_score
0,Ray,Morley,18.0,68000.0,75000.0
1,Melvin,Scott,24.0,77.0,83.0
2,Amirah,Haley,22.0,92.0,67.0
3,,,,,
4,Gerard,Mills,19.0,78000.0,72.0
5,Amy,Grimes,23.0,91.0,81.0


In [38]:
# belirli sütunları yüklemek için usecols parametresini kullanabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">",  usecols=["first_name", "last_name","age"])
exam

Unnamed: 0,first_name,last_name,age
0,Ray,Morley,18
1,Melvin,Scott,24
2,Amirah,Haley,22
3,Gerard,Mills,19
4,Amy,Grimes,23


In [39]:
# veya sütun pozisyonunu vererek de aynı işlemi yapabiliriz:
exam = pd.read_csv("exam_review.csv", sep=">",  usecols=[0,1,2])
exam

Unnamed: 0,first_name,last_name,age
0,Ray,Morley,18
1,Melvin,Scott,24
2,Amirah,Haley,22
3,Gerard,Mills,19
4,Amy,Grimes,23


In [40]:
# dataframe.squeeze methodunu kullanarak dataframe'den aldığımız tek sütunu pandas serisi olarak döndürebiliriz:
exam = pd.read_csv("exam_review.csv", sep=">",  usecols=[0])
exam_series = exam.squeeze()
type(exam_series)



pandas.core.series.Series

In [41]:
exam_series

0       Ray
1    Melvin
2    Amirah
3    Gerard
4       Amy
Name: first_name, dtype: object

In [42]:
#veya tek sütunu almak pd.series olarak döndürmek için:
exam_series2 = pd.read_csv("exam_review.csv", sep=">", usecols=[0]).squeeze()

In [43]:
exam_series2

0       Ray
1    Melvin
2    Amirah
3    Gerard
4       Amy
Name: first_name, dtype: object

In [44]:
#save to csv file:
exam.to_csv("out.csv", index=None) #index=False olarak da kullanılabilir

In [None]:
pd.read_csv("out.csv")

Unnamed: 0,first_name
0,Ray
1,Melvin
2,Amirah
3,Gerard
4,Amy


In [54]:
# load mov
column_names = ['color', 'director_name', 'num_critic_for_reviews', 'duration',
                'gross', 'movie_title', 'num_user_for_reviews', 'country',
                'cotent_rating', 'budget', 'title_year', 'imdb_score', 'genre']

movies_df = pd.read_csv("movies.csv", sep="|", header=None, names=column_names, na_values="?", index_col="movie_title", thousands=",") # header=None olarak da kullanılabilir , names=column_names ile sütun isimleri belirlendi

In [55]:
movies_df

Unnamed: 0_level_0,color,director_name,num_critic_for_reviews,duration,gross,num_user_for_reviews,country,cotent_rating,budget,title_year,imdb_score,genre
movie_title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Avatar,Color,James Cameron,723.0,178.0,760505847.0,3054.0,USA,PG-13,237000000.0,2009.0,7.9,Action
Pirates of the Caribbean: At World's End,Color,Gore Verbinski,302.0,169.0,309404152.0,1238.0,USA,PG-13,300000000.0,2007.0,7.1,Action
Spectre,Color,Sam Mendes,602.0,148.0,200074175.0,994.0,UK,PG-13,245000000.0,2015.0,6.8,Action
The Dark Knight Rises,Color,Christopher Nolan,813.0,164.0,448130642.0,2701.0,USA,PG-13,250000000.0,2012.0,8.5,Action
Star Wars: Episode VII - The Force Awakens,,Doug Walker,,,,,,,,,7.1,Documentary
...,...,...,...,...,...,...,...,...,...,...,...,...
Guardians of the Galaxy,Color,James Gunn,653.0,121.0,333130696.0,1097.0,USA,PG-13,170000000.0,2014.0,8.1,Action
Interstellar,Color,Christopher Nolan,712.0,169.0,187991439.0,2725.0,USA,PG-13,165000000.0,2014.0,8.6,Adventure
Inception,Color,Christopher Nolan,642.0,148.0,292568851.0,2803.0,USA,PG-13,160000000.0,2010.0,8.8,Action
Godzilla Resurgence,Color,Hideaki Anno,1.0,120.0,,13.0,Japan,,,2016.0,8.2,Action
