# Girdiler ve Çıktılar

**NOT:Tipik olarak ya doğrudan csv dosyalarını okuyacağız ya da web'den veri çekmek için pandas-datareader kullanacağız. Bu dersi, pandasla nelerin mümkün olduğuna dair hızlı bir genel bakış olarak düşünün (bu derste SQL veya Excel dosyalarıyla çalışmayacağız)**

## Veri Girdisi ve Çıktısı

Bu notebook girdi ve çıktı almak için referans kodudur, pandas **pd.read_** yöntemlerini kullanarak çeşitli dosya türlerini okuyabilir. En yaygın veri türlerine bir göz atalım:

In [1]:
import numpy as np
import pandas as pd

## Dosya Yollarını Anlama

Pandasla bir dosyayı okurken iki seçeneğiniz vardır:

1. .py dosyanız veya .ipynb not defteriniz, okumak istediğiniz .csv dosyasıyla **tam** klasör konumunda bulunuyorsa, dosya adını bir string olarak girmeniz yeterlidir, örneğin:
    
      df = pd.read_csv('some_file.csv')
      
        
2. Farklı bir dizinde bulunuyorsanız, tüm dosya yolunu verin. Bunun çalışması için dosya yolu %100 doğru olmalıdır. Örneğin:

      df = pd.read_csv("C:\\Users\\myself\\files\\some_file.csv")

### CSV Girdisi

In [3]:
df = pd.read_csv('example.csv')

In [5]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [6]:
df = pd.read_csv('example.csv',index_col=0)

In [7]:
df

Unnamed: 0_level_0,b,c,d
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


In [8]:
df = pd.read_csv('example.csv')

In [9]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### CSV Çıktısı

İndeksi kaydetmek istemiyorsanız index=False olarak ayarlayın, aksi takdirde indeksinizi içeren .csv dosyasına yeni bir sütun ekler ve indeksinizin bir adı yoksa buna 'Adsız: 0' adını verir. İndeksinizi kaydetmek istiyorsanız, bunu True (varsayılan değer) olarak ayarlamanız yeterlidir.

In [10]:
df.to_csv('new_file.csv',index=False)

## read_html

### HTML Input

Pandas read_html işlevi, bir web sayfasındaki tabloları okuyacak ve DataFrame nesnelerinin bir listesini döndürecektir. NOT: Bu, yalnızca sayfadaki html'de iyi tanımlanmış tablo nesneleriyle çalışır, bu, sayfadaki resimler olan tablolarda sihirli bir şekilde okunamaz.

In [11]:
tables = pd.read_html('https://en.wikipedia.org/wiki/World_population')

### Faydalı Olmayan Tablolar
Pandas o sayfada 26 tablo buldu. Bazıları kullanışlı değil:

In [12]:
tables[0]

Unnamed: 0,#,Most populous countries,2000,2015,2030[A]
0,1,China[B],1270,1376,1416
1,2,India,1053,1311,1528
2,3,United States,283,322,356
3,4,Indonesia,212,258,295
4,5,Pakistan,136,208,245
5,6,Brazil,176,206,228
6,7,Nigeria,123,182,263
7,8,Bangladesh,131,161,186
8,9,Russia,146,146,149
9,10,Mexico,103,127,148


### Biçimlendirilmesi gereken tablolar

In [13]:
tables[1]

Unnamed: 0,Region,Density(inhabitants/km2),Population(millions),Most populous country,Most populous city (metropolitan area)
0,Asia,104.1,4641,"1,411,778,000 – China[note 1]","13,515,000 – Tokyo Metropolis(37,400,000 – Gre..."
1,Africa,44.4,1340,"0,211,401,000 – Nigeria","09,500,000 – Cairo(20,076,000 – Greater Cairo)"
2,Europe,73.4,747,"0,146,171,000 – Russia, approx. 110 million in...","13,200,000 – Moscow(20,004,000 – Moscow metrop..."
3,Latin America,24.1,653,"0,214,103,000 – Brazil","12,252,000 – São Paulo City(21,650,000 – São P..."
4,Northern America[note 2],14.9,368,"0,332,909,000 – United States","08,804,000 – New York City(23,582,649 – New Yo..."
5,Oceania,5,42,"0,025,917,000 – Australia","05,367,000 – Sydney"
6,Antarctica,~0,0.004[16],N/A[note 3],"00,001,258 – McMurdo Station"


In [14]:
world_pop = tables[0]
world_pop.head()

Unnamed: 0,#,Most populous countries,2000,2015,2030[A]
0,1,China[B],1270,1376,1416
1,2,India,1053,1311,1528
2,3,United States,283,322,356
3,4,Indonesia,212,258,295
4,5,Pakistan,136,208,245


In [15]:
world_pop.columns

Index(['#', 'Most populous countries', '2000', '2015', '2030[A]'], dtype='object')

In [16]:
world_pop = world_pop.drop('#',axis=1)

In [17]:
world_pop.columns

Index(['Most populous countries', '2000', '2015', '2030[A]'], dtype='object')

In [18]:
world_pop.tail()

Unnamed: 0,Most populous countries,2000,2015,2030[A]
7,Bangladesh,131,161,186
8,Russia,146,146,149
9,Mexico,103,127,148
10,World total,6127,7349,8501
11,Notes: .mw-parser-output .reflist{font-size:90...,Notes: .mw-parser-output .reflist{font-size:90...,Notes: .mw-parser-output .reflist{font-size:90...,Notes: .mw-parser-output .reflist{font-size:90...


In [19]:
world_pop.columns = ['Countries', '2000', '2015', '2030 Est.']
world_pop = world_pop.drop(11,axis=0)

In [20]:
world_pop

Unnamed: 0,Countries,2000,2015,2030 Est.
0,China[B],1270,1376,1416
1,India,1053,1311,1528
2,United States,283,322,356
3,Indonesia,212,258,295
4,Pakistan,136,208,245
5,Brazil,176,206,228
6,Nigeria,123,182,263
7,Bangladesh,131,161,186
8,Russia,146,146,149
9,Mexico,103,127,148


### Sağlam tablolar

In [21]:
tables[6]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2),Population trend
0,1,India,1383720000,3287240,421,Growing
1,2,Pakistan,230470000,803940,287,Rapidly growing
2,3,Bangladesh,173640000,143998,1206,Rapidly growing
3,4,Japan,126010000,377873,333,Declining[101]
4,5,Philippines,112600000,300000,375,Growing
5,6,Vietnam,96209000,331689,290,Growing
6,7,United Kingdom,66436000,243610,273,Growing
7,8,South Korea,51781000,99538,520,Steady
8,9,Taiwan,23604000,36193,652,Steady
9,10,Sri Lanka,21803000,65610,332,Growing


## html Çıktısına Yazma

Bir web sitesi üzerinde çalışıyorsanız ve .html dosyasının çıktısını hızlı bir şekilde almak istiyorsanız, to_html kullanabilirsiniz.

In [22]:
df.to_html('simple.html',index=False)

## read_excel() ile Excel dosyası girdisi

In [25]:
df = pd.read_excel('my_excel_file.xlsx',sheet_name='First_Sheet')

In [26]:
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Ya sayfa adını bilmiyorsanız? Veya belirli sayfa adları için bir for döngüsü çalıştırmak mı istiyorsunuz? Yoksa tüm çalışma sayfalarını mı istiyorsunuz?

In [27]:
# Sheet_names listesini döndürür
pd.ExcelFile('my_excel_file.xlsx').sheet_names

['First_Sheet']

#### Tüm sayfaları almak

In [29]:
excel_sheets = pd.read_excel('my_excel_file.xlsx',sheet_name=None)

In [30]:
type(excel_sheets)

dict

In [31]:
excel_sheets.keys()

dict_keys(['First_Sheet'])

In [32]:
excel_sheets['First_Sheet']

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Excel Dosyasına Yazmak

In [34]:
df.to_excel('example.xlsx',sheet_name='First_Sheet',index=False)

# SQL Bağlantıları

In [35]:
from sqlalchemy import create_engine

In [36]:
temp_db = create_engine('sqlite:///:memory:')

### Veritabanına Yazma

In [37]:
tables[6]

Unnamed: 0,Rank,Country,Population,Area(km2),Density(pop/km2),Population trend
0,1,India,1383720000,3287240,421,Growing
1,2,Pakistan,230470000,803940,287,Rapidly growing
2,3,Bangladesh,173640000,143998,1206,Rapidly growing
3,4,Japan,126010000,377873,333,Declining[101]
4,5,Philippines,112600000,300000,375,Growing
5,6,Vietnam,96209000,331689,290,Growing
6,7,United Kingdom,66436000,243610,273,Growing
7,8,South Korea,51781000,99538,520,Steady
8,9,Taiwan,23604000,36193,652,Steady
9,10,Sri Lanka,21803000,65610,332,Growing


In [38]:
pop = tables[6]

In [39]:
pop.to_sql(name='populations',con=temp_db)

10

### SQL Veritabanından Okuma

In [40]:
# Tüm tabloyu okuma
pd.read_sql(sql='populations',con=temp_db)

Unnamed: 0,index,Rank,Country,Population,Area(km2),Density(pop/km2),Population trend
0,0,1,India,1383720000,3287240,421,Growing
1,1,2,Pakistan,230470000,803940,287,Rapidly growing
2,2,3,Bangladesh,173640000,143998,1206,Rapidly growing
3,3,4,Japan,126010000,377873,333,Declining[101]
4,4,5,Philippines,112600000,300000,375,Growing
5,5,6,Vietnam,96209000,331689,290,Growing
6,6,7,United Kingdom,66436000,243610,273,Growing
7,7,8,South Korea,51781000,99538,520,Steady
8,8,9,Taiwan,23604000,36193,652,Steady
9,9,10,Sri Lanka,21803000,65610,332,Growing


In [41]:
# SQL Sorgusu ile okuma
pd.read_sql_query(sql="SELECT Country FROM populations",con=temp_db)

Unnamed: 0,Country
0,India
1,Pakistan
2,Bangladesh
3,Japan
4,Philippines
5,Vietnam
6,United Kingdom
7,South Korea
8,Taiwan
9,Sri Lanka


İzinler, güvenlik, çevrimiçi erişim, değişen SQL motorları vb. dahil olmak üzere çok çeşitli sorunlar nedeniyle pandası ve SQL'i genelleştirmek zordur. Bu fikirleri bir başlangıç noktası olarak kullanın ve büyük olasılıkla kendi durumunuz için kendi araştırmanızı yapmanız gerekecek.

# SON!