# Kütüphanelerin ve Veri Setinin Yüklenmesi

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv('country.csv')
data.head()

Unnamed: 0,Country,Region,Population,Area (sq. mi.),Pop. Density (per sq. mi.),Coastline (coast/area ratio),Net migration,Infant mortality (per 1000 births),GDP ($ per capita),Literacy (%),Phones (per 1000),Arable (%),Crops (%),Other (%),Climate,Birthrate,Deathrate,Agriculture,Industry,Service
0,Afghanistan,ASIA (EX. NEAR EAST),31056997,647500,480,0,2306,16307,700.0,360,32,1213,22,8765,1,466,2034,38.0,24.0,38.0
1,Albania,EASTERN EUROPE,3581655,28748,1246,126,-493,2152,4500.0,865,712,2109,442,7449,3,1511,522,232.0,188.0,579.0
2,Algeria,NORTHERN AFRICA,32930091,2381740,138,4,-39,31,6000.0,700,781,322,25,9653,1,1714,461,101.0,6.0,298.0
3,American Samoa,OCEANIA,57794,199,2904,5829,-2071,927,8000.0,970,2595,10,15,75,2,2246,327,,,
4,Andorra,WESTERN EUROPE,71201,468,1521,0,66,405,19000.0,1000,4972,222,0,9778,3,871,625,,,


# Veri Seti Hakkında Genel Bilgiler

Bu tablo, çeşitli ülkelerle ilgili bir dizi demografik, ekonomik ve coğrafi veriyi içermektedir. Tabloda her bir satır bir ülkeyi temsil ederken, sütunlar bu ülkelerle ilgili farklı özellikleri gösterir. İşte sütunların anlamları:
* **Country:** Ülkenin adı.  
* **Region:** Ülkenin bulunduğu bölge (örneğin, Asya, Doğu Avrupa).
* **Population:** Ülkenin toplam nüfusu.
* **Area (sq. mi.):** Ülkenin yüzölçümü (mil kare olarak).
* **Pop. Density (per sq. mi.):** Nüfus yoğunluğu (mil kare başına düşen kişi sayısı).
* **Coastline (coast/area ratio):** Sahil uzunluğunun, ülkenin toplam alanına oranı.  
* **Net migration:** Net göç oranı (göçmenlerin ülkeye giren veya ülkeden çıkan kişi sayısına göre oranı).  
* **Infant mortality (per 1000 births):** Bebek ölüm oranı (1000 doğum başına).  
* **GDP ($ per capita):** Kişi başına düşen Gayri Safi Yurtiçi Hasıla (GSYİH).  
* **Literacy (%):** Okur-yazarlık oranı.  
* **Phones (per 1000):** Her 1000 kişi başına düşen telefon sayısı.  
* **Arable (%):** Tarıma elverişli arazi yüzdesi.  
* **Crops (%):** Ekilebilir ürünlerin yüzdesi.  
* **Other (%):** Diğer arazi kullanımı yüzdesi.  
* **Climate:** Ülkenin iklim kategorisi (numerik bir değer olarak gösterilmiş).  
* **Birthrate:** Doğum oranı.  
* **Deathrate:** Ölüm oranı.  
* **Agriculture:** Tarım sektörünün ekonomideki payı.  
* **Industry:** Sanayi sektörünün ekonomideki payı.  
* **Service:** Hizmet sektörünün ekonomideki payı.  

In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Country                             227 non-null    object 
 1   Region                              227 non-null    object 
 2   Population                          227 non-null    int64  
 3   Area (sq. mi.)                      227 non-null    int64  
 4   Pop. Density (per sq. mi.)          227 non-null    object 
 5   Coastline (coast/area ratio)        227 non-null    object 
 6   Net migration                       224 non-null    object 
 7   Infant mortality (per 1000 births)  224 non-null    object 
 8   GDP ($ per capita)                  226 non-null    float64
 9   Literacy (%)                        209 non-null    object 
 10  Phones (per 1000)                   223 non-null    object 
 11  Arable (%)                          225 non-n

## Analiz ve Yorumlama

`info()` çıktısını incelediğimizde bu veri setinin üzerinde biraz çalışmamız gerektiğini anlıyoruz. Karşımıza çıkan temel sorunlar şunlar:

1.  **Yanlış Veri Tipleri:** "Population" ve "Area" dışındaki birçok sayısal sütun, metin (`object`) olarak okunmuş. Bunun en bariz nedeni, ondalık ayırıcı olarak nokta (`.`) yerine virgül (`,`) kullanılması. Pandas bu virgülleri gördüğü için sütunları sayısal olarak tanıyamamış.
2.  **Eksik Veriler:** Birçok sütunda `Non-Null Count` değerinin 227'den (toplam satır sayısı) az olduğunu görüyoruz. Bu da bazı hücrelerde veri (`NaN`) olmadığı anlamına geliyor.
3.  **Potansiyel Boşluk Sorunları:** Sütun adlarında veya metin verilerinde (`Country`, `Region`) gözle görülmeyen, başında veya sonunda boşluk karakterleri olabilir. Bu, daha sonra verilere erişirken sorun yaratabilir.

Sıralama ve filtreleme gibi sayısal işlemler yapmadan önce bu sorunları mutlaka çözmemiz gerekiyor.

# Görevler

1. Nüfusa göre azalan sırada ülkeleri listeleyin.
2. GDP per capita sütununa göre ülkeleri artan sırada sıralamak (Kişi başına düşen Gayri Safi Yurtiçi Hasıla).
3. Nüfusu 10 milyonun üzerinde olan ülkeleri seçin (Population sütunu 10 milyonun üzerinde olan ülkeleri seçmek).
4. Literacy (%) sütununa göre ülkeleri sıralayıp, en yüksek okur-yazarlık oranına sahip ilk 5 ülkeyi seçmek (Literacy oranına göre en yüksek ilk 5 ülke).
5. Kişi Başı GSYİH 10.000'in Üzerinde Olan Ülkeleri Filtreleme (GDP per capita > 10.000 olan ülkeleri filtreleyin)
6. Nüfus yoğunluğu en yüksek ilk 10 ülkeyi bulun. (Pop. Density (per sq. mi.) sütununa göre ülkeleri sıralayıp, en yüksek nüfus yoğunluğuna sahip ilk 10 ülkeyi seçmek.)

## Veri Temizleme

In [3]:
data.columns = data.columns.str.strip()
for col in data.select_dtypes(include=['object']).columns:
    data[col] = data[col].str.strip()

columns_to_convert = data.select_dtypes(include=['object']).columns
for col in columns_to_convert:
    if col not in ['Country', 'Region']:
        data[col] = pd.to_numeric(data[col].str.replace(',', '.'), errors='coerce')

numerical_cols = data.select_dtypes(include=np.number).columns
for col in numerical_cols:
    data[col] = data.groupby('Region')[col].transform(lambda x: x.fillna(x.mean()))

data.fillna(data.mean(numeric_only=True), inplace=True)

print("Veri Temizliği Sonrası Sütun Tipleri:")
data.info()

Veri Temizliği Sonrası Sütun Tipleri:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Country                             227 non-null    object 
 1   Region                              227 non-null    object 
 2   Population                          227 non-null    int64  
 3   Area (sq. mi.)                      227 non-null    int64  
 4   Pop. Density (per sq. mi.)          227 non-null    float64
 5   Coastline (coast/area ratio)        227 non-null    float64
 6   Net migration                       227 non-null    float64
 7   Infant mortality (per 1000 births)  227 non-null    float64
 8   GDP ($ per capita)                  227 non-null    float64
 9   Literacy (%)                        227 non-null    float64
 10  Phones (per 1000)                   227 non-null    float64
 11  Arable 

### Analiz ve Yorumlama

Bu bölümde, veri setimizi analiz edilebilir hale getirmek için birkaç önemli temizlik adımı uyguladık:

1.  **Boşlukları Temizledik:** Önce hem sütun adlarındaki hem de metin verilerindeki gereksiz boşlukları `strip()` fonksiyonu ile kaldırdık. Bu, gelecekteki olası hataları önlemek için iyi bir alışkanlıktır.
2.  **Veri Tiplerini Düzelttik:** Sayısal olması gereken ama metin olarak okunan tüm sütunları tek tek elden geçirdik. Her birinde `str.replace(',', '.')` komutuyla ondalık virgüllerini noktalara çevirdik ve ardından `pd.to_numeric` ile sayısal formata dönüştürdük.
3.  **Eksik Verileri Doldurduk:** Boş kalan hücreleri (`NaN`) doldurmak için mantıklı bir yöntem izledik. Bir ülkenin eksik verisini, ait olduğu bölgenin (`Region`) ortalamasıyla doldurduk. Örneğin, bir Avrupa ülkesinin GSYİH (GDP) verisi eksikse, onu diğer Avrupa ülkelerinin ortalama GSYİH değeriyle tamamladık. Bu, rastgele bir sayıyla doldurmaktan çok daha anlamlı bir yaklaşımdır.

Son olarak `info()` çıktısını tekrar kontrol ettiğimizde, artık tüm sayısal sütunların doğru bir şekilde `float64` veya `int64` formatında olduğunu ve hiçbir eksik veri kalmadığını görüyoruz. Verimiz artık görevler için hazır!

## 1. Görev : Nüfusa Göre Azalan Sırada Sıralama

In [4]:
sorted_by_population = data.sort_values(by='Population', ascending=False)
sorted_by_population[['Country', 'Population']].head(10)

Unnamed: 0,Country,Population
42,China,1313973713
94,India,1095351995
214,United States,298444215
95,Indonesia,245452739
27,Brazil,188078227
156,Pakistan,165803560
16,Bangladesh,147365352
169,Russia,142893540
152,Nigeria,131859731
103,Japan,127463611


### Analiz ve Yorumlama

`sort_values()` fonksiyonu ile veri setimizi `Population` sütununa göre büyükten küçüğe (`ascending=False`) sıraladık. Beklendiği gibi, dünyanın en kalabalık ülkeleri olan Çin ve Hindistan listenin başında yer alıyor.

## 2.Görev : GDP per capita sütununa göre ülkeleri artan sırada sıralamak

In [5]:
sorted_by_gdp = data.sort_values(by='GDP ($ per capita)', ascending=True)
sorted_by_gdp[['Country', 'Region', 'GDP ($ per capita)']].head(10)

Unnamed: 0,Country,Region,GDP ($ per capita)
58,East Timor,ASIA (EX. NEAR EAST),500.0
188,Somalia,SUB-SAHARAN AFRICA,500.0
183,Sierra Leone,SUB-SAHARAN AFRICA,500.0
200,Tanzania,SUB-SAHARAN AFRICA,600.0
74,Gaza Strip,NEAR EAST,600.0
33,Burundi,SUB-SAHARAN AFRICA,600.0
125,Malawi,SUB-SAHARAN AFRICA,600.0
0,Afghanistan,ASIA (EX. NEAR EAST),700.0
46,"Congo, Repub. of the",SUB-SAHARAN AFRICA,700.0
45,"Congo, Dem. Rep.",SUB-SAHARAN AFRICA,700.0


### Analiz ve Yorumlama

Bu kez `GDP ($ per capita)` sütununa göre küçükten büyüğe (artan sırada) bir sıralama yaptık. Sonuçlar, kişi başına düşen milli gelirin en düşük olduğu ülkeleri gösteriyor. Bu ülkelerin çoğunlukla "SUB-SAHARAN AFRICA" bölgesinde yoğunlaştığını görmek, bölgenin ekonomik durumu hakkında bir fikir veriyor.

## 3.Görev : Population sütunu 10 milyonun üzerinde olan ülkeleri seçmek

In [6]:
population_over_10m = data[data['Population'] > 10000000]
print(f"Nüfusu 10 milyondan fazla olan ülke sayısı: {len(population_over_10m)}")
population_over_10m[['Country', 'Population']].head()

Nüfusu 10 milyondan fazla olan ülke sayısı: 79


Unnamed: 0,Country,Population
0,Afghanistan,31056997
2,Algeria,32930091
5,Angola,12127071
8,Argentina,39921833
11,Australia,20264082


### Analiz ve Yorumlama

Burada basit bir filtreleme işlemi uyguladık. `Population` sütunundaki değeri 10 milyondan büyük olan satırları (ülkeleri) seçtik. Bu koşulu sağlayan 79 ülke olduğunu ve listenin ilk birkaçını tabloda görüyoruz.

## 4.Görev : En yüksek okur-yazarlık oranına sahip ilk 5 ülkeyi seçmek

In [7]:
top_5_literacy = data.sort_values(by='Literacy (%)', ascending=False).head(5)
top_5_literacy[['Country', 'Literacy (%)']]

Unnamed: 0,Country,Literacy (%)
119,Liechtenstein,100.0
11,Australia,100.0
154,Norway,100.0
121,Luxembourg,100.0
4,Andorra,100.0


### Analiz ve Yorumlama

Okur-yazarlık oranı en yüksek ülkeleri bulmak için önce `Literacy (%)` sütununa göre azalan bir sıralama yaptık, ardından `.head(5)` metoduyla bu listenin en tepesindeki 5 ülkeyi aldık. Sonuçlar, okur-yazarlık oranının %100 olduğu gelişmiş Avrupa ülkelerini gösteriyor.

## 5.Görev : Kişi Başı GSYİH 10.000'in Üzerinde Olan Ülkeleri Filtreleme

In [8]:
gdp_over_10k = data[data['GDP ($ per capita)'] > 10000]
print(f"Kişi başı GSYİH'si 10.000'den yüksek olan ülke sayısı: {len(gdp_over_10k)}")
gdp_over_10k[['Country', 'GDP ($ per capita)']].head()

Kişi başı GSYİH'si 10.000'den yüksek olan ülke sayısı: 76


Unnamed: 0,Country,GDP ($ per capita)
4,Andorra,19000.0
7,Antigua & Barbuda,11000.0
8,Argentina,11200.0
10,Aruba,28000.0
11,Australia,29000.0


### Analiz ve Yorumlama

Bir önceki göreve benzer şekilde, bu sefer `GDP ($ per capita)` sütununda değeri 10.000'den büyük olan ülkeleri filtreledik. Bu, genellikle gelişmiş veya hızla gelişmekte olan ekonomilere sahip 76 ülkenin listesini bize verdi.

## 6.Görev : En Yüksek Nüfus Yoğunluğuna Sahip İlk 10 Ülkeyi Seçme

In [9]:
top_10_density = data.sort_values(by='Pop. Density (per sq. mi.)', ascending=False).head(10)
top_10_density[['Country', 'Pop. Density (per sq. mi.)']]

Unnamed: 0,Country,Pop. Density (per sq. mi.)
138,Monaco,16271.5
122,Macau,16183.0
184,Singapore,6482.2
91,Hong Kong,6355.7
78,Gibraltar,3989.7
74,Gaza Strip,3968.8
129,Malta,1266.5
22,Bermuda,1241.0
127,Maldives,1196.7
15,Bahrain,1050.5


### Analiz ve Yorumlama

`Pop. Density (per sq. mi.)` sütununa göre veriyi büyükten küçüğe sıralayıp listenin başındaki 10 ülkeyi seçtik. Sonuçlar oldukça ilginç: Listenin tamamı, yüzölçümü çok küçük olan şehir devletleri veya adacıklardan (Makao, Monako, Hong Kong, Singapur gibi) oluşuyor. Bu durum, bu yerlerde dar bir alanda çok sayıda insanın yaşamasının nüfus yoğunluğunu ne kadar artırdığını açıkça gösteriyor.