**Bu ödevde, veri seti üzerinde detaylı bir inceleme yapmanız bekleniyor.
Öncelikle verilen veri setini dikkatle inceleyerek columnların ne ifade ettiğini kendi ifadeleriniz ile açıklayın. 
Veri setleri her zaman detaylı açıklamalar ile gelmeyebilir, bu durumlarda sorumluluk almalı ve veriyi yorumlama becerisine sahip olmalısınız.
Bu nedenle description kısmı boş olarak gelen feature'lar için de tahminde bulunmanızı bekliyorum.**

Örneğin: 
    
- age(integer) -> tabloda yer alan kişilerin yaş bilgisi
- workclass(..) -> ...


Veri bu notebook üzerinde import edilmiş halde bulunuyor. csv dosyasını DataFrame içerisine okuduktan sonra üzerinde gerekli gördüğünüz çalışmaları yapabilirsiniz. 

Aşağıdaki sorulara cevap bulmanızı bekliyorum. 

> İncelemek için, Data Source : [Here](https://archive.ics.uci.edu/dataset/2/adult)

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('/kaggle/input/adultdata/adult.data.csv')
df.head()

> ----------------------------------------------------------------------------------------------------------------

## Beginner Level Questions

**Veri kümesinde kaç birey bulunmaktadır?**

In [None]:
df.shape[0]

**Bireylerin yaş dağılımı nedir?**

In [None]:
import seaborn as sns

sns.displot(df['age'] , kind= 'kde')

#Bireyler 30-40 yaş aralığında yoğun.
#80 yaş üst kişiler de vardır.

**Hangi çalışma sınıfında en fazla birey bulunmaktadır?**

In [None]:
df['workclass'].value_counts().index[0]

**50K'nın üzerinde maaş alan kaç birey vardır?**

In [None]:
df['salary'].value_counts()['>50K']

**50K'nın üzerinde ve altında maaş alan bireylerin ortalama yaşı nedir?**

In [None]:
df.head()

In [None]:
üst50 = df[df['salary'] == '>50K']
alt50 = df[df['salary'] == '<=50K']

print(f"50K'dan fazla kazananların yaş ortalaması : {üst50['age'].mean()}")
print(f"50K'dan az kazananların yaş ortalaması : {alt50['age'].mean()}")

**Bireyler tarafından elde edilen en yaygın eğitim seviyesi nedir?**

In [None]:
df['education'].value_counts().index[0]

**Haftada 40 saatten fazla çalışan kaç birey vardır?**

In [None]:
# len(df[df['hours-per-week'] > 40])

df[df['hours-per-week'] > 40].shape[0]

**Her cinsiyetten kaç birey bulunmaktadır?**

In [None]:
df['sex'].value_counts()

**Kadınların yaş ortalaması nedir?**

In [None]:
df.head()

In [None]:
df[df['sex'] == 'Female']['age'].mean()

**Alman vatandaşlarının yüzdesi nedir?**

In [None]:
df['native-country'].value_counts()['Germany'] / df.shape[0]

In [None]:
df['native-country'].value_counts(normalize = True)['Germany']

**Yıllık 50 binden fazla kazanan insanların yaşlarının ortalaması ve standart sapması nedir?**

In [None]:
print(df[df['salary'] == '>50K']['age'].mean())
df[df['salary'] == '>50K']['age'].std()

#aggregate ile tek satırda yapılablir.

**50 binden fazla kazananlar en az lise eğitimi almıştır diyebilir miyiz?**
> (education feature seti içerisinde Bachelors, Prof-school, Assoc-acdm, Assoc-voc, Masters ve Doctorate özelliğine sahip olanlar)

In [None]:
df.head()
#Hayır, çünkü 50binden fazla kazanan lise ve ortaokul mezunu insanlar da var.

In [None]:
üst50['education'].value_counts(normalize = True) # %94 civarı inanılmaz eğitimli

In [None]:
alt50['education'].value_counts(normalize = True) # %79 üst düzey eğitimli.

**Amer-Indian-Eskimo ırkındaki erkeklerin maksimum yaşını bulun.**

In [None]:
df.head()

In [None]:
df[(df['race'] == 'Amer-Indian-Eskimo') & (df['sex'] == 'Male')]['age'].max()

**50 binden fazla kazanan erkeklerin evli/bekar olma oranı nedir?**
> Married ifadesi ile başlayan feature'ları evli, kalanları ise bekar olarak kabul edin.



In [None]:
üst50erkek = üst50[üst50['sex'] == 'Male']
üst50erkek

In [None]:
üst50erkek['marital-status'].unique()

In [None]:
üst50erkek['marital-status'].value_counts()

In [None]:
üst50erkek[üst50erkek['marital-status'].isin(['Married-civ-spouse' , 'Married-spouse-absent' , 'Married-AF-spouse' ])].shape[0] # Evlilerin sayısı

üst50erkek[üst50erkek['marital-status'].isin(['Never-married' , 'Divorced' , 'Separated' , 'Widowed' ])].shape[0] # Bekarların sayısı

üst50erkek[üst50erkek['marital-status'].isin(['Married-civ-spouse' , 'Married-spouse-absent' , 'Married-AF-spouse' ])].shape[0] / üst50erkek[üst50erkek['marital-status'].isin(['Never-married' , 'Divorced' , 'Separated' , 'Widowed' ])].shape[0]

**Bir kişinin haftada maksimum kaç saat çalıştığını bulun. Kaç kişi bu kadar saat çalışıyor ve bunlar arasında çok kazananların oranı nedir?**

In [None]:
df.head()

In [None]:
df['hours-per-week'].max()

In [None]:
df[df['hours-per-week'] == df['hours-per-week'].max()].shape[0]

In [None]:
cokcalisan = df[df['hours-per-week'] == df['hours-per-week'].max()]
cokcalisan

In [None]:
cokcalisan['salary'].value_counts(normalize= True)

**Her ülke için az ve çok kazananların ortalama çalışma süresini hesaplayın.** (crosstab kullanabilirsiniz)

In [None]:
df.head()

In [None]:
df.groupby(['native-country' , 'salary'])['hours-per-week'].mean() # Bu alttakinden daha hızlı.

In [None]:
df.groupby(['native-country' , 'salary']).mean(numeric_only = True)['hours-per-week']

## Intermediate Level Questions

**Farklı çalışma sınıfı(workclass) kategorileri arasında eğitim yılı (education-num) ortalaması nedir?**

In [None]:
df.groupby('workclass')['education-num'].mean(numeric_only = True)

**Hangi meslek en yüksek ortalama maaşa sahiptir?**

In [None]:
df[df["salary"] == ">50K"]["workclass"].value_counts().index[0]

**Cinsiyete göre haftalık çalışma saatleri arasında önemli farklar var mı?**

In [None]:
df.groupby("sex")["hours-per-week"].describe()

#Evet erkeklerin çalışma saati aritmetik ortalaması ve çeyreklik değerleri daha yüksektir.

**Maaşları 50K'nın üzerinde ve altında olanlar için medeni durum dağılımı nasıl değişiyor?**

In [None]:
df.groupby("salary")["marital-status"].value_counts()

# 50K altı grupta en çok evlenmemiş var, 50K üstü grupta en çok Married-civ-spouse
# İkinci sıralarda ise sırasıyla Married-civ-spouse ve Never-married var. 
# Married grupta 50K üstü oranı daha çok, 
# Never-married ve divorced grupta ise 50K oranı daha çok. Diğer gruplarda da benzer görünüm var.

**Her ilişki türü için ortalama yaş nedir?**

In [None]:
df.groupby("relationship")["age"].mean().sort_values()

**Hangi ülkede en yüksek ortalama sermaye kazancı(capital gain) vardır?**

In [None]:
df.groupby("native-country")["capital-gain"].mean().sort_values(ascending = False).index[0]

**Doktora seviyesinde eğitime sahip bireyler arasında ırk dağılımı nasıl değişir?**

In [None]:
df[df["education"] == "Doctorate"]["race"].value_counts()

**Asla çalışmamış (workclass: Never-worked) bireylerin farklı eğitim seviyeleri arasındaki oranı nedir?**

In [None]:
df[df["workclass"] == "Never-worked"]["education"].value_counts(normalize = True)

## Upper-intermediate Level Questions

**Erkekler ve kadınlar arasında sermaye kazancı ve sermaye kaybı ortalamasını karşılaştırın.**

In [None]:
df.groupby(['sex'])["capital-loss"].mean(numeric_only = True)

# Kadınların sermaye kaybı erkeklerin kaybından %40 daha azdır

In [None]:
df.groupby(['sex'])["capital-gain"].mean(numeric_only = True)

# Kadınların sermaye kazancı erkeklerin kazancından %42 daha azdır

**Her ırk için yaş dağılımı nedir?**

In [None]:
df.groupby(["race"])["age"].apply(sns.displot, kind = "kde", rug= True)
df.groupby(["race"])["age"].sort_values().describe()


**Eğitim seviyelerine göre çalışma saatlerinin dağılımı nasıldır?**

In [None]:
df.groupby(["education"])["hours-per-week"].apply(sns.displot, kind = "kde")
df.groupby(["education"])["hours-per-week"].mean().sort_values()

# Çuğnlukla 40 merkezli normal dağılım gösterse de, 20 dolaylarında (part time) bir yoğunluk da vardır
# Bachelors, doctorate ve masters eğitim seviyesinde bu yoğunluk 50 dolaylarında gözükür.

**Her medeni durum için en yaygın meslek nedir?**

In [None]:
df.groupby(["marital-status"])["occupation"].apply(lambda x: x.value_counts().index[0])

**50K'nın altında maaş alanlar arasında en yaygın ilişki durumu nedir?**

In [None]:
alt50["relationship"].value_counts().index[0]

**Hangi ülke, workclass = Self-emp-inc olarak en yüksek orana sahiptir?**

In [None]:
# Kendim ulaşmaya çalışırken, oranları ayrık olarak çekerken zorlandım.
# df[df["workclass"] == "Self-emp-inc"]["native-country"] / df[df["workclass"]]["native-country"]
# Aşağıdaki çözümü bizim grupta Rana'dan kopyaladım. Ulaşmaya çalıştığım çözüm benzerdi.
# Ancak filtrelerken oranları doğru korumak konusunda kafam karıştı

df[df['workclass'] == 'Self-emp-inc']['native-country'].value_counts(normalize=True).idxmax()

**Yönetici(Exec-managerial) rolündeki bireyler daha yüksek sermaye kazançlarına sahip olma olasılığında daha mıdır?**

In [None]:

df.groupby("occupation")["capital-gain"].mean().sort_values(ascending = False)

# Genel olarak ortalama sermaye kazançları yüksek olduğu için evet ancak en yüksek olan Prof-specialty