### 타이타닉 예제

In [53]:
import pandas as pd
import numpy as np
import seaborn as sns

In [55]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
# 각 cloumn 번호와 Column, 각 열의 Not-null Count, DataType을 확인할 수 있다.
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


### #1 문제
타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

In [8]:
#info에서 나온 Not-null Count만 추출
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### #2 문제 
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 다음을 구하라
- 성별(sex) 인원수
- 나이별(age) 인원수
- 선실별(class) 인원수
- 사망/생존(alive) 인원수


In [11]:
# 성별 인원수
sex_counts = titanic['sex'].value_counts().sort_index()
print(sex_counts)

sex
female    314
male      577
Name: count, dtype: int64


In [59]:
# 나이별 인원수
age_counts = titanic['age'].value_counts(dropna=True).sort_index()
print(age_counts)

# dropna=True (기본값) : 결측치(NaN)를 제외하고, NaN이 아닌 값들만 개수를 계산
# dropna=False: 결측치(NaN)도 하나의 값으로 간주하여 결측치의 개수도 포함하여 계산합니다.

age
0.42     1
0.67     1
0.75     2
0.83     2
0.92     1
        ..
70.00    2
70.50    1
71.00    2
74.00    1
80.00    1
Name: count, Length: 88, dtype: int64


In [17]:
# 선실별 인원수
class_counts = titanic['class'].value_counts().sort_index()
print(class_counts)

class
First     216
Second    184
Third     491
Name: count, dtype: int64


In [19]:
# 사망/생존여부
alive_counts = titanic['alive'].value_counts().sort_index()
print(alive_counts)

alive
no     549
yes    342
Name: count, dtype: int64


### #3 문제
1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [34]:
# 타이타닉호 승객의 평균 나이를 구하라
average_age = round(titanic['age'].mean(), 2) #소수점 둘째짜리만 유지
print(average_age)

29.7


In [63]:
titanic['age'].mean()

29.69911764705882

In [44]:
female = titanic[titanic["sex"]== "female"]
avg_age_female = round(female['age'].mean(),2)
print(avg_age_female)

27.92


In [61]:
titanic.loc[titanic.sex == 'female']['age'].mean()

27.915708812260537

In [48]:
class_f = female[female['class'] == "First"]
avg_age_class= round(class_f['age'].mean(),2)
print(avg_age_class)

34.61


In [None]:
titanic.loc[(titanic['class'] == 'First') & (titanic.sex == 'female')]['age'].mean()

In [30]:
# 타이타닉 데이터 프레임에 "adult/child"라는 열의 값을 (없다면 새로 만들고) 바꾼다

# 행단위 연산을 위해 axis = 1 로 설정
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)

# r.age : 각 행의 'age'열의 값
# 20이상이면 "adult", 아니면 "child"를 추가한다

titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


### #4 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [65]:
titanic['category1'] = titanic.apply(lambda x: x.sex if x.age >= 20 else 'child', axis=1)
titanic.head(20)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,male
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,male
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,child
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,female
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child


### #5 문제
타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [69]:
age_mean = titanic.age.mean().round(0)
titanic['age'] = titanic.apply(lambda x: age_mean if pd.isna(x.age) else x.age, axis=1).astype('i')
titanic.tail(30)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
861,0,2,male,21,1,0,11.5,S,Second,man,True,,Southampton,no,False,male
862,1,1,female,48,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True,female
863,0,3,female,30,8,2,69.55,S,Third,woman,False,,Southampton,no,False,child
864,0,2,male,24,0,0,13.0,S,Second,man,True,,Southampton,no,True,male
865,1,2,female,42,0,0,13.0,S,Second,woman,False,,Southampton,yes,True,female
866,1,2,female,27,1,0,13.8583,C,Second,woman,False,,Cherbourg,yes,False,female
867,0,1,male,31,0,0,50.4958,S,First,man,True,A,Southampton,no,True,male
868,0,3,male,30,0,0,9.5,S,Third,man,True,,Southampton,no,True,child
869,1,3,male,4,1,1,11.1333,S,Third,child,False,,Southampton,yes,False,child
870,0,3,male,26,0,0,7.8958,S,Third,man,True,,Southampton,no,True,male


### #6 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라. category2 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 male 또는 female로 시작한다.

2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.

3. 예를 들어 27살 남성은 male27 값이 된다.

In [71]:
titanic['category2'] = titanic.sex+titanic.age.astype(str)
titanic.head(30)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2
0,0,3,male,22,1,0,7.25,S,Third,man,True,,Southampton,no,False,male,male22
1,1,1,female,38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38
2,1,3,female,26,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,female,female26
3,1,1,female,35,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,female,female35
4,0,3,male,35,0,0,8.05,S,Third,man,True,,Southampton,no,True,male,male35
5,0,3,male,30,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,male30
6,0,1,male,54,0,0,51.8625,S,First,man,True,E,Southampton,no,True,male,male54
7,0,3,male,2,3,1,21.075,S,Third,child,False,,Southampton,no,False,child,male2
8,1,3,female,27,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,female,female27
9,1,2,female,14,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child,female14


### #7 문제
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.

In [73]:
bins = [1, 20, 30, 50, 70, 100]
labels = ['미성년자', '청년', '중년', '장년', '노년']

cats = pd.cut(titanic.age, bins, labels=labels)
cats

0        청년
1        중년
2        청년
3        중년
4        중년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      중년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [75]:
titanic["연령대"] = pd.cut(titanic.age, bins, labels=labels)
counts = titanic["연령대"].value_counts()
counts

연령대
청년      408
중년      239
미성년자    166
장년       60
노년        4
Name: count, dtype: int64

In [77]:
titanic_counts = pd.DataFrame(counts)
titanic_counts["비율"] = titanic_counts["count"] / titanic_counts['count'].sum()
titanic_counts

Unnamed: 0_level_0,count,비율
연령대,Unnamed: 1_level_1,Unnamed: 2_level_1
청년,408,0.465222
중년,239,0.27252
미성년자,166,0.189282
장년,60,0.068415
노년,4,0.004561


### #8 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 “미성년자”라고 한다.

2. 20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.

In [81]:
titanic.category3=np.nan
ta=pd.cut(titanic.age,bins,labels=labels)
ta.value_counts()
titanic['taaa']=ta
titanic['category3']=titanic.apply(lambda x:'미성년자'if x.age<20
else'%s%s'%(x.taaa,x.sex),axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2,연령대,taaa,category3
0,0,3,male,22,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male,male22,청년,청년,청년male
1,1,1,female,38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38,중년,중년,중년female
2,1,3,female,26,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female,female26,청년,청년,청년female
3,1,1,female,35,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female,female35,중년,중년,중년female
4,0,3,male,35,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male,male35,중년,중년,중년male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male,male27,청년,청년,청년male
887,1,1,female,19,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female19,미성년자,미성년자,미성년자
888,0,3,female,30,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female30,청년,청년,청년female
889,1,1,male,26,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male,male26,청년,청년,청년male
