In [2]:
import pandas as pd
import numpy as np
import seaborn as sns

## 1. indexing

In [5]:
df1=pd.DataFrame(np.random.randn(5,5),columns=['c1','c2','c3','c4','c5'],index=['r1','r2','r3','r4','r5'])
df1

Unnamed: 0,c1,c2,c3,c4,c5
r1,0.641124,-1.638416,1.222039,-0.444966,-0.644568
r2,0.952898,-0.728303,-0.325647,-0.571307,1.268865
r3,1.941229,1.224175,-0.756512,1.266883,-1.403864
r4,0.08577,-0.880055,-0.798311,0.485867,2.516625
r5,0.151874,1.317664,-1.91762,1.688668,0.036666


In [6]:
df1.loc['r1','c1']

0.6411238473722976

In [7]:
df1.loc[:'r3',['c2','c4']]

Unnamed: 0,c2,c4
r1,-1.638416,-0.444966
r2,-0.728303,-0.571307
r3,1.224175,1.266883


In [8]:
df1.iloc[4,4]

0.036665963359708065

In [9]:
df1.iloc[:-2,2:4]

Unnamed: 0,c3,c4
r1,1.222039,-0.444966
r2,-0.325647,-0.571307
r3,-0.756512,1.266883


In [10]:
df1.iloc[::2,:3]

Unnamed: 0,c1,c2,c3
r1,0.641124,-1.638416,1.222039
r3,1.941229,1.224175,-0.756512
r5,0.151874,1.317664,-1.91762


## 2. 타이타닉 데이터

#### 2-1 타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다. 
#### 결측값의 개수를 파악해본다

In [12]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [15]:
titanic=sns.load_dataset("titanic")
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [25]:
titanic.shape[0]-titanic.count()
#or 
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

#### 2-2
####  성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [27]:
titanic['sex'].value_counts()


male      577
female    314
Name: sex, dtype: int64

In [28]:
titanic['age'].value_counts()


24.00    30
22.00    27
18.00    26
28.00    25
19.00    25
         ..
55.50     1
74.00     1
0.92      1
70.50     1
12.00     1
Name: age, Length: 88, dtype: int64

In [29]:
titanic['class'].value_counts()


Third     491
First     216
Second    184
Name: class, dtype: int64

In [30]:
titanic['alive'].value_counts()

no     549
yes    342
Name: alive, dtype: int64

#### 2-3
#### 타이타닉호 승객의 평균 나이를 구하라.
#### 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
#### 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [33]:
titanic.age.mean()
titanic.age[titanic['sex']=='female'].mean()
titanic.age[titanic['sex']=='female'][titanic['class']=='First'].mean()

29.69911764705882

In [34]:
titanic['age'].mean()


29.69911764705882

In [36]:
titanic.age[titanic.sex=='female'].mean()


27.915708812260537

In [38]:
titanic.age[titanic.pclass==1].mean()

38.233440860215055

#### 2-4
나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.
20살이 넘으면 성별을 그대로 사용한다.
20살 미만이면 성별에 관계없이 “child”라고 한다.

In [None]:
titanic['category1']=np.where(titanic['age']>20,titanic['sex'],'child')
titanic

#### 2-5
#### 타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [None]:
titanic['age']=np.where(pd.notnull(titanic['age']),titanic['age'],titanic.age.mean())
titanic.shape[0]-titanic.count()

#or
mean_age= np.round(t.age.mean(),2)
titanic.age=titanic.age.fillna(mean_age)
titanic.age

#### 2-6
나이와 성별에 의한 카테고리 열인 category2 열을 만들어라. category2 카테고리는 다음과 같이 정의된다.
성별을 나타내는 문자열 male 또는 female로 시작한다.
성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
예를 들어 27살 남성은 male27 값이 된다.

In [41]:
titanic['category2']=titanic['sex']+titanic['age'].astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female19.0
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,femalenan
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male,male26.0


#### 2-8
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.



In [51]:
bins=[1,20,30,50,70,100]
lb=["미성년자","청년","중년","장년","노년"]
agecuts=pd.cut(titanic.age,bins,labels=lb)
agecuts

0        청년
1        중년
2        청년
3        중년
4        중년
       ... 
886      청년
887    미성년자
888     NaN
889      청년
890      중년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [52]:
agecnt=agecuts.groupby(agecuts).size()
agecnt


age
미성년자    165
청년      230
중년      241
장년       59
노년        5
Name: age, dtype: int64

In [53]:
ageper=round(agecnt/len(agecuts.dropna()),2)
ageper

age
미성년자    0.24
청년      0.33
중년      0.34
장년      0.08
노년      0.01
Name: age, dtype: float64

In [None]:
#or
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]  
t['cats'] = pd.cut(t.age, bins, labels=labels)
cats2=t.groupby(cats).size()
cats2/t.age.count()

### 2-9
나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.
20살 미만이면 성별에 관계없이 “미성년자”라고 한다.
20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.

(891, 17)

In [54]:
category3=[]
for i in range(titanic.shape[0]):
    if titanic['age'][i]<20:
        res='미성년자'
    elif titanic['sex'][i]=='male':
        res=agecuts[i]+'남성'
    else:
        res=agecuts[i]+'여성'
    category3.append(res)

titanic['category3']=category3
titanic

TypeError: unsupported operand type(s) for +: 'float' and 'str'

## 3. 다중인덱스

### 3-1
A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.
“반”, “번호”, “국어”, “영어”, “수학” 을 열로 가지는 데이터프레임 df_score3을 만든다.

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

In [55]:
np.random.seed(325)
df_score3=pd.DataFrame(np.vstack([['A']*5+['B']*5,
                                 list(range(1,6))*2,
                                 (np.random.rand(3,10)*100).astype(int)]).T,
                      columns=['반','번호','국어','영어','수학'])
df_score3

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,92,40,57
1,A,2,98,55,91
2,A,3,43,22,67
3,A,4,68,95,60
4,A,5,69,16,51
5,B,1,76,92,90
6,B,2,79,70,61
7,B,3,79,37,88
8,B,4,77,86,99
9,B,5,48,54,92


### 3-2
df_score3을 변형하여 1차 행 인덱스로 “반”을 2차 행 인덱스로 “번호”을 가지는 데이터프레임 df_score4을 만든다.
데이터 프레임 df_score4에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

In [59]:
df_score4=df_score3.set_index(['반','번호']).astype(int)
df_score4


Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,92,40,57
A,2,98,55,91
A,3,43,22,67
A,4,68,95,60
A,5,69,16,51
B,1,76,92,90
B,2,79,70,61
B,3,79,37,88
B,4,77,86,99
B,5,48,54,92


In [60]:
df_score4['평균']=np.round(df_score4.mean(axis=1),2)
df_score4

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,92,40,57,63.0
A,2,98,55,91,81.33
A,3,43,22,67,44.0
A,4,68,95,60,74.33
A,5,69,16,51,45.33
B,1,76,92,90,86.0
B,2,79,70,61,70.0
B,3,79,37,88,68.0
B,4,77,86,99,87.33
B,5,48,54,92,64.67


### 3-3
df_score3을 변형하여 행 인덱스로 “번호”를, 1차 열 인덱스로 “국어”, “영어”, “수학”을,
2차 열 인덱스로 “반”을 가지는 데이터프레임 df_score5을 만든다.
데이터 프레임 df_score5에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.

In [63]:
df_score5=df_score3.set_index(['반','번호']).unstack(0).astype(int)
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,92,76,40,92,57,90
2,98,79,55,70,91,61
3,43,79,22,37,67,88
4,68,77,95,86,60,99
5,69,48,16,54,51,92


In [64]:
df_score5.loc['평균',:]=df_score5.mean()
df_score5

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,92.0,76.0,40.0,92.0,57.0,90.0
2,98.0,79.0,55.0,70.0,91.0,61.0
3,43.0,79.0,22.0,37.0,67.0,88.0
4,68.0,77.0,95.0,86.0,60.0,99.0
5,69.0,48.0,16.0,54.0,51.0,92.0
평균,74.0,71.8,45.6,67.8,65.2,86.0
