### 데이터프레임의 데이터 조작

In [1]:
import numpy as np
import pandas as pd

- 데이터 갯수 세기

In [2]:
s = pd.Series(range(10))
s[3] = np.nan
s   # NaN = 실수 = float64

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [3]:
s.count()    # 데이터의 수 , NaN은 포함 안됨

9

In [6]:
np.random.seed(2021)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,4.0,1.0,0.0,4.0
1,3.0,0.0,4.0,1.0
2,1.0,1.0,4.0,
3,2.0,0.0,3.0,1.0


In [7]:
df.count()  # 데이터의 수 : 데이터에서 값이 누락된 부분을 찾을 때 유용

0    4
1    4
2    4
3    3
dtype: int64

In [10]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [11]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

- 카테고리 값 세기

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있음

In [12]:
titanic.survived.value_counts()

0    549
1    342
Name: survived, dtype: int64

In [13]:
titanic['sex'].value_counts()

male      577
female    314
Name: sex, dtype: int64

- 정렬

In [14]:
df

Unnamed: 0,0,1,2,3
0,4.0,1.0,0.0,4.0
1,3.0,0.0,4.0,1.0
2,1.0,1.0,4.0,
3,2.0,0.0,3.0,1.0


In [16]:
df[0].sort_values()   # 데이터 값을 기준으로 정렬

2    1.0
3    2.0
1    3.0
0    4.0
Name: 0, dtype: float64

In [17]:
df[0].sort_values(ascending=False)   # 내림차순

0    4.0
1    3.0
3    2.0
2    1.0
Name: 0, dtype: float64

In [18]:
df[3].sort_values()  # NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 감

1    1.0
3    1.0
0    4.0
2    NaN
Name: 3, dtype: float64

In [19]:
df.sort_values(by=0)   # by 인수로 정렬 기준이 되는 열을 지정

Unnamed: 0,0,1,2,3
2,1.0,1.0,4.0,
3,2.0,0.0,3.0,1.0
1,3.0,0.0,4.0,1.0
0,4.0,1.0,0.0,4.0


In [21]:
titanic.embarked.value_counts()

S    644
C    168
Q     77
Name: embarked, dtype: int64

In [22]:
titanic.embarked.value_counts().sort_index()   # 인덱스 값을 기준으로 정렬

C    168
Q     77
S    644
Name: embarked, dtype: int64

- 행/열 합계/평균

In [23]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [25]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [26]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [27]:
df2.sum()   # 열 합계를 구할 때 axis인수 생략 가능

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [28]:
df2.mean()

0          6.00
1          8.25
2          6.25
3          6.00
4          3.75
5          2.50
6          1.25
7          4.00
RowSum    38.00
dtype: float64

In [29]:
df2.std()

0         2.160247
1         0.957427
2         2.986079
3         2.160247
4         4.112988
5         3.109126
6         1.892969
7         2.943920
RowSum    4.082483
dtype: float64

In [30]:
df2.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
count,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
mean,6.0,8.25,6.25,6.0,3.75,2.5,1.25,4.0,38.0
std,2.160247,0.957427,2.986079,2.160247,4.112988,3.109126,1.892969,2.94392,4.082483
min,4.0,7.0,2.0,4.0,0.0,0.0,0.0,1.0,34.0
25%,4.75,7.75,5.75,4.75,0.75,0.75,0.0,1.75,34.75
50%,5.5,8.5,7.0,5.5,3.0,1.5,0.5,4.0,38.0
75%,6.75,9.0,7.5,6.75,6.0,3.25,1.75,6.25,41.25
max,9.0,9.0,9.0,9.0,9.0,7.0,4.0,7.0,42.0


- apply 변환 : 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용 

In [31]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [33]:
df3.apply(lambda x: x.max() - x.min())  # 각 열의 최대값과 최소값의 차이

A    3
B    2
C    4
dtype: int64

In [34]:
df3.apply(lambda x: x.max() - x.min(), axis=1)   # 행에 대해 적용하고 싶으면 axis=1 인수 사용

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [35]:
# 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들기 / NaN은 child
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


- fillna 메서드 : NaN 값을 원하는 값으로 바꾸기

NaN은 최빈값, 평균값, 중앙값으로 바꾸거나 삭제

In [37]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [38]:
df3.apply(pd.value_counts).fillna(0.0)   # NaN을 0.0로 바꾸기

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


- astype 메서드

In [39]:
df3.apply(pd.value_counts).fillna(0).astype(int)   # 정수로 바꾸기

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


- 실수 값을 카테고리 값으로 변환

cut: 실수 값의 경계선을 지정하는 경우

qcut: 갯수가 똑같은 구간으로 나누는 경우

In [41]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [42]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats   # 영역을 넘는 값은 NaN으로 처리

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [46]:
cats[8]    # 경계에 걸리면 왼쪽으로로

'미성년자'

In [47]:
type(cats)   # Categorical :  범주형

pandas.core.arrays.categorical.Categorical

In [48]:
data = np.random.randn(1000)   # randn : 표준 정규 분포 범위ata = np.random.randn(1000)   # randn : 표준 정규 분포 범위
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])   # 1000개의 데이터를 4개의 구간으로 나누기
cat

['Q2', 'Q1', 'Q2', 'Q3', 'Q1', ..., 'Q1', 'Q1', 'Q4', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [49]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64