# 데이터프레임의 데이터 조작

Pandas는 NumPy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

## 데이터 갯수 세기

가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다. `count` 메서드를 사용한다. NaN 값은 세지 않는다.

In [None]:
import numpy as np
import pandas as pd
s = pd.Series(range(10))
s[3] = np.nan  # nan : Not a Number
s

In [None]:
s.count()   # 숫자의 개수

In [None]:
np.sum(s), s.sum(), sum(s)  # 파이썬 sum함수는 np.NaN을 처리하지 못함

In [None]:
np.mean(s)   # N - 1로 나눈 평균

In [None]:
np.sum(s) / len(s)

데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [None]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df 

In [None]:
df.count()

### 타이타닉호 데이터
다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

In [None]:
# !pip install seaborn

In [None]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic

---

#### 연습 문제 4.4.1

다음 명령으로 타이타닉호 승객 데이터를 데이터프레임으로 읽어온다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

```python
    import seaborn as sns
    titanic = sns.load_dataset("titanic")
```

타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

In [None]:
titanic.count()

## 카테고리 값 세기

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [None]:
np.random.randint(1, 7, size=100)   # 주사위 100번 시뮬레이션

In [None]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(1, 7, size=100))
s2  # pandas Series

numpy는 `value_counts()` 메서드로 각 값의 빈도를 측정할 수 있다.

In [None]:
s2.value_counts()

데이터프레임에는 `value_counts` 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [None]:
df

In [None]:
df[0].value_counts()

## 정렬

데이터를 정렬하려면 `sort_index`와 `sort_values` 메서드를 사용한다. `sort_index`는 인덱스 값을 기준으로, `sort_values`는 데이터 값을 기준으로 정렬한다.

앞에서 `s2` 시리즈의 각 데이터 값에 따른 데이터 갯수를 보기좋게 정렬하려면 다음처럼 `sort_index`를 적용한다.

In [None]:
s2   # pandas Series

In [None]:
s2.value_counts()   # count의 내림차순

In [None]:
s2.value_counts().sort_index()  # index의 오름차순

NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 간다.

In [None]:
s

In [None]:
s.sort_values()  # values의 오름차순

큰 수에서 작은 수로 반대 방향 정렬하려면 `ascending=False` 인수를 지정한다.

In [None]:
s.sort_values(ascending=False)   # reverse=True는 쓸 수 없음

In [None]:
s.sort_index(ascending=False)

In [None]:
s.argsort()   # 3은 -1 즉 NaN 

데이터프레임에서 `sort_values` 메서드를 사용하려면 `by` 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [None]:
df.sort_values(by=1)   #  1번 열 기준으로 오름차순 정렬

`by` 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [None]:
df.sort_values(by=[1, 2])  # 1번열 이후 2번열 의 오름차순으로 정렬

#### 연습 문제 4.4.2

타이타닉호 승객중 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

* 성별(sex) 인원수

In [None]:
# 성별 인원수
titanic.sex.value_counts()

- 나이별(age) 인원수

In [None]:
titanic["age"].value_counts()
# titanic.age.value_counts()

- 선실별(class) 인원수

In [None]:
titanic["class"].value_counts()
# titanic.class.value_counts()  # class 는 예약어로... ".class"와 같은 방식으로는 인덱싱 불가

 - 사망/생존(alive) 인원수

In [None]:
titanic["alive"].value_counts()

In [None]:
titanic.alive.value_counts()

## 행/열 합계

행과 열의 합계를 구할 때는 `sum(axis)` 메서드를 사용한다.

In [None]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

행 합계를 구할 때는 `sum(axis=1)` 메서드를 사용한다.

In [None]:
df2.sum(axis=1)  # 행 합계 = 열 추가 (열벡터가 판다스 시리즈 형태로 생김)

In [None]:
type(df2.sum(axis=1))

In [None]:
df2["RowSum"] = df2.sum(axis=1)
df2

열 합계를 구할 때는 `sum(axis=0)` 메서드를 사용하는데 `axis`인수의 디폴트 값이 0이므로 `axis`인수를 생략할 수 있다.

In [None]:
df2.sum()
# df2.sum(axis=0)

In [None]:
df2.loc["ColTotal"] = df2.sum()
# df2.loc["ColTotal", :] = df2.sum()
df2

---
`mean` 메서드는 평균을 구하며 `sum` 메서드와 사용법이 같다.

#### 연습 문제 4.4.3

1. 타이타닉호 승객의 평균 나이를 구하라.

In [None]:
titanic["age"].mean()

In [None]:
round(titanic["age"].mean(),0)

2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.

In [None]:
titanic["age"][titanic["sex"] == "female"].count()

In [None]:
titanic["age"][titanic["sex"] == "female"].mean()

3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
titanic[(titanic["class"] == "First") & (titanic["sex"] == "female")]

In [None]:
titanic[(titanic["class"] == "First") & (titanic["sex"] == "female")]["age"]

In [None]:
titanic[(titanic["class"] == "First") & (titanic["sex"] == "female")]["age"].mean()

---

## `apply` 변환

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 `apply` 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 `apply` 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다. 

In [None]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

예를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.

In [None]:
df3.max(), df3.min()

In [None]:
df3.apply(lambda x: x.max() - x.min())   # df3.max() - df3.min() 의 결과를 return

In [None]:
df3.max() - df3.min()  # 위와 같음

만약 행에 대해 적용하고 싶으면 `axis=1` 인수를 쓴다.

In [None]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

In [None]:
df3.max(axis=1) - df3.min(axis=1)  # 위와 같음

In [None]:
## 참고
df3.max(axis=1), df3.min(axis=1)

각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 `value_counts` 함수를 넣을 수도 있다.

In [None]:
df3

In [None]:
df3.apply(pd.value_counts)  # A열에는 1이 1번, 2는 x, 3은 2번, 4는 2번, 5는 x 사용됨

In [None]:
### 참고... sort_index()를 해서 index순서대로 정렬함
df3.A.value_counts().sort_index(), df3.B.value_counts().sort_index(), df3.C.value_counts().sort_index()

---

다음과 같이 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들 수 있다.

In [None]:
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

---

####  연습 문제 4.4.4

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라. `category1` 카테고리는 다음과 같이 정의된다.

1. 20살 이상이면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 "child"라고 한다.


In [None]:
titanic["category1"] = titanic.apply(lambda x: "child" if x.age < 20 else x.sex, axis=1)
titanic

---

In [None]:
titanic.age.isna().value_counts()   # NaN이 177개 (나이정보 없음)

In [None]:
## 평균나이
titanic.age.mean(), round(titanic.age.mean(),0)

In [None]:
a = 12.12345
round(a, 0)

In [None]:
titanic['age'].isna()

In [None]:
titanic[titanic.age < 1]

---
### `fillna` 메서드

NaN 값은 `fillna` 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [None]:
df3.apply(pd.value_counts)  # A, B, C 열에 대해 각각 1, 2, 3, 4, 5가 몇 번 나오는지 count

In [None]:
df3.apply(pd.value_counts).fillna(0.0)

In [None]:
data = np.array([[10, 12, 16, 18], [12, 16, 18, 20], [12, 16, 18, 22]])
df4 = pd.DataFrame(data,
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df4

In [None]:
df4.apply(pd.value_counts)

In [None]:
# fillna(999)
df4.apply(pd.value_counts).fillna(999)

In [None]:
titanic.apply(pd.value_counts)

---

### 연습 문제 4.4.5

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [None]:
titanic["age"] = titanic["age"].fillna(round(titanic.age.mean()))
titanic

In [None]:
titanic.age.value_counts()

In [None]:
titanic[titanic.age.isna()]

---
## `astype` 메서드

`astype` 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [None]:
df4.apply(pd.value_counts).fillna(0).astype(int)

---

### 연습 문제 4.4.6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라. `category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.

In [None]:
titanic.sex

In [None]:
titanic.age.astype('int').astype('str')

In [None]:
titanic.sex + titanic.age.astype('int').astype('str')

In [None]:
titanic['category2'] = titanic.sex + titanic.age.astype('int').astype('str')
titanic

## 실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

* `cut`: 실수 값의 경계선을 지정하는 경우
* `qcut`: 갯수가 똑같은 구간으로 나누는 경우

예를 들어 다음과 같은 나이 데이터가 있다고 하자.

In [None]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

---

`cut` 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다. `bins` 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [None]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
type(cats)  

* pd.cut()으로 나오는 데이터  

    (1) 각 데이터가 어느 카테고리에 속하는지 리스트 형태로  

    (2) 총 데이터의 수 ( Length )  
    
    (3) 카테고리의 총 수와 형태  

In [None]:
cats # categories

* 슬라이스도 가능

In [None]:
cats[2:5]

---

`cut` 명령이 반환하는 값은 `Categorical` 클래스 객체이다. 이 객체는 `categories` 속성으로 라벨 문자열을,  `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [None]:
type(cats)

In [None]:
cats.categories

In [None]:
cats.codes   # category 범위 밖은 -1로 return  (각 데이터가 카테고리의 어느 클래스에 속하는지 인덱스로 return)

* pd.cut()을 사용하여데이터프레임에서 카테고리로 분류하여 새로운 컬럼을 만들 수 있다.

In [None]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

df5 = pd.DataFrame(ages, columns=["ages"]) # ages list를 DataFrame으로...
df5["age_cat"] = pd.cut(df5.ages, bins, labels=labels)
df5

---

`qcut` 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

* cut과 qcut과의 차이는...  
* cut은 두번째 인덱스로 bin으로 나눌 구간을 리스트로 주는데 반해...
* qcut은 두번째 인덱스로, 몇개의 구간으로 나눌지 개수를 준다. (자동으로 구간 설정)

In [None]:
number_of_bins = 4
data = np.random.randn(1000)
cats = pd.qcut(data, number_of_bins, labels=["Q1", "Q2", "Q3", "Q4"])
cats

In [None]:
pd.value_counts(cats)

In [None]:
# cats.value_counts()

---

#### 연습 문제 4.4.7
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.  

```python
    bins = [1, 20, 30, 50, 70, 100]
    labels = ["미성년자", "청년", "중년", "장년", "노년"]
```

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [None]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats = pd.cut(titanic["age"], bins, labels=labels)
cats

In [None]:
## 각 나이 그룹별 인원 수
cats.value_counts()

In [None]:
## 각 나이 그룹의 비율
group_ratio = cats.value_counts() / len(cats)
# group_ratio = cats.value_counts() / cats.count()
group_ratio

In [None]:
group_ratio.sum()  # total 1이 나옴

In [None]:
## 여기서 각 그룹 비율의 합이 1이 되지 않음 ...

### Why?
### 1세 미만은 NaN으로 분류되기 때문
len(cats), cats.count()  # 두개 차이 남...

In [None]:
titanic[titanic.age <= 1]

In [None]:
len(titanic[titanic.age <= 1])

In [None]:
## 정확히 14개 차이가 설명됨...
## 따라서.. 이 경우 카테고리를 나눌 때 
bins = [1, 20, 30, 50, 70, 100]
## 대신
bins = [0, 20, 30, 50, 70, 100]
## 을 사용하는 것이 바람직하다고 생각됨

### 연습 문제 4.4.8

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category3` 열을 만들어라. `category3` 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.


In [None]:
bins = [0, 20, 30, 50, 70, 100]   # 0부터...
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats = pd.cut(titanic["age"], bins, labels=labels)
cats

In [None]:
titanic['cats'] = cats
titanic

In [None]:
### 20세 미만이면 '미성년자'로 만들고, 그렇지 않으면 x.cats에 성별(x.sex)를 붙임

# lambda x: "미성년자" if x.age < 20 else x.cats + x.sex
titanic.apply(lambda x: "미성년자" if x.age < 20 else x.cats + x.sex, axis=1)

In [None]:
titanic.apply(lambda x: "미성년자" if x.age < 20 else x.cats + x.sex, axis=1)

In [None]:
titanic.apply(lambda x: "미성년자" if x.age < 20 else x.cats + ("여성" if x.sex == "female" else "남성"), axis=1)

In [None]:
titanic['category3'] = titanic.apply(lambda x: "미성년자" if x.age < 20 else x.cats + ("여성" if x.sex == "female" else "남성"), axis=1)
titanic