# 제2장. 데이터 핸들링

## 제1절. 판다스 데이터 구조
- Series(시리즈) : 1차원, 하나의 데이터 형식, 각 값에 라벨 존재
- DataFrame(데이터프레임) : 2차원, 각 열은 서로 다른 데이터 타입 가능

## 제2절. DataFrame 기본
### 1. Pandas 사용 준비

In [1]:
import pandas as pd

### 2. DataFrame 선언하기

In [3]:
import numpy as np

dataset = np.array(
  [
    ['kor', 70],
    ['math', 80]
  ]
)
df = pd.DataFrame(
  dataset,
  columns=['class', 'score']
)
print('#1', df)
df = pd.DataFrame(
  data=[
    ['kor', 70],
    ['math', 80]
  ],
  columns=['class', 'score']
)
print('#2', df)
df = pd.DataFrame(
  {
    'class':['kor', 'math'],
    'score':[70, 80]
  }
)
print('#3', df)

#1   class score
0   kor    70
1  math    80
#2   class  score
0   kor     70
1  math     80
#3   class  score
0   kor     70
1  math     80


**Series 선언하기**
```
pandas.Series(
  {
    'idx_1':'a',
    'idx_2':'b'
  },
  name='class_name'
)
```

### 3. DataFrame 읽고 저장하기
**pandas.read_csv()**
```
filepath = 'dataset/data.csv'
data = pd.read_csv(
  file_path,
  na_values='NA',
  encoding='utf8'
)
```
**pandas.DataFrame.to_csv()**
```
data.to_csv(
  'result.csv',
  header=True,
  index=True,
  encoding='utf8'
)
```

### 4. DataFrame 출력

In [11]:
# !pip install scikit-learn
from sklearn.datasets import load_iris

iris = load_iris()
iris = pd.DataFrame(
  iris.data,
  columns=iris.feature_names
)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [12]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [13]:
iris.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In [14]:
# pd.set_option('dispaly.max_columns', None)
# pd.set_option('dispaly.max_rows', None)

### 5. DataFrame 요약/통계정보 확인하기

In [15]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


In [16]:
iris.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### 6. DataFrame 인덱스 확인/추가/리셋

In [29]:
df

Unnamed: 0,class,score
0,kor,70
1,math,80


In [30]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [31]:
list(df.index)

[0, 1]

In [32]:
df.index = ['A', 'B']

In [33]:
df.index

Index(['A', 'B'], dtype='object')

In [34]:
df

Unnamed: 0,class,score
A,kor,70
B,math,80


**pandas.DataFrame.set_index()**
```
DataFrame.set_index(
  keys,
  drop=True,
  append=False,
  inplace=True
)
```
- keys : 인덱스로 사용하고자 하는 컬럼의 이름을 문자형으로 입력
- drop : 인덱스로 세팅한 컬럼을 DataFrame 내에서 삭제할지 결정
- append : 기존에 존재하던 인덱스를 삭제할지, 컬럼으로 추가할지 결정
- inplace : 원본 객체를 변경할지 결정

In [40]:
df.set_index(
  'class',
  drop=True,
  append=False,
  inplace=True
)
df

Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
kor,70
math,80


```
DataFrame.reset_index(
  drop=False,
  inplace=False
)
```
- drop : 기존 인덱스를 DataFrame 내에서 삭제할지, 컬럼으로 추가할지 결정
- inplace : 원본 객체를 변경할지 결정

In [41]:
df.reset_index(
  drop=False,
  inplace=True
)
df

Unnamed: 0,class,score
0,kor,70
1,math,80


### 7. DataFrame 컬럼명 확인 및 변경

In [42]:
iris.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [43]:
iris.columns = ['sepal length', 'sepal width', 'petal length', 'petal width']
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


**DataFrame.columns.str.replace**
```
DataFrame.columns.str.replace('기존문자', '대체할 문자')
```

In [44]:
iris.columns = iris.columns.str.replace(' ', '_')
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


### 8. DataFrame 컬럼의 데이터 타입 확인 및 변경
- int : 정수형, 소수점을 가지지 않는 숫자
- float : 실수형, 소수점 이하의 값을 가진 숫자
- bool : 부울형/논리형, True 혹은 False로 이루어짐
- datatime : 날짜와 시간 표현
- category : 카테고리, 범주형 변수일 경우 사용
- object : 문자열&복합형, 위의 형식으로 정할 수 없거나 여러 형식이 섞여있는 경우 사용

In [45]:
iris.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
dtype: object

In [49]:
iris['sepal_length'] = iris['sepal_length'].astype('int')
iris[['sepal_width', 'petal_length']] = iris[['sepal_width', 'petal_length']].astype('int')
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5,3,1,0.2
1,4,3,1,0.2
2,4,3,1,0.2


**코드에서 줄 바꾸기**\
파이썬에서 Enter는 쓰고 작성하던 코드의 종료를 의미한다.
한 줄의 코드가 너무 길어 작성자가 보기 편하게 줄 바꿈을 해야 하는 경우 역슬래시(\\)를 삽입하여 다음 줄의 코드를 함께 읽도록 할 수 있다.

## 제3절. row/column 선택/추가/삭제
### 1. row/column 선택
**row 선택하기**
```
DataFrame[n:m]
```

In [50]:
iris[1:4]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4,3,1,0.2
2,4,3,1,0.2
3,4,3,1,0.2


**슬라이싱(Slicing)**\
시퀀스의 일부를 선택하는 것을 슬라이싱이라고 한다.
[start:end]와 같은 형태로, 파이썬에서는 대체로 start부터 end 직전까지를 의미한다.
start와 end는 선언되지 않을 수 있으며 사용되지 않는 경우 start 위치는 '첫 번째 값부터', end는 '마지막 값까지'를 의미한다.
마이너스(-)가 사용되는 경우 시퀀스의 마지막 값부터 거꾸로 계산한 위치를 의미한다.

**column 선택하기**
```
DataFrame['컬럼명'] : 하나의 컬럼을 Series 형식으로 출력
DataFrame[['컬럼명1', '컬럼명2']] : 여러 개의 컬럼을 DataFrame 형식으로 출력
```

In [51]:
iris['sepal_length'].head(4)

0    5
1    4
2    4
3    4
Name: sepal_length, dtype: int32

In [52]:
iris[['sepal_length', 'sepal_width']].head(4)

Unnamed: 0,sepal_length,sepal_width
0,5,3
1,4,3
2,4,3
3,4,3


**pandas.DataFrame.iloc**
```
pandas.DataFrame.iloc[row, column]
```

In [53]:
iris.iloc[1:4]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4,3,1,0.2
2,4,3,1,0.2
3,4,3,1,0.2


In [54]:
iris.iloc[[1, 3, 5], 2:4]

Unnamed: 0,petal_length,petal_width
1,1,0.2
3,1,0.2
5,1,0.4


In [55]:
iris.iloc[:, [True, True, False, True]]

Unnamed: 0,sepal_length,sepal_width,petal_width
0,5,3,0.2
1,4,3,0.2
2,4,3,0.2
3,4,3,0.2
4,5,3,0.2
...,...,...,...
145,6,3,2.3
146,6,2,1.9
147,6,3,2.0
148,6,3,2.3


**pandas.DataFrame.loc**
```
pandas.DataFrame.loc[row, column]
```

In [56]:
iris.loc[1:3]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4,3,1,0.2
2,4,3,1,0.2
3,4,3,1,0.2


In [58]:
iris.loc[[1, 2], 'sepal_length':'petal_length']

Unnamed: 0,sepal_length,sepal_width,petal_length
1,4,3,1
2,4,3,1


**선택한 값 변경하기**

In [62]:
score = pd.DataFrame(
  {
    '국어':[100, 80],
    '수학':[75, 90],
    '영어':[90, 95]
  },
  index=['장화', '홍련']
)
score.loc['홍련', '영어'] = 100
score['국어'] = score['국어'] - 5
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100


### 2. row/column 추가
**row 추가**
```
append()
```

In [63]:
new_students = pd.DataFrame(
  {
    '국어':[70, 85],
    '수학':[65, 100],
    '영어':[95, 65]
  },
  index=['콩쥐', '팥쥐']
)
score = score.append(new_students)
new_student1 = pd.Series(
  {
    '국어':85,
    '수학':55,
    '영어':95
  },
  name='해님'
)
score = score.append(new_student1)
score

Unnamed: 0,국어,수학,영어
장화,95,75,90
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


In [66]:
new_student2 = {
  '국어':75,
  '수학':80,
  '영어':80
}
score.append(new_student2, ignore_index=True)

Unnamed: 0,국어,수학,영어
0,95,75,90
1,75,90,100
2,70,65,95
3,85,100,65
4,85,55,95
5,75,80,80


**column 추가**

In [67]:
science = [80, 70, 90, 85, 75]
score['과학'] = science
score['학년'] = 1
score

Unnamed: 0,국어,수학,영어,과학,학년
장화,95,75,90,80,1
홍련,75,90,100,70,1
콩쥐,70,65,95,90,1
팥쥐,85,100,65,85,1
해님,85,55,95,75,1


In [68]:
score['과학'] = score['과학'] + 5
score['총점'] = score['국어'] + score['수학'] + score['영어'] + score['과학']
score

Unnamed: 0,국어,수학,영어,과학,학년,총점
장화,95,75,90,85,1,345
홍련,75,90,100,75,1,340
콩쥐,70,65,95,95,1,325
팥쥐,85,100,65,90,1,340
해님,85,55,95,80,1,315


### 3.row/column 삭제
**pandas.DataFrame.drop**
```
pandas.DataFrame.drop(index=None, column=None, inplace=False)
```
- index : 삭제할 행의 인덱스 혹은 인덱스 리스트를 지정(행을 삭제할 경우 'index='부분은 생략 가능)
- columns : 삭제할 컬럼의 이름 혹은 컬럼명의 리스트를 지정
- inplace : False일 경우 작업 수행의 결과를 복사본으로 반영하고, True이면 작업을 수행하고 None을 반환

In [69]:
score.drop('장화', inplace=True)
score.drop(columns = ['과학', '학년', '총점'], inplace=True)
score

Unnamed: 0,국어,수학,영어
홍련,75,90,100
콩쥐,70,65,95
팥쥐,85,100,65
해님,85,55,95


## 제4절. 조건에 맞는 데이터 탐색 및 수정
**임의의 조건 탐색 및 데이터 수정**
```
DataFrame[조건식]
```

In [70]:
students = pd.DataFrame(
  {
    '이름':['장화','홍련','콩쥐','팥쥐','해님','달님'],
    '국어':[70, 85, None, 100, None, 85],
    '수학':[65, 100, 80, 95, None, 70]
  }
)
students[students['이름'] == '장화']

Unnamed: 0,이름,국어,수학
0,장화,70.0,65.0


**조건이 두 개 이상일 때**
```
DataFrame[(조건1) & (조건2) & ((조건3) | (조건4))]
```

In [71]:
students[(students['국어'] >= 80) & (students['수학'] >= 80)]

Unnamed: 0,이름,국어,수학
1,홍련,85.0,100.0
3,팥쥐,100.0,95.0


```
df.loc[조건문, '추가/변경할 컬럼명']
```
- '추가/변경할 컬럼명'이 존재하는 컬럼인 경우 조건문에 부합하는 행의 '추가/변경할 컬럼명'의 값을 변경
- '추가/변경할 컬럼명'이 존재하지 않는 컬럼인 경우 새로운 컬럼을 만들고 조건문에 부합하는 행에는 지정된 값을, 그 외의 행에는 NaN을 삽입

In [72]:
students.loc[6, '이름':'수학'] = ['별님', 50, 60]
students.loc[(students['국어'] >= 80) & (students['수학'] >= 70), '합격'] = 'Pass'
students.loc[students['합격'] != 'Pass', '합격'] = 'Fail'
students

Unnamed: 0,이름,국어,수학,합격
0,장화,70.0,65.0,Fail
1,홍련,85.0,100.0,Pass
2,콩쥐,,80.0,Fail
3,팥쥐,100.0,95.0,Pass
4,해님,,,Fail
5,달님,85.0,70.0,Pass
6,별님,50.0,60.0,Fail


**하나의 컬럼에 여러 개의 조건에 따라 다른 값을 반환해야 하는 경우**
```
numpy.select(조건목록, 선택목록, default=디폴트값)
```

In [75]:
import numpy as np

condition_list = [
  (students['국어'] >= 90),
  (students['국어'] >= 80) & (students['국어'] < 90),
  (students['국어'] >= 70) & (students['국어'] < 80)
]
choice_list = ['A', 'B', 'C']
students['점수'] = np.select(
  condition_list,
  choice_list,
  default='F'
)
students

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
4,해님,,,Fail,F
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


**결측값 탐색 및 수정**\
결측값 탐색 : `isna()`, `isnull()`\
결측이 아닌 값 탐색 : `notna()`, `notnull()`

In [76]:
students.isna()

Unnamed: 0,이름,국어,수학,합격,점수
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,False,False,False
3,False,False,False,False,False
4,False,True,True,False,False
5,False,False,False,False,False
6,False,False,False,False,False


In [77]:
students.notna()

Unnamed: 0,이름,국어,수학,합격,점수
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,True,True,True
4,True,False,False,True,True
5,True,True,True,True,True
6,True,True,True,True,True


**열 합계**

In [78]:
students.isna().sum()

이름    0
국어    2
수학    1
합격    0
점수    0
dtype: int64

**행 합계**

In [79]:
students.isna().sum(1)

0    0
1    0
2    1
3    0
4    2
5    0
6    0
dtype: int64

**결측값 제거**
```
pandas.DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```
- axis : 0 또는 'index'이면 결측값이 포함된 행을 삭제하고 1 또는 'columns'이면 결측값이 포함된 열을 삭제
- how : 'any'이면 결측값이 존재하는 모든 행/열 삭제, 'all'이면 모든 값이 결측값일 때 삭제
- thresh : 정숫값을 지정하면 결측값이 아닌 값이 그보다 많을 때 행 또는 열을 유지
- subset : 어떤 레이블에 결측값이 존재하면 삭제할지 정의
- inplace : True이면 제자리에서 작업을 수행하고 None을 반환

In [80]:
students.dropna()

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


In [81]:
students.dropna(thresh=4)

Unnamed: 0,이름,국어,수학,합격,점수
0,장화,70.0,65.0,Fail,C
1,홍련,85.0,100.0,Pass,B
2,콩쥐,,80.0,Fail,F
3,팥쥐,100.0,95.0,Pass,A
5,달님,85.0,70.0,Pass,B
6,별님,50.0,60.0,Fail,F


**결측값 대체**
```
pandas.DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None)
```
- value : 단일 값 혹은 dict/Series/DataFrame 형식으로 대체할 값을 직접 입력
- method : 'pad' 또는 'ffill'이면 이전 값으로 채우고, 'backfill' 또는 'bfill'이면 다음에 오는 값으로 채움
- axis : 0 또는 'index'이면 행 방향으로 채우고, 1 또는 'columns'이면 열 방향으로 채움
- limit : method 인자를 지정한 경우 limit으로 지정한 개수만큼만 대체할 수 있음

In [82]:
health = pd.DataFrame(
  {
    '연도':[2017, 2018, 2019, 2020, 2021, 2022],
    '키':[160, 162, 165, None, None, 166],
    '몸무게':[53, 52, None, 50, 51, 54],
    '시력':[1.2, None, 1.2, 1.2, 1.1, 0.8],
    '병결':[None, None, None, 2, None, 1]
  }
)
health.fillna(0)

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,0.0,0.0
2,2019,165.0,0.0,1.2,0.0
3,2020,0.0,50.0,1.2,2.0
4,2021,0.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [83]:
health.fillna(health.mean())

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,1.5
1,2018,162.0,52.0,1.1,1.5
2,2019,165.0,52.0,1.2,1.5
3,2020,163.25,50.0,1.2,2.0
4,2021,163.25,51.0,1.1,1.5
5,2022,166.0,54.0,0.8,1.0


In [85]:
health['병결'] = health['병결'].fillna(0)
health['몸무게'] = health['몸무게'].fillna(health['몸무게'].mean())
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,,50.0,1.2,2.0
4,2021,,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


In [86]:
health.fillna(method='pad', inplace=True)
health

Unnamed: 0,연도,키,몸무게,시력,병결
0,2017,160.0,53.0,1.2,0.0
1,2018,162.0,52.0,1.2,0.0
2,2019,165.0,52.0,1.2,0.0
3,2020,165.0,50.0,1.2,2.0
4,2021,165.0,51.0,1.1,0.0
5,2022,166.0,54.0,0.8,1.0


**중복행 삭제**
```
pandas.DataFrame.drop_duplicates()
```

In [87]:
health['키'].drop_duplicates()

0    160.0
1    162.0
2    165.0
5    166.0
Name: 키, dtype: float64

In [88]:
set(health['키'])

{160.0, 162.0, 165.0, 166.0}

In [89]:
health[['시력', '병결']].drop_duplicates()

Unnamed: 0,시력,병결
0,1.2,0.0
3,1.2,2.0
4,1.1,0.0
5,0.8,1.0


### 5. 데이터 정렬
```
pandas.DataFrame.sort_index(axis=0, ascending=True, inplace=False)
```
- axis : 0이면 행 인덱스를 기준으로, 1이면 컬럼명을 기준으로 정렬
- ascending : True이면 오름차순으로, False이면 내림차순으로 정렬
- inplace : True이면 제자리에서 수행 후 None을 반환하고, False이면 복사본을 만들어 정렬을 수행하고 이를 반환

In [93]:
iris = load_iris()
iris = pd.DataFrame(
  iris.data,
  columns=iris.feature_names
)
iris.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
iris.sort_index(
  ascending=False,
  inplace=True
)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
149,5.9,3.0,5.1,1.8
148,6.2,3.4,5.4,2.3
147,6.5,3.0,5.2,2.0
146,6.3,2.5,5.0,1.9
145,6.7,3.0,5.2,2.3


In [94]:
iris.sort_index(
  axis=1,
  ascending=True,
  inplace=True
)
iris.head()

Unnamed: 0,petal_length,petal_width,sepal_length,sepal_width
149,5.1,1.8,5.9,3.0
148,5.4,2.3,6.2,3.4
147,5.2,2.0,6.5,3.0
146,5.0,1.9,6.3,2.5
145,5.2,2.3,6.7,3.0


**값 기준 정렬**
```
pandas.DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)
```
- by : 정렬 기준으로 사용할 컬럼의 이름 혹은 컬럼명의 리스트
- axis : 0이면 행 인덱스를 기준으로, 1이면 컬럼명을 기준으로 정렬
- ascending : True이면 오름차순으로, False이면 내림차순으로 정렬
- inplace : True이면 제자리에서 수행 후 None을 반환하고, Flase이면 복사본을 만들어 정렬을 수행하고 이를 반환

In [97]:
iris.sort_values('petal_length')

Unnamed: 0,petal_length,petal_width,sepal_length,sepal_width
22,1.0,0.2,4.6,3.6
13,1.1,0.1,4.3,3.0
14,1.2,0.2,5.8,4.0
35,1.2,0.2,5.0,3.2
16,1.3,0.4,5.4,3.9
...,...,...,...,...
131,6.4,2.0,7.9,3.8
105,6.6,2.1,7.6,3.0
117,6.7,2.2,7.7,3.8
122,6.7,2.0,7.7,2.8


In [98]:
iris.sort_values(['petal_width', 'sepal_length'])

Unnamed: 0,petal_length,petal_width,sepal_length,sepal_width
13,1.1,0.1,4.3,3.0
12,1.4,0.1,4.8,3.0
37,1.4,0.1,4.9,3.6
9,1.5,0.1,4.9,3.1
32,1.5,0.1,5.2,4.1
...,...,...,...,...
136,5.6,2.4,6.3,3.4
140,5.6,2.4,6.7,3.1
100,6.0,2.5,6.3,3.3
144,5.7,2.5,6.7,3.3


## 제6절. 데이터 결합
### 1. 단순 연결
```
pandas.concat(objs, axis=0, ignore_index=False)
```
- objs : concat을 실행할 객체의 리스트(DataFrame, Series, Panel object)
- axis : 0이면 열 방향으로 합치고 1이면 행 방향으로 합침
- ignore_index : True이면 기존 index를 무시하고 0부터 시작하는 정수로 재설정

In [99]:
hr1 = pd.DataFrame(
  {
    '이름':['장화', '홍련'],
    '부서':['영업', '회계'],
    '직급':['팀장', '사원']
  }
)
hr2 = pd.DataFrame(
  {
    '이름':['콩쥐', '팥쥐'],
    '직급':['사원', '팀장'],
    '부서':['영업', '인사']
  }
)
pd.concat([hr1, hr2], axis=0)

Unnamed: 0,이름,부서,직급
0,장화,영업,팀장
1,홍련,회계,사원
0,콩쥐,영업,사원
1,팥쥐,인사,팀장


In [100]:
pd.concat([hr1, hr2], axis=0, ignore_index=True)

Unnamed: 0,이름,부서,직급
0,장화,영업,팀장
1,홍련,회계,사원
2,콩쥐,영업,사원
3,팥쥐,인사,팀장


In [101]:
hr3 = pd.DataFrame(
  {
    '이름':['콩쥐', '팥쥐'],
    '부서':['영업', '인사'],
    '급여':[3500, 2800]
  }
)
pd.concat([hr1, hr3], axis=0, ignore_index=True)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,
1,홍련,회계,사원,
2,콩쥐,영업,,3500.0
3,팥쥐,인사,,2800.0


In [102]:
hr4 = pd.Series({1: 2500}, name='급여')
pd.concat([hr1, hr4], axis=1)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,
1,홍련,회계,사원,2500.0


In [104]:
hr5 = pd.DataFrame(
  {
    '급여':[4500, 3000, 3500]
  }
)
pd.concat([hr1, hr5], axis=1)

Unnamed: 0,이름,부서,직급,급여
0,장화,영업,팀장,4500
1,홍련,회계,사원,3000
2,,,,3500


### 2. 조인(join, merge)
**join**
```
pandas.DataFrame.join(other, on=None, how='left', rsuffix='', sort=False)
```
- DataFrame : 결합의 기준이 되는 데이터프레임으로 left DataFrame
- other : 결합의 대상이 되는 데이터프레임으로 right DataFrame
- on : key 컬럼의 이름(두 데이터프레임에서 key 컬럼의 이름이 같아야 함)
- how : {'left', 'right', 'outer', 'inner'}, 조인의 수행 방식 선택
- lsuffix/rsuffix : 결합한 데이터프레임에서 왼쪽/오른쪽 데이터프레임의 컬럼에 사용할 접미사
- sort : 키값을 기준으로 정렬할지 여부

**merge**
```
pandas.DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'))
```
- DataFrame : 결합의 기준이 되는 데이터프레임으로 left DataFrame
- right : 결합의 대상이 되는 데이터프레임으로 right DataFrame
- how : {'left', 'right', 'outer', 'inner', 'cross'}, 조인의 수행 방식 선택
- on : key 컬럼의 이름(두 테이블에서 key 컬럼의 이름이 같은 경우)
- left_on/right_on : 두 테이블에서 key 컬럼평이 다를 때 'on'을 대신하여 각각 지정
- left_index/right_index : 왼쪽 혹은 오른쪽 데이터프레임의 인덱스를 key로 사용할 경우
- sort : 키값을 기준으로 정렬할지 여부
- suffixes : 결합한 데이터프레임에서 왼쪽/오른쪽 데이터프레임의 컬럼명에 사용할 접미사를 왼쪽-오른쪽 순서로 지정

In [105]:
product = pd.DataFrame(
  {
    '상품코드':['G1', 'G2', 'G3', 'G4'],
    '상품명':['우유', '감자', '빵', '치킨']
  }
)
sale = pd.DataFrame(
  {
    '주문번호':[1001, 1002, 1002, 1003, 1004],
    '상품코드':['G4', 'G3', 'G1', 'G3', 'G5'],
    '주문수량':[1, 4, 2, 2, 3]
  }
)
sale.merge(
  product,
  on='상품코드',
  how='inner'
)

Unnamed: 0,주문번호,상품코드,주문수량,상품명
0,1001,G4,1,치킨
1,1002,G3,4,빵
2,1003,G3,2,빵
3,1002,G1,2,우유


In [106]:
sale.merge(
  product,
  on='상품코드',
  how='outer',
  sort=True
)

Unnamed: 0,주문번호,상품코드,주문수량,상품명
0,1002.0,G1,2.0,우유
1,,G2,,감자
2,1002.0,G3,4.0,빵
3,1003.0,G3,2.0,빵
4,1001.0,G4,1.0,치킨
5,1004.0,G5,3.0,


In [107]:
sale.merge(
  product,
  left_on='상품코드',
  right_on='상품코드',
  how='left'
)

Unnamed: 0,주문번호,상품코드,주문수량,상품명
0,1001,G4,1,치킨
1,1002,G3,4,빵
2,1002,G1,2,우유
3,1003,G3,2,빵
4,1004,G5,3,


## 제7절. 데이터 요약
### 1. 그룹화와 집계
```
pandas.DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=False, dropna=True).FUN()
```
- by : 그룹을 결정하는 데 사용
- axis : 행(0)과 열(1) 지정, default 0
- level : 축이 계층 구조일 때 특정 수준을 기준으로 그룹화
- as_index : 그룹 레이블이 인덱스로 출력될지의 여부, default True
- sort : 집계 행으로 정렬할지 여부
- dropna : True이면 결측값이 행/열과 함께 삭제, False이면 결측값도 그룹의 키로 처리

**집계함수**\
집계함수란 여러 개의 값을 계산하여 하나의 값으로 만드는 함수를 의미한다.
주로 사용되는 집계함수는 다음과 같으며, 그룹 내에서 결측치가 아닌(non-NA) 값들을 계산한다.
- `count()` : 값의 개수
- `sum()` : 값들의 합
- `min()` : 최솟값
- `max()` : 최댓값
- `mean()` : 평균
- `median()` : 중앙값
- `std()` : 표준편차
- `var()` : 분산
- `quantile(n)` : 분위수
- `first()` : 첫번째 값
- `last()` : 마지막 값
- `describe()` : 기술통계량

In [124]:
iris_origin = load_iris()
iris = pd.DataFrame(
  data=iris_origin.data,
  columns=iris_origin.feature_names
)
iris.columns = ['sepal length', 'sepal_width', 'petal_length', 'petal_width']
iris['class'] = iris_origin.target
iris['class'] = iris['class'].map(
  {
    0:'setosa',
    1:'versicolor',
    2:'virginica'
  }
)
iris.groupby(by='class').mean()

Unnamed: 0_level_0,sepal length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [125]:
iris.groupby(by='class').median()

Unnamed: 0_level_0,sepal length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.0,3.4,1.5,0.2
versicolor,5.9,2.8,4.35,1.3
virginica,6.5,3.0,5.55,2.0


### 2. 도수분포표
**pandas.Series.value_counts**
```
pandas.Series(DataFrame['컬럼명']).value_counts()
```

In [126]:
pd.Series(iris['class']).value_counts()

setosa        50
versicolor    50
virginica     50
Name: class, dtype: int64

In [129]:
iris['petal_width_level'] = pd.qcut(
  iris['petal_width'],
  q=3,
  labels=['short','middle','long']
)
pd.Series(iris['petal_width_level']).value_counts().to_frame()

Unnamed: 0,petal_width_level
middle,52
short,50
long,48


**두 개의 기준에 따른 데이터의 분포 확인**
```
pandas.crosstab(index, columns, dropna=True, normalize=False)
```
- index : 열 위치에서 집계될 범주형 변수(컬럼1)
- columns : 행 위치에서 집계될 범주형 변수(컬럼2)
- dropna : 항목이 모두 NaN인 열을 제외할지 여부
- normalize : 'all' 또는 True를 전달하면 모든 값에 대해 정규화하고, 'index'를 전달하면 각 행에 대해, 'columns'가 전달되면 각 열에 대해 정규화

In [130]:
pd.crosstab(
  iris['petal_width_level'],
  iris['class']
)

class,setosa,versicolor,virginica
petal_width_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
short,50,0,0
middle,0,48,4
long,0,2,46


## 제8절. 데이터 재구조화
### 1. 피벗 테이블(Pivot Table)
```
pandas.DataFrame.pivot_table(index=None, columns=None, values=None, aggfunc='mean')
```
- index : 피벗 테이블에서 인덱스가 될 컬럼의 이름(두 개 이상이면 리스트로 입력)
- columns : 피벗 테이블에서 컬럼으로 분리할 컬럼의 이름(범주형 변수 사용)
- values : 피벗 테이블에서 columns의 값이 될 컬럼의 이름
- aggfunc : 집계함수를 사용할 경우 지정

In [131]:
score = {
  '학년':[1, 1, 1, 1, 2, 2],
  '반':['A', 'A', 'B', 'B', 'C', 'C'],
  '성별':['여자', '남자', '여자', '남자', '여자', '남자'],
  '성적':[76, 88, 85, 72, 68, 70]
}
score = pd.DataFrame(score)
score

Unnamed: 0,학년,반,성별,성적
0,1,A,여자,76
1,1,A,남자,88
2,1,B,여자,85
3,1,B,남자,72
4,2,C,여자,68
5,2,C,남자,70


In [132]:
score = score.pivot_table(
  index=['학년', '반'],
  columns='성별',
  values='성적'
)
score

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,88,76
1,B,72,85
2,C,70,68


### 2. 멜트(melt)
```
pandas.DataFrame.melt(id_vars=None, var_name=None, value_name=None)
```
- id_vars : 피벗 테이블에서 인덱스가 될 컬럼의 이름\
(variable, value의 내용으로 들어가지 않을 컬럼의 이름 리스트)
- var_name : variable 변수의 이름으로 지정할 문자열(선택)
- value_name : value 변수의 이름으로 지정할 문자열(선택)

In [139]:
score.reset_index().melt(
  id_vars=['학년', '반'],
  var_name='성별',
  value_name='성적'
)

Unnamed: 0,학년,반,성별,성적
0,1,A,남자,88
1,1,B,남자,72
2,2,C,남자,70
3,1,A,여자,76
4,1,B,여자,85
5,2,C,여자,68


## 제9절. 데이터프레임에 함수 적용하기
### 1. 어플라이(apply)

In [140]:
score.apply(np.sqrt, axis=0)

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,9.380832,8.717798
1,B,8.485281,9.219544
2,C,8.3666,8.246211


In [141]:
score.apply(np.max, axis=0)

성별
남자    88
여자    85
dtype: int64

In [142]:
def plus_five(val):
  return val + 5

score.apply(plus_five)

Unnamed: 0_level_0,성별,남자,여자
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,A,93,81
1,B,77,90
2,C,75,73


In [148]:
def class_avg(df):
  return np.ceil(
    (df['남자'] + df['여자']) / 2
  )

score.apply(class_avg, axis=1)

학년  반
1   A    82.0
    B    79.0
2   C    69.0
dtype: float64

### 2. 맵(map)

In [150]:
score['남자'].map(lambda x: x + 5)

학년  반
1   A    93
    B    77
2   C    75
Name: 남자, dtype: int64

## 제10절. 문자열 데이터 변환하기
### 1. 인덱싱(indexing)

In [154]:
landmark = pd.DataFrame(
  {
    'name':['광화문', '호미곶', '첨성대'],
    'location':['서울 종로구 사직로 161', '경북 포항시 남구 호미곶면 대보리 150', '경북 경주시 인왕동 839-1']
  }
)
landmark['location'].str[3:6]

0    종로구
1    포항시
2    경주시
Name: location, dtype: object

### 2. 분할(split)

In [158]:
landmark['location'].str.split(' ', expand=True)

Unnamed: 0,0,1,2,3,4,5
0,서울,종로구,사직로,161,,
1,경북,포항시,남구,호미곶면,대보리,150.0
2,경북,경주시,인왕동,839-1,,


In [161]:
landmark['loc_1'] = landmark['location'].str.split(' ').str[0]
landmark

Unnamed: 0,name,location,loc_1
0,광화문,서울 종로구 사직로 161,서울
1,호미곶,경북 포항시 남구 호미곶면 대보리 150,경북
2,첨성대,경북 경주시 인왕동 839-1,경북


### 3. 탐색

In [162]:
landmark['location'].str.startswith('서울')

0     True
1    False
2    False
Name: location, dtype: bool

In [163]:
landmark['location'].str.endswith('1')

0     True
1    False
2     True
Name: location, dtype: bool

In [164]:
landmark['location'].str.contains('1')

0    True
1    True
2    True
Name: location, dtype: bool

## 제11절. 날짜 데이터 핸들링
### 1. 현재 날짜 데이터 추출하기

In [165]:
from datetime import datetime
datetime.today()

datetime.datetime(2022, 11, 15, 16, 20, 12, 200888)

In [166]:
datetime.today().year

2022

### 2. 날짜 형식으로 변환하기
**pandas.to_datetime**
```
df['Datetime'] = pandas.to_datetime(df['Datetime'], format='%Y-%m-%d %H:%M:%S')
```
**datetime.datetime.strptime**
```
datetime.datetime.strptime('날짜 문자열', '포맷')
```

In [167]:
datetime.strptime('2022-01-01 00:00:00', '%Y-%m-%d %H:%M:%S')

datetime.datetime(2022, 1, 1, 0, 0)

**datetime.datetime.strftime**
```
datetime.datetime.strftime('포맷')
```

In [168]:
time = datetime.today()
time.strftime('%Y-%m-%d %H:%M:%S')

'2022-11-15 16:24:57'

**strftime(), strptime() 메서드에 사용되는 서식**
- %d : 0을 채운 10진수 표기로 날짜를 표시
- %m : 0을 채운 10진수 표기로 월을 표시
- %y : 0을 채운 10진수 표기로 2자리 연도를 표시
- %Y : 0을 채운 10진수 표기로 4자리 연도를 표시
- %H : 0을 채운 10진수 표기로 시간(24시간 표기)을 표시
- %I : 0을 채운 10진수 표기로 시간(12시간 표기)을 표시
- %M : 0을 채운 10진수 표기로 분을 표시
- %S : 0을 채운 10진수 표기로 초를 표시
- %f : 0을 채운 10진수 표기로 마이크로 초(6자리)를 표시
- %A : local 요일을 표시
- %a : local 요일(단축 표기)을 표시
- %B : local 월을 표시
- %b : local 월(단축 표기)을 표시
- %j : 0을 채운 10진수 표기로 연 중 몇 번째 일인지 표시
- %U : 0을 채운 10진수 표기로 연 중 몇 번째 주인지 표시(월요일 시작 기준)

### 3. 날짜 데이터의 연산
**datetime.timedelta**
```
datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)
```

In [169]:
from datetime import timedelta

time = datetime.today()
time + timedelta(days=100)

datetime.datetime(2023, 2, 23, 16, 30, 32, 565228)