# Pandas
- 파이썬에서 사용할 수 있는 데이터 전처리용 패키지
  - 엑셀처럼 파일을 다룰 수 있게 해주는 도구
  - 엑셀과의 가장 큰 차이점은 아주 큰 파일도 처리가 가능
    - 일반적으로 100MB만 넘어가도 잘 안열림
    - 판다스는 1GB 넘어가는 아주 큰 파일도 빠르게 처리가 가능
  - 엑셀보다 더 복잡한 처리, 디비와 연동 등의 기능을 제공

- 데이터 분석 
  - 분석 업무의 80%는 전처리
  - 잘 정제되지 않은 데이터는 분석을 아무리 잘해도 의미가 없다

In [1]:
# 데이터 분석용 필수 패키지들  
# 사용하지 않더라도 일단 가져옴
import numpy as np
import pandas as pd

## Series
- 1차원 구조를 표현


In [2]:
series = pd.Series( [10, 20, 30, 40] )
series

0    10
1    20
2    30
3    40
dtype: int64

## DataFrame
- 2차원 구조
- 여러개의 시리즈가 모여서 하나의 데이터프레임

In [3]:
weight = pd.DataFrame([
  [76.4, 'kg'],
  [75.7, 'kg'],
  [76, 'kg'],
  [76.2, 'kg']
])
weight

Unnamed: 0,0,1
0,76.4,kg
1,75.7,kg
2,76.0,kg
3,76.2,kg


## 파일 읽어오기
-  `read_csv`라는 기능으로 파일을 읽어올 수 있음
  - CSV(Comma Seperated Value)
  - 텍스트가 콤마로 구분된 형태로 되어있는 파일
  - 엑셀, CSV, ... 등의 다양한 파일 형태를 읽어서 `데이터 프레임` 형태로 자동으로 변환

In [5]:
rawData = pd.read_csv('C://Users//joey0//TIL//CLI//라이브러리//weight_log.csv')
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
3,4,홍길동,2020-03-04,,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


In [6]:
type( rawData )

pandas.core.frame.DataFrame

# 데이터프레임 사용하기

## 출력
- head
  - 자료의 제일 앞 5개를 출력

```
    DataFrame.head(n=5)
```

- tail
  - 자료의 맨 끝 5개를 출력

```
    DataFrame.tail(n=5)
```


In [7]:
# 상위 5개의 자료를 출력
rawData.head()

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
3,4,홍길동,2020-03-04,,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구


In [8]:
# 하위 5개의 자료를 출력
rawData.tail()

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


In [9]:
# 파라미터를 통해서 출력 갯수를 제한
rawData.head(2)

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구


In [10]:
rawData.tail(2)

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


## 데이터의 요약된 정보

In [11]:
rawData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   회차      9 non-null      int64  
 1   이름      9 non-null      object 
 2   측정일     9 non-null      object 
 3   몸무게     6 non-null      float64
 4   단위      9 non-null      object 
 5   담당      9 non-null      object 
 6   지점      9 non-null      object 
dtypes: float64(1), int64(1), object(5)
memory usage: 632.0+ bytes


In [12]:
rawData.describe(include='all')

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
count,9.0,9,9,6.0,9,9,9
unique,,1,9,,1,3,4
top,,홍길동,2020-03-01,,kg,김현경,서초구
freq,,9,1,,9,4,4
mean,5.0,,,75.833333,,,
std,2.738613,,,0.492612,,,
min,1.0,,,75.0,,,
25%,3.0,,,75.7,,,
50%,5.0,,,75.85,,,
75%,7.0,,,76.15,,,


## 인덱싱(색인)
- 넘파이의 배열 인덱스와 유사
- 판다스의 데이터프레임은 기본적으로 열우선 인덱스

### 열(column) 인덱싱

In [13]:
# 데이터 프레임은 행을 선택하지 않고, 시리즈를 선택하는 방향으로 인덱스
rawData['몸무게']

0    76.4
1    75.7
2    76.0
3     NaN
4    76.2
5    75.7
6     NaN
7     NaN
8    75.0
Name: 몸무게, dtype: float64

In [14]:
# 배열 인덱스 지원
col = ['이름', '몸무게', '측정일']
rawData[ col ]

Unnamed: 0,이름,몸무게,측정일
0,홍길동,76.4,2020-03-01
1,홍길동,75.7,2020-03-02
2,홍길동,76.0,2020-03-03
3,홍길동,,2020-03-04
4,홍길동,76.2,2020-03-05
5,홍길동,75.7,2020-03-06
6,홍길동,,2020-03-07
7,홍길동,,2020-03-08
8,홍길동,75.0,2020-03-09


### 행(row) 인덱싱
- loc
- iloc

In [16]:
# 첫 번째 행
rawData.head(1)

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구


In [17]:
# 행 인덱스가 가능하고 해당 행을 시리즈 형태로 반환
rawData.loc[0]

회차              1
이름            홍길동
측정일    2020-03-01
몸무게          76.4
단위             kg
담당            박현경
지점            관악구
Name: 0, dtype: object

In [18]:
# 슬라이스도 가능
# 판다스의 슬라이스는 마지막 인덱스 포함
rawData.loc[0:3]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
3,4,홍길동,2020-03-04,,kg,최현경,여의도


In [19]:
# 행에 대해서 배열 인덱싱
rawData.loc[[1, 3, 5]]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
3,4,홍길동,2020-03-04,,kg,최현경,여의도
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구


### 행, 열 인덱싱

In [20]:
rawData.loc[0, '몸무게']

76.4

In [21]:
# 물론 배열 인덱스와 함께 사용 가능 
rawData.loc[0, ['이름', '몸무게']]

이름      홍길동
몸무게    76.4
Name: 0, dtype: object

In [22]:
rawData.loc[[1, 3, 5], ['이름', '몸무게']]

Unnamed: 0,이름,몸무게
1,홍길동,75.7
3,홍길동,
5,홍길동,75.7


In [23]:
# 슬라이스와 함께 사용
rawData.loc[0:3, ['이름', '몸무게']]

Unnamed: 0,이름,몸무게
0,홍길동,76.4
1,홍길동,75.7
2,홍길동,76.0
3,홍길동,


In [24]:
rawData.loc[0:3, '이름':'몸무게']

Unnamed: 0,이름,측정일,몸무게
0,홍길동,2020-03-01,76.4
1,홍길동,2020-03-02,75.7
2,홍길동,2020-03-03,76.0
3,홍길동,2020-03-04,


### loc Vs. iloc
- iloc를 사용하면 컬럼 인덱스에 정수 사용이 가능

In [25]:
rawData.iloc[0:3, 1:4]

Unnamed: 0,이름,측정일,몸무게
0,홍길동,2020-03-01,76.4
1,홍길동,2020-03-02,75.7
2,홍길동,2020-03-03,76.0


## 조건 검색
- 불리언 인덱스의 활용

In [26]:
# 불리언 시리즈가 반환
# 반환된 불리언 시리즈(배열)를 인덱스로 활용
rawData['지점'] == '여의도'

0    False
1    False
2     True
3     True
4    False
5    False
6    False
7    False
8    False
Name: 지점, dtype: bool

In [27]:
rawData[ rawData['지점'] == '여의도' ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
3,4,홍길동,2020-03-04,,kg,최현경,여의도


In [28]:
# 몸무게가 76 이상인 자료만 검색
rawData[ rawData['몸무게'] >= 76 ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구


### 다중조건
- and, or, not
  - 판다스는 &(앰퍼샌드), |(파이프라인), ~(틸드) 문자를 사용해서 표현
  - 우선순위가 매우 헷갈림
  - 괄호를 이용해서 정확하게 표현

In [29]:
# 서초구 지점의 최현경 담당자의 자료만 검색
rawData[ (rawData['지점'] == '서초구') & (rawData['담당'] == '최현경') ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구


In [30]:
# 서초구 지점의 김현경과 최현경 담당자의 자료만 검색
rawData[ (rawData['지점'] == '서초구') & ((rawData['담당'] == '최현경') | (rawData['담당'] == '김현경')) ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


### 문자열 처리

In [31]:
# isin은 리스트를 파라미터로 가짐
# 리스트 내의 값들 중에서 하나라도 존재하면 True, 그렇지 않으면 False
rawData[ (rawData['지점'] == '서초구') & (rawData['담당'].isin(['김현경', '최현경'])) ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


In [32]:
# 담당자들 중에 성이 '김'씨인 자료만 검색
# contains는 문자열 내에서 특정 문자열이 존재하면 True, 그렇지 않으면, False
# rawData[ ~(rawData['담당'].str.contains('김')) ]
rawData[ (rawData['담당'].str.contains('김')) ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


### 결측치
- 결측치가 있으면 분석을 제대로 수행할 수 없기 때문에 어떻게든 처리해야 함 
  - 결측치를 채우든가, 지우든가 둘 중에 하나
  - 결측치를 채우는 여러가지 방법
    - 평균, 중앙값 등으로 대체하는 경우

In [33]:
# 결측치를 확인하는 방법
# 결측치의 개수
rawData['몸무게'].isnull()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
8    False
Name: 몸무게, dtype: bool

In [34]:
rawData['몸무게'].isna()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7     True
8    False
Name: 몸무게, dtype: bool

In [35]:
#True를 모두 더하면 결측치의 개수
rawData['몸무게'].isna().sum()

3

In [36]:
# 결측치만 확인하고 싶은 경우
rawData[ rawData['몸무게'].isna() ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
3,4,홍길동,2020-03-04,,kg,최현경,여의도
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구


In [37]:
# 결측치를 제외하고 확인하고 싶은 경우 
rawData[ ~rawData['몸무게'].isna() ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


In [38]:
rawData[ rawData['몸무게'].notna() ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


In [39]:
# 조건에 맞는 자료들 중에서 내가 원하는 컬럼만 확인
rawData.loc[ rawData['몸무게'].isna(), '이름']

3    홍길동
6    홍길동
7    홍길동
Name: 이름, dtype: object

In [40]:
rawData.loc[ rawData['몸무게'].isna(),  ['지점', '담당', '측정일']]

Unnamed: 0,지점,담당,측정일
3,여의도,최현경,2020-03-04
6,서초구,최현경,2020-03-07
7,서초구,김현경,2020-03-08


### 이상치(outlier)
- 특별히 크거나, 작은 값
- 이상치를 찾는 경우가 아니라면, 이상치는 제거하고 분석을 진행

In [41]:
rawData['몸무게'].describe()

count     6.000000
mean     75.833333
std       0.492612
min      75.000000
25%      75.700000
50%      75.850000
75%      76.150000
max      76.400000
Name: 몸무게, dtype: float64

In [42]:
# 특정 값을 넘어가는 자료를 이상치로 판단
rawData[ rawData['몸무게'] > 76.15 ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구


In [43]:
# 4분위수를 이용한 방법
display( rawData['몸무게'].quantile(0.25) )
display( rawData['몸무게'].quantile(0.50) )
display( rawData['몸무게'].quantile(0.75) )
display( rawData['몸무게'].quantile(0.99) )

75.7

75.85

76.15

76.39

In [44]:
# 이상치를 상위 99%를 넘어가는 값
# 하위 0.1%보다 낮은 값
# 이상치를 제거하는 방법
low = rawData['몸무게'].quantile(0.01)
high = rawData['몸무게'].quantile(0.99)
rawData[ (rawData['몸무게'] < high) & (rawData['몸무게'] > low) ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구


### 중복 데이터 검사
- duplicated를 이용해서 중복된 자료를 검사

In [45]:
rawData.duplicated(subset=['지점'])

0    False
1     True
2    False
3     True
4    False
5    False
6     True
7     True
8     True
dtype: bool

In [46]:
rawData[ rawData.duplicated(subset=['지점'], keep=False) ]

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도
3,4,홍길동,2020-03-04,,kg,최현경,여의도
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구
6,7,홍길동,2020-03-07,,kg,최현경,서초구
7,8,홍길동,2020-03-08,,kg,김현경,서초구
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구


## 통계분석
- 판다스에서 제공하는 통계관련된 기능들
  - pivot(엑셀에서 사용하는 피봇 기능과 동일한 기능)
  - crosstab
  - 그룹화

In [47]:
# 지점별 몸무게 평균
pd.pivot_table( rawData, index='지점', values='몸무게')

Unnamed: 0_level_0,몸무게
지점,Unnamed: 1_level_1
강남구,76.2
관악구,76.05
서초구,75.35
여의도,76.0


In [48]:
# 지점별 몸무게 총합
pd.pivot_table( rawData, index='지점', values='몸무게', aggfunc=np.sum)

Unnamed: 0_level_0,몸무게
지점,Unnamed: 1_level_1
강남구,76.2
관악구,152.1
서초구,150.7
여의도,76.0


In [49]:
# 지점별 담당자별 몸무게의 평균
pd.pivot_table( rawData, index=['지점', '담당'], values='몸무게')

Unnamed: 0_level_0,Unnamed: 1_level_0,몸무게
지점,담당,Unnamed: 2_level_1
강남구,김현경,76.2
관악구,김현경,75.7
관악구,박현경,76.4
서초구,김현경,75.0
서초구,최현경,75.7
여의도,최현경,76.0


In [50]:
pd.crosstab( index=rawData['지점'], columns=rawData['담당'], values=rawData['몸무게'], aggfunc=np.mean)

담당,김현경,박현경,최현경
지점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
강남구,76.2,,
관악구,75.7,76.4,
서초구,75.0,,75.7
여의도,,,76.0


In [51]:
# 그룹화를 통한 통계적 수치
# 그룹 객체를 반환
rawData.groupby(['지점'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188AE273BE0>

In [52]:
# 그룹화를 통한 지점별 몸무게 평균
rawData.groupby(['지점'])['몸무게'].mean()

지점
강남구    76.20
관악구    76.05
서초구    75.35
여의도    76.00
Name: 몸무게, dtype: float64

In [53]:
# 지점별 담당별 몸무게 평균
rawData.groupby(['지점', '담당'])[['몸무게']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,몸무게
지점,담당,Unnamed: 2_level_1
강남구,김현경,76.2
관악구,김현경,75.7
관악구,박현경,76.4
서초구,김현경,75.0
서초구,최현경,75.7
여의도,최현경,76.0


In [54]:
# 컬럼별로 집계를 다르게 하고 싶다면
rawData.groupby('지점').agg({
  '몸무게': 'mean', '담당': 'count'
})

Unnamed: 0_level_0,몸무게,담당
지점,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,76.2,1
관악구,76.05,2
서초구,75.35,4
여의도,76.0,2


# 데이터 프레임 조작하기
- 추가, 수정, 삭제

## 컬럼의 추가와 수정
- 컬럼을 추가하거나, 수정하는데는 큰 기능이 필요하지 않음

In [55]:
# 데이터프레임에 컬럼이 존재하지 않으면 새로 생성
rawData['지역'] = '서울'
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,지역
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,서울
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,서울
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,서울
3,4,홍길동,2020-03-04,,kg,최현경,여의도,서울
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,서울
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,서울
6,7,홍길동,2020-03-07,,kg,최현경,서초구,서울
7,8,홍길동,2020-03-08,,kg,김현경,서초구,서울
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,서울


In [56]:
# 해당 컬럼이 존재하면 수정됨
rawData['지역'] = 'Seoul'
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,지역
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,Seoul
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,Seoul
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,Seoul
3,4,홍길동,2020-03-04,,kg,최현경,여의도,Seoul
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,Seoul
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,Seoul
6,7,홍길동,2020-03-07,,kg,최현경,서초구,Seoul
7,8,홍길동,2020-03-08,,kg,김현경,서초구,Seoul
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,Seoul


In [57]:
# 조건에 맞게 컬럼을 만들기
# 몸무게가 특정값 이상이면 '비만', 그렇지 않으면 '정상'을 갖는 '상태' 컬럼을 추가
# 조건 검색과 함께 사용
rawData.loc[ rawData['몸무게'] >= 76, '상태'] = '비만'
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,지역,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,Seoul,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,Seoul,
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,Seoul,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,Seoul,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,Seoul,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,Seoul,
6,7,홍길동,2020-03-07,,kg,최현경,서초구,Seoul,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,Seoul,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,Seoul,


In [58]:
rawData.loc[ rawData['몸무게'] < 76, '상태'] = '정상'
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,지역,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,Seoul,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,Seoul,정상
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,Seoul,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,Seoul,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,Seoul,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,Seoul,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,Seoul,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,Seoul,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,Seoul,정상


## 컬럼 삭제
- 삭제는 신중하게 진행
  - 원본 데이터는 삭제하지 않는 것이 좋음 

In [59]:
# drop을 이용해 특정 컬럼을 삭제
# drop을 사용하는 경우 특정 컬럼이 삭제된 새로운 데이터프레임을 반환
rawData.drop(columns=['지역'])

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,정상
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,정상


In [60]:
# 원본은 바뀌지 않음
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,지역,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,Seoul,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,Seoul,정상
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,Seoul,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,Seoul,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,Seoul,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,Seoul,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,Seoul,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,Seoul,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,Seoul,정상


In [61]:
# 원본에서 바로 삭제
# 따로 반환되지 않음
rawData.drop(columns=['지역'], inplace=True)

In [62]:
# inplace 파라미터를 True로 하면, 해당 데이터프레임에서 바로 삭제
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,정상
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,정상


## 행 추가와 수정, 삭제

In [63]:
# 행이 존재하지 않으면 추가
rawData.loc[9] = [10, '홍길동', '2020-03-10', 77, 'kg', '박현경', '관악구', '비만']
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,상태
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,비만
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,정상
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,비만
3,4,홍길동,2020-03-04,,kg,최현경,여의도,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,정상
9,10,홍길동,2020-03-10,77.0,kg,박현경,관악구,비만


In [64]:
# 삭제는 컬럼과 마찬가지로 drop을 동일하게 사용
# 파라미터를 columns이아닌 index 파라미터를 사용
rawData.drop(index=[0, 1, 2])

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,상태
3,4,홍길동,2020-03-04,,kg,최현경,여의도,
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,비만
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,정상
6,7,홍길동,2020-03-07,,kg,최현경,서초구,
7,8,홍길동,2020-03-08,,kg,김현경,서초구,
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,정상
9,10,홍길동,2020-03-10,77.0,kg,박현경,관악구,비만


## apply
- 판다스에서 사용 가능한 반복문
- 모든 행, 열에 대해서 동일한 함수를 반복적으로 적용

In [65]:
# apply의 기본적인 사용방법
def func(x):
  print('함수가 호출되었습니다.')
  print('x: {}'.format(x) )
  
  # apply를 통해서 호출되는 함수는 return을 꼭 작성
  return 

# 기본적으로는 데이터 프레임의 각 컬럼들이 시리즈 형태로 전달
rawData.apply( func )

함수가 호출되었습니다.
x: 0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: 회차, dtype: int64
함수가 호출되었습니다.
x: 0    홍길동
1    홍길동
2    홍길동
3    홍길동
4    홍길동
5    홍길동
6    홍길동
7    홍길동
8    홍길동
9    홍길동
Name: 이름, dtype: object
함수가 호출되었습니다.
x: 0    2020-03-01
1    2020-03-02
2    2020-03-03
3    2020-03-04
4    2020-03-05
5    2020-03-06
6    2020-03-07
7    2020-03-08
8    2020-03-09
9    2020-03-10
Name: 측정일, dtype: object
함수가 호출되었습니다.
x: 0    76.4
1    75.7
2    76.0
3     NaN
4    76.2
5    75.7
6     NaN
7     NaN
8    75.0
9    77.0
Name: 몸무게, dtype: float64
함수가 호출되었습니다.
x: 0    kg
1    kg
2    kg
3    kg
4    kg
5    kg
6    kg
7    kg
8    kg
9    kg
Name: 단위, dtype: object
함수가 호출되었습니다.
x: 0    박현경
1    김현경
2    최현경
3    최현경
4    김현경
5    최현경
6    최현경
7    김현경
8    김현경
9    박현경
Name: 담당, dtype: object
함수가 호출되었습니다.
x: 0    관악구
1    관악구
2    여의도
3    여의도
4    강남구
5    서초구
6    서초구
7    서초구
8    서초구
9    관악구
Name: 지점, dtype: object
함수가 호출되었습니다.
x: 0     비만
1  

회차     None
이름     None
측정일    None
몸무게    None
단위     None
담당     None
지점     None
상태     None
dtype: object

In [66]:
# 컬럼이 아닌, 행을 전달하고 싶다면
def func(x):
  print('함수가 호출되었습니다.')
  print('x: {}'.format(x) )

rawData.apply( func, axis=1 )

함수가 호출되었습니다.
x: 회차              1
이름            홍길동
측정일    2020-03-01
몸무게          76.4
단위             kg
담당            박현경
지점            관악구
상태             비만
Name: 0, dtype: object
함수가 호출되었습니다.
x: 회차              2
이름            홍길동
측정일    2020-03-02
몸무게          75.7
단위             kg
담당            김현경
지점            관악구
상태             정상
Name: 1, dtype: object
함수가 호출되었습니다.
x: 회차              3
이름            홍길동
측정일    2020-03-03
몸무게          76.0
단위             kg
담당            최현경
지점            여의도
상태             비만
Name: 2, dtype: object
함수가 호출되었습니다.
x: 회차              4
이름            홍길동
측정일    2020-03-04
몸무게           NaN
단위             kg
담당            최현경
지점            여의도
상태            NaN
Name: 3, dtype: object
함수가 호출되었습니다.
x: 회차              5
이름            홍길동
측정일    2020-03-05
몸무게          76.2
단위             kg
담당            김현경
지점            강남구
상태             비만
Name: 4, dtype: object
함수가 호출되었습니다.
x: 회차              6
이름            홍길동
측정일    2020-03-06
몸무게          75

0    None
1    None
2    None
3    None
4    None
5    None
6    None
7    None
8    None
9    None
dtype: object

In [67]:
# 지점별로 지역을 새로 만들기
def func(x):
  if x['지점'] == '관악구': return '강서'
  elif x['지점'] == '여의도': return '강서'
  elif x['지점'] == '강남구': return '강동'
  elif x['지점'] == '서초구': return '강동'

# apply가 리턴하는 값들도 하나의 시리즈
rawData.apply( func, axis=1 )

0    강서
1    강서
2    강서
3    강서
4    강동
5    강동
6    강동
7    강동
8    강동
9    강서
dtype: object

In [68]:
# 새로운 컬럼을 추가
rawData['지역'] = rawData.apply( func, axis=1 )
rawData

Unnamed: 0,회차,이름,측정일,몸무게,단위,담당,지점,상태,지역
0,1,홍길동,2020-03-01,76.4,kg,박현경,관악구,비만,강서
1,2,홍길동,2020-03-02,75.7,kg,김현경,관악구,정상,강서
2,3,홍길동,2020-03-03,76.0,kg,최현경,여의도,비만,강서
3,4,홍길동,2020-03-04,,kg,최현경,여의도,,강서
4,5,홍길동,2020-03-05,76.2,kg,김현경,강남구,비만,강동
5,6,홍길동,2020-03-06,75.7,kg,최현경,서초구,정상,강동
6,7,홍길동,2020-03-07,,kg,최현경,서초구,,강동
7,8,홍길동,2020-03-08,,kg,김현경,서초구,,강동
8,9,홍길동,2020-03-09,75.0,kg,김현경,서초구,정상,강동
9,10,홍길동,2020-03-10,77.0,kg,박현경,관악구,비만,강서


# 데이터 프레임 합치기
- 서로 다른 두 자료(데이터 프레임)를 하나의 데이터 프레임으로 합치는 방법
- 여러 소스(출처)부터 가져온 데이터를 분석을 하기 위해서는 반드시 하나의 데이터 프레임 이어야만 함

- 데이터를 합치는 방법 

![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Foecbm%2FbtqRolfgnC4%2FROZxkKlASUIqWLx1SLd7xK%2Fimg.png)

In [69]:
user_device = pd.read_csv('C://Users//joey0//TIL//CLI//라이브러리//user_device.csv')
user_usage = pd.read_csv('C://Users//joey0/TIL//CLI//라이브러리//user_usage.csv')

In [70]:
user_usage.head(2)

Unnamed: 0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb,use_id
0,21.97,4.82,1557.33,22787
1,1710.08,136.88,7267.55,22788


In [71]:
user_device.head(2)

Unnamed: 0,use_id,user_id,platform,platform_version,device,use_type_id
0,22782,26980,ios,10.2,"iPhone7,2",2
1,22783,29628,android,6.0,Nexus 5,3


## inner join
- merge 함수를 통해서 `join`
  - merge의 기본 동작은 `inner join`

- inner join은 기본적으로 자료의 크기가 훨씬 줄어듦 
  - user_usage: 240개
  - user_device: 272개
    - 두 자료를 하나로 합쳤을 경우 240개를 넘어가지 않음
    - 양쪽자료 모두에 존재하지 않는 자료가 있다면? 

In [72]:
display( len(user_usage) )
display( len(user_device) )

240

272

In [73]:
pd.merge(left=user_usage, right=user_device, on='use_id')

Unnamed: 0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb,use_id,user_id,platform,platform_version,device,use_type_id
0,21.97,4.82,1557.33,22787,12921,android,4.3,GT-I9505,1
1,1710.08,136.88,7267.55,22788,28714,android,6.0,SM-G930F,1
2,1710.08,136.88,7267.55,22789,28714,android,6.0,SM-G930F,1
3,94.46,35.17,519.12,22790,29592,android,5.1,D2303,1
4,71.59,79.26,1557.33,22792,28217,android,5.1,SM-G361F,1
...,...,...,...,...,...,...,...,...,...
154,198.59,90.49,5191.12,23043,28953,android,6.0,SM-G900F,1
155,198.59,90.49,3114.67,23044,28953,android,6.0,SM-G900F,1
156,106.65,82.13,5191.12,23046,29454,android,6.0,Moto G (4),1
157,344.53,20.53,519.12,23049,29725,android,6.0,SM-G900F,1


## left join
- left 자료가 기준
- 결측치가 발생 가능
  - right에 없는 자료는 결측치

In [74]:
pd.merge(left=user_usage, right=user_device, on='use_id', how='left')

Unnamed: 0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb,use_id,user_id,platform,platform_version,device,use_type_id
0,21.97,4.82,1557.33,22787,12921.0,android,4.3,GT-I9505,1.0
1,1710.08,136.88,7267.55,22788,28714.0,android,6.0,SM-G930F,1.0
2,1710.08,136.88,7267.55,22789,28714.0,android,6.0,SM-G930F,1.0
3,94.46,35.17,519.12,22790,29592.0,android,5.1,D2303,1.0
4,71.59,79.26,1557.33,22792,28217.0,android,5.1,SM-G361F,1.0
...,...,...,...,...,...,...,...,...,...
235,260.66,68.44,896.96,25008,,,,,
236,97.12,36.50,2815.00,25040,,,,,
237,355.93,12.37,6828.09,25046,,,,,
238,632.06,120.46,1453.16,25058,,,,,


## full outer join

In [75]:
pd.merge(left=user_usage, right=user_device, on='use_id', how='outer')

Unnamed: 0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb,use_id,user_id,platform,platform_version,device,use_type_id
0,21.97,4.82,1557.33,22787,12921.0,android,4.3,GT-I9505,1.0
1,1710.08,136.88,7267.55,22788,28714.0,android,6.0,SM-G930F,1.0
2,1710.08,136.88,7267.55,22789,28714.0,android,6.0,SM-G930F,1.0
3,94.46,35.17,519.12,22790,29592.0,android,5.1,D2303,1.0
4,71.59,79.26,1557.33,22792,28217.0,android,5.1,SM-G361F,1.0
...,...,...,...,...,...,...,...,...,...
348,,,,23047,29720.0,ios,10.2,"iPhone7,1",2.0
349,,,,23048,29724.0,android,6.0,ONEPLUS A3003,3.0
350,,,,23050,29726.0,ios,10.2,"iPhone7,2",3.0
351,,,,23051,29726.0,ios,10.2,"iPhone7,2",3.0
