# 판다스 (데이터프레임) 데이터 조작 함수 사용

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
import numpy as np

### pandas 데이터처리 및 변환 관련 함수

count() : 데이터 개수 반환  
value_counts() : 데이터 빈도 수 반환  
sort_index() : 인덱스를 기준으로 정렬  
sort_values() : 데이터 값을 기준으로 정렬  
dropna() : NaN 제거  
fillna() : NaN을 다른 값으로 채움  
apply() : 동일한 반복 연산에 함수 적용  
cut() : 데이터 구간 분할  
qcut() : 경계선 없이 데이터 수가 동일한 구간으로 분할  
set_index() : 열로 인덱스 설정  
reset_index() : 인덱스 제거하고 열로 추가  
rename() : 열/행 인덱스 이름 변경  

### count() : 데이터 개수 반환
- NaN은 세지 않음

In [3]:
s = pd.Series(range(10))
s[3] = None
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count()

9

### 데이터 프레임에 count()함수 적용하기
- 각 열마다 데이터 개수를 세기때문에 누락된 부분을 찾을 때 유용

#### 난수 발생시켜 dataframe 생성
- np.random.randint(5) : 0~4 사이의 난수 발행
- 난수 seed(값)라는 함수를 사용할 수 있음
- seed의 의미 : 난수 알고리즘에서 사용하는 기본 값으로
    - 시드값이 같으면 동일한 난수가 발생함
    - 난수 함수 사용시 매번 고정된 값 발생
- 계속 변경되는 난수를 받고 싶으면 함수등을 이용해서 시드값이 매번 변하게 작업해야 함. time.time()

In [5]:
np.random.randint(5, size=3)

array([3, 4, 1])

In [6]:
np.random.seed(2)
np.random.randint(5, size=3)
np.random.randint(5, size=3)
np.random.randint(5, size=3)

array([0, 0, 3])

array([2, 3, 0])

array([2, 1, 3])

In [7]:
np.random.seed(3)
df1 = pd.DataFrame(np.random.randint(5, size=(4, 4)))
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3
1,0,0,0,3
2,2,3,1,1
3,2,0,4,4


In [8]:
df1[3][2]=None
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [9]:
df1.count()

0    4
1    4
2    4
3    3
dtype: int64

- 타이타닉 승객 데이터 사용
    - seaborn 패키지 내에 dataset으로 존재
    - 데이터셋 읽어오기 : 패키지명.load_dataset("data명")

In [10]:
import seaborn as sns

In [11]:
titanic = sns.load_dataset('titanic')
titanic.head()
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [12]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


### 변수설명  
passengerId : 각 승객의 고유 번호  
survived : 생존 여부(종속 변수)  
- 0 = 사망  
- 1 = 생존  

class : 객실 등급 - 승객의 사회적, 경제적 지위  
- First  
- Second 
- Third  

sex : 성별  
age : 나이  
sibsp : 동반한 Sibling(형제자매)와 Spouse(배우자)의 수  
parch : 동반한 Parent(부모) Child(자식)의 수   
fare : 티켓의 요금  
embark_town : 승선한 항  
- C = Cherbourg (셰르부르)  
- Q = Queenstown  
- S = Southampton  

In [13]:
# 나이가 1보다 작은(아기) 사람이 있는가?
titanic[titanic['age']<1]['age']

78     0.83
305    0.92
469    0.75
644    0.75
755    0.67
803    0.42
831    0.83
Name: age, dtype: float64

### value_counts()  함수

###  카테고리 값 세기
- 시리즈의 값이 정수,문자열 등 카테고리 값인 경우에
- 시리즈.value_counts() 메서드를 사용해 각각의 값이 나온 횟수를 셀 수 있음
    - value_counts() 인수 
        - dropna=True 디폴트 (NaN 무시)  
        - dropna=False : NaN 개수도 카운트  
        - ascending=True : 오름차순 정렬 (기본 False로 내림차순)  
        - normalize=True  
            - 각 값 및 전체에서의 범주형 데이터의 비율을 계산  
            - 전체 10개 중 1이 3개 : 0.3  
            - 시리즈.value_counts(normalize=True)  

##### 범주형 데이터에 value_counts() 함수 적용
- 범주형 데이터 : 관측 결과가 몇개의 범주 또는 항목의 형태로 나타나는 자료
    - ex. 성별(남,여), 선호도(좋다, 보통, 싫다), 혈액형(A,B,O,AB) 등

In [14]:
titanic['alive'].value_counts()

titanic['alive'].value_counts(normalize=True)*100 # 비율로 변환

alive
no     549
yes    342
Name: count, dtype: int64

alive
no     61.616162
yes    38.383838
Name: proportion, dtype: float64

In [15]:
titanic['sex'].value_counts()

titanic['sex'].value_counts(normalize=True)*100

sex
male      577
female    314
Name: count, dtype: int64

sex
male      64.758698
female    35.241302
Name: proportion, dtype: float64

In [16]:
sex_alive = titanic[['sex', 'alive']].value_counts()
# tuple로 이루어진 multi-index형태이다 
sex_alive

sex     alive
male    no       468
female  yes      233
male    yes      109
female  no        81
Name: count, dtype: int64

In [17]:
sex_alive_df = pd.DataFrame(index=['male', 'female'],
                            columns=['yes', 'no'])
for s, a in sex_alive.keys():
    sex_alive_df[a][s] = sex_alive[s, a]
sex_alive_df

Unnamed: 0,yes,no
male,109,468
female,233,81


In [18]:
titanic.age.value_counts(dropna=False)

age
NaN      177
24.00     30
22.00     27
18.00     26
28.00     25
        ... 
36.50      1
55.50      1
0.92       1
23.50      1
74.00      1
Name: count, Length: 89, dtype: int64

### 정렬함수 - 시리즈 정렬 시 사용
- sort_index() : 인덱스를 기준으로 정렬
- sort_values() : 데이터 값을 기준으로 정렬
- ascending=True가 기본값이다

In [19]:
s = titanic.sibsp.value_counts()
s

sibsp
0    608
1    209
2     28
4     18
3     16
8      7
5      5
Name: count, dtype: int64

In [20]:
# ascending=True가 기본값
s.sort_index()
s.sort_values(ascending=False)

sibsp
0    608
1    209
2     28
3     16
4     18
5      5
8      7
Name: count, dtype: int64

sibsp
0    608
1    209
2     28
4     18
3     16
8      7
5      5
Name: count, dtype: int64

### 정렬함수 - 데이터 프레임 정렬 시 사용
- sort_index() : 인덱스를 기준으로 정렬
- sort_values() : 데이터 값을 기준으로 정렬
- 시리즈와는 다르게 정렬하는 기준이 되는 열이 없으면 오류가 발생한다(by 인수를 사용한다)
- by={열 인덱스}, by=[열 인덱스1, 열 인덱스2, ...]
- ascending=True가 기본값이다

In [21]:
df1.sort_values(by=3)

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
3,2,0,4,4.0
2,2,3,1,


In [22]:
df1.sort_values(by=[0, 2])

Unnamed: 0,0,1,2,3
1,0,0,0,3.0
0,2,0,1,3.0
2,2,3,1,
3,2,0,4,4.0


### 행/열 합계 및 평균
- df.sum() 사용
  - axis = 0 : 각 행의 합계
  - axis = 1 : 각 열의 합계
- df.mean() 사용
  - 위와 동일
- axis = 0가 기본값이다

In [23]:
np.random.seed(3)
df2 = pd.DataFrame(np.random.randint(9, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,8,3,8,8,0,5,3,5
1,7,6,0,4,7,8,1,6
2,2,2,1,3,5,8,1,8
3,7,8,1,0,5,4,1,5


In [24]:
df2.sum()
df2.sum(axis=1)
df2.mean()
df2.mean(axis=1)

0    24
1    19
2    10
3    15
4    17
5    25
6     6
7    24
dtype: int64

0    40
1    39
2    30
3    31
dtype: int64

0    6.00
1    4.75
2    2.50
3    3.75
4    4.25
5    6.25
6    1.50
7    6.00
dtype: float64

0    5.000
1    4.875
2    3.750
3    3.875
dtype: float64

In [25]:
df3 = df2.copy()
df3['total'] = df3.sum(axis=1)
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,8,3,8,8,0,5,3,5,40
1,7,6,0,4,7,8,1,6,39
2,2,2,1,3,5,8,1,8,30
3,7,8,1,0,5,4,1,5,31


In [26]:
df3.loc['col_total'] = df3.sum()
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,8,3,8,8,0,5,3,5,40
1,7,6,0,4,7,8,1,6,39
2,2,2,1,3,5,8,1,8,30
3,7,8,1,0,5,4,1,5,31
col_total,24,19,10,15,17,25,6,24,140


In [27]:
df2.max()
df2.max(axis=1)

0    8
1    8
2    8
3    8
4    7
5    8
6    3
7    8
dtype: int64

0    8
1    8
2    8
3    8
dtype: int64

In [28]:
df3.loc['max'] = df3[:4].max()
df3.loc['min'] = df3[:4].min()
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,8,3,8,8,0,5,3,5,40
1,7,6,0,4,7,8,1,6,39
2,2,2,1,3,5,8,1,8,30
3,7,8,1,0,5,4,1,5,31
col_total,24,19,10,15,17,25,6,24,140
max,8,8,8,8,7,8,3,8,40
min,2,2,0,0,0,4,1,5,30


In [29]:
df3['avg'] = df3.mean(axis=1).round(2)
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total,avg
0,8,3,8,8,0,5,3,5,40,8.89
1,7,6,0,4,7,8,1,6,39,8.67
2,2,2,1,3,5,8,1,8,30,6.67
3,7,8,1,0,5,4,1,5,31,6.89
col_total,24,19,10,15,17,25,6,24,140,31.11
max,8,8,8,8,7,8,3,8,40,10.89
min,2,2,0,0,0,4,1,5,30,4.89


In [30]:
df3.iloc[0, 0] = np.nan
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total,avg
0,,3,8,8,0,5,3,5,40,8.89
1,7.0,6,0,4,7,8,1,6,39,8.67
2,2.0,2,1,3,5,8,1,8,30,6.67
3,7.0,8,1,0,5,4,1,5,31,6.89
col_total,24.0,19,10,15,17,25,6,24,140,31.11
max,8.0,8,8,8,7,8,3,8,40,10.89
min,2.0,2,0,0,0,4,1,5,30,4.89


In [31]:
# NaN이 있는 행 삭제 (axis=0이 기본값)
df3.dropna(inplace=True)
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total,avg
1,7.0,6,0,4,7,8,1,6,39,8.67
2,2.0,2,1,3,5,8,1,8,30,6.67
3,7.0,8,1,0,5,4,1,5,31,6.89
col_total,24.0,19,10,15,17,25,6,24,140,31.11
max,8.0,8,8,8,7,8,3,8,40,10.89
min,2.0,2,0,0,0,4,1,5,30,4.89


In [32]:
df3.iloc[1, 3] = np.nan
df3

Unnamed: 0,0,1,2,3,4,5,6,7,total,avg
1,7.0,6,0,4.0,7,8,1,6,39,8.67
2,2.0,2,1,,5,8,1,8,30,6.67
3,7.0,8,1,0.0,5,4,1,5,31,6.89
col_total,24.0,19,10,15.0,17,25,6,24,140,31.11
max,8.0,8,8,8.0,7,8,3,8,40,10.89
min,2.0,2,0,0.0,0,4,1,5,30,4.89


In [33]:
# NaN이 있는 열 삭제
df3.dropna(axis=1, inplace=True)
df3

Unnamed: 0,0,1,2,4,5,6,7,total,avg
1,7.0,6,0,7,8,1,6,39,8.67
2,2.0,2,1,5,8,1,8,30,6.67
3,7.0,8,1,5,4,1,5,31,6.89
col_total,24.0,19,10,17,25,6,24,140,31.11
max,8.0,8,8,7,8,3,8,40,10.89
min,2.0,2,0,0,4,1,5,30,4.89


In [34]:
# NaN때문에 실수로 바뀌었던 1열을 정수로 바꾸자
df3[0] = df3[0].astype(int)
df3
# 그냥 숫자를 정수로 바꾸면 소수점이 다 떨어져나간다
# 문자가 있으면 오류가 난다

Unnamed: 0,0,1,2,4,5,6,7,total,avg
1,7,6,0,7,8,1,6,39,8.67
2,2,2,1,5,8,1,8,30,6.67
3,7,8,1,5,4,1,5,31,6.89
col_total,24,19,10,17,25,6,24,140,31.11
max,8,8,8,7,8,3,8,40,10.89
min,2,2,0,0,4,1,5,30,4.89


### 열 또는 행에 동일한 연산 반복 적용할 때 : apply() 메소드 (함수)
- apply() 함수 : DataFrame의 행이나 열에 복잡한 반복 연산을 수행 메소드
    - 동일한 연산은 함수화 되어있어야 함   
    - 주로 익명의 lambda 함수를 같이 사용  
    - dataframe의 특정 영역을 함수의 입력 값으로 받고   
    - axis 옵션을 주어 행과 열 데이터 중 원하는 데이터를 처리  

- apply(반복적용할 함수, axis=0/1)
    - 0 : 열마다 반복
    - 1 : 행마다 반복    
    - 생략시 기본값 : 0
    - 주어진 방향으로 결과값이 출력 된다는 식으로 외우자
    
- 적용되는 함수가 행/열 자체가 아닌 각 요소에 적용되는 함수인 경우  
  - axis값이 0 또는 1에 대해 동일한 결과 출력  


- apply() 함수는 데이터프레임에 사용
- 시리즈에서는 map() 함수 사용

In [35]:
df4 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df4

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [36]:
# 각 열에다가 sum()적용하기
df4['a'].sum()
sum(df4['a'])

15

15

In [37]:
# 순서만 지키면 axis는 생략해도 괜찮다
# axis=0이면 열이 들어간다
# axis=1이면 행이 들어간다
df4.apply(sum)
df4.apply(sum, 1)

a    15
b    15
c    16
dtype: int64

0     4
1    11
2     7
3    11
4    13
dtype: int64

### 사용자 정의 함수를 apply() 함수에 사용

In [38]:
def deviation(lines):
    return np.mean(lines**2 - np.mean(lines)**2)
deviation(df4['a'])

df4.apply(deviation)

1.2

a    1.20
b    2.00
c    2.16
dtype: float64

### 1회성 함수 lambda 함수를 apply() 함수에 사용

In [39]:
df4.apply(lambda lines: lines.max()-lines.min())

a    3
b    4
c    4
dtype: int64

In [40]:
data = [90, 89, 50, 75, 45]
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']
df5 = pd.DataFrame(data, index=index, columns=['점수'])
df5

Unnamed: 0,점수
홍길동,90
성춘향,89
이몽룡,50
변학도,75
강길동,45


In [41]:
def result(x):
    result = '불합격'
    if x.iloc[0]>60:
        result = '합격'
    return result

In [42]:
df5.apply(result, 1)

홍길동     합격
성춘향     합격
이몽룡    불합격
변학도     합격
강길동    불합격
dtype: object

In [43]:
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']
]

columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']
df6 = pd.DataFrame(data, columns=columns, index=index)
df6

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [44]:
def address_check(x):
    result = False
    if x['주소'] in ('서울', '대구'):
        result = True
    return result

df6.apply(address_check, 1)

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
dtype: bool

In [45]:
# 시리즈에서 map()써보기
def address_check2(x):
    result = False
    if x in ('서울', '대구'):
        result = True
    return result

df6['주소'].map(address_check2)

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
Name: 주소, dtype: bool

In [46]:
df6.apply(lambda x: True if x['주소'] in ('서울', '대구') else False, 1)

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
dtype: bool

# 데이터값을 카테고리 값으로 변환
- 값의 크기를 기준으로하여 카테고리 값으로 변환하고 싶을때
    - cut(data,bins,labels)
        - 숫자 값의 경계선을 지정하는 경우
            - 예를 들어 나이 (0, 15, 20, 23,..., 100)가 있을 때
                - 경계선 나이를 0, 4,18, 35, 50, 65,100 ... 지정해서
                - 미성년자, 청년, 중년, ... 등의 카테고리로 나눌 경우
        - data : 구간 나눌 실제 값   
        - bins : 구간 경계값  
        - labels: 카테고리값  
    - qcut(data, 구간수, labels=[d1,d2....])
        - 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할

### cut()

In [47]:
ages = [0, 0.5, 4, 6, 4, 5, 2, 10, 21, 23, 37, 15, 38, 31, 61, 20, 41, 31, 100] # 데이터
bins = [0, 4, 18, 35, 50, 65, 100] # 경계값
# 0~4 : 0 < 영유아 <= 4
# 4~18 : 4 < 미성년자 <= 18 
# 등등...
labels = ['영유아', '미성년자', '청년', '중년', '장년', '노인']

In [48]:
# cut(x, bins, lables)
ctgs = pd.cut(ages, bins=bins, labels=labels)
ctgs

[NaN, '영유아', '영유아', '미성년자', '영유아', ..., '장년', '청년', '중년', '청년', '노인']
Length: 19
Categories (6, object): ['영유아' < '미성년자' < '청년' < '중년' < '장년' < '노인']

In [49]:
ctgs.categories

Index(['영유아', '미성년자', '청년', '중년', '장년', '노인'], dtype='object')

In [50]:
ctgs.codes

array([-1,  0,  0,  1,  0,  1,  0,  1,  2,  2,  3,  1,  3,  2,  4,  2,  3,
        2,  5], dtype=int8)

In [51]:
ctgs_df = pd.DataFrame({
    '나이': ages,
    '연령대': ctgs # 리스트가 아니어도 알아서 잘 넣어줌
})
ctgs_df

Unnamed: 0,나이,연령대
0,0.0,
1,0.5,영유아
2,4.0,영유아
3,6.0,미성년자
4,4.0,영유아
5,5.0,미성년자
6,2.0,영유아
7,10.0,미성년자
8,21.0,청년
9,23.0,청년


In [52]:
# 연령대별 수?
ctgs_df.value_counts('연령대')
ctgs_df.value_counts('연령대', dropna=False)

# 연령대 수?
len(ctgs_df['연령대'].unique())

연령대
청년      5
영유아     4
미성년자    4
중년      3
장년      1
노인      1
Name: count, dtype: int64

연령대
청년      5
영유아     4
미성년자    4
중년      3
장년      1
노인      1
NaN     1
Name: count, dtype: int64

7

#### qcut()
- qcut(data, 구간수, labels=[d1,d2....])
- 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할
- 예 : 1000개의 데이터를 4구간으로 분할하는 경우
    - 한 구간마다 250개씩 데이터 포함
- 예외 : 같은 숫자인 경우에는 같은 구간으로 처리
    - 각 구간의 데이터 수가 다를 수 있음

In [53]:
np.random.seed(1)
ints = np.random.randint(20, size=20)
ints

array([ 5, 11, 12,  8,  9, 11,  5, 15,  0, 16,  1, 12,  7, 13,  6, 18,  5,
       18, 11, 10])

In [54]:
qctg = pd.qcut(ints, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
qctg

['Q1', 'Q3', 'Q3', 'Q2', 'Q2', ..., 'Q4', 'Q1', 'Q4', 'Q3', 'Q2']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [55]:
qctg_df = pd.DataFrame({
    'rands': ints,
    'Q': qctg
})
qctg_df

Unnamed: 0,rands,Q
0,5,Q1
1,11,Q3
2,12,Q3
3,8,Q2
4,9,Q2
5,11,Q3
6,5,Q1
7,15,Q4
8,0,Q1
9,16,Q4


In [56]:
qctg_df.sort_values('rands')

Unnamed: 0,rands,Q
8,0,Q1
10,1,Q1
0,5,Q1
16,5,Q1
6,5,Q1
14,6,Q2
12,7,Q2
3,8,Q2
4,9,Q2
19,10,Q2


### 인덱스 설정
경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가
일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 하는데 인덱스로 들어가 있는 경우가 존재  
인덱스와 열을 교환하는 방법이 필요

#### 인덱스 설정 함수

데이터프레임의 인덱스 설정하고 제거하는 함수 
 - set_index()  
        - 기존의 행 인덱스를 제거하고  
        - 데이터 열 중에서 하나를 인덱스로 설정  
        - (열 -> 인덱스)  
 - reset_index()  
        - 기존의 행 인덱스를 제거하고   
        - 인덱스를 열로 추가  
        - (인덱스 -> 열)  

In [57]:
df6 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df6

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [58]:
df6.set_index('a', inplace=True)
df6

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


In [59]:
df6.index

Index([1, 3, 4, 3, 4], dtype='int64', name='a')

### reset_index() 시 기존 인덱스 삭제 가능
- drop=True로 설정하면
- 인덱스를 열 인덱스로 올리는 것이 아니라 그냥 버림
- 인덱스값이 관측값이 아니거나 불필요한 경우는 
- df의 열데이터로 추가되지 않게 해야함

In [60]:
df6.reset_index(inplace=True) # 인덱스 새로 만들기
df6

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [61]:
df6.set_index('c', inplace=True) # 인덱스를 새거로 넣어보자
df6

Unnamed: 0_level_0,a,b
c,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,2
5,3,3
2,4,1
4,3,4
4,4,5


In [62]:
df6.reset_index(drop=True, inplace=True) # 기존 인덱스를 버려버린다
df6

Unnamed: 0,a,b
0,1,2
1,3,3
2,4,1
3,3,4
4,4,5


### index 이름 변경
- 행 인덱스 이름 변경  
    - rename(index={현재 index:새index}) 
- 열 인덱스 이름 변경  
    - rename(columns={현재 index:새index}) 

In [63]:
df6.rename(index={
    0: '1반',
    1: '2반',
    2: '3반',
    3: '4반',
    4: '5반'
}, inplace=True)
df6

Unnamed: 0,a,b
1반,1,2
2반,3,3
3반,4,1
4반,3,4
5반,4,5


In [64]:
df6.rename(columns={'b':'B'}, inplace=True)
df6

Unnamed: 0,a,B
1반,1,2
2반,3,3
3반,4,1
4반,3,4
5반,4,5


In [65]:
df6 = df6[['B', 'a']]
df6

Unnamed: 0,B,a
1반,2,1
2반,3,3
3반,1,4
4반,4,3
5반,5,4


In [66]:
# 다중 인덱스를 가지는 데이터 프레임
np.random.seed(0)
df7 = pd.DataFrame(np.random.randint(0, 101, size=(5, 4)),
                   columns=[['홍길동', '홍길동', '이몽룡', '이몽룡'],
                            ['영어', '수학', '영어', '수학']])
df7

Unnamed: 0_level_0,홍길동,홍길동,이몽룡,이몽룡
Unnamed: 0_level_1,영어,수학,영어,수학
0,44,47,64,67
1,67,9,83,21
2,36,87,70,88
3,88,12,58,65
4,39,87,46,88


In [67]:
columns = pd.MultiIndex.from_product([['홍길동', '이몽룡'],
                                      ['영어', '수학']],
                                     names=['성명', '과목'])
np.random.seed(0)
data = np.random.randint(0, 101, size=(5, 4))
df8 = pd.DataFrame(data, columns=columns)
df8

성명,홍길동,홍길동,이몽룡,이몽룡
과목,영어,수학,영어,수학
0,44,47,64,67
1,67,9,83,21
2,36,87,70,88
3,88,12,58,65
4,39,87,46,88


In [68]:
# quiz
data = np.random.randint(0, 101, size=(4, 6))
index = pd.MultiIndex.from_product([['1학년', '2학년'],
                                    ['1반', '2반']],
                                   names=['학년', '반'])
columns = pd.MultiIndex.from_product([['여자', '남자'],
                                      ['국어', '영어', '수학']],
                                     names=['성별', '과목'])
df9 = pd.DataFrame(data, index=index, columns=columns)
df9

Unnamed: 0_level_0,성별,여자,여자,여자,남자,남자,남자
Unnamed: 0_level_1,과목,국어,영어,수학,국어,영어,수학
학년,반,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
1학년,1반,81,37,25,77,72,9
1학년,2반,20,80,69,79,47,64
2학년,1반,82,99,88,49,29,19
2학년,2반,19,14,39,32,65,9


#### 리스트 내포 for문의 일반 문법
- [표현식(연산식) for 항목 in 반복가능객체 if 조건문]
- if 조건문은 생략 가능하다.
- 반복가능객체 : 리스트, 튜플,딕셔너리,range()등


In [69]:
# if만 쓸거면 맨 뒤에
a = [x**2 for x in range(10) if x%2==0]
a

[0, 4, 16, 36, 64]

In [70]:
scores = [90, 55, 88, 77, 45]
# if ~ else 전체를 쓰려면 중간에
rlt = [False if _ < 60 else True for _ in scores]
rlt

[True, False, True, True, False]

In [71]:
rlt_df = pd.DataFrame({
    '점수': scores,
    '결과': rlt
})
rlt_df

Unnamed: 0,점수,결과
0,90,True
1,55,False
2,88,True
3,77,True
4,45,False


### 문자열 데이터 변환
- 시리즈의 str 속성 사용  
- 문자열 일부 추출 : 문자열 슬라이싱  
- 문자열 분리 : split()

In [72]:
students = pd.DataFrame({
    'name':['홍길동', '이몽룡', '성춘향'],
    'info':['한국대학교 1학년 수학과',
            '대한대학교 3학년 국어과',
            '민국대학교 4학년 체육과']
})
students

Unnamed: 0,name,info
0,홍길동,한국대학교 1학년 수학과
1,이몽룡,대한대학교 3학년 국어과
2,성춘향,민국대학교 4학년 체육과


In [73]:
students['info'].str[:5]

0    한국대학교
1    대한대학교
2    민국대학교
Name: info, dtype: object

In [74]:
students2 = students['info'].str.split(' ', expand=True) # expand=True로 데이터프레임 확장
students2

Unnamed: 0,0,1,2
0,한국대학교,1학년,수학과
1,대한대학교,3학년,국어과
2,민국대학교,4학년,체육과


In [75]:
students_df = pd.concat([students, students2], axis=1)
# axis=0은 행에 맞춰 붙인다 (세로방향)
# axis=1은 열에 맞춰 붙인다 (가로방향)
students_df

Unnamed: 0,name,info,0,1,2
0,홍길동,한국대학교 1학년 수학과,한국대학교,1학년,수학과
1,이몽룡,대한대학교 3학년 국어과,대한대학교,3학년,국어과
2,성춘향,민국대학교 4학년 체육과,민국대학교,4학년,체육과


In [76]:
# 1
del students_df['info']
students_df

Unnamed: 0,name,0,1,2
0,홍길동,한국대학교,1학년,수학과
1,이몽룡,대한대학교,3학년,국어과
2,성춘향,민국대학교,4학년,체육과


In [77]:
# 2
students_df.rename(columns={
                        'name':'성명',
                        0:'학교',
                        1:'학년',
                        2:'학과'
                   }, inplace=True)
students_df

Unnamed: 0,성명,학교,학년,학과
0,홍길동,한국대학교,1학년,수학과
1,이몽룡,대한대학교,3학년,국어과
2,성춘향,민국대학교,4학년,체육과


In [78]:
students_df = students_df[['학교', '학과', '학년', '성명']]
students_df

Unnamed: 0,학교,학과,학년,성명
0,한국대학교,수학과,1학년,홍길동
1,대한대학교,국어과,3학년,이몽룡
2,민국대학교,체육과,4학년,성춘향
