# 5. pd.Series & pd.DataFrame
series(시리즈)와 dataframe(데이터프레임) 형태는 데이터를 다루는 데 특화된 형태이다.  
- df(데이터프레임)는 행과 열의 2차원 형태로 구성되어 있으며
- series(시리즈)는 df에서 하나의 열을 똑 떼어낸 것이라 보면 된다.(즉, 1차원)  

---
**<목차>**  
5-1. 시리즈와 데이터프레임 만들기  
5-2. 시리즈와 데이터프레임 다루기(공통 기능)   
    1. 인덱싱
    2. 기초통계량 추출: describe, agg 함수 적용
    3. 불린 인덱싱
    4. isin
    5. drop_duplicates
    6. 값 정렬: sort_index, sort_values 
5-3. 데이터프레임 - 행 또는 열 drop 

## 5-1. 시리즈와 데이터프레임 만들기
### 시리즈
`pd.Series([리스트], index)`  
- 시리즈는 인덱스를 가진다. 지정하지 않으면 디폴트로 0부터 차례대로 숫자 인덱스가 생성됨

In [1]:
import pandas as pd

# 예시) 1반의 수학 성적 데이터
pd.Series([89, 72, 54, 100, 92, 37, 49])

0     89
1     72
2     54
3    100
4     92
5     37
6     49
dtype: int64

In [2]:
# 인덱스 지정: 학생 이름 
pd.Series([89, 72, 54, 100, 92, 37, 49], index = ['anna', 'albert', 'dino', 'florence', 'harry', 'justin', 'james'])

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
dtype: int64

In [3]:
# lucy의 성적이 빠졌다. 간단하게 추가를 해보자.

math_s = pd.Series([89, 72, 54, 100, 92, 37, 49], index = ['anna', 'albert', 'dino', 'florence', 'harry', 'justin', 'james'])
lucy = pd.Series([50], index = ['lucy'])

math_s.append(lucy)

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
lucy         50
dtype: int64

In [4]:
# 인덱스 지정을 안 한다면? -> 인덱스 번호까지 디폴트 값으로 변화되진 않는다.
math_s = pd.Series([89, 72, 54, 100, 92, 37, 49])
lucy = pd.Series([50])

math_s.append(lucy)

0     89
1     72
2     54
3    100
4     92
5     37
6     49
0     50
dtype: int64

In [5]:
# 이런 경우엔 ignore_index를 사용해주자! (c.f.뒤에 나오겠지만 df의 경우는 reset_index도 사용가능)
math_s.append(lucy, ignore_index = True)

0     89
1     72
2     54
3    100
4     92
5     37
6     49
7     50
dtype: int64

### 데이터프레임
`pd.DataFrame({딕셔너리}, index, columns)`  
- 데이터프레임은 인덱스(행 이름)뿐만 아니라 컬럼(열 이름)값도 가진다.  
- 또한 데이터프레임은 열이 하나 이상이어야 한다. (c.f. 시리즈는 반드시 열이 1개이다.)
- 처음 만들 때 인덱스/컬럼을 지정하지 않아도 다른 명령어로 지정 가능!
    - `df.index = []` , `df.columns = []`로 써줘도 되고
    - 인덱스 초기화를 하려면 `df.reset_index()` 
    - 새로운 컬럼을 인덱스로 지정하려면 `df.set_index()`

In [6]:
# 앞에서 만들었던 1반의 수학성적 데이터 
## 인덱스: 학생 이름, 열: 성적, 나이

math_df = pd.DataFrame({'score': [89, 72, 54, 100, 92, 37, 49], 
                             'age': [12, 15, 10, 9, 8, 11, 12]},
                            index =['anna', 'albert', 'dino', 'florence', 'harry', 'justin', 'james'],
                            columns = ['score', 'age'])
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [7]:
# 인덱스 리셋 
math_df2 = math_df.reset_index()
math_df2

Unnamed: 0,index,score,age
0,anna,89,12
1,albert,72,15
2,dino,54,10
3,florence,100,9
4,harry,92,8
5,justin,37,11
6,james,49,12


In [8]:
math_df2 = math_df.reset_index(drop = True)
math_df2 #drop = True 지정 시 인덱스가 사라짐.

Unnamed: 0,score,age
0,89,12
1,72,15
2,54,10
3,100,9
4,92,8
5,37,11
6,49,12


In [9]:
# 다시 인덱스 지정
## 다만 set_index는 기존의 컬럼만 인덱스로 설정 가능
math_df3 = math_df2.set_index('score')
math_df3

Unnamed: 0_level_0,age
score,Unnamed: 1_level_1
89,12
72,15
54,10
100,9
92,8
37,11
49,12


In [10]:
# 완전히 새로운 인덱스로 지정하고 싶은 경우: df.index 사용 
math_df2

Unnamed: 0,score,age
0,89,12
1,72,15
2,54,10
3,100,9
4,92,8
5,37,11
6,49,12


In [11]:
math_df2.index = ['a', 'b', 'c', 'd', 'e', 'f', 'g']
math_df2

Unnamed: 0,score,age
a,89,12
b,72,15
c,54,10
d,100,9
e,92,8
f,37,11
g,49,12


In [12]:
# df.columns로 컬럼명도 변경 가능
math_df2.columns = ['s', 'a']
math_df2

Unnamed: 0,s,a
a,89,12
b,72,15
c,54,10
d,100,9
e,92,8
f,37,11
g,49,12


## 5-2. 시리즈와 데이터프레임 다루기(공통)
    1. 인덱싱
    2. 기초통계량 추출: describe, agg 함수 적용
    3. 불린 인덱싱
    4. isin
    5. drop_duplicates
    6. 값 정렬: sort_index, sort_values 
### 1) Indexing
#### 시리즈

In [13]:
# 앞에서 썼던 math_df를 활용한다.
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [14]:
# math_df에서 'score' 열만 떼면 -> 그것이 시리즈!
a = math_df['score']
print(type(a))

<class 'pandas.core.series.Series'>


In [15]:
a

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
Name: score, dtype: int64

In [16]:
# 인덱스 : 리스트 형태 
print(a.index)
# 인덱스에 매칭되는 값: 리스트 형태 
print(a.values)

Index(['anna', 'albert', 'dino', 'florence', 'harry', 'justin', 'james'], dtype='object')
[ 89  72  54 100  92  37  49]


In [17]:
# index, values로 뽑히는 값은 모두 리스트이므로 리스트 인덱싱도 가능!
a.index[5]

'justin'

#### 데이터프레임

In [18]:
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [19]:
#math_df에서 인덱싱하는 건 예전에 봤던 df.loc, df.iloc와 동일! 
## harry와 dino의 score
math_df.loc[['harry', 'dino'], 'score']

harry    92
dino     54
Name: score, dtype: int64

In [20]:
# florence를 포함한 그 다음 순서 학생들의 score, age
math_df.iloc[3:, :]

Unnamed: 0,score,age
florence,100,9
harry,92,8
justin,37,11
james,49,12


### 2) 기초통계량 추출 - describe, agg 함수 적용 
시리즈의 경우) `series.describe() , series.mean()` 등으로,  
df의 경우) `df.describe(), df['col'].mean()` 등으로 적용 가능  
*참고: agg 함수는 aggregation 함수로 집계함수를 의미함. 평균, 중위수, 합계 등을 기본으로 제공*  

#### 시리즈

In [21]:
a

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
Name: score, dtype: int64

In [22]:
# score의 통계량 값을 뽑을 수 있음 
a.describe() 

count      7.000000
mean      70.428571
std       24.268341
min       37.000000
25%       51.500000
50%       72.000000
75%       90.500000
max      100.000000
Name: score, dtype: float64

In [23]:
# score의 평균값
a.mean()

70.42857142857143

In [24]:
# score의 합계
a.sum()

493

#### 데이터프레임

In [25]:
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [26]:
math_df.describe()

Unnamed: 0,score,age
count,7.0,7.0
mean,70.428571,11.0
std,24.268341,2.309401
min,37.0,8.0
25%,51.5,9.5
50%,72.0,11.0
75%,90.5,12.0
max,100.0,15.0


In [27]:
# df 뒤에 바로 agg 함수 적용 - 각 열별 평균값 
math_df.mean()

score    70.428571
age      11.000000
dtype: float64

In [28]:
# 특정 컬럼만 떼서 볼수도 있다
math_df['age'].std()

2.309401076758503

### 3) Boolean Indexing(불린 인덱싱)
**불린 인덱싱이란?**  
참/거짓 형태로 리스트에 담아, 시리즈나 데이터프레임에 전달하면 참만 뽑히게 하는 기법을 말한다.  

#### 시리즈

In [29]:
# 앞에서 만든 학생들의 score 값
a

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
Name: score, dtype: int64

In [30]:
# 여기서 성적이 50점 이상인 값만 뽑으려면?
## 이렇게 T/F로 뽑히는 불린 형태로 리스트에 담아서 전달!!
[a>=50]

[anna         True
 albert       True
 dino         True
 florence     True
 harry        True
 justin      False
 james       False
 Name: score, dtype: bool]

In [31]:
a[a>=50] #True인 것만 뽑힘 

anna         89
albert       72
dino         54
florence    100
harry        92
Name: score, dtype: int64

In [32]:
# 성적이 a의 평균 이상인 값만 뽑으려면?
a[a>=a.mean()]

anna         89
albert       72
florence    100
harry        92
Name: score, dtype: int64

#### 데이터프레임

In [33]:
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [34]:
#math_df의 age가 age의 중간값 이하만 뽑기
math_df['age'] <= math_df['age'].median()

anna        False
albert      False
dino         True
florence     True
harry        True
justin       True
james       False
Name: age, dtype: bool

In [35]:
# 역시 위의 T/F 값을 리스트에 담아 전달 
math_df.loc[math_df['age'] <= math_df['age'].median()]

Unnamed: 0,score,age
dino,54,10
florence,100,9
harry,92,8
justin,37,11


In [36]:
#loc, iloc는 안 써도 됨
math_df[math_df['age'] <= math_df['age'].median()]

Unnamed: 0,score,age
dino,54,10
florence,100,9
harry,92,8
justin,37,11


### 4) isin
`series/df.isin([궁금한 값 리스트])` : 시리즈나 데이터프레임에 이 값이 있는지 궁금한 값을 전달하면, 값이 있는 경우 True, 없는 경우 False를 반환한다.  
*여기서 주의할 점: 궁금한 값은 반드시 리스트 형태!*  

#### 시리즈

In [37]:
a

anna         89
albert       72
dino         54
florence    100
harry        92
justin       37
james        49
Name: score, dtype: int64

In [38]:
# 성적(score)이 100점인 학생이 있는지 궁금하다.
a.isin([100])

anna        False
albert      False
dino        False
florence     True
harry       False
justin      False
james       False
Name: score, dtype: bool

위처럼 `True`로 나오면 값이 있다는 것이다.  
또한 이것도 T/F로 나오는 불린 형태이므로 불린 인덱싱이 가능

In [39]:
a[a.isin([100])] #100점 맞은 학생은 florence구나! 

florence    100
Name: score, dtype: int64

#### 데이터프레임

In [40]:
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [41]:
math_df.isin([92, 95, 100])

Unnamed: 0,score,age
anna,False,False
albert,False,False
dino,False,False
florence,True,False
harry,True,False
justin,False,False
james,False,False


In [42]:
# 데이터프레임은 열이 여러개이므로, 꼭 하나의 열만 검사하진 않는다.
math_df.isin([92, 95, 100, 9, 8])

Unnamed: 0,score,age
anna,False,False
albert,False,False
dino,False,False
florence,True,True
harry,True,True
justin,False,False
james,False,False


이렇게 score, age 열 둘 다에서 값이 있는지를 검사한다.  
이게 싫은 경우 열을 지정해주자!

In [43]:
math_df['age'].isin([9, 8])

anna        False
albert      False
dino        False
florence     True
harry        True
justin      False
james       False
Name: age, dtype: bool

In [44]:
# 당연히 불린 인덱싱도 가능!!
math_df.loc[math_df['age'].isin([9, 8])]

Unnamed: 0,score,age
florence,100,9
harry,92,8


당연한 말이지만,, `math_df.loc[math_df.isin([리스트])]` 이런식으로 쓰면 에러가 난다는 것..!  
불린인덱싱으로 집어넣는 T/F 값(즉, math_df.isin([리스트]) 이 부분)은 시리즈 형태여야 하므로 이렇게 전체 데이터프레임을 넣으면 안된다!

### 5) 중복 제거: drop_duplicates
- `series/df.duplicated(keep = 'first/last/False')`: 열에서 중복되는 값이 있으면 True, 없으면 False 반환
- `series/df.drop_duplicates([기준열], keep = 'first/last/False')`: 기준열에서 중복되는 값을 제거하고 반환한다.
    - 참고로 인덱스는 리셋되지 않으므로, ignore_index = True를 써주거나, 만들어진 데이터프레임을 reset_index 해주자!
    - series는 열이 1개밖에 없으므로 기준열을 쓰지 않음

In [45]:
# 이를 위해 새로운 데이터를 불러오자
import seaborn as sns
df = sns.load_dataset('exercise')
df.head()

Unnamed: 0.1,Unnamed: 0,id,diet,pulse,time,kind
0,0,1,low fat,85,1 min,rest
1,1,1,low fat,85,15 min,rest
2,2,1,low fat,88,30 min,rest
3,3,2,low fat,90,1 min,rest
4,4,2,low fat,92,15 min,rest


In [46]:
# 1열 제거
df = df.iloc[:, 1:]
df.head()

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest


#### duplicated() : 중복을 확인

In [47]:
# 전체 df에 대해 중복 확인-> 값이 완전히 같은 행이 있어야만 True임
df.duplicated()

0     False
1     False
2     False
3     False
4     False
      ...  
85    False
86    False
87    False
88    False
89    False
Length: 90, dtype: bool

In [48]:
# 특정 열 'diet'에 대해 중복 확인
df['diet'].duplicated()

0     False
1      True
2      True
3      True
4      True
      ...  
85     True
86     True
87     True
88     True
89     True
Name: diet, Length: 90, dtype: bool

In [49]:
## 열은 2개 이상 쓸 수도 있음
df[['diet', 'pulse']].duplicated()

0     False
1      True
2     False
3     False
4     False
      ...  
85    False
86    False
87     True
88    False
89    False
Length: 90, dtype: bool

In [50]:
df[['diet', 'pulse']].duplicated(keep = 'last')

0      True
1     False
2     False
3      True
4      True
      ...  
85    False
86    False
87    False
88    False
89    False
Length: 90, dtype: bool

duplicated의 옵션 keep 설명  
- first(디폴트): 중복되는 값 2개 이상 있으면 첫 번째 값만 인정, 다른 값은 중복으로 True 처리
- last: 반대로 맨 마지막 값만 인정, 다른 값은 중복으로 True 처리
- False: 그냥 모두 중복으로 처리

--> `drop_duplicates` 에도 keep 옵션이 쓰이는데, 이 때는 중복이라고(True로) 나온 애들은 모두 삭제된다.

#### drop_duplicates: 실제로 중복이라고 나온 데이터를 제거

In [51]:
df.head()

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest


In [52]:
# df의 행이 겹치는 게 있다면 중복 제거 -> 행이 완전히 겹치는 데이터는 없군.
df.drop_duplicates(keep = 'first')

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest
...,...,...,...,...,...
85,29,no fat,135,15 min,running
86,29,no fat,130,30 min,running
87,30,no fat,99,1 min,running
88,30,no fat,111,15 min,running


In [53]:
# df의 id가 겹치는 게 있다면 마지막 것만 남기고 제거 : 90개에서 -> 30개의 데이터로 줄어듦 
df2 = df.drop_duplicates(['id'], keep = 'last')
print(df2.shape)
display(df2.head())

(30, 5)


Unnamed: 0,id,diet,pulse,time,kind
2,1,low fat,88,30 min,rest
5,2,low fat,93,30 min,rest
8,3,low fat,94,30 min,rest
11,4,low fat,83,30 min,rest
14,5,low fat,91,30 min,rest


In [54]:
# df의 id, pulse가 겹치는 게 있다면 첫번째 것만 남기고 제거 : 90개에서 -> 84개로 줄어듦 
df3 = df.drop_duplicates(['id', 'pulse'], keep = 'first')
print(df3.shape)
display(df3.head())

(84, 5)


Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest
5,2,low fat,93,30 min,rest


In [55]:
## 인덱스는 리셋되지 않음 -> 인덱스까지 리셋하고 싶다면 ignore_index를 써주자 
df.drop_duplicates(['id', 'pulse'], keep = 'first', ignore_index = True)

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,88,30 min,rest
2,2,low fat,90,1 min,rest
3,2,low fat,92,15 min,rest
4,2,low fat,93,30 min,rest
...,...,...,...,...,...
79,29,no fat,135,15 min,running
80,29,no fat,130,30 min,running
81,30,no fat,99,1 min,running
82,30,no fat,111,15 min,running


In [56]:
# df의 id, pulse가 겹치는 게 있다면 그냥 모조리 제거 : 90개에서 -> 78개로 줄어듦 
df.drop_duplicates(['id', 'pulse'], keep = False, ignore_index = True)

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,88,30 min,rest
1,2,low fat,90,1 min,rest
2,2,low fat,92,15 min,rest
3,2,low fat,93,30 min,rest
4,3,low fat,94,30 min,rest
...,...,...,...,...,...
73,29,no fat,135,15 min,running
74,29,no fat,130,30 min,running
75,30,no fat,99,1 min,running
76,30,no fat,111,15 min,running


In [57]:
# 시리즈도 가능: id 하나만 떼어내서 중복제거 
df_s = df['id']
df_s.drop_duplicates()

0      1
3      2
6      3
9      4
12     5
15     6
18     7
21     8
24     9
27    10
30    11
33    12
36    13
39    14
42    15
45    16
48    17
51    18
54    19
57    20
60    21
63    22
66    23
69    24
72    25
75    26
78    27
81    28
84    29
87    30
Name: id, dtype: int64

### 6) 값 정렬: sort_index(), sort_values()
- 인덱스 정렬: `series/df.sort_index(ascending = True))` 
- 값 정렬: `sereis/df.sort_values(by = 기준열, ascending = True))`

In [58]:
math_df

Unnamed: 0,score,age
anna,89,12
albert,72,15
dino,54,10
florence,100,9
harry,92,8
justin,37,11
james,49,12


In [59]:
# df의 인덱스 수정
math_df.index = [5, 7, 2, 10, 1, 0, 9]
math_df

Unnamed: 0,score,age
5,89,12
7,72,15
2,54,10
10,100,9
1,92,8
0,37,11
9,49,12


In [60]:
# 인덱스 정렬
math_df.sort_index()

Unnamed: 0,score,age
0,37,11
1,92,8
2,54,10
5,89,12
7,72,15
9,49,12
10,100,9


In [61]:
# age 값에 따라 정렬
math_df.sort_values(by = 'age')

Unnamed: 0,score,age
1,92,8
10,100,9
2,54,10
0,37,11
5,89,12
9,49,12
7,72,15


In [62]:
# age가 큰 순서대로 정렬
math_df.sort_values(by= 'age', ascending = False)

Unnamed: 0,score,age
7,72,15
5,89,12
9,49,12
0,37,11
2,54,10
10,100,9
1,92,8


### 5-3. 데이터프레임에서 행 or 열 drop
시리즈는 열이 1개밖에 없으므로 열을 drop할 수 없지만, 데이터프레임은 열이 여러개이므로 가능하다.  
`df.drop(['col'], axis = 1, inplace = False)`  
참고로 axis = 0를 쓰면 행이 drop된다.

In [63]:
df.head()

Unnamed: 0,id,diet,pulse,time,kind
0,1,low fat,85,1 min,rest
1,1,low fat,85,15 min,rest
2,1,low fat,88,30 min,rest
3,2,low fat,90,1 min,rest
4,2,low fat,92,15 min,rest


In [64]:
# df에서 kind 열을 drop하자.
df.drop(['kind'], axis = 1)

Unnamed: 0,id,diet,pulse,time
0,1,low fat,85,1 min
1,1,low fat,85,15 min
2,1,low fat,88,30 min
3,2,low fat,90,1 min
4,2,low fat,92,15 min
...,...,...,...,...
85,29,no fat,135,15 min
86,29,no fat,130,30 min
87,30,no fat,99,1 min
88,30,no fat,111,15 min


In [65]:
# 행 인덱스 0, 2, 4번을 drop하자.
df.drop([0, 2, 4], axis = 0)

Unnamed: 0,id,diet,pulse,time,kind
1,1,low fat,85,15 min,rest
3,2,low fat,90,1 min,rest
5,2,low fat,93,30 min,rest
6,3,low fat,97,1 min,rest
7,3,low fat,97,15 min,rest
...,...,...,...,...,...
85,29,no fat,135,15 min,running
86,29,no fat,130,30 min,running
87,30,no fat,99,1 min,running
88,30,no fat,111,15 min,running
