# 판다스 자료구조

- https://pandas.pydata.org/docs/reference/index.html#api 궁금한게 생기면 여기서 찾아보기...
- 분석을 위해 수집하는 데이터는 형태나 속성이 매우 다양함
    - 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있음
    
- 판다스 데이터의 형식
    - 시리즈(Series)
        - 1차원 배열
    
    - 데이터 프레임 (DataFrame)
        - 2차원 배열

## 시리즈

<img src = "./image/series.jpg">

- 데이터가 순차적으로 나열된 1차원 배열
- 각 인덱스(index)는 값(value)와 1:1 대응이 됨
    - 이런 관점에서 키와 값이 짝을 이루는 딕셔너리와 비슷한 구조라고도 볼 수 있음
    - 시리즈에서 인덱스는 데이터 값의 위치를 나타내는 이름표 역할을 수행
    
- series 생성
    - pandas.Series()
    - S 대문자 필수

### 시리즈 생성

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns

In [4]:
# 딕셔너리 생성
dict_data = {"a" : 1, "b" : 2, "c" : 3}

In [5]:
# 딕셔너리를 판다스 시리즈로 변환
sr = pd.Series(dict_data)

In [6]:
print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [8]:
# 시리즈를 구성하는 데이터 값의 자료형 확인
sr.dtypes

dtype('int64')

In [7]:
# 시리즈의 인덱스 배열
sr.index

Index(['a', 'b', 'c'], dtype='object')

In [8]:
# 시리즈의 값 배열
sr.values

array([1, 2, 3], dtype=int64)

- 리스트를 시리즈로 변환하면 인덱스로 변환될 값이 없음
    - 인덱스가 별도로 정의되지 않으면 정수형 위치 인덱스(0, 1, 2, ......)가 자동으로 지정

In [9]:
# 리스트를 시리즈로 변환
list_data = ["2024-02-21", 3.14, "ABC", 100, True]

In [10]:
sr = pd.Series(list_data)

In [11]:
print(sr)

0    2024-02-21
1          3.14
2           ABC
3           100
4          True
dtype: object


In [12]:
sr.index

RangeIndex(start=0, stop=5, step=1)

In [13]:
sr.values

array(['2024-02-21', 3.14, 'ABC', 100, True], dtype=object)

In [14]:
# 튜플을 시리즈로 변환
tup_data = ("영인", "2010-05-10", "여", True)

In [15]:
# 인덱스를 지정하여 시리즈 변환
sr = pd.Series(tup_data, index = ["이름", "생년월일", "성별", "학생여부"])

In [16]:
sr

이름              영인
생년월일    2010-05-10
성별               여
학생여부          True
dtype: object

### 원소 선택

- 인덱스를 이용하여 원소를 선택할 수 있음
    - 하나의 원소를 선택
    - 여러 원소를 한거번에 선택
    - 인덱스의 범위를 지정하여 원소를 선택 
        - 슬라이싱과 유사

- 정수형 위치 인덱스는 대괄호 안에 위치를 나타내는 숫자를 입력
- 인덱스 이름은 따옴표와 함게 입력    

In [19]:
# 원소를 1개 선택
print(sr[0])
print(sr["이름"])

영인
영인


In [30]:
# 여러 원소 선택(인덱스 리스트 활용)
print(sr[[1,2]])
print("")
print(sr[["생년월일", "성별"]])

생년월일    2010-05-10
성별               여
dtype: object

생년월일    2010-05-10
성별               여
dtype: object


In [32]:
# 여러 원소 선택(인덱스 범위 지정)
print(sr[1:3])
print("")
print(sr["생년월일":"성별"])
# 정수형 위치 인덱스는 범위의 끝이 불포함
# 인덱스 이름을 사용하면 범위의 끝이 포함

생년월일    2010-05-10
성별               여
dtype: object

생년월일    2010-05-10
성별               여
dtype: object


## 데이터프레임

<img src = "./image/dataframe.jpg">

index m 은 오타로 추정됨 index n이어야 함

- 행과 열로 이루어진 2차원 배열
- 여러 개의 시리즈들이 모여서 데이터프레임을 구성
    - 데이터프레임의 열은 각각 시리즈 객체
    - 여러 개의 시리즈들이 같은 행 인덱스를 기준으로 결합된 2차원 행렬
    
- 행과 열을 나타내기 우해 두 가지 종류의 주소를 사용
    - 행 인덱스
        - 개별 관측 대상에 대한 다양한 속성 데이터들의 모음
            - 레코드(record)
            
    - 열 이름
        - 공통의 속성을 갖는 일련의 데이터
        
    - 예시) 주식 종목 데이터
        - 행 : 각 주식 종목에 대한 관측 값
        - 열 : 회사이름, 총 주식수, 액면가 등

### 데이터프레임 생성

- 동일한 길이의 1차원 배열 여러 개가 필요
    - pandas.DataFrame(2차원배열)

In [38]:
dict_data = {"c0" : [1, 2, 3], 
             "c1" : [4, 5, 6], 
             "c2" : [7, 8, 9],
             "c3" : [10, 11, 12],
             "c4" : [13, 14, 15]}

In [39]:
# 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(dict_data)

In [40]:
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


### 행 인덱스 / 열 이름 설정

- pandas.DataFrame(2차원 배열, index = 행 인덱스 배열, columns = 열 이름 배열)

In [42]:
df = pd.DataFrame([[15, "남", "덕영중"], [17, "여", "수리중"]],
                 index = ["준서", "예은"],
                 columns = ["나이", "성별", "학교"])

In [43]:
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [44]:
# 행 인덱스
df.index

Index(['준서', '예은'], dtype='object')

In [45]:
# 열 이름
df.columns

Index(['나이', '성별', '학교'], dtype='object')

### 행 인덱스 / 열 이름 변경

- df.index = 새 행 인덱스 배열
- df.columns = 새 열 이름 배열

In [46]:
# 행 인덱스 변경
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [48]:
df.index = ["학생1", "학생2"]

In [49]:
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [50]:
# 열 이름 변경
df.columns = ["연령", "남녀", "소속"]

In [51]:
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


#### 행 인덱스 / 열 이름 변경 (rename 메소드 활용)

- df.rename(index = {기존 인덱스 : 새 인덱스, ...})
- df.rename(columns = {기존 이름 : 새 이름, ...})

In [52]:
df.rename(columns = {"연령" : "나이", "남녀" : "성별"})

Unnamed: 0,나이,성별,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [54]:
# rename은 비파괴적 메소드
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [55]:
# 원본 객체를 수정하려면 inplace = True 옵션을 사용
df.rename(columns = {"연령" : "나이", "남녀" : "성별"},
         inplace = True)

In [56]:
df

Unnamed: 0,나이,성별,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [57]:
df.rename(index = {"학생1" : "준서", "학생2" : "예은"}, inplace = True)

In [58]:
df

Unnamed: 0,나이,성별,소속
준서,15,남,덕영중
예은,17,여,수리중


### 행 / 열 삭제

- drop() 메소드
    - axis = 0
        - 행 삭제
        
    - axis = 1
        - 열 삭제
        
    - 동시에 여러 행 또는 열 삭제
        - 리스트 형태로 입력
        
    - 기존 객체를 변경하지 않고 새로운 객체를 반환 (비파괴적)
        - 원본 객체를 직접 변경하기 위해서는 inplace = True 옵션 사용
        
- df.drop(행 인덱스 또는 배열, axis = 0)
- df.drop(열 이름 또는 배열, axis = 1)

In [9]:
exam_data = {"수학" : [90, 80, 70], "영어" : [95, 85, 75], "음악" : [100, 80, 40], "체육" : [90, 95, 90]}

df = pd.DataFrame(exam_data, index = ["서준", "우현", "인아"])

In [10]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [64]:
df2 = df.copy()

In [65]:
id(df2), id(df)

(2339444284112, 2339445683472)

#### 행 삭제

In [68]:
df2.drop("우현", inplace = True) # axis = 0 이 초기값

In [69]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
인아,70,75,40,90


In [70]:
df3 = df[:]

In [71]:
id(df3), id(df)

(2339364345296, 2339445683472)

In [72]:
df3.drop(["우현", "인아"], axis = 0, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3.drop(["우현", "인아"], axis = 0, inplace = True)


In [73]:
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90


#### 열 삭제

In [75]:
df4 = df.copy()
df4

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [76]:
df4 = df4.drop("수학", axis = 1)
df4

Unnamed: 0,영어,음악,체육
서준,95,100,90
우현,85,80,95
인아,75,40,90


In [80]:
df5 = df.copy()

In [81]:
df5 = df5.drop(["영어", "음악"], axis = 1)
df5

Unnamed: 0,수학,체육
서준,90,90
우현,80,95
인아,70,90


### 행 선택

- loc
    - 인덱스 이름을 사용하여 행 선택
    
- iloc
    - 정수형 위치 인덱스를 사용하여 행 선택
    
| 구분 | loc | iloc |
| :--: | :--: | :--: |
| 탐색 대상 | 인덱스 이름 | 정수형 위치 인덱스 |
| 범위 지정 | 가능(범위의 끝 포함) | 가능(범위의 끝 제외) |

In [82]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


#### 하나의 행 선택

In [84]:
label1 = df.loc["서준"]
print(label1)

수학     90
영어     95
음악    100
체육     90
Name: 서준, dtype: int64


In [85]:
position1 = df.iloc[0]
print(position1)

수학     90
영어     95
음악    100
체육     90
Name: 서준, dtype: int64


#### 2개 이상의 행 선택

In [90]:
label2 = df.loc[["서준", "우현"]]
label2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


In [91]:
position2 = df.iloc[[0, 1]]
position2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


#### 행 인덱스의 범위를 지정하여 행 선택

In [93]:
label3 = df.loc["서준":"우현"]
label3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


In [95]:
position3 = df.iloc[0:1]
position3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90


### 열 선택

- 열 데이터를 1개만 선택하는 경우
    - 대괄호 안에 열 이름을 따옴표와 함께 입력
        - df["열이름"]
    - 도트(.) 다음에 열 입력을 입력
        - 열 이름이 문자열일 경우에만 가능
        - df.열이름

- 여러 열을 선택하는 경우
    - 대괄호 안에 열 이름 리스트 입력
    - 리스트의 원소로 열 이름이 하나만 있는 경우에는 시리즈가 아니라 데이터 프레임이 됨
        - df[[열1, 열2, 열3, ......]]

In [142]:
exam_data = {"이름" : ["서준", "우현", "인아"],
             "수학" : [90, 80, 70], 
             "영어" : [95, 85, 75], 
             "음악" : [100, 80, 40], 
             "체육" : [90, 95, 90]}

df = pd.DataFrame(exam_data)

In [97]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
1,우현,80,85,80,95
2,인아,70,75,40,90


In [98]:
# 수학 점수 데이터만 선택
math1 = df["수학"]

In [99]:
math1

0    90
1    80
2    70
Name: 수학, dtype: int64

In [101]:
type(math1)

pandas.core.series.Series

In [104]:
eng1 = df.영어

In [105]:
eng1

0    95
1    85
2    75
Name: 영어, dtype: int64

In [106]:
type(eng1)

pandas.core.series.Series

In [107]:
# 2개 이상의 열 추출
music_gym = df[["음악", "체육"]]
music_gym

Unnamed: 0,음악,체육
0,100,90
1,80,95
2,40,90


In [109]:
type(music_gym)

pandas.core.frame.DataFrame

In [111]:
# 수학 점수 데이터만 데이터 프레임으로 추출
math2 = df[["수학"]]
print(type(math2))
math2

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,수학
0,90
1,80
2,70


#### 범위 슬라이싱

- df.iloc[시작 인덱스 : 종료 인덱스 : 증감값(default = 1)]

In [112]:
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [113]:
# 되기는 하는데 어감이 이상하다...
df.loc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [114]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [115]:
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,75,40,90
1,우현,80,85,80,95
0,서준,90,95,100,90


### 원소 선택

- 데이터프레임의 행 인덱스와 열 이름을 [행, 열] 형식의 2차원 좌표로 입력하여 원소를 지정
- 원소가 위치하는 행과 열의 좌표를 입력하면 해당 위치의 원소가 반환
- 1개의 행과 2개 이상의 열, 또는 2개 이상의 행과 1개의 열을 선택하면 시리즈 객체가 반환
- 2개 이상의 행과 2개 이상의 열을 선택하면 데이터 프레임 객체를 반환

- df.loc[행인덱스, 열이름]
- df.iloc[행번호, 열번호]

In [117]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
1,우현,80,85,80,95
2,인아,70,75,40,90


In [122]:
# set_index() : 특정 컬럼을 새로운 인덱스로 지정
df.set_index("이름", inplace = True)

In [123]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [124]:
# 서준의 음악 점수
a = df.loc["서준", "음악"]
print(a)

100


In [125]:
a = df.iloc[0, 2]
print(a)

100


In [127]:
# 서준의 음악, 체육 점수
c = df.loc["서준", ["음악", "체육"]]
print(c)

음악    100
체육     90
Name: 서준, dtype: int64


In [128]:
d = df.iloc[0, [2,3]]
print(d)

음악    100
체육     90
Name: 서준, dtype: int64


In [130]:
e = df.loc["서준", "음악" : "체육"]
print(e)

음악    100
체육     90
Name: 서준, dtype: int64


In [133]:
f = df.iloc[0, 2:4]
print(f)

음악    100
체육     90
Name: 서준, dtype: int64


In [134]:
# 서준, 우현의 음악, 체육 점수
g = df.loc[["서준", "우현"], ["음악", "체육"]]
print(g)

     음악  체육
이름         
서준  100  90
우현   80  95


In [135]:
h = df.iloc[[0, 1], [2, 3]]
print(h)

     음악  체육
이름         
서준  100  90
우현   80  95


In [138]:
i = df.loc["서준":"우현", "음악":"체육"]
print(i)

     음악  체육
이름         
서준  100  90
우현   80  95


In [139]:
j = df.iloc[0:2, 2:]
print(j)

     음악  체육
이름         
서준  100  90
우현   80  95


### 열 추가

- df["추가하려는 열 이름"] = 데이터 값 또는 배열 
    - 단일 값을 입력하면 모든 행에 동일한 값이 입력됨

In [140]:
exam_data = {"이름" : ["서준", "우현", "인아"],
             "수학" : [90, 80, 70], 
             "영어" : [95, 85, 75], 
             "음악" : [100, 80, 40], 
             "체육" : [90, 95, 90]}

df = pd.DataFrame(exam_data)

In [145]:
df["국어"] = 80

In [146]:
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,95,100,90,80
1,우현,80,85,80,95,80
2,인아,70,75,40,90,80


### 행 추가

- 추가하려는 행 이름과 데이터 값을 loc을 사용하여 입력
- df.loc["새로운 행 이름"] = 데이터 값 또는 배열

In [148]:
df.loc[3] = 0

In [149]:
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,95,100,90,80
1,우현,80,85,80,95,80
2,인아,70,75,40,90,80
3,0,0,0,0,0,0


In [150]:
df.loc[4] = ["준형", 90, 80, 70, 60, 50]

In [151]:
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,95,100,90,80
1,우현,80,85,80,95,80
2,인아,70,75,40,90,80
3,0,0,0,0,0,0
4,준형,90,80,70,60,50


In [152]:
# 기존 행 복사해서 새로운 행 추가

df.loc[5] = df.loc[3]

In [153]:
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,95,100,90,80
1,우현,80,85,80,95,80
2,인아,70,75,40,90,80
3,0,0,0,0,0,0
4,준형,90,80,70,60,50
5,0,0,0,0,0,0


### 원소 값 변경

- 데이터 프레임의 특정 우너소를 선택하고 새로운 데이터 값을 지정
- 원소 1개를 선택하거나 여러 원소를 선택하여 한꺼번에 값을 바꿀수도 있음

- df의 일부분 또는 원소를 선택 = 새로운 값

In [155]:
df = pd.DataFrame(exam_data)
df = df.set_index("이름")
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [156]:
# 서준의 체육점수 수정

df.iloc[0,3] = 80

In [157]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,80
우현,80,85,80,95
인아,70,75,40,90


In [158]:
df.loc["서준", "체육"]

80

In [159]:
# 서준의 음악, 체육 점수 변경
df.loc["서준", ["음악", "체육"]] = 50

In [160]:
df.loc["서준", ["음악", "체육"]] = (100, 60)

In [161]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,60
우현,80,85,80,95
인아,70,75,40,90


### 행, 열의 위치 바꾸기

- 데이터 프레임의 행과 열을 서로 맞바꾸는 방법
    - 열 이름이 행 인덱스로 이동하고 행 인덱스가 열 이름으로 이동
- 선형대수학의 전치 행렬과 같은 개념
- 전치의 결과로 새로운 객체로 반환
    - 기존의 객체를 변경하고 싶다면 df = df.transpose() 또는 df.T 등의 방법으로 기존 객체에 새로운 객체를 재할당 해주는 과정이 필요
- df.transpose() 또는 df.T

In [162]:
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,60
우현,80,85,80,95
인아,70,75,40,90


In [163]:
# df를 전치(메소드 활용)
df = df.transpose()
df

이름,서준,우현,인아
수학,90,80,70
영어,95,85,75
음악,100,80,40
체육,60,95,90


In [164]:
df = df.T
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,60
우현,80,85,80,95
인아,70,75,40,90


# 인덱스 활용

## 특정 열을 행 인덱스로 설정

- set_index()
    - 데이터 프레임의 특정 열을 행 인덱스로 설정
- 새로운 데이터 프레임 객체를 반환
- set_index() 메소드를 사용하여 행 인덱스를 새로 지정하면 기존의 행 인덱스는 삭제됨

- df.set_index(["열이름"] 또는 "열이름")

In [165]:
df = pd.DataFrame(exam_data)

In [166]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
1,우현,80,85,80,95
2,인아,70,75,40,90


In [167]:
# 특정 열을 행 인덱스로 설정
ndf = df.set_index(["이름"])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [168]:
ndf.set_index("음악")

Unnamed: 0_level_0,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,90,95,90
80,80,85,95
40,70,75,90


In [171]:
ndf.set_index(["수학", "음악"])

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1
90,100,95,90
80,80,85,95
70,40,75,90


## 행 인덱스 재배열

- reindex()
    - 행 인덱스를 새로운 배열로 재지정
    
- 기존 객체를 변경하지 않고 새로운 데이터프레임 객체를 반환
- 기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가되는 경우
- df.reindex(새로운 인덱스 배열)

In [172]:
dict_data = {"c0" : [1, 2, 3],
             "c1" : [4, 5, 6],
            "c2" : [7, 8, 9]}
df = pd.DataFrame(dict_data, index = ["r0", "r1", "r2"])

In [173]:
df

Unnamed: 0,c0,c1,c2
r0,1,4,7
r1,2,5,8
r2,3,6,9


In [174]:
# 인덱스 재지정
new_index = ["r0", "r1", "r2", "r3", "r4"]
ndf = df.reindex(new_index)

In [175]:
ndf

Unnamed: 0,c0,c1,c2
r0,1.0,4.0,7.0
r1,2.0,5.0,8.0
r2,3.0,6.0,9.0
r3,,,
r4,,,


- 존재하지 않는 행에 인덱스가 추가되는 경우
    - 그 행의 데이터는 NaN 값이 입력
        - NaN : Not a Number. 유효한 값이 존재하지 않는 누락 데이터

In [177]:
# reindex로 발생하는 Nan 값을 0으로 채우기
ndf2 = df.reindex(new_index, fill_value = 0)
ndf2

Unnamed: 0,c0,c1,c2
r0,1,4,7
r1,2,5,8
r2,3,6,9
r3,0,0,0
r4,0,0,0


#### 행 인덱스 초기화

- reset_index()
    - 행 인덱스를 정수형 위치 인덱스로 초기화
    - 기존 행 인덱스는 열로 이동
- 새로운 데이터프레임 객체를 반환

In [178]:
df

Unnamed: 0,c0,c1,c2
r0,1,4,7
r1,2,5,8
r2,3,6,9


In [180]:
# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2
0,r0,1,4,7
1,r1,2,5,8
2,r2,3,6,9


## 행 인덱스를 기준으로 데이터프레임 정렬

- sort_index()
    - 행 인덱스를 기준으로 데이터프레임의 값을 정렬
    - ascending 옵션을 사용하여 정렬옵션(오름차순, 내림차순) 설정
        - ascending = False
            - 내림차순
        - ascending = True
            - 오름차순
        - 기본값은 오름차순
- 새롭게 정렬된 데이터프레임을 반환

In [181]:
df

Unnamed: 0,c0,c1,c2
r0,1,4,7
r1,2,5,8
r2,3,6,9


In [182]:
# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending = False)
ndf

Unnamed: 0,c0,c1,c2
r2,3,6,9
r1,2,5,8
r0,1,4,7


#### 특정한 열의 데이터 값을 기준으로 데이터프레임 정렬

- sort_values()
    - 특정 열의 데이터를 기준으로 데이터프레임 정렬
    - ascending 옵션을 사용하여 정렬옵션 설정

In [183]:
df

Unnamed: 0,c0,c1,c2
r0,1,4,7
r1,2,5,8
r2,3,6,9


In [184]:
# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by = "c1", ascending = False)
ndf

Unnamed: 0,c0,c1,c2
r2,3,6,9
r1,2,5,8
r0,1,4,7


# 산술연산

- 판다스 객체의 산술연산은 내부적으로 3단계 프로세스
    1. 행/열 인덱스를 기준으로 모든 원소를 정렬
    2. 동일한 위치에 잇는 원소끼리 일대일로 대응
    3. 일대일 대응이 되는 원소끼리 연산 처리
        - 대응되는 원소가 없으면 NaN 처리

## 시리즈 연산

### 시리즈와 숫자

- 시리즈 객체에 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환
- 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능

In [185]:
student1 = pd.Series({"국어":100, "영어":80, "수학":90})

In [186]:
student1

국어    100
영어     80
수학     90
dtype: int64

In [187]:
percentage = student1 / 200
percentage

국어    0.50
영어    0.40
수학    0.45
dtype: float64

In [188]:
type(percentage)

pandas.core.series.Series

### 시리즈와 시리즈

- 같은 인덱스를 가진 원소끼리 계산
- 인덱스에 연산 결과를 매칭하여 새 시리즈를 반환

In [190]:
student2 = pd.Series({"수학":80, "국어":90, "영어":80})

In [191]:
student1

국어    100
영어     80
수학     90
dtype: int64

In [192]:
student2

수학    80
국어    90
영어    80
dtype: int64

In [193]:
# 두 학생의 과목별 점수로 사칙연산 수행
add = student1 + student2 # 덧셈
sub = student1 - student2 # 뺄셈
mul = student1 * student2 # 곱셈
div = student1 / student2 # 나눗셈

In [194]:
# 사칙연산 결과를 데이터프레임으로 합치기 (시리즈 - > 데이터프레임)
result = pd.DataFrame([add, sub, mul, div], index = ["덧셈", "뺄셈", "곱셈", "나눗셈"])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.111111,1.125,1.0


- 인덱스로 주어진 과목명의 순서가 다르지만 판다스는 같은 과목명을 찾아 정렬한 후 같은 과목명의 점수끼리 연산을 수행
- 연산을 하는 두 시리즈의 원소 개수가 다르거나 인덱스 값이 다른 경우
    - 정상적인 연산 처리가 불가능
        - NaN

In [199]:
# NaN 값이 있는 시리즈 연산
student1 = pd.Series({"국어":np.nan, "영어":80, "수학":90})
student2 = pd.Series({"수학":80, "국어":90})

In [200]:
student1

국어     NaN
영어    80.0
수학    90.0
dtype: float64

In [201]:
student2

수학    80
국어    90
dtype: int64

In [202]:
student1 + student2

국어      NaN
수학    170.0
영어      NaN
dtype: float64

### 연산 메소드

- 결과가 NaN으로 반환되는 상황을 피하기 위해 연산 메소드에 fill_value 옵션을 설정

In [203]:
student1

국어     NaN
영어    80.0
수학    90.0
dtype: float64

In [204]:
student2

수학    80
국어    90
dtype: int64

In [205]:
student1.add(student2, fill_value = 0) # 덧셈

국어     90.0
수학    170.0
영어     80.0
dtype: float64

In [206]:
student1.sub(student2, fill_value = 0) # 뺄셈

국어   -90.0
수학    10.0
영어    80.0
dtype: float64

In [209]:
student1.mul(student2, fill_value = 0) # 곱셈

국어       0.0
수학    7200.0
영어       0.0
dtype: float64

In [211]:
student1.div(student2, fill_value = 0) # 나눗셈

국어    0.000
수학    1.125
영어      inf
dtype: float64

## 데이터프레임 연산

- 데이터프레임은 여러 시리즈가 모인 것이므로 시리즈 연산을 확장하는 개념
- 행/열 인덱스를 기준으로 정렬하고 일대일 대응되는 원소끼리 연산 처리

### 데이터프레임과 숫자

- 모든 원소에 숫자를 계산
- 기존 데이터프레임의 형태를 그대로 유지한 채 원소 값만 새로운 계산으로 바뀜
- 새로운 데이터프레임 객체로 반환

In [212]:
# titanic 데이터셋에서 age, fare 2개의 열을 선택
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [215]:
df = titanic[["age", "fare"]]
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [216]:
df.head() # 첫 5개의 행 표시

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [220]:
df + 10

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [222]:
add = df + 10
add.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


###  데이터프레임과 데이터프레임

- 각 데이터프레임은 같은 행, 같은 열 위치에 있는 원소끼리 계산
- 동일한 위치의 원소끼리 계산한 결과값을 원래 위치에 다시 입력하여 데이터프레임을 생성
- 데이터프레임 중 어느 한 쪽 원소가 존재하지 않거나 NaN이면 연산 결과는 NaN 처리

In [223]:
add.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [224]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [225]:
sub = add - df
sub.head()

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
