# Pandas

### 판다스를 배워야 하는 이유
- 현대에 들어서 방대한 데이터들이 빠른 속도로 쌓여가고 있음
 - 해당 데이터를 저장, 분석할 수 있는 컴퓨터 과학(data science)이라는 새로운 영역이 출현
 - 데이터 과학: 데이터를 연구하는 분야, 데이터 과학자가 하는 가장 중요한 일은 데이터를 수집하고 분석이 가능한 형태로 저장하는 것
- 판다스 라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구
- 판다스를 학습할 시 데이터 과학의 80~90% 업무 처리 가능

### 판다스 설치
`!pip install pandas` <br>
`!pip install numpy`

### Numpy
- Numerical Python의 약자
- 대표적인 파이썬 기반 수치 해석 라이브러리
- 선형대수 연산에 필요한 다차원 배열과 배열 연산을 수행하는 다양한 함수 제공

### 판다스 자료구조
- 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있음
- 판다스는 시리즈(Series)와 데이터프레임(DataFrame)이라는 데이터 형식을 제공
- Numpy: 배열 및 연산
- Pandas: 자료구조 및 시각화

### 시리즈
- 데이터가 순차적으로 나열된 1차원 배열(열벡터)
- 인덱스(index)는 데이터 값(value)와 일대일 대응
- 시리즈의 인덱스는 데이터 값의 위치를 나타내는 이름표(주소) 역할
- 'index2'의 주소를 알고 있다면 'Data2'라는 원소 데이터 값에 접근 가능

### 시리즈 만들기
- 딕셔너리와 시리즈의 구조가 비슷하기 때문에 딕셔너리를 시리즈로 변환하는 방법을 많이 사용
- 판다스 내장 함수인 Series() 사용
 - 딕셔너리를 함수의 인자로 전달<br>
 
`딕셔너리 -> 시리즈 변환 : pandas.Series(딕셔너리)`

### 딕셔너리를 시리즈로 변환하는 예제

In [2]:
# 판다스 import
import pandas as pd

# key : value 를 쌍으로 갖는 딕셔너리를 생성, 변수 dict_data에 저장
dict_data = {'a' : 1, 'b' : 2, 'c' : 3}

# 판다스 Series() 함수로 딕셔너리를 시리즈로 변환, 변수 sr에 저장
sr = pd.Series(dict_data)

In [3]:
# sr의 자료형 출력
print(type(sr))

<class 'pandas.core.series.Series'>


In [5]:
# 변수 sr에 저장되어 있는 시리즈 객체 출력
print(sr)

a    1
b    2
c    3
dtype: int64


- 시리즈 객체 출력 시 인덱스 'a', 'b', 'c'는 왼쪽에 표시
- 인덱스와 짝을 이루는 데이터 값 1, 2, 3은 오른쪽에 표시
- 시리즈를 구성하는 데이터 값의 자료형은 정수형(int64)

### 참고
- "as pd"는 판다스를 "pd"라는 약칭으로 부르겠다는 뜻
- Numpy는 "np"라는 약칭을 자주 사용

### 인덱스 구조
- 인덱스는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장
- 인덱스를 활용하여 데이터 값의 탐색, 정렬, 선택, 결합 등 데이터의 조작을 쉽게 할 수 있음

### 판다스 Series() 함수를 사용하여 파이썬 리스트를 시리즈로 변환하는 예제

In [6]:
import pandas as pd

# 리스트 생성, 변수 list_data에 저장
list_data = ['2022-02-21', 3.14, '김성민', 100, True]
sr = pd.Series(list_data)

In [7]:
print(sr)

0    2022-02-21
1          3.14
2           김성민
3           100
4          True
dtype: object


- 인덱스를 별도로 정의하지 않았기 때문에 디폴트로 정수형 위치 인덱스(0,1,2,3)가 자동 적용
- 시리즈를 구성하는 원소 데이터 값의 자료형은 문자열(object)
 - 숫자와 문자열이 데이터에 혼합되어 있을 경우 자료형이 문자열로 표기됨
- 리스트와 판다스의 시리즈는 둘 다 동일하게 인덱스를 소유
 - 리스트는 정수형 위치 인덱스만 존재
 - ex) list_dat[0]
- 시리즈는 정수형 위치 인덱스와 인덱스 이름 둘 다 존재
 - ex) sr[0]
 - ex) sr["날짜:]

### 시리즈에서 인덱스는 크게 두 가지 종류 존재
- 정수형 위치 인덱스 and 인덱스 이름
- 시리즈의 index 속성을 이용하여 인덱스 배열 따로 선택 가능
- 시리즈의 values 속성을 이용하여 데이터 값 따로 선택 가능

### 시리즈의 인덱스와 데이터를 따로 확인하는 예제

In [8]:
import pandas as pd

# 리스트 생성, 변수 list_data에 저장
list_data = ['2022-02-21', 3.14, '김성민', 100, True]
sr = pd.Series(list_data)

In [10]:
# 인덱스 배열은 변수 idx에 저장, 데이터 값 배열은 변수 val에 저장
idx = sr.index
val = sr.values
print(idx)
print(val)

RangeIndex(start=0, stop=5, step=1)
['2022-02-21' 3.14 '김성민' 100 True]


In [11]:
print(type(val))

<class 'numpy.ndarray'>


- 인덱스는 0~4 범위의 정수를 갖는 Rangeindex 객체로 출력
- 데이터 값은 1차원 배열 형태(array)로 출력

### 판다스 series() 함수를 사용하여 파이썬 튜플을 시리즈로 변환하는 예제(인덱스 정의)

In [12]:
import pandas as pd

# 튜플 생성, 변수 tup_data에 저장
tup_data = ('규석', '2022-20-21', '남', True)
sr = pd.Series(tup_data, index=['이름', '오늘날짜', '성별', '학생여부'])

In [13]:
print(sr)

이름              규석
오늘날짜    2022-20-21
성별               남
학생여부          True
dtype: object


### 시리즈 원소 선택 예제1

In [14]:
# 원소를 1개 선택
# 정수형 위치 인덱스
print(sr[0])

# dlseprtm dlfma
print(sr['이름'])

규석
규석


### 시리즈 원소 선택 예제2

In [15]:
# 원소를 다중 선택(인덱스 리스트 활용)
# 정수형 위치 인덱스
print(sr[[1,2]])

# 인덱스 이름
print(sr[['오늘날짜', '성별']])

오늘날짜    2022-20-21
성별               남
dtype: object
오늘날짜    2022-20-21
성별               남
dtype: object


- 인덱스는 다중 지정 시에 괄호를 두 개 써줘야 함

### 시리즈 원소 선택 예제3

In [16]:
# 원소를 다중 선택(인덱스 범위 지정)
# 정수형 위치 인덱스
print(sr[1:2])

# 인덱스이름
print(sr['오늘날짜':'성별'])

오늘날짜    2022-20-21
dtype: object
오늘날짜    2022-20-21
성별               남
dtype: object


- 정수형 위치 인덱스를 사용할 시 범위의 끝은 미포함
- 인덱스 이름을 사용하면 범위의 끝 포함

### 데이터프레임
- 2차원 배열
= 여러 개의 열벡터(시리즈)들이 같은 행 인덱스를 기준으로 결함된 2차원 벡터 또는 행렬(matrix)

### 행과 열을 나타내기 위해서는 행 인덱스와 열 이름 두 가지 종류의 주소를 사용
- 열은 공통의 속성을 갖는 일련의 데이터의 집합
- 행은 공통적이고 다양한 속성 데이터들의 모음인 레코드(record)

### 데이터프레임 만들기 전 생각해보기
1. 데이터프레임을 만들기 위해서는 같은 길이의 1차원 배열(Series)이 여러 개 필요
2. 딕셔너리 값에 해당하는 각 리스트가 시리즈 배열로 변환되어 데이터프레임의 열이 됨
3. 딕셔너리 키는 각 시리즈의 이름으로 변환되어 데이터프레임의 열 이름이 됨
4. 데이터프레임을 만들 때는 판다스 DataFrame() 함수를 사용<br>

`딕셔너리 -> 데이터프레임 변환: pandas,DataFrame(딕셔너리 객체)`

### 딕셔너리 -> 데이터프레임 변환 예제(.DataFrame)

In [17]:
import pandas as pd

# key : value 를 쌍으로 갖는 딕셔너리를 생성, 변수 dict_data에 저장
dict_data = {'c0': [1,2,3], 'c1' : [4,5,6], 'c2' : [7,8,9], 'c3' : [10,11,12], 'c4' : [13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data)

In [18]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [19]:
print(df)

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


### 행 인덱스 / 열 이름 설정 예제

In [20]:
import pandas as pd

# 행 인덱스 / 열 이름을 지정하여 데이터프레임 만들기
df = pd.DataFrame([[22,'남','인천대'], [21, '여', '경기대'], [20, '남', '부산대']], # 다중 지정 시에 괄호 2개 사용
                  index=['규석','영신','성민'],
                  columns=['나이', '성별', '학교'])

In [21]:
print(df)

    나이 성별   학교
규석  22  남  인천대
영신  21  여  경기대
성민  20  남  부산대


In [22]:
print(df.index)

Index(['규석', '영신', '성민'], dtype='object')


In [26]:
print(df.columns)

Index(['나이', '성별', '학교'], dtype='object')


### 행 인덱스 / 열 이름 변경(.index / .columns)
`행 인덱스 변경: DataFrame 객체.index = 새로운 행 인덱스 배열`<br>
`열 이름 변경: DataFrame 객체.columns = 새로운 열 이름 배열`

In [27]:
import pandas as pd

# 행 인덱스 / 열 이름을 지정하여 데이터프레임 만들기
df = pd.DataFrame([[22, '남', '인천대'], [21, '여', '경기대'], [20, '남', '부산대']],
                  index=['규석', '영신', '성민'],
                  columns=['나이', '성별', '학교'])

In [28]:
df.index = ['준서', '지연', '성철']
df.columns = ['연령', '남녀', '소속']

In [30]:
print(df)

    연령 남녀   소속
준서  22  남  인천대
지연  21  여  경기대
성철  20  남  부산대


In [31]:
print(df.index)

Index(['준서', '지연', '성철'], dtype='object')


In [32]:
print(df.columns)

Index(['연령', '남녀', '소속'], dtype='object')


### rename() 함수를 사용하여 행 인덱스 / 열 이름 변경 가능
`행 인덱스 변경: DataFrame 객체.rename(index={기존 인덱스:새 인덱스, ...})`<br>
`열 인덱스 변경: DataFrame 객체.rename(columns={기존 열 이름:새 열 이름, ...})`

In [3]:
import pandas as pd

# 행 인덱스 / 열 이름을 지정하여 데이터프레임 만들기
df = pd.DataFrame([[22,'남','인천대'], [21,'여','경기대'], [20,'남','부산대']],
                  index=['규석','영신','성민'],
                  columns=['나이','성별','학교'])

In [4]:
print(df)

    나이 성별   학교
규석  22  남  인천대
영신  21  여  경기대
성민  20  남  부산대


In [5]:
df.rename(index={'규석':'준서', '영신':'지연', '성민':'성철'}, inplace = True)
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace = True)

In [6]:
print(df)

    연령 남녀   소속
준서  22  남  인천대
지연  21  여  경기대
성철  20  남  부산대


- inplace = True를 쓰지 않으면 기존 객체가 변경되지 않음
- inplace = True를 쓰면 기존 객체에 반영

### 행 / 열 삭제(drop)
- 행 / 열 삭제 시 drop() 함수 사용
- 행을 삭제할 때 축(asix) 옵션으로 axis = 0 혹은 입력X
- 열을 삭제할 때 축(axis) 옵션으로 axis = 1 입력<br>

`행 삭제: DataFrame 객체.drop(행 인덱스 또는 배열, axis=0)`<br>
`열 삭제: DataFrame 객체.drop(열 이름 또는 배열, axis=1)`

### 행 삭제 예제

In [7]:
import pandas as pd

# 딕셔너리 생성
exam_data={'국어': [70,90,80], '수학': [90,85,80], '영어': [100,80,90], '음악': [70,90,100]}

# 딕셔너리 데이터프레임으로 전환, 행 인덱스 이름 설정
df = pd.DataFrame(exam_data, index=['인서', '형준', '소진'])

# 데이터프레임 df를 복제하여 변수 df2dp wjwkd
df2 = df

# 데이터 프레임 df를 복제하여 변수 df3에 저장
df3 = df

In [8]:
print(id(df))
print(id(df2))
print(id(df3))

2290941165968
2290941165968
2290941165968


In [9]:
# df2의 1개 행(row) 제거
df2.drop(['인서'], axis=0)

Unnamed: 0,국어,수학,영어,음악
형준,90,85,80,90
소진,80,80,90,100


In [10]:
# df2의 2개 행(row) 제거
df3.drop(['형준', '소진'], axis = 0)

Unnamed: 0,국어,수학,영어,음악
인서,70,90,100,70


### 열 삭제 예제

In [11]:
import pandas as pd

# 딕셔너리 생성
exam_data={'국어': [70,90,80], '수학': [90,85,80], '영어': [100,80,90], '음악': [70,90,100]}

# 딕셔너리 데이터프레임으로 전환, 행 인덱스 이름 설정
df = pd.DataFrame(exam_data, index=['인서', '형준', '소진'])

# 데이터프레임 df를 복제하여 변수 df2dp wjwkd
df2 = df

# 데이터 프레임 df를 복제하여 변수 df3에 저장
df3 = df

In [12]:
print(df)

    국어  수학   영어   음악
인서  70  90  100   70
형준  90  85   80   90
소진  80  80   90  100


In [13]:
# df2의 1개 열(colums) 삭제
df2.drop('국어', axis=1)

Unnamed: 0,수학,영어,음악
인서,90,100,70
형준,85,80,90
소진,80,90,100


In [14]:
# df2의 2개 열(colums) 삭제
df2.drop(['영어','음악'], axis=1)

Unnamed: 0,국어,수학
인서,70,90
형준,90,85
소진,80,80


### 행 선택
데이터 시각화 부분에서 기준이 될 행을 선택할 수 있음
- 인덱스 이름을 기준으로 행을 선택할 시 loc 이용
 - 범위 지정 시 범위 끝 포함
- 정수형 위치 인덱스를 기준으로 행을 선택할 시 iloc 이용
 - 범위 지정 시 범위 끝 미포함

In [15]:
import pandas as pd

exam_data = {'국어' : [70, 90, 80], '수학' : [90, 85, 80], '영어' : [100, 80, 90], '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data, index=['인서', '연정', '린하'])

In [16]:
# 행 인덱스 이름을 사용하여 행 1개 선택
label1 = df.loc['인서']
position1 = df.iloc[0]

In [17]:
print(label1)

국어     70
수학     90
영어    100
음악     70
Name: 인서, dtype: int64


In [18]:
print(position1)

국어     70
수학     90
영어    100
음악     70
Name: 인서, dtype: int64


In [22]:
print(type(position1))

<class 'pandas.core.series.Series'>


- 행 1개 선택 시 시리즈 형태로 출력

In [23]:
# 행 인덱스 이름을 사용하여 행 2개 선택
label2 = df.loc[['연정','린하']]
position2 = df.iloc[[1,2]]

In [24]:
print(label2)

    국어  수학  영어   음악
연정  90  85  80   90
린하  80  80  90  100


In [25]:
print(position2)

    국어  수학  영어   음악
연정  90  85  80   90
린하  80  80  90  100


In [26]:
print(type(position2))

<class 'pandas.core.frame.DataFrame'>


- 행 2개 이상 선택 시 데이터 프레임 형태로 출력

In [27]:
# 행 인덱스 이름을 사용하여 행 여러 개 선택
label3 = df.loc['인서':'연정']
position3 = df.iloc[:1]

In [28]:
print(label3)

    국어  수학   영어  음악
인서  70  90  100  70
연정  90  85   80  90


In [29]:
print(position3)

    국어  수학   영어  음악
인서  70  90  100  70


### 열 선택
- 열은 정수형 위치 인덱스라는 개념이 존재 X

In [30]:
import pandas as pd

exam_data = {'국어' : [70, 90, 80], '수학' : [90, 85, 80], '영어' : [100, 80, 90], '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data, index=['요셉', '성훈', '동호'])

In [33]:
# '수학' 점수 데이터만 선택(열 선택)
math = df['수학']
print(math)

요셉    90
성훈    85
동호    80
Name: 수학, dtype: int64


In [34]:
# '영어' 점수 데이터만 선택(열 선택)
english = df.영어
print(english)

요셉    100
성훈     80
동호     90
Name: 영어, dtype: int64


In [35]:
# 열 2개 선택
kor_music = df[['국어','음악']]
print(kor_music)

    국어   음악
요셉  70   70
성훈  90   90
동호  80  100


### 원소 선택
- 데이터프레임의 행 인덱스와 열 이름을 [행,열] 형식의 2차원 좌표로 입력하여 원소 위치를 지정<br>
 `인덱스 이름: DataFrame객체.loc[행 인덱스 이름, 열 이름]`<br>
 `정수 위치 인덱스: DataFrame 객체.iloc[행 번호, 열 번호]`<br>
 - ioc와 iloc는 행 때문에 사용

In [36]:
import pandas as pd

exam_data = {'이름' : ['용준', '수빈', '재영'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [37]:
print(df)

   이름  국어  수학   영어   음악
0  용준  70  90  100   70
1  수빈  90  85   80   90
2  재영  80  80   90  100


In [38]:
# '이름'열을 새로운 인덱스로 지정, df 객체에 변경 사항 저장
df.set_index('이름', inplace = True)
print(df)

    국어  수학   영어   음악
이름                  
용준  70  90  100   70
수빈  90  85   80   90
재영  80  80   90  100


In [39]:
print(df.index)

Index(['용준', '수빈', '재영'], dtype='object', name='이름')


In [40]:
print(df.columns)

Index(['국어', '수학', '영어', '음악'], dtype='object')


In [42]:
# 데이터프레임 df의 특정 원소 1개 선택('용준'의 '영어' 점수)
a = df.loc['용준','영어']
print(a)

100


In [43]:
# 데이터프레임 df의 특정 원소 1개 선택('용준'의 '영어' 점수)
b = df.iloc[0,2]
print(b)

100


In [45]:
# 데이터프레임 df의 특정 원소 2개 선택('수빈'의 '국어', '수학' 점수)
c = df.loc['수빈',['국어','수학']]
print(c)

국어    90
수학    85
Name: 수빈, dtype: int64


In [46]:
# 데이터프레임 df의 특정 원소 2개 선택('수빈'의 '국어', '수학' 점수)
d = df.iloc[1, [0, 1]]
print(d)

국어    90
수학    85
Name: 수빈, dtype: int64


In [47]:
# 데이터프레임 df의 특정 원소 2개 선택('수빈'의 '국어', '수학' 점수)
e = df.loc['수빈', '국어':'수학']
print(e)

국어    90
수학    85
Name: 수빈, dtype: int64


In [48]:
# 데이터프레임 df의 특정 원소 2개 선택('수빈'의 '국어', '수학' 점수)
f = df.iloc[1, 0:2]
print(f)

국어    90
수학    85
Name: 수빈, dtype: int64


In [49]:
# 데이터프레임 df의 2개 이상의 행과 열에 속하는 원소들 선택('수빈', '재영'의 '영어', '음악' 점수)
g = df.loc[['수빈', '재영'], ['영어', '음악']]
print(g)

    영어   음악
이름         
수빈  80   90
재영  90  100


In [50]:
# 데이터프레임 df의 2개 이상의 행과 열에 속하는 원소들 선택('수빈', '재영'의 '영어', '음악' 점수)
h = df.iloc[[1, 2], [2, 3]]
print(h)

    영어   음악
이름         
수빈  80   90
재영  90  100


In [51]:
# 데이터프레임 df의 2개 이상의 행과 열에 속하는 원소들 선택('수빈', '재영'의 '영어', '음악' 점수)
i = df.loc['수빈':'재영', '영어':'음악']
print(i)

    영어   음악
이름         
수빈  80   90
재영  90  100


In [55]:
# 데이터프레임 df의 2개 이상의 행과 열에 속하는 원소들 선택('수빈', '재영'의 '영어', '음악' 점수)
j = df.iloc[1:, 2:]
print(j)

    영어   음악
이름         
수빈  80   90
재영  90  100


### 행 인덱스의 이름을 바꿀 경우 index.rename() 함수 사용

In [56]:
print(df)

    국어  수학   영어   음악
이름                  
용준  70  90  100   70
수빈  90  85   80   90
재영  80  80   90  100


In [57]:
df.index.rename('성명',inplace=True)

In [58]:
print(df)

    국어  수학   영어   음악
성명                  
용준  70  90  100   70
수빈  90  85   80   90
재영  80  80   90  100


### 직접 지정한 행 인덱스를 해제할 경우 reset_index() 사용

In [61]:
df.reset_index('성명', inplace = True)

In [62]:
print(df)

   성명  국어  수학   영어   음악
0  용준  70  90  100   70
1  수빈  90  85   80   90
2  재영  80  80   90  100


### 행 인덱스 이름 지정(index.name)

In [69]:
import pandas as pd

exam_data = {'이름' : ['용준', '수빈', '재영'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [70]:
print(df)

   이름  국어  수학   영어   음악
0  용준  70  90  100   70
1  수빈  90  85   80   90
2  재영  80  80   90  100


In [71]:
df.index.name = "number"
print(df)

        이름  국어  수학   영어   음악
number                      
0       용준  70  90  100   70
1       수빈  90  85   80   90
2       재영  80  80   90  100


### 열 추가
`DataFrame 객체['추가하려는 열 이름'] = 데이터 값`

In [72]:
import pandas as pd

exam_data = {'이름' : ['건국', '예진', '원준'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [76]:
# 데이터프레임 df에 '체육' 점수 열(column) 추가
df['체육']:[80,70,75]

In [78]:
print(df)

   이름  국어  수학   영어   음악
0  건국  70  90  100   70
1  예진  90  85   80   90
2  원준  80  80   90  100


### 행 추가
- 추가하려는 행 이름과 데이터 값을 loc 인덱서를 사용하여 입력<br>
`DataFrame 객체.loc['새로운 행 이름'] = 데이터 값`

In [79]:
import pandas as pd

exam_data = {'이름' : ['재윤', '상범', '수지'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [80]:
print(df)

   이름  국어  수학   영어   음악
0  재윤  70  90  100   70
1  상범  90  85   80   90
2  수지  80  80   90  100


In [81]:
# 새로운 행(row) 추가 - 같은 원소 값 입력
df.loc[3] = 0
print(df)

   이름  국어  수학   영어   음악
0  재윤  70  90  100   70
1  상범  90  85   80   90
2  수지  80  80   90  100
3   0   0   0    0    0


In [83]:
# 새로운 행(row) 추가 - 원소 값 여러 개의 배열 입력
df.loc[4] = ['한결', 100, 75, 85, 80]
print(df)

   이름   국어  수학   영어   음악
0  재윤   70  90  100   70
1  상범   90  85   80   90
2  수지   80  80   90  100
3   0    0   0    0    0
4  한결  100  75   85   80


In [84]:
# 새로운 행(row) 추가 - 기존 행 복사
df.loc[5] = df.loc[3]

In [85]:
print(df)

   이름   국어  수학   영어   음악
0  재윤   70  90  100   70
1  상범   90  85   80   90
2  수지   80  80   90  100
3   0    0   0    0    0
4  한결  100  75   85   80
5   0    0   0    0    0


### 원소 값 변경
`DataFrame 객체의 일부분 또는 원소를 선택 = 새로운 값`

In [90]:
import pandas as pd

exam_data = {'이름' : ['예진', '지우', '진석'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [91]:
print(df)

   이름  국어  수학   영어   음악
0  예진  70  90  100   70
1  지우  90  85   80   90
2  진석  80  80   90  100


In [92]:
# '이름'열을 새로운 인덱스로 지정, df 객체에 변경 사항 저장
df.set_index('이름',inplace = True)
print(df)

    국어  수학   영어   음악
이름                  
예진  70  90  100   70
지우  90  85   80   90
진석  80  80   90  100


In [94]:
print(df.index)

Index(['예진', '지우', '진석'], dtype='object', name='이름')


In [95]:
# 데이터프레임 df의 특정 원소를 변경('예진'의 '음악' 점수)
df.iloc[0, 3] = 80

In [96]:
print(df)

    국어  수학   영어   음악
이름                  
예진  70  90  100   80
지우  90  85   80   90
진석  80  80   90  100


In [97]:
# 데이터프레임 df의 특정 원소를 변경('예진'의 '음악' 점수)
df.iloc[0][3] = 90
print(df)

    국어  수학   영어   음악
이름                  
예진  70  90  100   90
지우  90  85   80   90
진석  80  80   90  100


In [98]:
# 데이터프레임 df의 특정 원소를 변경('예진'의 '음악' 점수)
df.loc['예진', '음악'] = 85
print(df)

    국어  수학   영어   음악
이름                  
예진  70  90  100   85
지우  90  85   80   90
진석  80  80   90  100


In [99]:
# 데이터프레임 df의 특정 원소를 변경('예진'의 '음악' 점수)
df.loc['예진']['음악'] = 100
print(df)

    국어  수학   영어   음악
이름                  
예진  70  90  100  100
지우  90  85   80   90
진석  80  80   90  100


In [100]:
# 데이터프레임 df의 원소 여러 개 변경('지우'의 '수학', '영어' 점수)
df.loc['지우', ['수학', '영어']] = 100
print(df)

    국어   수학   영어   음악
이름                   
예진  70   90  100  100
지우  90  100  100   90
진석  80   80   90  100


In [101]:
# 데이터프레임 df의 원소 여러 개 변경('진석'의 '국어', '수학' 점수)
df.loc['진석', ['국어', '수학']] = 100, 95
print(df)

     국어   수학   영어   음악
이름                    
예진   70   90  100  100
지우   90  100  100   90
진석  100   95   90  100


### 행, 열의 위치 바꾸기(transpose)
- 선형대수학의 전치행렬과 같은 개념<br>
`행, 열 바꾸기: DataFrame 객체.transpose() or DataFrame 객체.T`

In [105]:
import pandas as pd

exam_data = {'이름' : ['지연', '유림', '정수'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [106]:
# '이름'열을 새로운 인덱스로 지정, df 객체에 변경 사항 저장
df.set_index('이름',inplace = True)
print(df)

    국어  수학   영어   음악
이름                  
지연  70  90  100   70
유림  90  85   80   90
정수  80  80   90  100


In [107]:
# 데이터프레임 df를 전치하기
df = df.transpose()
print(df)

이름   지연  유림   정수
국어   70  90   80
수학   90  85   80
영어  100  80   90
음악   70  90  100


In [108]:
print(df.index)

Index(['국어', '수학', '영어', '음악'], dtype='object')


In [109]:
# 데이터프레임 df를 다시 전치하기
df = df.T
print(df)

    국어  수학   영어   음악
이름                  
지연  70  90  100   70
유림  90  85   80   90
정수  80  80   90  100


### 인덱스 활용(set_index)
특정 열을 행 인덱스로 설정
- set_index() 함수를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정

In [120]:
import pandas as pd

exam_data = {'이름' : ['린하', '인서', '광열'],
             '국어' : [70, 90, 80],
             '수학' : [90, 85, 80], 
             '영어' : [100, 80, 90], 
             '음악' : [70, 90, 100]}
df = pd.DataFrame(exam_data)
print(df)

   이름  국어  수학   영어   음악
0  린하  70  90  100   70
1  인서  90  85   80   90
2  광열  80  80   90  100


In [121]:
# 특정 열을 데이터프레임의 행 인덱스로 설정
ndf = df.set_index('이름')
print(ndf)

    국어  수학   영어   음악
이름                  
린하  70  90  100   70
인서  90  85   80   90
광열  80  80   90  100


'이름'열을 새로운 인덱스로 지정하는 방법

- 기존 객체에 변경 사항 저장<br>
`df.set_index('이름', inplace = True)`

- 새로운 객체에 변경 사항 저장<br>
`ndf = df.set_index('이름')`

In [123]:
# 특정 열을 데이터프레임의 행 인덱스로 설정
ndf2 = ndf.set_index('음악')
print(ndf2)

     국어  수학   영어
음악              
70   70  90  100
90   90  85   80
100  80  80   90


- 기존 "이름"행 인덱스는 제거가 된 것으로 확인

In [125]:
# 행 인덱스를 리세
ndf3 = ndf2.reset_index('음악')
print(ndf3)

    음악  국어  수학   영어
0   70  70  90  100
1   90  90  85   80
2  100  80  80   90


- 행 인덱스를 리셋해주어도 전에 지정해 놓았던 행 인덱스가 다시 적용되지는 않음(이름 인덱스가 돌아오지 않음)

In [126]:
# 특정 열 2개를 데이터프레임의 행 인덱스로 설정
ndf4 = ndf.set_index(['수학','영어'])
print(ndf4)

        국어   음악
수학 영어          
90 100  70   70
85 80   90   90
80 90   80  100


- 두 개의 열을 행 인덱스로 지정 가능

### 행 인덱스 재배열(reindex)
- reindex() 함수를 사용하여 데이터프레임의 행 인덱스를 새로운 배열로 재지정 가능<br>
`새로운 배열로 행 인덱스 재지정: DataFrame 객체.reindex()`
- 기존 데이터프레임에 존재하지 않는 행 인덱스가 새로 추가되는 경우 해당 행의 데이터 값은 NaN 값이 입력됨

In [127]:
import pandas as pd

# key:value 를 쌍으로 갖는 딕셔너리를 생성, 변수 dict_data에 저장
dict_data = {'c0' : [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])

In [128]:
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [129]:
# 행 인덱스 재배열로 사용될 변수를 지정
new_index = ['r0', 'r1']
new_index2 = ['r3', 'r4', 'r5']
new_index3 = ['r0', 'r1', 'r2', 'r3', 'r4']

In [130]:
# 행 인덱스를 ['r0', 'r1']로 재지정
ndf = df.reindex(new_index)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14


In [131]:
# 행 인덱스를 ['r3', 'r4', 'r5']로 재지정
ndf2 = df.reindex(new_index2)
print(ndf2)

    c0  c1  c2  c3  c4
r3 NaN NaN NaN NaN NaN
r4 NaN NaN NaN NaN NaN
r5 NaN NaN NaN NaN NaN


- 새로운 행 인덱스로 재지정 할 경우 원소 값이 없으므로 NaN이 표기됨

In [132]:
# 행 인덱스를 ['r0', 'r1', 'r2', 'r3', 'r4']로 재지정
ndf3 = df.reindex(new_index3)
print(ndf3)

     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


In [135]:
# 열 순서 변경
# columns 옵션 사용
ndf4 = ndf3.reindex(columns = ['c1', 'c0', 'c2', 'c3', 'c4','c5'])

In [136]:
print(ndf4)

     c1   c0   c2    c3    c4  c5
r0  4.0  1.0  7.0  10.0  13.0 NaN
r1  5.0  2.0  8.0  11.0  14.0 NaN
r2  6.0  3.0  9.0  12.0  15.0 NaN
r3  NaN  NaN  NaN   NaN   NaN NaN
r4  NaN  NaN  NaN   NaN   NaN NaN


### 행 인덱스 초기화(reset_index)
- reset_index() 함수를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화(기존 행 인덱스는 열로 이동)<br>
`정수형 위치 인덱스로 초기화: DataFrame 객체.reset_index()`

In [137]:
import pandas as pd

# key:value 를 쌍으로 갖는 딕셔너리를 생성, 변수 dict_data에 저장
dict_data = {'c0' : [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])

In [138]:
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [139]:
# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


In [140]:
ndf2 = ndf.set_index('index')
print(ndf2)

       c0  c1  c2  c3  c4
index                    
r0      1   4   7  10  13
r1      2   5   8  11  14
r2      3   6   9  12  15


### 행 인덱스를 기준으로 데이터프레임 정렬(sort_index)
- sort_index() 함수를 사용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬
 - ascending 옵션을 사용하여 오름차순 혹은 내림차순으로 설정<br>
   True: 오름차순 정렬<br>
   False: 내림차순 정렬<br>
   `행 인덱스 기준 정렬: DataFrame 객체.sort_index()`

In [141]:
import pandas as pd

# key:value 를 쌍으로 갖는 딕셔너리를 생성, 변수 dict_data에 저장
dict_data = {'c0' : [1, 2, 3], 'c1' : [6, 4, 5], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)

    c0  c1  c2  c3  c4
r0   1   6   7  10  13
r1   2   4   8  11  14
r2   3   5   9  12  15


In [144]:
# 내림차순으로 행 인덱스 정렬
df.sort_index(ascending=False)

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,5,9,12,15
r1,2,4,8,11,14
r0,1,6,7,10,13


In [145]:
# 오름차순으로 행 인덱스 정렬
df.sort_index() # ascending=True

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,6,7,10,13
r1,2,4,8,11,14
r2,3,5,9,12,15


### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬(sort_values)
- sort_values() 함수를 사용하여 특정 열의 데이터를 기준으로 데이터프레임의 값을 정렬
 - ascending 옵션을 사용하여 오름차순 혹은 내림차순으로 설정<br>
   True: 오름차순 정렬<br>
   False: 내림차순 정렬<br>
   `열 인덱스 기준 정렬: DataFrame 객체.sort_values()`

In [148]:
# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   6   7  10  13
r2   3   5   9  12  15
r1   2   4   8  11  14


In [149]:
# c1 열을 기준으로 오름차순 정렬
ndf = df.sort_values(by='c1', ascending=True)
print(ndf)

    c0  c1  c2  c3  c4
r1   2   4   8  11  14
r2   3   5   9  12  15
r0   1   6   7  10  13


많은 열 중에 특정 열 2개의 위치를 바꾸고 싶은 경우?
1. reindex로 새로운 열 배열이 지정된 데이터프레임을 생성
2. 바뀐 데이터프레임과 나눠진 기존  데이터프레임을 결합(concat 사용)