## 인덱스 활용
특정 열을 행 인덱스로 설정
- set_index() 함수를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정

In [1]:
import pandas as pd

exam_data = {'이름': ['예진', '지우', '진석'], '국어': [70,90,80], '수학': [90, 85, 80], '영어': [100, 80, 90], '음악': [70, 90, 100]}
df = pd.DataFrame(exam_data)

In [3]:
print(df)

   이름  국어  수학   영어   음악
0  예진  70  90  100   70
1  지우  90  85   80   90
2  진석  80  80   90  100


In [4]:
ndf = df.set_index('이름')

In [5]:
print(ndf)

    국어  수학   영어   음악
이름                  
예진  70  90  100   70
지우  90  85   80   90
진석  80  80   90  100


## 행 인덱스 변경(재배열) : reindex()
- reindex() 함수를 사용하여 데이터프레임의 행 인덱스를 새로운 배열로 재지정 가능<br>
<code>새로운 배열로 행 인덱스 재지정: DataFrame객체.reindex()<code>
- 기존 데이터프레임에 존재하지 않는 행 인덱스가 새로 추가되는 경우 해당 행의 데이터 값은 NaN 값이 입력됨

새로운 배열로 행 인덱스 재지정 예제

In [6]:
import pandas as pd

# Key:value를 쌍으로 갖는 딕셔너리를 생성. 변수 dict_data에 저장('a': 1, 'b': 2, 'c': 3)
dict_data = {'c0': [1, 2, 3], 'c1': [4,5,6], 'c2': [7,8,9], 'c3': [10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])

In [12]:
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [17]:
# 행 인덱스 재배열로 사용될 변수를 지정
new_index = ['r0','r1']
new_index2 = ['r3', 'r4', 'r5']
new_index3 = ['r0','r1','r2','r3','r4']

In [18]:
# 행 인덱스를 ['r0','r1']로 재지정
ndf = df.reindex(new_index)

In [19]:
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14


In [20]:
# 행 인덱스를 ['r3', 'r4', 'r5']로 재지정
ndf2 = df.reindex(new_index2)

In [21]:
print(ndf2)

    c0  c1  c2  c3  c4
r3 NaN NaN NaN NaN NaN
r4 NaN NaN NaN NaN NaN
r5 NaN NaN NaN NaN NaN


- 새로운 행 인덱스로 재지정 할 경우 원소 값이 없으므로 NaN값이 표기됨

In [24]:
# 행 인덱스를 ['r0','r1','r2','r3','r4']로 재지정
ndf3 = df.reindex(new_index3)

In [23]:
print(ndf3)

     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


#### 부록 - 행이름만 변경 하는 방법 : 행 인덱스 개수가 같아야함

In [30]:
ndf3.index = ['r3', 'r4', 'r5', 'r6', 'r7']

In [31]:
print(ndf3)

     c0   c1   c2    c3    c4
r3  1.0  4.0  7.0  10.0  13.0
r4  2.0  5.0  8.0  11.0  14.0
r5  3.0  6.0  9.0  12.0  15.0
r6  NaN  NaN  NaN   NaN   NaN
r7  NaN  NaN  NaN   NaN   NaN


#### 부록 - 열 순서 변경: columns 옵션 사용

In [71]:
ndf4 = ndf3.reindex(columns = ['c2', 'c1', 'c4', 'c0'])

In [72]:
print(ndf4)

     c2   c1    c4   c0
r3  7.0  4.0  13.0  1.0
r4  8.0  5.0  14.0  2.0
r5  9.0  6.0  15.0  3.0
r6  NaN  NaN   NaN  NaN
r7  NaN  NaN   NaN  NaN


### 행 인덱스 초기화
- set_index()로 컬럼을 인덱스로 지정했던 부분을 다시 원상태로 돌리는 함수(reset_index())
- reset_index() 함수를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화
<br><code>정수형 위치 인덱스로 초기화: DataFrame객체.reset_index()</code>



In [33]:
import pandas as pd

# Key:value를 쌍으로 갖는 딕셔너리를 생성. 변수 dict_data에 저장('a': 1, 'b': 2, 'c': 3)
dict_data = {'c0': [1, 2, 3], 'c1': [4,5,6], 'c2': [7,8,9], 'c3': [10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])

In [34]:
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [35]:
# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()

In [36]:
print(ndf)

  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


In [39]:
ndf2 = ndf.set_index('index')

In [40]:
print(ndf2)

       c0  c1  c2  c3  c4
index                    
r0      1   4   7  10  13
r1      2   5   8  11  14
r2      3   6   9  12  15


### 행 인덱스를 기준으로 데이터프레임 정렬
- sort_index() 함수를 사용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬: default값 : 오름차순
 - ascending 옵션을 사용하여 오름차순, 내림차순으로 설정 가능
   - True : 오름차순
   - False : 내림차순<br>
   <code>행 인덱스 기준 정렬: DataFrame객체.sort_index()</code>



In [59]:
import pandas as pd

# Key:value를 쌍으로 갖는 딕셔너리를 생성. 변수 dict_data에 저장('a': 1, 'b': 2, 'c': 3)
dict_data = {'c0': [1, 2, 3], 'c1': [6,4,5], 'c2': [7,8,9], 'c3': [10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환, 변수 df에 저장
df = pd.DataFrame(dict_data, index=['r0', 'r3', 'r2'])

In [60]:
print(df)

    c0  c1  c2  c3  c4
r0   1   6   7  10  13
r3   2   4   8  11  14
r2   3   5   9  12  15


In [61]:
# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending=False)

In [62]:
print(ndf)

    c0  c1  c2  c3  c4
r3   2   4   8  11  14
r2   3   5   9  12  15
r0   1   6   7  10  13


In [63]:
# 오름차순으로 행 인덱스 정렬
ndf2 = ndf.sort_index(ascending=True)

In [64]:
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   6   7  10  13
r2   3   5   9  12  15
r3   2   4   8  11  14


### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬: 열을 기준으로 행 인덱스를 오름차순 내림차순으로 바꿔줌
- sort_values() 함수를 사용하여 특정 열의 데이터를 기준으로 데이터프레임의 값을 정렬- default값 : 오름차순
 - ascending 옵션을 사용하여 오름차순, 내림차순으로 설정 가능
   - True : 오름차순
   - False : 내림차순<br>
   <code>열 기준 정렬: DataFrame객체.sort_values()</code>

열 기준 정렬 예제

In [69]:
# c1 열을 기준으로 내림차순 정렬
ndf2 = df.sort_values(by='c2', ascending=False)

In [70]:
print(ndf2)

    c0  c1  c2  c3  c4
r2   3   5   9  12  15
r3   2   4   8  11  14
r0   1   6   7  10  13


---
# 외부파일 읽어오기
- 판다스는 다양한 형태의 외부 파일을 읽어와 데이터프레임으로 변환하는 함수 제공
- 어떤 파일이든 판다스 객체인 데이터프레임으로 변환되면 판다스의 모든 함수와 기능을 자유롭게 사용 가능
- 데이터 프레임을 다양한 유형의 파일로 저장 가능
 - CSV, JSON, HTML, MS Excel, SQL, ... 등등
 

## CSV 파일(comma-separated values의 약자)
- 데이터 값을 콤마(,)로 구분하고 있다는 의미를 가진 파일
- CSV 파일을 -> 데이터프레임<br> 전환하는 방법<br>
<code>pandas.read_csv("파일경로(이름).csv")</code>



In [84]:
import pandas as pd

# 파일 경로를 찾고, 변수 file_path에 저장
file_path = './read_test.csv'
print(file_path)

./read_test.csv


In [74]:
# read_csv() 함수로 데이터프레임 변환, 변수 df1에 저장
df1 = pd.read_csv(file_path)
print(df1)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


In [76]:
# read_csv() 함수로 데이터프레임 변환, 변수 df2에 저장, header = None 옵션 사용
df2 = pd.read_csv(file_path, header = None)
print(df2)

    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


In [80]:
# read_csv() 함수로 데이터프레임 변환, 변수 df2에 저장, index_col = None 옵션 사용 == 헤더를 없애줌
df3 = pd.read_csv(file_path, index_col = None)
print(df3)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


In [78]:
# read_csv() 함수로 데이터프레임 변환, 변수 df2에 저장, index_col = 'c0' 옵션 사용
df4 = pd.read_csv(file_path, index_col = 'c0')
print(df4)

    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


## Excel 파일
- Excel 파일(확장자.xlsx)의 행과 열은 데이터프레임의 행, 열로 일대일 대응함
- Excel 파일 -> 데이터프레임<br>
<code>pandas.read_excel("파일경로(이름).xlsx")</code>


파일명 : 남북한발전전력량.xlsx<br>
자료 출처 : KOSIS(통계청), 2021.09.30

In [81]:
import pandas as pd

# read_xlsx() 함수로 데이터프레임 변환
df1 = pd.read_excel('./남북한발전전력량.xlsx')
df2 = pd.read_excel('./남북한발전전력량.xlsx', header = None)

In [82]:
print(df1)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

In [83]:
print(df2)

          0       1     2     3     4     5     6     7     8     9   ...  \
0  전력량 (억㎾h)  발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...   
1         남한      합계  1077  1186  1310  1444  1650  1847  2055  2244  ...   
2        NaN      수력    64    51    49    60    41    55    52    54  ...   
3        NaN      화력   484   573   696   803  1022  1122  1264  1420  ...   
4        NaN     원자력   529   563   565   581   587   670   739   771  ...   
5        NaN     신재생     -     -     -     -     -     -     -     -  ...   
6         북한      합계   277   263   247   221   231   230   213   193  ...   
7        NaN      수력   156   150   142   133   138   142   125   107  ...   
8        NaN      화력   121   113   105    88    93    88    88    86  ...   
9        NaN     원자력     -     -     -     -     -     -     -     -  ...   

     19    20    21    22    23    24    25    26    27    28  
0  2007  2008  2009  2010  2011  2012  2013  2014  2015  2016  
1  4031  4224  4336  474

- xlsx 파일을 읽어오지 못할 경우 read_excel() 함수 옵션으로 engine = 'openpyxl'
 - df2 = pd.read_excel('./남북한발전전력량.xlsx', engine = 'openpyxl')
 - openpyxl이 안써지면 !pip install openpyxl

## jSON 파일
- jSON 파일(확장자.json)은 데이터 공유 목적으로 개발된 특수한 파일 형식
- 파이썬 딕셔너리와 비슷하게 'Key:value' 구조를 가짐<br>
<code>pandas.read_json("파일경로(이름).json")</code>


In [85]:
import pandas as pd

# read_json() 함수로 데이터프레임 변환
df = pd.read_json('./read_test.json')

In [86]:
print(df)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


---

# 산술 연산
- 판다스 객체의 산술연산 3단계 프로세스(내부)
1. 행/열 인덱스를 기준으로 모든 원소를 정렬
2. 일대일 대응되는 원소끼리 연산
3. 대응되는 원소가 없다면 NaN

## 시리즈 연산
#### 시리즈 vs 숫자
- 시리즈 객체에 연산을 하면 계산된 결과를 시리즈 객체로 반환<br>
<code>시리즈와 숫자 연산: Series객체 + 연산자(+. -, *, /) + 숫자<code>


#### 시리즈를 숫자로 나누기 예제

In [88]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})

In [89]:
print(student1)

국어    100
영어     80
수학     90
dtype: int64


In [90]:
# 학생의 과목별 점수를 100으로 나누기
percentage = student1 / 100

In [91]:
print(percentage)

국어    1.0
영어    0.8
수학    0.9
dtype: float64


#### 시리즈 vs 시리즈<br>
<code>시리즈와 시리즈 연산: Series객체1 + 연산자(+. -, *, /) + Series객체2<code>

In [97]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'국어':80, '영어':90, '수학':80})

# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2
subtraction = student1 - student2
multiplication =  student1 * student2
division =  student1 / student2

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division],
                     index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

In [98]:
print(result)

          국어           영어        수학
덧셈    180.00   170.000000   170.000
뺄셈     20.00   -10.000000    10.000
곱셈   8000.00  7200.000000  7200.000
나눗셈     1.25     0.888889     1.125


- 시리즈의 인덱스에 해당하는 부분이 데이터프레임의 열자리에 오게 됨

### NaN 사용하기위한 numpy 사용

In [101]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'국어':80, '영어':90, '수학':80})

# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2
subtraction = student1 - student2
multiplication =  student1 * student2
division =  student1 / student2

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division],
                     index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

In [103]:
print(student1)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


In [104]:
print(result)

     국어           영어        수학
덧셈  NaN   170.000000   170.000
뺄셈  NaN   -10.000000    10.000
곱셈  NaN  7200.000000  7200.000
나눗셈 NaN     0.888889     1.125


## 연산 메소드
- 연산 결과가 NaN으로 반환되지 않도록 하기 위해 연산 메소드에 fill_value 옵션을 설정하여 적용<br>
<code>연산 메소드 사용(시리즈와 시리즈 덧셈): Series객체1.add(Series객체2, fill_value=0)

In [109]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'국어':80, '수학':80})

# 두 학생의 과목별 점수로 사칙연산 수행
sr_add = student1.add(student2, fill_value=0)
sr_sub = student1.sub(student2, fill_value=0)
sr_mul =  student1.mul(student2, fill_value=0)
sr_div =  student1.div(student2, fill_value=0)

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([sr_add,sr_sub,sr_mul,sr_div],
                     index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

In [110]:
print(result)

       국어        수학    영어
덧셈   80.0   170.000  80.0
뺄셈  -80.0    10.000  80.0
곱셈    0.0  7200.000   0.0
나눗셈   0.0     1.125   inf


- 0으로 나누면 inf 는 무한이라는 값으로 표시

## 데이터 프레임 연산
- 데이터프레임은 여러 시리즈가 한데 모인 것
- 행/열 인덱스를 정렬하고 일대일 대응되는 원소끼리 연산 처리

데이터프레임 vs 숫자<br>
<code>데이터프레임과 숫자 연사: DataFrame객체 + 연산자(+, -, *, /) + 숫자<code>

#### 데이터프레임에 숫자 더하기 예제

In [111]:
import pandas as pd
import seaborn as sns # 데이터셋 사용하기위함

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic') 
df = titanic.loc[:, ['age', 'fare']]

In [115]:
# 첫 5행만 표시
print(df.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


In [116]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10

In [117]:
print(addition.head())

    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


#### 데이터프레임 vs 데이터프레임
- 각 데이터 프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산
- 데이터프레임에서 어느 한 쪽에 원소가 존재하지 않거나 NaN이면 연산결과로 NaN으로 처리됨<br>
<code>데이터프레임의 연산자 활용: DataFrame객체1 + 연산자(+, -, *, /) + DataFrame객체2<code>

In [118]:
import pandas as pd
import seaborn as sns # 데이터셋 사용하기위함

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic') 
df = titanic.loc[:, ['age', 'fare']]

# 데이터프레임에 숫자 10 더하기
addition = df + 10

In [119]:
# 데이터 프레임끼리 연산하기
subtraction = addition - df

In [121]:
print(subtraction.head())

    age  fare
0  10.0  10.0
1  10.0  10.0
2  10.0  10.0
3  10.0  10.0
4  10.0  10.0


In [122]:
print(subtraction.tail())

      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


### 데이터프레임 연산에서 NaN 처리하기 예제 - 첫번째방법

In [136]:
import pandas as pd
import seaborn as sns # 데이터셋 사용하기위함

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic') 
df = titanic.loc[:, ['age', 'fare']]

# 데이터프레임에 숫자 10 더하기
df_add = df + 10

In [127]:
# 데이터프레임끼리 연산하기
df_sub = addition.sub(df) # 작동안함 fill_value

In [132]:
df_sub.ffill(inplace = True)

- ffill() 함수 사용시 이전 연산에 대한 결과값을 NaN 대신 출력

In [133]:
print(df_sub.tail())

      age  fare
886  10.0  10.0
887  10.0  10.0
888  10.0  10.0
889  10.0  10.0
890  10.0  10.0


### 데이터프레임 연산에서 NaN 처리하기 예제 - 두번째방법

In [142]:
import pandas as pd
import seaborn as sns # 데이터셋 사용하기위함

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic') 
df = titanic.loc[:, ['age', 'fare']]

# 데이터프레임에 NaN을 0으로 바꾸기 함수
df.fillna(0, inplace=True)

# 데이터프레임에 숫자 10 더하기
addition = df + 10

In [143]:
print(addition)

      age     fare
0    32.0  17.2500
1    48.0  81.2833
2    36.0  17.9250
3    45.0  63.1000
4    45.0  18.0500
..    ...      ...
886  37.0  23.0000
887  29.0  40.0000
888  10.0  33.4500
889  36.0  40.0000
890  42.0  17.7500

[891 rows x 2 columns]
