## 시리즈

In [1]:
import pandas as pd
dict_data = {'a': 1, 'b': 2, 'c': 3}

# 판다스 Series() 함수로 딕셔너리를 시리즈로 변환하고 변수에 저장
sr = pd.Series(dict_data)

print(type(sr))
print('\n')
# 변수 sr에 저장돼 있는 시리즈 객체 출력
print(sr)


<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


In [4]:
# 리스트를 시리즈로 변환
list_data = ['2021-03-11', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)

# 인덱스 배열을 idx에, 데이터 값 배열은 val에 저장
idx = sr.index
val = sr.values
print(idx)
print(type(idx)) # RangeIndex
print(val)
print(type(val)) # numpy.ndarray

0    2021-03-11
1          3.14
2           ABC
3           100
4          True
dtype: object
RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
['2021-03-11' 3.14 'ABC' 100 True]
<class 'numpy.ndarray'>


## 시리즈의 요소 선택
- 하나 또는 특정 범위 요소를 선택할 수 있음
- 파이썬의 리스트 슬라이싱 기법 활용

[지정 방법]
- 정수형 위치 인덱스 : [정수형 숫자]
- 인덱스 이름 : ['이름'] 또는 ["이름"] 

In [7]:
# 투플을 시리즈로 변환 (index 옵션에 인덱스 이름을 지정)
tup_data = ('경민', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              경민
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [6]:
# 원소를 1개 선택
print(sr[0])
print(sr['이름'])

경민
경민


In [10]:
# 여러 개의 원소 선택 (인덱스 리스트 활용)
print(sr[[1,2]])
print('\n')
print(sr[['생년월일', '성별']])

생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


In [19]:
# 여러 개의 원소를 선택 (인덱스 범위 지정)
print(sr[1:2])
print('\n')
print(sr['생년월일': '성별'])

생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


## DataFrame
- 2차원 배열의 테이블 구조
- 시리즈들의 모임
- 일련의 특정 값 배열로 구성된 entry들을 가짐
- entry는 row와 column과 연관 ##


In [12]:
import pandas as pd

# 열 이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의
dict_data = {'c0' : [1,2,3], 'c1' : [4,5,6], 'c2' : [7,8,9], 'c3' : [10,11,12], 'c4' : [13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(dict_data)

print(type(df))
print('\n')
print(df)

<class 'pandas.core.frame.DataFrame'>


   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


## 행 인덱스, 열 이름 설정하기 (1)
- 행 인덱스 변경: DataFrame객체.[index] = 새로운 행 인덱스 배열
- 열 인덱스 변경: DataFrame객체.[columns] = 새로운 열 인덱스 배열

In [16]:
import pandas as pd

# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15,'남','덕영중'], [16, '여', '수리중']], index=['준서', '예은'], columns=['나이', '성별', '학교'])

# 행 인덱스, 열 이름 확인하기
print(df)
print('\n')
print(df.index) # 행 인덱스
print('\n')
print(df.columns) # 열 이름
print('\n')

# 행 인덱스, 열 이름 변경하기
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']
print(df)
print('\n')
print(df.index) # 행 인덱스
print('\n')
print(df.columns) # 열 이름
print('\n')


    나이 성별   학교
준서  15  남  덕영중
예은  16  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


     연령 남녀   소속
학생1  15  남  덕영중
학생2  16  여  수리중


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '남녀', '소속'], dtype='object')




## 행 인덱스, 열 이름 설정하기 (2)
- 행 인덱스 변경: DataFrame객체.[rename](index = { 기존 인덱스 : 새 인덱스, ...})
- 열 인덱스 변경: DataFrame객체.[rename](columns = { 기존 이름 : 새 이름, ...})

- 원본 객체의 변경 여부 설정: inplace = True(변경) / False(유지)

In [17]:
df = pd.DataFrame([[15,'남','덕영중'], [16, '여', '수리중']], index=['준서', '예은'], columns=['나이', '성별', '학교'])
print(df)
print('\n')

# 열 이름 중, '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꾸기
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)

# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)

print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  16  여  수리중


     연령 남녀   소속
학생1  15  남  덕영중
학생2  16  여  수리중


## 행, 열 삭제하기
- 행 삭제: DataFrame객체.drop( 행 인덱스 또는 배열, [axis=0] )
- 열 삭제: DataFrame객체.drop( 열 이름 또는 배열, [axis=1] )

- 원본 객체의 변경 여부 설정: inplace = True(변경) / False(유지)

In [24]:
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)
print('\n')

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90




In [25]:
# 데이터프레임 df를 복제하여 변수 df2에 저장, df2의 1개 행을 삭제 
df2 = df[:]
df2.drop('우현', inplace=True)
display(df2)
print('\n')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2.drop('우현', inplace=True)


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90






In [31]:
# df를 복제해 df3에 저장, df3의 2개 행 삭제
df3 = df[:]
df3.drop(['우현', '인아'], inplace=True)
display(df3)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3.drop(['우현', '인아'], inplace=True)


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


### 열 삭제 예제


In [33]:
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준', '우햔', '인아'])
display(df)

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우햔,80,89,95,90
인아,70,95,100,90


In [38]:
# df를 복제하여 df4에 저장, df4의 1개 열을 삭제
df4 = df[:]
df4.drop('수학', axis=1, inplace=True)
display(df4)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4.drop('수학', axis=1, inplace=True)


Unnamed: 0,영어,음악,체육
서준,98,85,100
우햔,89,95,90
인아,95,100,90


In [39]:
# df를 복제하여 df5에 저장, df4의 2개 열을 삭제
df5 = df[:]
df5.drop(['영어', '음악'], axis=1, inplace=True)
display(df5)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df5.drop(['영어', '음악'], axis=1, inplace=True)


Unnamed: 0,수학,체육
서준,90,100
우햔,80,90
인아,70,90


## 행 선택
<table>
    <tr>
        <td>구분</td><td>loc</td><td>iloc</td>
    </tr>
    <tr>
        <td>탐색 대상</td><td>인덱스 이름 (index label)</td><td>정수형 위치 인덱스 (integer position)</td>
    </tr>
    <tr>
        <td>범위 지정 방법</td><td>가능 (범위의 끝 포함)</td><td>가능 (범위의 끝 제외)</td>
    </tr>
    
- ~.loc['이름']
- ~.iloc[인덱스]

In [42]:
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
display(df)

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [43]:
# 행 인덱스를 사용하여 행 1개를 선택
label1 = df.loc['서준'] # loc 인덱서 사용
position1 = df.iloc[0] # iloc 인덱서 사용
print(label1)
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [44]:
# 행 인덱스를 사용하여 2개 이상의 행 선택
label2 = df.loc[['서준', '우현']]
position2 = df.iloc[[0, 1]]
print(label2)
print(position2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [45]:
# 행 인덱스의 범위를 지정하여 행 선택
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]
print(label3)
print(position3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100


### 열 선택
- 1개 열 선택 (시리즈 생성): DataFrame객체[['열 이름]] 또는 DataFrame객체.[열이름]
- n개 열 선택 (데이터 프레임 생성): DataFrame객체[[열1, 열2, ..., 열n]]

In [46]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print(type(df))

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
<class 'pandas.core.frame.DataFrame'>


In [47]:
# '수학' 점수 데이터만 선택. 변수 math1에 저장
math1 = df['수학']
print(math1)
print(type(math1))

0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


In [48]:
# '수학' 점수 데이터만 선택 math2에 저장
math2 = df[['수학']]
print(math2)
print(type(math2))

   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


In [50]:
# '음악', '체욱' 점수 데이터를 선택, music_gym에 저장
music_gym = df[['음악', '체육']]
print(music_gym)
print(type(music_gym))

    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


## 범위 슬라이싱 고급
- DataFrame객체.iloc[[시작 인덱스]:[끝 인덱스]:[슬라이싱 간격]]


In [52]:
print(df.iloc[::2])
print('\n')
print(df.iloc[:3:2])
print('\n')
# 역순으로 인덱싱하기
print(df.iloc[::-1])

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
2  인아  70  95  100   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
2  인아  70  95  100   90


   이름  수학  영어   음악   체육
2  인아  70  95  100   90
1  우현  80  89   95   90
0  서준  90  98   85  100


## 데이터 요소 (element) 선택
- 인덱스 이름: DataFrame객체.loc[[행 인덱스], [열이름]]
- 정수 위치 인덱스: DataFrame객체.iloc[[행번호], [열번호]]

In [54]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
df.set_index('이름', inplace=True)
print(df)
print('\n')

# df의 2개 이상의 행과 열로부터 원소 선택 (서준, 우현의 음악, 체육 점수)
g = df.loc[['서준', '우현'], ['음악', '체육']]
print(g)

h = df.iloc[[0,1], [2,3]]
print(h)

i = df.loc['서준':'우현', '음악':'체육']
print(i)

j = df.iloc[0:2, 2:]
print(j)


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


## 행 추가

In [55]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# 새로운 행을 추가 - 같은 원소 값을 입력
df.loc[3] = 0
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
3   0   0   0    0    0


In [57]:
df.loc[10] = ['동규', 90, 80, 70, 60]
print(df)
# 4를 10으로 바꿔서 실행했더니 그냥 대입됨
# 겹치면 업데이트고 안겹치면 그냥 추가 되는 듯

    이름  수학  영어   음악   체육
0   서준  90  98   85  100
1   우현  80  89   95   90
2   인아  70  95  100   90
3    0   0   0    0    0
4   동규  90  80   70   60
10  동규  90  80   70   60


## 요소 값 변경하기
- 특정 원소를 변경하는 것은 그냥 위에서 하던대로 접근
- 하지만 여러 원소는?

In [60]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
df.set_index('이름', inplace=True)

# 원소 여러 개를 변경하는 방법: 서준의 음악, 체육 점수
df.loc['서준', ['음악', '체육']] = 50
print(df)

df.loc['서준', ['음악', '체육']] = 100, 50
print(df)

    수학  영어   음악  체육
이름                 
서준  90  98   50  50
우현  80  89   95  90
인아  70  95  100  90
    수학  영어   음악  체육
이름                 
서준  90  98  100  50
우현  80  89   95  90
인아  70  95  100  90


## 행과 열 위치 바꾸기(transpose)
- df.transpose() 또는 df.T

In [62]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# df를 전치하기 (메소드 활용)
df = df.transpose()
print(df)

# df를 다시 전치하기 (클래스 속성 사용)
df = df.T
print(df)

      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   95
음악   85  95  100
체육  100  90   90
   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


## 인덱스 활용: 특정 열을 행 인덱스로 설정하기
- df.set_index(['열이름', ...] 또는 '열이름')

In [65]:
import pandas as pd

exam_data = {
    '이름':['서준','우현','인아'],
    '수학':[90,80,70], 
    '영어':[98,89,95],
    '음악':[85,95,100],
    '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
display(df)

ndf = df.set_index(['이름'])
display(ndf)

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [64]:
# 다중 행 인덱스 설정
ndf3 = df.set_index(['수학', '음악'])
display(ndf3)

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
90,85,서준,98,100
80,95,우현,89,90
70,100,인아,95,90


In [66]:
ndf3 = df.reset_index()
display(ndf3)

Unnamed: 0,index,이름,수학,영어,음악,체육
0,0,서준,90,98,85,100
1,1,우현,80,89,95,90
2,2,인아,70,95,100,90


## 인덱스 활용: 행 인덱스 재배열하기
- df.reindex(새로운 인덱스 배열)

In [69]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환, 인덱스를 [r0, 01, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
display(df)

# 더 많이 지정
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
display(ndf)

# 인덱스를 더 많이 지정하면 값이 NaN이 됨. 이를 해결하기 위한 방법
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
display(ndf2)


Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


In [71]:
# 행 인덱스 초기화
ndf2 = ndf2.reset_index()
display(ndf2)

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15
3,r3,0,0,0,0,0
4,r4,0,0,0,0,0


In [72]:
# 위에서 컬럼이름 index를 가지는 시리즈는 원래 데이터가 아님. 제거해보기
df = ndf2.drop('index', axis=1)
display(df)

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15
3,0,0,0,0,0
4,0,0,0,0,0


## 인덱스 활용: 행 인덱스로 데이터 프레임 정렬하기
- df.sort_index(ascending=True or False)

In [75]:
# 오름차순 = False
ndf = df.sort_index(ascending=False)
print(ndf)

   c0  c1  c2  c3  c4
4   0   0   0   0   0
3   0   0   0   0   0
2   3   6   9  12  15
1   2   5   8  11  14
0   1   4   7  10  13


## 인덱스 활용: 열 기준으로 데이터 프레임 정렬하기
- df.sort_values(ascending=True or False)

In [76]:
# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by=['c1'], ascending=False)
display(ndf)

Unnamed: 0,c0,c1,c2,c3,c4
2,3,6,9,12,15
1,2,5,8,11,14
0,1,4,7,10,13
3,0,0,0,0,0
4,0,0,0,0,0


In [81]:
# 여러 열을 기준으로 정렬하려면?
ndf = df.sort_values(by=['c1', 'c2'], ascending=False)
display(ndf)

# NaN을 우선적으로 해서 정렬하려면: na_position='first' 옵션 사용
ndf = df.sort_values(by=[], ascending=False, na_position='first')
display(ndf)

Unnamed: 0,c0,c1,c2,c3,c4
2,3,6,9,12,15
1,2,5,8,11,14
0,1,4,7,10,13
3,0,0,0,0,0
4,0,0,0,0,0


Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15
3,0,0,0,0,0
4,0,0,0,0,0


## 시리즈의 데이터 요소들을 숫자로 한꺼번에 처리하기

In [82]:
import pandas as pd

student1 = pd.Series({'국어':100, '영어':80, '수학':90})

# 학생의 과목별 점수를 200으로 나누기
percentage = student1 / 200

print(percentage)
print(type(percentage))

국어    0.50
영어    0.40
수학    0.45
dtype: float64
<class 'pandas.core.series.Series'>


In [None]:
sr = pd.Series([1,2,3])
print(type(sr))
print(sr)

## set 은 데이터간의 순서가 없어서 안된다 그래서 시리즈는 순서화가 되어있는 때만 가능하다.
## 리스트함수로 set 을 감싸주면 된다

# 투플로 시리즈 생성 
# 직접 시리즈로 변경할 수 없으므로 리스트로 변경해서 시리즈 생성 
# 인덱스가 자동으로 부여될수있는데 순서가 없으므로 인덱스값을 넣어줄수없음

## idx 와 value 타입 찍어보기 
## print(type(idx))
## print(type(val))
# 결과값
# pandas.core.indexes.range.RangeIndex
# numpy.ndarray

# 생각해보기 답 : 정수형 범위와 라벨형 범위의 차이점
# 정수형 범위는 앞전까지 하구 라벨형 범위는 그 값 까지한다 
# 정수형 범위 슬라이싱 [시작:끝] 시작위치부터 끝 -1 까지 슬라이싱
# 라벨형 범위는 그 값까지 슬라이싱 된다 시작위치부터 끝(포함) 까지 슬라이싱 

## inplace=True 는 복사본을 안주고 원본을 변경하겠다는 뜻, 이게 없으면 복사본을 던져준다

# loc으로 하든 iloc 으로 하든 시리즈로 나온다 !! 
# 각각을 표현했떤 컬럼의 이름들이 인덱스가 된다
