#### 이론

1. 판다스 라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구

2. Pandas는 시리즈(Series)와 데이터프레임(DataFrame)이라는 2개의 구조화된 데이터 형식을 제공

3. Series는 1차원 배열, DataFrame은 2차원 배열

##### 시리즈

1. 인덱스(index)는 데이터 값(value)과 일대일 대응. 딕셔너리(Dict)와 비슷한 구조를 갖는다.

In [1]:
# pandas 불러오기
import pandas as pd

# key:value 쌍으로 딕셔너리를 만들고, 변수 dict_data에 저장
dict_data = {'a':1, 'b':2, 'c':3}

# 판다스 Series() 함수로 dictionary를 Series로 변환. 변수 sr에 저장
sr = pd.Series(dict_data)

# sr의 자료형 출력
print(type(sr))
print('\n')
# 변수 sr에 저장되어 있는 시리즈 객체를 출력
print(sr)

<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


2. 인덱스 구조 - 인덱스는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장. 종류는 두 가지이다. 정수형 위치 인덱스와 인덱스 이름 또는 인덱스 라벨.

3. 리스트를 시리즈로 변환 - 인덱스를 별도로 지정하지 않으면, 디폴트로 정수형 위치 인덱스(0,1,2, ... )가 자동 지정된다.

In [2]:
import pandas as pd

list_data = ['2019-01-02', 3.14, 'ABC', '100', True]
sr = pd.Series(list_data)
print(sr)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object


In [3]:
# 인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장.
idx = sr.index
val = sr.values
print(idx)
print('\n')
print(val)

RangeIndex(start=0, stop=5, step=1)


['2019-01-02' 3.14 'ABC' '100' True]


4. 원소 선택 - 정수형 위치 인덱스는 대괄호([]) 안에 위치를 나타내는 숫자를 입력하는데 반해, 인덱스 이름(라벨)을 이용할 때는 대괄호 안에 이름과 함께 따옴표를 입력한다.

In [4]:
tab = {'a':'car', 'b':'train', 'c':'subway', 'd':'airplane'}
Sr = pd.Series(tab)

In [5]:
print(Sr['c'])
print(Sr[2])
print('\n')
print(Sr['a':'c'])
print(Sr[0:3])
print('\n')
print(Sr[['a','c']])
print(Sr[[0,2]])

subway
subway


a       car
b     train
c    subway
dtype: object
a       car
b     train
c    subway
dtype: object


a       car
c    subway
dtype: object
a       car
c    subway
dtype: object


5. 리스트 또는 튜플을 시리즈로 만들 때 정수형 위치 인덱스 대신 인덱스 이름을 따로 지정할 수 있다. Series() 함수의 index 옵션에 인덱스 이름을 직접 전달하는 방식.

In [6]:
import pandas as pd

# 튜플을 시리즈로 변환(인덱스 옵션 지점)
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [7]:
# 원소 1개를 선택
print(sr[0])  # sr의 1번째 원소를 선택(정수형 위치 인덱스)
print(sr['이름'])  # '이름' 라벨을 가진 원소를 선택(인덱스 이름)

영인
영인


In [8]:
# 여러 개의 원소를 선택(인덱스 리스트 활용)
print(sr[[1,2]])
print('\n')
print(sr[['생년월일','성별']])

생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


In [9]:
print(sr[1:2])
print('\n')
print(sr['생년월일':'성별'])

# 정수형 인덱스 슬라이싱은 하나만 출력
# 라벨을 인덱스 슬라이싱으로 이용하면 두 개가 출력

생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


##### 데이터프레임

1. 행과 열의 구조로 이루어짐.

2. 시리즈를 열벡터(vector)라고 하면, 데이터프레임은 여러 개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬(matrix)이다.

3. 데이터프레임의 열은 공통의 속성을 갖는 일련의 데이터를 나타내고 보통 변수(variable)로 활용된다. 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드(record)가 된다.

In [10]:
import pandas as pd

# 열 이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장.
df = pd.DataFrame(dict_data)

# df의 자료형 출력
print(type(df))
print('\n')
print(df)

<class 'pandas.core.frame.DataFrame'>


   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


행 인덱스 / 열 이름 설정 : pd.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열)

In [11]:
import pandas as pd

# 행 인덱스 / 열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                 index = ['준서','예은'],
                 columns = ['나이','성별','학교'])

# 행 인덱스, 열 이름 확인하기
print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


- 행 인덱스 변경 : DataFrame 객체.index = 새로운 행 인덱스 배열

- 열 이름 변경 : DataFrame 객체.columns = 새로운 열 이름 배열

In [12]:
# 행 인덱스, 열 이름 변경하기
df.index = ['학생1','학생2']
df.columns = ['연령','남녀','소속']

print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '남녀', '소속'], dtype='object')


데이터프레임에 rename() 메소드를 적용하면 행 인덱스 또는 열 이름의 일부를 선택하여 변경할 수 있다.

rename() 메소드를 이용하는 방식은 직접 수정이 아닌 새로운 데이터프레임 객체를 반환하는 것. 꼭 inplace = True를 써야 함.

- 행 인덱스 변경 : DataFrame 객체.rename(index={기존 인덱스:새 인덱스})

- 열 이름 변경 : DataFrame 객체.rename(columns={기존 이름:새 이름})

In [13]:
import pandas as pd

# 행 인덱스 / 열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                 index=['준서','예은'],
                 columns=['나이','성별','학교'])

# 데이터프레임 df 출력
print(df)
print('\n')

# 열 이름 중, '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꾸기
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)

# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)

# df 출력(변경 후)
print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


데이터프레임의 행 또는 열을 삭제하는 방법으로 drop() 메소드가 있다.

행을 삭제할 때는 axis=0, 열을 삭제할 때는 axis=1, 동시에 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 입력.

inplace=True 를 포함시켜야 직접 변경이 가능하다.

- 행 삭제 : DataFrame 객체.drop(행 인덱스 또는 배열, axis=0)

- 열 삭제 : DataFrame 객체.drop(열 이름 또는 배열, axis=1)

In [14]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어':[98,89,79],
            '음악':[85,95,33], '체육':[100,90,88]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
print(df)
print('\n')

# 데이터프레임 df를 복제하여 변수 df2에 저장. df2의 1개 행(row) 삭제
df2 = df[:]
df2.drop('우현', inplace=True)
print(df2)
print('\n')

# 데이터프레임 df를 복제하여 변수 df3에 저장. df3의 2개 행(row) 삭제
df3 = df[:]
# df3.drop(['우현','인아'], axis=0, inplace=True)
df3.drop(['우현','인아'], inplace=True)
print(df3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
인아  70  79  33   88


    수학  영어  음악   체육
서준  90  98  85  100
인아  70  79  33   88


    수학  영어  음악   체육
서준  90  98  85  100


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2.drop('우현', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3.drop(['우현','인아'], inplace=True)


In [15]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어':[98,89,79],
            '음악':[85,75,95], '체육':[88,77,99]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
print(df)
print('\n')

# 데이터프레임 df를 복제하여 변수 df4에 저장. df4의 1개 열(column) 삭제
df4 = df[:]
df4.drop('수학', axis=1, inplace=True)
print(df4)
print('\n')

# 데이터프레임 df를 복제하여 df5에 저장. df5의 2개 열(column) 삭제
df5 = df[:]
df5.drop(['영어','음악'], axis=1, inplace=True)
print(df5)

    수학  영어  음악  체육
서준  90  98  85  88
우현  80  89  75  77
인아  70  79  95  99


    영어  음악  체육
서준  98  85  88
우현  89  75  77
인아  79  95  99


    수학  체육
서준  90  88
우현  80  77
인아  70  99


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4.drop('수학', axis=1, inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df5.drop(['영어','음악'], axis=1, inplace=True)


- 행 선택

- loc : 인덱스 이름 기준

- iloc : 정수형 위치 인덱스 기준

In [16]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어':[98,89,79],
            '음악':[85,75,95], '체육':[88,77,99]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
print(df)
print('\n')

# 행 인덱스를 사용하여 행 1개 선택
label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print('\n')
print(position1)

    수학  영어  음악  체육
서준  90  98  85  88
우현  80  89  75  77
인아  70  79  95  99


수학    90
영어    98
음악    85
체육    88
Name: 서준, dtype: int64


수학    90
영어    98
음악    85
체육    88
Name: 서준, dtype: int64


In [17]:
# 행 인덱스를 사용하여 2개 이상의 행 선택
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print('\n')
print(position2)

    수학  영어  음악  체육
서준  90  98  85  88
우현  80  89  75  77


    수학  영어  음악  체육
서준  90  98  85  88
우현  80  89  75  77


In [18]:
# 행 인덱스의 범위를 지정하여 행 선택
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]
print(label3)
print('\n')
print(position3)

    수학  영어  음악  체육
서준  90  98  85  88
우현  80  89  75  77


    수학  영어  음악  체육
서준  90  98  85  88


- 열 선택

- 1개의 열만 선택할 때는, 대괄호([]) 안에 열 이름을 따옴표와 함께 입력하거나 도트(.) 다음에 열 이름을 입력하는 두 가지 방식을 사용한다.

- 열 n개 선택(데이터프레임 생성): DataFrame 객체[ [열1, 열2, ... , 열n] ]

In [19]:
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')

# '수학' 점수 데이터만 선택. 변수 math1에 저장
math1 = df['수학']
print(math1)
print(type(math1))
print('\n')

# '영어' 점수 데이터만 선택. 변수 english에 저장
english = df.영어
print(english)
print(type(english))

# 시리즈로 반환된다는 점을 기억하자!!

   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


0    98
1    89
2    75
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


- 2개 이상의 열을 추출하기 위해서는 2중 대괄호를 사용하면 된다. -> 데이터프레임 반환.

- 1개의 열만 추출할 때 데이터프레임으로 반환하고 싶으면 2중 대괄호를 사용하면 됨.

In [20]:
# '음악', '체육' 점수 데이터를 선택. 변수 music_gym에 저장
music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))
print('\n')

# '수학' 점수 데이터만 선택. 변수 math2에 저장
math2 = df[['수학']]
print(math2)
print(type(math2))

   음악   체육
0  85  100
1  75   90
2  95   90
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


- 범위 슬라이싱 : DataFrame 객체.iloc[시작 인덱스 : 끝 인덱스 : 슬라이싱 간격]

In [21]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,75,90
2,인아,70,75,95,90


In [22]:
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,75,95,90


In [23]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,75,95,90


In [24]:
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,75,95,90
1,우현,80,89,75,90
0,서준,90,98,85,100


- 1개의 행과 2개 이상의 열을 선택하거나, 2개 이상의 행과 1개의 열을 선택하는 경우 - 시리즈 반환. 2개 이상의 행과 2개 이상의 열을 선택하면, 데이터프레임 반환.

- 인덱스 이름 : DataFrame객체.loc[행 인덱스, 열 이름]

- 정수 위치 인덱스 : DataFrame객체.iloc[행 번호, 열 번호]

In [25]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,75,90
2,인아,70,75,95,90


In [26]:
# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경 사항 반영
df.set_index('이름', inplace=True)
print(df)

    수학  영어  음악   체육
이름                 
서준  90  98  85  100
우현  80  89  75   90
인아  70  75  95   90


In [27]:
# 데이터프레임 df의 특정 원소 1개 선택('서준'의 '음악' 점수)
a = df.loc['서준','음악']
print(a)
b = df.iloc[0,2]
print(b)

85
85


In [28]:
# 데이터프레임 df의 특정 원소 2개 이상 선택('서준'의 '음악','체육' 점수)
c = df.loc['서준',['음악','체육']]
print(c)
d = df.iloc[0,[2,3]]
print(d)
e = df.loc['서준','음악':'체육']
print(e)
f = df.iloc[0,2:]
print(f)

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [29]:
# df 2개 이상의 행과 열에 속하는 원소들 선택('서준', '우현'의 '음악', '체육' 점수)
g = df.loc[['서준','우현'],['음악','체육']]
print(g)
print('\n')
h = df.iloc[[0,1],[2,3]]
print(h)
print('\n')
i = df.loc['서준':'우현','음악':'체육']
print(i)
print('\n')
j = df.iloc[0:2, 2:]
print(j)

    음악   체육
이름         
서준  85  100
우현  75   90


    음악   체육
이름         
서준  85  100
우현  75   90


    음악   체육
이름         
서준  85  100
우현  75   90


    음악   체육
이름         
서준  85  100
우현  75   90


In [30]:
x = df.loc[:, ['음악','체육']]
y = df.iloc[:, [2,3]]
z = df.iloc[:, 2:4]

print(x)
print('\n')
print(y)
print('\n')
print(z)

    음악   체육
이름         
서준  85  100
우현  75   90
인아  95   90


    음악   체육
이름         
서준  85  100
우현  75   90
인아  95   90


    음악   체육
이름         
서준  85  100
우현  75   90
인아  95   90


- 열 추가

열 추가 : DataFrame객체['추가하려는 열 이름'] = 데이터 값

In [31]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 데이터프레임 df에 '국어' 점수 열(column) 추가. 데이터 값은 80 지정
df['국어'] = 80
print(df)

   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


   이름  수학  영어  음악   체육  국어
0  서준  90  98  85  100  80
1  우현  80  89  75   90  80
2  인아  70  75  95   90  80


- 행 추가

행 추가 : DataFrame.loc['새로운 행 이름'] = 데이터 값 (또는 배열)

In [32]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 새로운 행(row) 추가 - 같은 원소 값 입력
df.loc[3] = 0
print(df)
print('\n')

# 새로운 행(row) 추가 - 원소 값 여러 개의 배열 입력
df.loc[4] = ['동규', 90,80,70,60]
print(df)
print('\n')

# 새로운 행(row) 추가 - 기존 행 복사
df.loc['행5'] = df.loc[3]
print(df)

   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90
3   0   0   0   0    0


   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90
3   0   0   0   0    0
4  동규  90  80  70   60


    이름  수학  영어  음악   체육
0   서준  90  98  85  100
1   우현  80  89  75   90
2   인아  70  75  95   90
3    0   0   0   0    0
4   동규  90  80  70   60
행5   0   0   0   0    0


- 원소 값 변경

- 원소 값 변경 : DataFrame객체의 일부분 또는 원소를 선택 = 새로운 값

In [33]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df객체에 변경사항 반영
df.set_index('이름', inplace=True)
print(df)
print('\n')

# 데이터프레임 df의 특정 원소를 변경하는 방법 : '서준'의 '체육' 점수
df.iloc[0][3] = 80
print(df)
print('\n')

df.loc['서준']['체육'] = 90
print(df)
print('\n')

df.loc['서준','체육'] = 100
print(df)
print('\n')

df.iloc[0,3] = 70
print(df)

    수학  영어  음악   체육
이름                 
서준  90  98  85  100
우현  80  89  75   90
인아  70  75  95   90


    수학  영어  음악  체육
이름                
서준  90  98  85  80
우현  80  89  75  90
인아  70  75  95  90


    수학  영어  음악  체육
이름                
서준  90  98  85  90
우현  80  89  75  90
인아  70  75  95  90


    수학  영어  음악   체육
이름                 
서준  90  98  85  100
우현  80  89  75   90
인아  70  75  95   90


    수학  영어  음악  체육
이름                
서준  90  98  85  70
우현  80  89  75  90
인아  70  75  95  90


In [34]:
# 데이터프레임 df의 원소 여러 개를 변경하는 방법: '서준'의 '음악', '체육' 점수
df.loc['서준', ['음악','체육']] = 50
print(df)
print('\n')

df.loc['서준', ['음악','체육']] = 100, 50
print(df)

    수학  영어  음악  체육
이름                
서준  90  98  50  50
우현  80  89  75  90
인아  70  75  95  90


    수학  영어   음악  체육
이름                 
서준  90  98  100  50
우현  80  89   75  90
인아  70  75   95  90


- 행, 열의 위치 바꾸기

행, 열 바꾸기 : DataFrame객체.transpose() 또는 DataFrame 객체.T

In [35]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 데이터프레임 df를 전치하기(메소드 활용)
df = df.transpose()
print(df)
print('\n')

# 데이터프레임 df를 다시 전치하기(클래스 속성 활용)
df = df.T
print(df)

   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


      0   1   2
이름   서준  우현  인아
수학   90  80  70
영어   98  89  75
음악   85  75  95
체육  100  90  90


   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


- 인덱스 활용

- 특정 열을 행 인덱스로 설정 : DataFrame객체.set_index(['열 이름'] 또는 '열 이름')

In [36]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[98,89,75],
            '음악':[85,75,95],
            '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
ndf = df.set_index(['이름'])
print(ndf)
print('\n')
ndf2 = ndf.set_index('음악')
print(ndf2)
print('\n')
ndf3 = ndf.set_index(['수학','음악'])
print(ndf3)

   이름  수학  영어  음악   체육
0  서준  90  98  85  100
1  우현  80  89  75   90
2  인아  70  75  95   90


    수학  영어  음악   체육
이름                 
서준  90  98  85  100
우현  80  89  75   90
인아  70  75  95   90


    수학  영어   체육
음악             
85  90  98  100
75  80  89   90
95  70  75   90


       영어   체육
수학 음악         
90 85  98  100
80 75  89   90
70 95  75   90


- 행 인덱스 재배열

- 새로운 배열로 행 인덱스 재지정 : DataFrame객체.reindex(새로운 인덱스 배열)

In [38]:
import pandas as pd

# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# 인덱스를 [r0, r1, r2, r3, r4]로 재지정
new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
print(ndf)
print('\n')

# reindex로 발생한 NaN 값을 숫자 0으로 채우기
new_index = ['r0','r1','r2','r3','r4']
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


- 행 인덱스 초기화

- 정수형 위치 인덱스로 초기화 : DataFrame객체.reset_index()

In [40]:
import pandas as pd

# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

# 이때 기존 행 인덱스는 열로 이동한 다는 것!! 주의

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


- 행 인덱스를 기준으로 데이터프레임 정렬

- 행 인덱스 기준 정렬 : DataFrame객체.sort_index()

In [41]:
import pandas as pd

# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0,r1,r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


- 열 기준 정렬 : DataFrame객체.sort_values()

In [42]:
import pandas as pd

# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0,r1,r2]로 지정
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


- 산술연산

- 동일한 위치에 있는 원소끼리 일대일 대응. 일대일 대응이 되는 원소끼리 연산을 처리. 대응되는 원소가 없으면 NaN 처리.

- 시리즈 연산

- 시리즈 vs 숫자

- 시리즈와 숫자 연산 : Series객체 + 연산자(+,-,*,/) + 숫자

In [43]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1)
print('\n')

# 학생의 과목별 점수를 200으로 나누기
percentage = student1/200

print(percentage)
print('\n')
print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64


국어    0.50
영어    0.40
수학    0.45
dtype: float64


<class 'pandas.core.series.Series'>


- 시리즈 vs 시리즈

- 시리즈와 시리즈 연산 : Series1 + 연산자(+,-,*,/) + Series2

In [44]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'국어':80, '수학':70, '영어':85})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2  # 덧셈
subtraction = student1 - student2  # 뺄셈
multiplication = student1 * student2  # 곱셈
division = student1/student2  # 나눗셈
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])

print(result)

국어    100
영어     80
수학     90
dtype: int64


국어    80
수학    70
영어    85
dtype: int64


<class 'pandas.core.series.Series'>


          국어           수학           영어
덧셈    180.00   160.000000   165.000000
뺄셈     20.00    20.000000    -5.000000
곱셈   8000.00  6300.000000  6800.000000
나눗셈     1.25     1.285714     0.941176


In [45]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(시리즈 vs 시리즈)
addition = student1 + student2  # 덧셈
subtraction = student1 - student2  # 뺄셈
multiplication = student1 * student2  # 곱셈
division = student1/student2  # 나눗셈
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division],
                     index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64


<class 'pandas.core.series.Series'>


     국어        수학  영어
덧셈  NaN   170.000 NaN
뺄셈  NaN    10.000 NaN
곱셈  NaN  7200.000 NaN
나눗셈 NaN     1.125 NaN


- 연산 메소드

- 연산 메소드 사용(시리즈와 시리즈 덧셈): Series1.add(Series2, fill_value=0)

In [47]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(연산 메소드 사용)
sr_add = student1.add(student2, fill_value=0)  # 덧셈
sr_sub = student1.sub(student2, fill_value=0)  # 뺄셈
sr_mul = student1.mul(student2, fill_value=0)  # 곱셈
sr_div = student1.div(student2, fill_value=0)  # 나눗셈

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div],
                     index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

# 사칙연산 이전의 NaN값이 0으로 채워진 후 사칙연산이 진행된다!!

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64


       국어        수학    영어
덧셈   90.0   170.000  80.0
뺄셈  -90.0    10.000  80.0
곱셈    0.0  7200.000   0.0
나눗셈   0.0     1.125   inf


- 데이터프레임 연산

- 행/열 인덱스를 기준으로 정렬하고 일대일 대응되는 원소끼리 연산을 처리한다.

- 데이터프레임 vs 숫자

- 데이터프레임과 숫자 연산 : DataFrame객체 + 연산자 + 숫자

In [48]:
import pandas as pd
import numpy as np
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개의 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
print(df.head())  # 첫 5행만 표기
print('\n')
print(type(df))
print('\n')

# 데이터프레임에 숫자 10 더하기
addition = df + 10
print(addition.head())
print('\n')
print(type(addition))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<class 'pandas.core.frame.DataFrame'>


- 데이터프레임 vs 데이터프레임

- 데이터프레임의 연산자 활용 : DataFrame1 + 연산자 + DataFrame2

In [50]:
import pandas as pd
import numpy as np
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개의 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
print(df.tail())  # 첫 5행만 표기
print('\n')
print(type(df))
print('\n')

# 데이터프레임에 숫자 10 더하기
addition = df + 10
print(addition.tail())
print('\n')
print(type(addition))
print('\n')

# 데이터프레임끼리 연산하기(addtion - df)
subtraction = addition - df
print(subtraction.tail())
print('\n')
print(type(subtraction))

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


<class 'pandas.core.frame.DataFrame'>


      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75


<class 'pandas.core.frame.DataFrame'>


      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


<class 'pandas.core.frame.DataFrame'>
