# 시리즈(Series)와 데이터프레임(DataFrame)
* 시리즈는 1차원 배열이고, 데이터프레임은 2차원 배열

## 시리즈
* 딕셔너리와 시리즈와 구조가 비슷하기 때문에, 딕셔너리를 시리즈로 변환하는 방법을 많이 사용

### 예제1-1. 딕셔너리로 시리즈 만들기
* 딕셔너리를 시리즈로 변환해 본다. {'a':1,'b':2,'c':3}와 같이 'k:v' 구조를 갖는 딕셔너리를 정의하여 변수 dict_data에 저장한다. 변수 dict_data에 저장되어 있는 딕셔너리를 Series() 함수의 인자로 전달하면, 시리즈로 변환한다. Series() 함수가 반환한 시리즈 객체를 변수 sr에 저장한다.

In [2]:
#pandas 불러오기
import pandas as pd

#key:value 쌍으로 딕셔너리를 만들고, 변수 dict_data에 저장
dict_data={'a':1,'b':2,'c':3}

#판다스 Series() 함수로 dictionary를 Series로 변환. 변수 sr에 저장
sr=pd.Series(dict_data)

#sr의 자료형 출력
print(type(sr))
print('\n')
#변수 sr에 저장되어 있는 시리즈 객체를 출력
print(sr)

<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


### 예제1-2. 리스트로 시리즈 만들기
* 파이썬 리스트를 시리즈로 변환해 본다. 단, 딕셔너리의 키처럼 인덱스로 변환될 값이 없다. 따라서, 인덱스를 별도로 지정하지 않으면, 디폴트로 정수형 위치 인덱스(0,1,2,...)가 자동 지정된다. 다음 예제에서는 0~4범위의 정수값이 인덱스로 지정된다.

In [5]:
import pandas as pd

#리스트를 시리즈로 변환하여 변수 sr에 저장
list_data=['2019-01-02',3.14,'ABC','100',True]
sr=pd.Series(list_data)
print(sr)

#인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장
idx=sr.index
val=sr.values
print(idx)
print('\n')
print(val)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object
RangeIndex(start=0, stop=5, step=1)


['2019-01-02' 3.14 'ABC' '100' True]


In [8]:
import pandas as pd

#리스트를 시리즈로 변환하여 변수 sr에 저장
list_data=['2019-01-02',3.14,'ABC','100',True]
sr=pd.Series(list_data,index=['날짜','원주율','알파벳','정수','bool'])
print(sr)

#인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장
idx=sr.index
val=sr.values
print(idx)
print('\n')
print(val)

날짜      2019-01-02
원주율           3.14
알파벳            ABC
정수             100
bool          True
dtype: object
Index(['날짜', '원주율', '알파벳', '정수', 'bool'], dtype='object')


['2019-01-02' 3.14 'ABC' '100' True]


### 예제1-3. 튜플로 시리즈 만들기
* 파이썬 튜플을 시리즈로 변환한다. 정수형 위치 인덱스 대신에 인덱스 이름을 따로 지정할 수 있다. Series() 함수의 index 옵션에 인덱스 이름을 리스트 형태로 직접 전달하는 방식이다.

In [10]:
import pandas as pd

#튜플을 시리즈로 변환(인덱스 옵션 지정)
tup_data=('영인','2010-05-01','여',True)
sr=pd.Series(tup_data,index=['이름','생년월일','성별','학생여부'])
print(sr)

#원소를 1개 선택
print(sr[0])
print(sr['이름'])
#여러 개의 원소를 선택(인덱스 리스트 활용)
print(sr[[1,2]])
print('\n')
print(sr[['생년월일','성별']])
#정수형 위치 인덱스를 사용할 때는 끝 원소가 포함되지 않지만, 인덱스 이름을 사용하면 끝 원소가 포함된다.
print(sr[1:2])
print('\n')
print(sr['생년월일':'성별'])

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object
영인
영인
생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


## 데이터프레임
* 딕셔너리의 값(v)에 해당하는 각 리스트가 시리즈로 변환되어 데이터프레임의 각 열이 됨
* 딕셔너리의 키(k)는 각 시리즈의 이름으로 변환되어, 최종적으로 열 이름이 됨

### 예제1-4. 딕셔너리로 데이터프레임 만들기
* 원소 3개씩 담고 있는 리스트를 5개 만든다. 이들 5개의 리스트를 원소로 갖는 딕셔너리를 정의하고, 판다스 DataFrame() 함수에 전달하면 5개의 열을 갖는 데이터프레임을 만든다. 이때, 딕셔너리의 키(k)가 열 이름(c0~c4)가 되고, 값(v)에 해당하는 각 리스트가 데이터프레임의 열이 된다. 행 인덱스에는 정수형 위치 인덱스(0,1,2)가 자동 지정된다.

In [12]:
import pandas as pd

#열 이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data={'c0':[1,2,3],'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}

#판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장
df=pd.DataFrame(dict_data)

#df의 자료형 출력
print(type(df))
print('\n')
#변수 df에 저장되어 있는 데이터프레임 객체를 출력
print(df)

<class 'pandas.core.frame.DataFrame'>


   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


### 예제1-5. 행 인덱스/열 이름 설정
* '3개의 원소를 갖는 리스트'2개를 원소로 갖는 리스트(2차원 배열로 데이터프레임을 만든다. 이때, 각 리스트가 행으로 변환되는 점에 유의한다.
-index 옵션: ['준서','예은']배열을 지정
-columns 옵션: ['나이','성별','학교']배열을 지정

In [16]:
import pandas as pd

# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15,'남','덕영중'],[17,'여','수리중']],
                 index=['준서','예은'],
                 columns=['나이','성별','학교'])

# 행 인덱스, 열 이름 확인하기
print(df)
print('\n')
print(df.index) #행 인덱스
print('\n')
print(df.columns) #열 이름

# 행 인덱스, 열 이름 변경하기
df.index=['학생1','학생2']
df.columns=['연령','남녀','소속']

print(df)
print('\n')
print(df.index) #행 인덱스
print('\n')
print(df.columns) #열 이름

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')
     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '남녀', '소속'], dtype='object')


### 예제1-6. rename() 메소드 사용
* rename() 메소드를 적용하면, 행 인덱스 또는 열 이름의 일부를 선택하여 변경 가능. 단, 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환하는 점 유의.
* 원본 객체를 변경하려면, inplace=True 옵션을 사용

In [18]:
import pandas as pd

# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15,'남','덕영중'],[17,'여','수리중']],
                 index=['준서','예은'],
                 columns=['나이','성별','학교'])

# 데이터프레임 df 출력
print(df)
print('\n')

# 열 이름 중,'나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 소속으로 바꾸기
df.rename(columns={'나이':'연령','성별':'남녀','학교':'소속'},inplace=True)

# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1','예은':'학생2'},inplace=True)

# df 출력(변경 후)
print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


* 행/열 삭제
* drop()메소드에 행을 삭제할 때는 축(axis)옵션으로 axis=0을 입력하거나, 별도로 입력하지 않음
* 축 옵션으로 axis=1을 입력하면 열을 삭제함. 동시에 여러 개의 행 또는 열을 삭제하려면, 리스트 형태로 입력함

### 예제 1-7. 행 삭제

In [21]:
import pandas as pd

#DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data={'수학':[90,80,70],'영어':[98,89,95],
          '음악':[85,95,100],'체육':[100,90,90]}

df = pd.DataFrame(exam_data,index=['서준','우현','인아'])
print(df)
print('\n')

#데이터프레임 df를 복제하여 변수 df2에 저장. df2의 1개 행(row) 삭제
df2 = df[:]
df2.drop('우현',inplace=True)
print(df2)
print('\n')

#데이터프레임 df를 복제하여 변수 df3에 저장. df3의 2개 행(row) 삭제
df3=df[:]
df3.drop(['우현','인아'],axis=0,inplace=True)
print(df3)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


    수학  영어  음악   체육
서준  90  98  85  100


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


### 예제 1-8. 열 삭제

In [22]:
import pandas as pd

#DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data={'수학':[90,80,70],'영어':[98,89,95],
          '음악':[85,95,100],'체육':[100,90,90]}

df = pd.DataFrame(exam_data,index=['서준','우현','인아'])
print(df)
print('\n')

#데이터프레임 df를 복제하여 변수 df4에 저장. df4의 1개의 열(column)삭제
df4=df[:]
df4.drop('수학',axis=1,inplace=True)
print(df4)
print('\n')

#데이터프레임 df를 복제하여 변수 df5에 저장. df5의 2개의 열(column)삭제
df5=df[:]
df5.drop(['영어','음악'],axis=1,inplace=True)
print(df5)
print('\n')

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


    수학   체육
서준  90  100
우현  80   90
인아  70   90




A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


### 예제 1-9. 1개의 행 선택, 여러 개의 행 선택

In [28]:
import pandas as pd

#DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data={'수학':[90,80,70],'영어':[98,89,95],
          '음악':[85,95,100],'체육':[100,90,90]}

df = pd.DataFrame(exam_data,index=['서준','우현','인아'])
print(df)
print('\n')

#행 인덱스를 사용하여 행 1개 선택
label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print('\n')
print(position1)

#행 인덱스를 사용하여 2개 이상의 행 선택
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print('\n')
print(position2)

#행 인덱스의 범위를 지정하여 행 선택
## 인덱스 이름을 범위로 지정하면 마지막 원소가 출력되지만, 정수형 위치 인덱스로 지정하면 마지막 원소가 출력되지 않는다.
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]
print(label3)
print('\n')
print(position3)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90
    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


### 예제1-10. 1개의 열 선택, n개의 열 선택

In [33]:
import pandas as pd

#DataFrame() 함수로 데이터 프레임 변환. 변수 df에 저장
exam_data={'이름':['서준','우현','인아'],
          '수학':[90,80,70],
          '영어':[98,89,95],
          '음악':[85,95,100],
          '체육':[100,90,90]}

df=pd.DataFrame(exam_data)
print(df)

print(type(df))
print('\n')

#'수학' 점수 데이터만 선택. 변수 math1에 저장
math1 = df['수학']
print(math1)
print(type(math1))
print('\n')


#'영어' 점수 데이터만 선택. 변수 english1에 저장
english1 = df.영어
print(english1)
print(type(english1))
print('\n')

#'음악','체육' 점수 데이터를 선택, 변수 music_gym에 저장
music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))
print('\n')

#'수학'점수 데이터만 선택. 변수 math2에 저장
math2 = df[['수학']]
print(math2)
print(type(math2))
print('\n')

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
<class 'pandas.core.frame.DataFrame'>


0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


0    98
1    89
2    95
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>




### 예제1-11. 원소 선택

In [36]:
import pandas as pd

#DataFrame() 함수로 데이터 프레임 변환. 변수 df에 저장
exam_data={'이름':['서준','우현','인아'],
          '수학':[90,80,70],
          '영어':[98,89,95],
          '음악':[85,95,100],
          '체육':[100,90,90]}

df=pd.DataFrame(exam_data)

#'이름'열을 새로운 인덱스로 지정하고, df 객체에 변경 사항 반영
df.set_index('이름',inplace=True)
print(df)

#데이터프레임 df의 특정 원소 1개 선택('서준'의 '음악'점수)
a=df.loc['서준','음악']
print(a)
b=df.iloc[0,2]
print(b)

#데이터프레임 df의 특정 원소 2개 이상 선택('서준'의 '음악','체육'점수)
c=df.loc['서준',['음악','체육']]
print(c)
d=df.iloc[0,[2,3]]
print(d)
e=df.loc['서준','음악':'체육']
print(e)
f=df.iloc[0,2:]
print(f)

#2개 이상의 원소를 선택(데이터프레임)
g=df.loc[['서준','우현'],['음악','체육']]
print(g)
h=df.iloc[[0,1],[2,3]]
print(h)
i=df.loc['서준':'우현','음악':'체육']
print(i)
j=df.iloc[0:2,2:]
print(j)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90
85
85
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


### 예제 1-12. 열 추가

In [38]:
import pandas as pd

#DataFrame() 함수로 데이터 프레임 변환. 변수 df에 저장
exam_data={'이름':['서준','우현','인아'],
          '수학':[90,80,70],
          '영어':[98,89,95],
          '음악':[85,95,100],
          '체육':[100,90,90]}

df=pd.DataFrame(exam_data)
print(df)
print('\n')

#데이터프레임 df에 '국어'점수 열(column)추가. 데이터 값은 80지정
df['국어']=80
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


   이름  수학  영어   음악   체육  국어
0  서준  90  98   85  100  80
1  우현  80  89   95   90  80
2  인아  70  95  100   90  80


### 예제1-13. 행추가

In [40]:
import pandas as pd

#DataFrame() 함수로 데이터 프레임 변환. 변수 df에 저장
exam_data={'이름':['서준','우현','인아'],
          '수학':[90,80,70],
          '영어':[98,89,95],
          '음악':[85,95,100],
          '체육':[100,90,90]}

df=pd.DataFrame(exam_data)
print(df)
print('\n')


#새로운 행 추가 - 같은 원소 값 입력
df.loc[3]=0
print(df)
print('\n')

#새로운 행 추가 - 원소 값 여러 개의 배열 입력
df.loc[4] = ['동규',90,80,70,60]
print(df)
print('\n')

#새로운 행 추가 - 기존 행 복사
df.loc['행5']=df.iloc[3]
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
3   0   0   0    0    0


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
3   0   0   0    0    0
4  동규  90  80   70   60


    이름  수학  영어   음악   체육
0   서준  90  98   85  100
1   우현  80  89   95   90
2   인아  70  95  100   90
3    0   0   0    0    0
4   동규  90  80   70   60
행5   0   0   0    0    0
