# 판다스
오픈소스  
데이터 수집/분석에 유리  
서로 다른 여러가지 유형의 데이터를 공통의 폼에 정리

## 1. 시리즈 : 판다스에서 1차원 배열로 저장한 자료구조

In [5]:
import pandas as pd
dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)
print(type(sr))
print('\n')
print(sr)

<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


### 1.1 리스트 => 시리즈로 변환

In [9]:
import pandas as pd
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)

# 시리즈의 index와 values 속성 이용
idx = sr.index
val = sr.values
print(idx, '\n', val)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object
RangeIndex(start=0, stop=5, step=1) 
 ['2019-01-02' 3.14 'ABC' 100 True]


### 1.2. 튜플 => 시리즈로 변환

In [10]:
import pandas as pd

tup_data = ("민수", '2017-04-08', '여', True)
sr = pd.Series(tup_data, index = ['이름', '생년월일', '성별', '학생여부'])
print(sr)

print(sr[0])
print(sr['이름'])

print(sr[[1, 2]])    # 인덱스 추출하는 내용이 두개 이상일때 [[]]로 사용한다
print('\n')
print(sr[['생년월일', '성별']])

이름              민수
생년월일    2017-04-08
성별               여
학생여부          True
dtype: object
민수
민수
생년월일    2017-04-08
성별               여
dtype: object


생년월일    2017-04-08
성별               여
dtype: object


In [11]:
print(sr[1:])
print('\n')
print(sr['생년월일':'학생여부'])

생년월일    2017-04-08
성별               여
학생여부          True
dtype: object


생년월일    2017-04-08
성별               여
학생여부          True
dtype: object


## 2. 데이터 프레임
시리즈를 여러개 모아놓은 것

In [12]:
import pandas as pd

dict_data = {'A':[1,2,3], 'B':[4,5,6], 'c':[7,8,9], 'd':[10,11,12], 'e':[13,14,15]}

df = pd.DataFrame(dict_data)
print(type(df))
print('\n')
print(df)

<class 'pandas.core.frame.DataFrame'>


   A  B  c   d   e
0  1  4  7  10  13
1  2  5  8  11  14
2  3  6  9  12  15


In [14]:
import pandas as pd

# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15,'남','덕영중'], [17,'여','수리중']], index=['준서','예은'], columns=['나이','성별','학교'])

# 행 인덱스, 열 이름 확인하기
print(df)    # 데이터프레임
print('\n')
print(df.index)    # 행 인덱스
print('\n')
print(df.columns)   # 열 이름

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')


Index(['나이', '성별', '학교'], dtype='object')


In [15]:
df.index = ['학생1','학생2']
df.columns = ['연령','남녀','소속']

print(df)    # 데이터프레임
print('\n')
print(df.index)    # 행 인덱스
print('\n')
print(df.columns)   # 열 이름

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


Index(['학생1', '학생2'], dtype='object')


Index(['연령', '남녀', '소속'], dtype='object')


### 2.1. rename : 원본객체를 수정하는게 아니라 다른 메모리에 복사해서 사용

In [16]:
import pandas as pd

# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], index=['준서', '예은'], columns=['나이', '성별', '학교'])
print(df)
print('\n')

# 열 이름 중, '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꾸기
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
# inplace=True를 해주면 별도의 리턴값 없이 바로 df.~를 써서 사용할 수 있다. 디폴트값 False

# df의 행 인덱스 중에서, '준서'를 '학생1'로, '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1','예은':'학생2'}, inplace=True)

# df 출력(변경 후)
print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


### 2.2. drop : 행 또는 열 삭제

In [17]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
print(df)
print('\n')

# 데이터프레임 df를 복제하여 변수 df2에 저장. df2의 1개 행(row)을 삭제
# axis=0 : 행을 지우겠다는 의미
df2 = df.copy()
df2.drop('우현', axis=0, inplace=True)
print(df2)
print('\n')

# 데이터프레임 df를 복제하여 변수 df3에 저장. df3의 2개 행(row)을 삭제
df3 = df.copy()
df3.drop(['우현','인아'], axis=0, inplace=True)
print(df3)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


    수학  영어  음악   체육
서준  90  98  85  100


In [18]:
# 데이터프레임 df를 복제하여 변수 df4에 저장. df4의 1개 열(column)을 삭제
# axis=1 : 열을 지우겠다는 의미
df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
print(df4)
print('\n')

# 데이터프레임 df를 복제하면 변수 df5에 저장. df5의 2개 열(column)을 삭제
df5 = df.copy()
df5.drop(['영어','음악'], axis=1, inplace=True)
print(df5)

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


    수학   체육
서준  90  100
우현  80   90
인아  70   90


### 2.3. 행에 대한 인덱스 추출
loc : 인덱스  
iloc : 정수형인덱스

In [19]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])
print(df)
print('\n')

# 행 인덱스를 사용하여 행 1개 선택
label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print('\n')
print(position1)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [20]:
label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print('\n')
print(position2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [21]:
# 행 인덱스의 범위를 지정하여 행 선택
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]    # 슬라이싱으로 할 경우, range처럼 끝에 수 -1
print(label3)
print('\n')
print(position3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


### 2.4.열 선택

In [22]:
import pandas as pd

# DataFrame()함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {"이름" : ['서준', '우현', '인아'],
            '수학' : [90, 80, 70],
            '영어' : [98, 89, 95],
            '음악' : [85, 95, 100],
            '체육' : [100, 90, 90]}
df = pd.DataFrame(exam_data)
print(df)
print(type(df))
print('\n')

# '수학' 점수 데이터만 선택. 변수 math1에 저장
math1 = df['수학']
print(math1)
print(type(math1))
print('\n')

# '영어' 점수 데이터만 선택. 변수 english에 저장
english = df.영어
print(english)
print(type(english))

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90
<class 'pandas.core.frame.DataFrame'>


0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


0    98
1    89
2    95
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


In [23]:
# '음악', '체육' 점수 데이터를 선택. 변수 music_gym에 저장
music_gym = df[['음악', '체육']]
print(music_gym)
print(type(music_gym))
print('\n')

# '수학' 점수 데이터만 선택. 변수 math2에 저장
math2 = df[['수학']]    # []로 선언하면 하나만 선언하더라도 DataFrame으로 받고 Series로 받지 않음
print(math2)
print(type(math2))

    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


In [25]:
df.iloc[::2]    # 슬라이싱에서 마지막 숫자는 간격을 의미한다

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [26]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [27]:
df.iloc[::-1]    # -1은 역으로 출력한다는 뜻

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


### 2.5. 원소 선택

In [30]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {"이름" : ['서준', '우현', '인아'],
            '수학' : [90, 80, 70],
            '영어' : [98, 89, 95],
            '음악' : [85, 95, 100],
            '체육' : [100, 90, 90]}
df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경 사항 반영
df.set_index('이름', inplace=True)
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [32]:
# 데이터프레임 df의 특정 원소 1개 선택('서준'의 '음악'점수)
a = df.loc['서준', '음악']
print(a)
b = df.iloc[0, 2]
print(b)

85
85


In [33]:
# 데이터프레임 df의 특정 원소 1개 선택('서준'의 '음악','체육'점수)
c = df.loc['서준', ['음악', '체육']]
print(c)
d = df.iloc[0, [2, 3]]
print(d)

e = df.loc['서준', '음악':'체육']
print(e)
f = df.iloc[0, 2:]
print(f)

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [34]:
# df 2개 이상의 행과 열에 속하는 원소들 선택('서준','우현'의 '음악','체육'점수)

# ,로 출력할땐 [[]]
g = df.loc[['서준', '우현'], ['음악', '체육']]
print(g)
h = df.iloc[[0, 1], [2, 3]]
print(h)

# 슬라이싱으로 출력할땐 []
i = df.loc['서준':'우현', '음악':'체육']
print(i)
j = df.iloc[0:2, 2:]
print(j)

    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
