## 사전으로 데이터프레임 생성

In [2]:
import pandas as pd

data = pd.DataFrame({'동물':['Dog','Cat','Tiger','Lion','Monkey'],'나이':[7, 9, 2, 3, 1]})
data

Unnamed: 0,동물,나이
0,Dog,7
1,Cat,9
2,Tiger,2
3,Lion,3
4,Monkey,1


In [2]:
data.index

RangeIndex(start=0, stop=5, step=1)

In [3]:
data.columns

Index(['동물', '나이'], dtype='object')

In [4]:
data.values

array([['Dog', 7],
       ['Cat', 9],
       ['Tiger', 2],
       ['Lion', 3],
       ['Monkey', 1]], dtype=object)

In [5]:
# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장. 
df = pd.DataFrame(dict_data)

# df의 자료형 출력
print(type(df)) 
print()
# 변수 df에 저장되어 있는 데이터프레임 객체를 출력
print(df)

<class 'pandas.core.frame.DataFrame'>

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [6]:
df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8]})
print(df)
print(type(df))

   A  B
0  1  5
1  2  6
2  3  7
3  4  8
<class 'pandas.core.frame.DataFrame'>


In [7]:
df = pd.DataFrame({'A':[1,2,3,4],'B':[5,6,7,8]}, index = ['가','나','다','라'])
df


Unnamed: 0,A,B
가,1,5
나,2,6
다,3,7
라,4,8


In [8]:
df = pd.DataFrame([[10,20,30],[40, 50, 60], [80, 90, 100]])
df

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,80,90,100


In [9]:
df = pd.DataFrame([[10,20,30],[40, 50, 60], [80, 90, 100]], columns = ['A','B','C'])
df

Unnamed: 0,A,B,C
0,10,20,30
1,40,50,60
2,80,90,100


In [10]:
df = pd.DataFrame([[10,20,30],[40, 50, 60], [80, 90, 100]], index=[1, 2, 3],columns = ['A','B','C'])
df

Unnamed: 0,A,B,C
1,10,20,30
2,40,50,60
3,80,90,100


## 시리즈로 생성하기

In [4]:
df = pd.DataFrame({'A':1, 'C': pd.Series(range(-1,-5,-1),index=[10,20,30,40]), 'F':'foo'})
df

Unnamed: 0,A,C,F
10,1,-1,foo
20,1,-2,foo
30,1,-3,foo
40,1,-4,foo


In [8]:
df = pd.DataFrame({'A':1, 'C': range(-1,-5,-1), 'F':'foo'},index=[10,20,30,40])
df

Unnamed: 0,A,C,F
0,1,-1,foo
1,1,-2,foo
2,1,-3,foo
3,1,-4,foo


## 행 인덱스/ 열 이름 설정

In [12]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [13]:
print('size: ',df.size)
print('행 인덱스:', df.index)
print('열 인덱스:', df.columns)
print('Values:\n',df.values)

size:  6
행 인덱스: Index(['준서', '예은'], dtype='object')
열 인덱스: Index(['나이', '성별', '학교'], dtype='object')
Values:
 [[15 '남' '덕영중']
 [17 '여' '수리중']]


In [14]:
df.index=['학생1', '학생2']
df.columns=['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [15]:
print('행 인덱스:', df.index)
print('열 인덱스:', df.columns)

행 인덱스: Index(['학생1', '학생2'], dtype='object')
열 인덱스: Index(['연령', '남녀', '소속'], dtype='object')


### rename메소드 사용

In [16]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [17]:
df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


In [18]:
df.rename(index={'준서':'학생1', '예은':'학생2' }, inplace=True)
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


## 행 삭제

In [9]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [10]:
df2=df[:][:]
df2.drop(['우현','서준'], inplace=True)
df2

Unnamed: 0,수학,영어,음악,체육
인아,70,95,100,90


In [21]:
df2=df[:][:]
df2.drop('우현')

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [22]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


## 열 삭제

In [46]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [47]:
df4 = df.copy()
df4.drop('수학', axis=1,inplace = True)
df4

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [25]:
df4 = df.copy()
df4.drop(['영어','음악'], axis=1,inplace = True)
df4

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


## 행 선택

In [26]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [15]:
df.loc['서준']

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [51]:
df.loc[['서준','우현']]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [53]:
df.iloc[[1,2]]

Unnamed: 0,수학,영어,음악,체육
우현,80,89,95,90
인아,70,95,100,90


In [54]:
df['수학']

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

In [56]:
df[['수학','영어']]

Unnamed: 0,수학,영어
서준,90,98
우현,80,89
인아,70,95


In [28]:
df.iloc[0]

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [58]:
df.loc['서준','음악']

85

In [59]:
df.iloc[0,2]

85

In [17]:
df.iloc[2, 1: ]

영어     95
음악    100
체육     90
Name: 인아, dtype: int64

### 일반적인 슬라이싱

In [61]:
df['우현':'인아']

Unnamed: 0,수학,영어,음악,체육
우현,80,89,95,90
인아,70,95,100,90


In [34]:
df[:2]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


## 열 선택

In [35]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [36]:
df['수학']

0    90
1    80
2    70
Name: 수학, dtype: int64

In [37]:
math1 = df['수학']
print(math1)
print(type(math1))

0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


In [38]:
english = df.영어
print(english)
print(type(english))

0    98
1    89
2    95
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


In [39]:
music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))

    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


In [40]:
math2 = df[['수학']]
print(math2)
print(type(math2))

   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


## 슬라이싱 고급활용

In [41]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [42]:
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [43]:
df.iloc[:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,95,100,90


In [44]:
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,95,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


## 원소 선택

In [62]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

df.set_index('이름',inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [46]:
df.loc['서준','음악']

85

In [63]:
df.loc['우현','체육']

90

In [47]:
df.iloc[0,2]

85

In [48]:
df.loc['서준',['음악','체육']]

음악     85
체육    100
Name: 서준, dtype: int64

In [49]:
df.iloc[0,[2,3]]

음악     85
체육    100
Name: 서준, dtype: int64

In [50]:
df.loc['서준', '음악':'체육']

음악     85
체육    100
Name: 서준, dtype: int64

In [51]:
df.iloc[0,2:]

음악     85
체육    100
Name: 서준, dtype: int64

In [52]:
df.loc[['서준','우현'],['음악','체육']]

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [53]:
df.iloc[[0,1],[2,3]]

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [54]:
df.loc['서준':'우현','음악':'체육']

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


In [55]:
df.iloc[0:2,2:]

Unnamed: 0_level_0,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
서준,85,100
우현,95,90


## 열 추가

In [42]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [43]:
df['국어'] = 80
df

Unnamed: 0,이름,수학,영어,음악,체육,국어
0,서준,90,98,85,100,80
1,우현,80,89,95,90,80
2,인아,70,95,100,90,80


In [44]:
df['일어'] = 30
df

Unnamed: 0,이름,수학,영어,음악,체육,국어,일어
0,서준,90,98,85,100,80,30
1,우현,80,89,95,90,80,30
2,인아,70,95,100,90,80,30


## 행 추가

In [35]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

In [36]:
df.loc[3]=0
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90
3,0,0,0,0,0


In [37]:
df.drop(3,inplace = True)

In [38]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [39]:
df.set_index('이름', inplace = True)
df.loc['유원'] = 100
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
유원,100,100,100,100


In [65]:
df.loc['소정']=[10,20,30,60]
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
소정,10,20,30,60


In [40]:
df.loc['동규']=[90,80,70,60]
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
유원,100,100,100,100
동규,90,80,70,60


In [41]:
df.loc['행5'] = df.loc['유원']
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
유원,100,100,100,100
동규,90,80,70,60
행5,100,100,100,100


## 원소값 변경

In [71]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

df.set_index('이름',inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [72]:
df.iloc[0][3] = 80
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,80
우현,80,89,95,90
인아,70,95,100,90


In [73]:
df.loc['서준']['체육']=90
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,90
우현,80,89,95,90
인아,70,95,100,90


In [74]:
df.loc['서준','체육'] = 100
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [76]:
df.loc['서준',['음악','체육']] = 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,50,50
우현,80,89,95,90
인아,70,95,100,90


In [77]:
df.loc['서준',['음악','체육']] = 100, 50
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,100,50
우현,80,89,95,90
인아,70,95,100,90


## 행,열 위치 바꾸기

In [78]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

df.set_index('이름',inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [79]:
df = df.transpose()
df

이름,서준,우현,인아
수학,90,80,70
영어,98,89,95
음악,85,95,100
체육,100,90,90


In [80]:
df = df.T
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
