# DataFrame에서 데이터 추출

- 열(컬럼) 단위 데이터 추출
    - 방식: df객체변수명[컬럼명] 또는 df객체변수명.컬럼명
- 행(로우) 단위 데이터 추출
    - 방식: df객체변수명.loc[_인덱스라벨_] 또는 df객체변수명.iloc[_정수인덱스_]
- 원소 단위 데이터 추출
    - 방식: df객체변수명.loc[_행인덱스라벨, 열인덱스라벨_]  or [행인덱스라벨][열인덱스라벨]
          : df객체변수명.iloc[_행인덱스, 열인덱스_] or [행인덱스][열인덱스]

In [1]:
import pandas as pd

In [5]:
# df객체 생성
df = pd.DataFrame([[1,2,3], [11,22,33]])
# df객체 요약 정보 출력 메서드
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       2 non-null      int64
 1   1       2 non-null      int64
 2   2       2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [6]:
# df객체 구성 확인
df

Unnamed: 0,0,1,2
0,1,2,3
1,11,22,33


In [9]:
# column 데이터 추출
onecall = df[0]
print(f'onecall type : {type(onecall)}')

onecall type : <class 'pandas.core.series.Series'>


In [16]:
twocall = df[[0,2]]
twocall
print(f'twpcall type : {type(twocall)}')
twocall = df[0:2]
twocall
print(f'twpcall type : {type(twocall)}')

twpcall type : <class 'pandas.core.frame.DataFrame'>
twpcall type : <class 'pandas.core.frame.DataFrame'>


In [20]:
df.columns = ['one', 'two', 'three']  # 시리즈와 다르게 데이터프레임에선 문자열인덱스로 슬라이싱이 불가능하다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   one     2 non-null      int64
 1   two     2 non-null      int64
 2   three   2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [23]:
# row 데이터 추출
onerow = df.loc[1]    # 스트링 인덱스
tworow = df.iloc[1]   # 정수값 인덱스
print(onerow)
print(tworow)

one      11
two      22
three    33
Name: 1, dtype: int64
one      11
two      22
three    33
Name: 1, dtype: int64


In [24]:
print(type(onerow))

<class 'pandas.core.series.Series'>


In [30]:
print(type(onerow) == pd.core.series.Series)
print(type(df) == pd.core.frame.DataFrame)

True
True


In [32]:
threerow = df.iloc[[0,1]]
print(threerow)

   one  two  three
0    1    2      3
1   11   22     33


In [38]:
print(df.at)

df

<pandas.core.indexing._AtIndexer object at 0x0000025F44302090>


Unnamed: 0,one,two,three
0,1,2,3
1,11,22,33


In [47]:
exam_data = {'수학':[90, 80, 70], '영어':[82, 79, 85], '음악':[40,85,100], '체육':[100,90,90]}
df2 = pd.DataFrame(exam_data, index= ['서준', '우현', '인아'])
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,82,40,100
우현,80,79,85,90
인아,70,85,100,90


In [42]:
df2.iloc[0]

수학     90
영어     88
음악     85
체육    100
Name: 서준, dtype: int64

In [48]:
df2.info()


<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 서준 to 인아
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   수학      3 non-null      int64
 1   영어      3 non-null      int64
 2   음악      3 non-null      int64
 3   체육      3 non-null      int64
dtypes: int64(4)
memory usage: 120.0+ bytes


In [51]:
df2.loc['우현']

수학    80
영어    79
음악    85
체육    90
Name: 우현, dtype: int64

In [66]:
print(df2.loc['인아']['음악'])
print(df2['음악'])

100
서준     40
우현     70
인아    100
Name: 음악, dtype: int64


In [72]:
df2.loc['우현', '음악']
print(df2)
print(type(df2.loc['우현', '음악']))


    수학  영어   음악   체육
서준  60  82   40  100
우현  70  50   70   50
인아  70  85  100   90
<class 'numpy.int64'>


In [68]:
df2.iloc[0][0] = 60
df2

Unnamed: 0,수학,영어,음악,체육
서준,60,82,40,100
우현,70,50,70,50
인아,70,85,100,90


In [69]:
df2.loc['우현'] = [70, 40, 60, 50]
df2

Unnamed: 0,수학,영어,음악,체육
서준,60,82,40,100
우현,70,40,60,50
인아,70,85,100,90


In [70]:
df2.loc['우현'][1:3] = [50, 70]
df2

Unnamed: 0,수학,영어,음악,체육
서준,60,82,40,100
우현,70,50,70,50
인아,70,85,100,90


In [78]:
df2.loc[['우현', '인아'], ['영어', '음악']] = [[70, 40], [60, 80]]
df2

Unnamed: 0,수학,영어,음악,체육
서준,60,82,40,100
우현,70,70,40,50
인아,70,60,80,90


In [79]:
df2.loc[['인아', '서준'], ['체육', '수학']] = [[60, 85], [20, 100]]
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,82,40,20
우현,70,70,40,50
인아,85,60,80,60


In [86]:
df2[['영어', '음악']] = [[60,45], [75, 30], [55,45]]
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,60,45,20
우현,70,75,30,50
인아,85,55,45,60


In [91]:
for i in df2.columns:
    print(df2.loc["서준"][i])

100
60
45
20


# 데이터 추가

1. 일단 iloc가 쓰이지 못한다. (loc만 사용가능)
- 행 추가: df객체변수명.loc[행라벨] = 데이터
- 열 추가: df객체변수명[컬럼] = 데이터




In [92]:
df2.index

Index(['서준', '우현', '인아'], dtype='object')

In [93]:
# 행 추가                    
df2.loc['혜진'] = [100, 100, 100, 100]   # 개수가 다르면 오류가 난다.
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,60,45,20
우현,70,75,30,50
인아,85,55,45,60
혜진,100,100,100,100


In [96]:
df2.loc['나령'] = 100       # 각 column에 똑같은 값을 넣을때는, 한번만 넣으면 된다.
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,60,45,20
우현,70,75,30,50
인아,85,55,45,60
혜진,100,100,100,100
나령,100,100,100,100


In [98]:
# 열 추가

df2['국어'] =[100,100,100,100,100]
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,60,45,20,100
우현,70,75,30,50,100
인아,85,55,45,60,100
혜진,100,100,100,100,100
나령,100,100,100,100,100


In [99]:
df2['국어'] = 0
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,60,45,20,0
우현,70,75,30,50,0
인아,85,55,45,60,0
혜진,100,100,100,100,0
나령,100,100,100,100,0


# df에서 행과 열 삭제

- 삭제 관련 메서드 -> drop(행)
    - 행 삭제: df객체변수명.drop(행, axis=0)  <- axis =0 행 기본값
    - 열 삭제: df객체변수명.drop(열, axis=1)
    
- drop() 특징:
    - 실제 데이터 삭제하지 않음  -> 복사본에서 데이터 삭제하고 복사본 리턴
    - 실제 데이터 삭제하기 -> inplace = True (아무것도 리턴 안한다.)

In [104]:
# 인아 학생 성적 제거 ===>> 행(row)

df3 = df2.drop('인아')        
df3

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,60,45,20,0
우현,70,75,30,50,0
혜진,100,100,100,100,0
나령,100,100,100,100,0


In [105]:
df2.drop('인아', inplace= True)
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,60,45,20,0
우현,70,75,30,50,0
혜진,100,100,100,100,0
나령,100,100,100,100,0


In [112]:
if '서준' in df2.index:
    df2.drop('서준', inplace = True)
else: pass


In [113]:
# 열 삭제 -> 수학 칼럼
df4 =df2.drop('수학', axis=1)
df4

Unnamed: 0,영어,음악,체육,국어
우현,75,30,50,0
혜진,100,100,100,0
나령,100,100,100,0


In [114]:
df4 = df2.drop('수학', axis=1).drop('혜진')  #여러줄 한번에 삭제 불가능? 
df4

Unnamed: 0,영어,음악,체육,국어
우현,75,30,50,0
나령,100,100,100,0


In [115]:
df4.loc['우연'] = [45, 60, 70, 80]
df4

Unnamed: 0,영어,음악,체육,국어
우현,75,30,50,0
나령,100,100,100,0
우연,45,60,70,80


In [116]:
df4["수학"] = [65, 40, 90]
df4

Unnamed: 0,영어,음악,체육,국어,수학
우현,75,30,50,0,65
나령,100,100,100,0,40
우연,45,60,70,80,90


In [121]:
df4.loc[['우현','나령'],'국어'] = [60, 80]   #-> 이렇게는 수정되는데
df4


Unnamed: 0,영어,음악,체육,국어,수학
우현,75,30,50,60,65
나령,100,100,100,80,40
우연,45,60,70,80,90


In [123]:
df4.loc[['우현', '우연']]['영어'] = [24, 50]  # -> 이방법은 안 통함
df4

Unnamed: 0,영어,음악,체육,국어,수학
우현,75,30,50,60,65
나령,100,100,100,80,40
우연,45,60,70,80,90


# 행, 열 전환

- 행<--->열 변환
- 방법
    -메서드: df객체변수명.transpose()
    -속성: df객체변수명.T

In [127]:
df5 = df4.T    # transpose 속성, 원본은 그대로 두고 복사본을 반환
df5

Unnamed: 0,우현,나령,우연
영어,75,100,45
음악,30,100,60
체육,50,100,70
국어,60,80,80
수학,65,40,90


In [129]:
df5 =df4.transpose() 
df5

Unnamed: 0,우현,나령,우연
영어,75,100,45
음악,30,100,60
체육,50,100,70
국어,60,80,80
수학,65,40,90


In [132]:
for i in df5.index:
    for j in df5.columns:
        print(df5.loc[i][j])
        

75
100
45
30
100
60
50
100
70
60
80
80
65
40
90


In [136]:
df5 = df5.reindex(['음악', '도덕', '미술', '체육', '영어', '국어'], fill_value=0)  # 인덱스를 재구성, 원래 잇던 값은 그대로 표현되고
df5                                                                      # 원래 없던 값은 fill_value = 표현할 단어 로 표현

Unnamed: 0,우현,나령,우연
음악,30.0,100.0,60.0
도덕,,,
미술,,,
체육,50.0,100.0,70.0
영어,75.0,100.0,45.0
국어,0.0,0.0,0.0


In [138]:
df5.loc[['도덕', '미술']] = [[40,50,60],[80, 20, 75]]
df5

Unnamed: 0,우현,나령,우연
음악,30.0,100.0,60.0
도덕,40.0,50.0,60.0
미술,80.0,20.0,75.0
체육,50.0,100.0,70.0
영어,75.0,100.0,45.0
국어,0.0,0.0,0.0


In [143]:
ndf = df5.set_index(['우현'])          # 원래 있던 열을 인덱스로 지정
ndf

Unnamed: 0_level_0,나령,우연
우현,Unnamed: 1_level_1,Unnamed: 2_level_1
30.0,100.0,60.0
40.0,50.0,60.0
80.0,20.0,75.0
50.0,100.0,70.0
75.0,100.0,45.0
0.0,0.0,0.0


In [153]:
ndf = df5.reset_index()    # 인덱스 이름 리셋
ndf

Unnamed: 0,index,우현,나령,우연
0,음악,30.0,100.0,60.0
1,도덕,40.0,50.0,60.0
2,미술,80.0,20.0,75.0
3,체육,50.0,100.0,70.0
4,영어,75.0,100.0,45.0
5,국어,0.0,0.0,0.0


In [154]:
ndf = df5.sort_index()       # 인덱스 이름 순으로 소트!!(기본값: ascending = True), 여기도 axis = 1을 하면 column명 기준으로 소트 가능
ndf

Unnamed: 0,우현,나령,우연
국어,0.0,0.0,0.0
도덕,40.0,50.0,60.0
미술,80.0,20.0,75.0
영어,75.0,100.0,45.0
음악,30.0,100.0,60.0
체육,50.0,100.0,70.0


In [155]:
ndf = df5.sort_index(ascending=False)       # 인덱스 이름 순으로 소트!!(내림차순)
ndf

Unnamed: 0,우현,나령,우연
체육,50.0,100.0,70.0
음악,30.0,100.0,60.0
영어,75.0,100.0,45.0
미술,80.0,20.0,75.0
도덕,40.0,50.0,60.0
국어,0.0,0.0,0.0


In [156]:
ndf = df5.sort_values('우현')           # sort_values를 사용하면 인덱스 이름 말고도 column 기준으로 소트
ndf

Unnamed: 0,우현,나령,우연
국어,0.0,0.0,0.0
음악,30.0,100.0,60.0
도덕,40.0,50.0,60.0
체육,50.0,100.0,70.0
영어,75.0,100.0,45.0
미술,80.0,20.0,75.0


In [157]:
ndf = df5.sort_index(axis=1)
ndf

Unnamed: 0,나령,우연,우현
음악,100.0,60.0,30.0
도덕,50.0,60.0,40.0
미술,20.0,75.0,80.0
체육,100.0,70.0,50.0
영어,100.0,45.0,75.0
국어,0.0,0.0,0.0
