# DataFrame에서 데이터 추출 -------------------------------------

- 열(컬럼 column 세로벡터) 단위 데이터 추출
  - 방식 : DF객체변수명[컬럼명] 또는 DF객체변수명.컬럼명

- 행(로우 row 가로벡터) 단위 데이터 추출
  - 방식 : DF객체변수명.loc[ 인덱스라벨 ] 또는 DF객체변수명.iloc[ 정수인덱스 ]


- 원소 단위 데이터 추출
  - 방식 : DF객체변수명.loc[ 행인덱스라벨, 열인덱스라벨 ] 또는 [행인덱스라벨][열인덱스라벨]  
           DF객체변수명.iloc[ 행인덱스, 열인덱스 ] 또는 [행인덱스][열인덱스]

In [2]:
# 모듈 로딩 ---------------------------------------------------------
import pandas as pd

# DF객체 생성 -------------------------------------------------------
df=pd.DataFrame([[1,2,3], [11,22,33]])

# DF객체 요약 정보 출력 메서드
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       2 non-null      int64
 1   1       2 non-null      int64
 2   2       2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [12]:
# DF객체 구성 확인
df

Unnamed: 0,0,1,2
0,1,2,3
1,11,22,33


# 열(세로) 데이터 추출 ----------------------------------------------------

In [13]:
# DF 객체변수명[컬럼명]
oneCol=df[0]

print(f'oneCol => \n{oneCol}', f'oneCol Type => {type(oneCol)}', sep='\n')

oneCol => 
0     1
1    11
Name: 0, dtype: int64
oneCol Type => <class 'pandas.core.series.Series'>


In [14]:
twoCol=df[[0,2]]
print(f'twoCol => \n{twoCol}', f'twoCol Type => {type(twoCol)}', sep='\n')

twoCol => 
    0   2
0   1   3
1  11  33
twoCol Type => <class 'pandas.core.frame.DataFrame'>


In [15]:
twoCol=df[0:2]
print(f'twoCol => \n{twoCol}', f'twoCol Type => {type(twoCol)}', sep='\n')

twoCol => 
    0   1   2
0   1   2   3
1  11  22  33
twoCol Type => <class 'pandas.core.frame.DataFrame'>


In [16]:
df.columns

RangeIndex(start=0, stop=3, step=1)

In [4]:
# DF객체의 columns 속성 변경
df.columns=['one','two','three']
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   one     2 non-null      int64
 1   two     2 non-null      int64
 2   three   2 non-null      int64
dtypes: int64(3)
memory usage: 176.0 bytes


In [5]:
twoCol=df['one':'three']       # 슬라이싱할 때는 문자열 말고 숫자(열인덱스?)만 됨???
print(f'twoCol => \n{twoCol}', f'twoCol Type => {type(twoCol)}', sep='\n')

TypeError: cannot do slice indexing on RangeIndex with these indexers [one] of type str

# 행(row, 가로) 데이터 추출 --------------------------------
  - DF객체변수명.loc[], DF객체변수명.iloc[]

In [19]:
# DF 객체 데이터 확인
df

Unnamed: 0,one,two,three
0,1,2,3
1,11,22,33


In [20]:
# 11, 22, 33 라인 전체 추출
oneRow=df.iloc[1]

print(f'oneRow => \n{oneRow}', f'oneRow Type => {type(oneRow)}', sep='\n')

oneRow => 
one      11
two      22
three    33
Name: 1, dtype: int64
oneRow Type => <class 'pandas.core.series.Series'>


In [21]:
oneRow=df.loc[1]

print(f'oneRow => \n{oneRow}', f'oneRow Type => {type(oneRow)}', sep='\n')

oneRow => 
one      11
two      22
three    33
Name: 1, dtype: int64
oneRow Type => <class 'pandas.core.series.Series'>


In [22]:
twoRow=df.iloc[[0,1]]
print(f'twoRow => \n{twoRow}', f'twoRow Type => {type(twoRow)}', sep='\n')

twoRow => 
   one  two  three
0    1    2      3
1   11   22     33
twoRow Type => <class 'pandas.core.frame.DataFrame'>


In [6]:
# 성적 DataFrame 객체 생성 -----------------------------------------
df2=pd.DataFrame({'수학':[100,98,99], 
                  '영어':[78,91,56], 
                  '음악':[87,100,91],
                  '체육':[78,99,100]},
                 index=['서준','우현','인아'])
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 서준 to 인아
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   수학      3 non-null      int64
 1   영어      3 non-null      int64
 2   음악      3 non-null      int64
 3   체육      3 non-null      int64
dtypes: int64(4)
memory usage: 120.0+ bytes


In [24]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100


In [25]:
# 우현학생의 성적만 추출 ---------------------------------------
oneRow = df2.loc['우현']
oneRow

수학     98
영어     91
음악    100
체육     99
Name: 우현, dtype: int64

In [26]:
# 인아학생의 성적만 추출 -----------------------------------------
oneRow = df2.iloc[2]
oneRow

수학     99
영어     56
음악     91
체육    100
Name: 인아, dtype: int64

In [27]:
# 음악과목의 성적만 추출 -----------------------------------------------
oneCol=df2.음악               # 한 개일 때만 이렇게 함
oneCol

서준     87
우현    100
인아     91
Name: 음악, dtype: int64

In [28]:
oneCol=df2['음악']
oneCol

서준     87
우현    100
인아     91
Name: 음악, dtype: int64

In [29]:
# 우현학생의 음악점수만 추출 ----------------------------------
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100


In [30]:
# DF에서 원소 추출 => iloc [ 행, 열 ] 또는 loc[ 행, 열 ]
# woo=df2.loc['우현', '음악']
woo=df2.loc['우현']['음악']

print(f'woo => {woo}', f'woo type => {type(woo)}', sep='\n')

woo => 100
woo type => <class 'numpy.int64'>


In [31]:
# woo=df2.iloc[1, 2]
woo=df2.iloc[1][2]

print(f'woo => {woo}', f'woo type => {type(woo)}', sep='\n')

woo => 100
woo type => <class 'numpy.int64'>


In [32]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100


In [33]:
select = df2['수학'][2]
select

# oneCol=df2['수학']
# oneCol[2]

99

# DF에 행과 열 추가하기 -------------------------------------------------

- 행 추가 => DF객체변수명.loc[행라벨] = 데이터

- 열 추가 => DF객체변수명[컬럼] = 데이터

In [34]:
# DF 데이터 확인
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100


In [35]:
# 행(row) 추가하기 -------------------------------------------------------
df2.loc['혜진']=[100, 100, 100, 100]
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100
혜진,100,100,100,100


In [36]:
df2.loc['나령']=100
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100
혜진,100,100,100,100
나령,100,100,100,100


In [37]:
df2.loc['나령']=2000
df2

Unnamed: 0,수학,영어,음악,체육
서준,100,78,87,78
우현,98,91,100,99
인아,99,56,91,100
혜진,100,100,100,100
나령,2000,2000,2000,2000


In [38]:
# 열(컬럼 column) 추가하기 ----------------------------------------------------
df2['국어']=[100, 100, 100, 100, 100]
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,78,87,78,100
우현,98,91,100,99,100
인아,99,56,91,100,100
혜진,100,100,100,100,100
나령,2000,2000,2000,2000,100


In [39]:
df2['국어']=[0, 0, 0, 0, 1]
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,78,87,78,0
우현,98,91,100,99,0
인아,99,56,91,100,0
혜진,100,100,100,100,0
나령,2000,2000,2000,2000,1


# DF에서 행과 열 삭제하기 -----------------------------------------

- 삭제 관련 메서드 => drop(행)
    - 행 삭제 : DF객체변수명.drop(행 , axis=0) <- axis=0 행 기본값
    - 열 삭제 : DF객체변수명.drop(열 , axis=1)
 
- drop() 특징
    - 실제 데이터 삭제하지 않음 => 복사본에서 데이터 삭제하고 복사본 반환
    - 실제 데이터 삭제하기 => inplace = True

In [40]:
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,78,87,78,0
우현,98,91,100,99,0
인아,99,56,91,100,0
혜진,100,100,100,100,0
나령,2000,2000,2000,2000,1


In [41]:
# 인아 학생 성적 제거 ===> 행(row)
df3=df2.drop('인아')
df3

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,78,87,78,0
우현,98,91,100,99,0
혜진,100,100,100,100,0
나령,2000,2000,2000,2000,1


In [42]:
df2

Unnamed: 0,수학,영어,음악,체육,국어
서준,100,78,87,78,0
우현,98,91,100,99,0
인아,99,56,91,100,0
혜진,100,100,100,100,0
나령,2000,2000,2000,2000,1


In [43]:
df4=df2.drop('서준', inplace=True)     # 원본을 삭제하기 때문에 복사본을 출력해주지 않음 즉, 출력할 게 없음, 또 실행하게 되면 지어졌기 때문에 오류 뜸
df4

In [44]:
df4=df2.drop('인아', inplace=True)
print(df4)

None


In [45]:
# 열(column) 삭제 => 수학 컬럼
# => DF 객체변수명.drop(열, axis=1, inplace=True)
df2.drop('수학',axis=1)

Unnamed: 0,영어,음악,체육,국어
우현,91,100,99,0
혜진,100,100,100,0
나령,2000,2000,2000,1


# 행&열 전환 --------------------------------------------------------

- 행 ==> 열, 열 ==> 행으로 변환

- 방법

    - 메서드 : DF객체변수명.transpose()
    - 속 성 : DF객체변수명.T

In [46]:
df2

Unnamed: 0,수학,영어,음악,체육,국어
우현,98,91,100,99,0
혜진,100,100,100,100,0
나령,2000,2000,2000,2000,1


In [47]:
# DF 객체의 형태 => shape 속성
df2.shape

(3, 5)

In [48]:
# 행<->열 전환
df2.T

Unnamed: 0,우현,혜진,나령
수학,98,100,2000
영어,91,100,2000
음악,100,100,2000
체육,99,100,2000
국어,0,0,1


In [49]:
df2.shape

(3, 5)

In [50]:
df2=df2.transpose()      # inplace 안됨
df2.shape

(5, 3)