# 데이터프레임 Dataframe

행과 열로 구성된 2차원 형태의 데이터 자료 구조이다.  


In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'id' : ['id-1','id-2','id-3'],
                   'kor' : [100, 50, 70],
                   'eng' : [90, 80, 100]
                   })

df

Unnamed: 0,id,kor,eng
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100


In [3]:
# 행과 열의 위치를 서로 바꾼다.
df.T 

Unnamed: 0,0,1,2
id,id-1,id-2,id-3
kor,100,50,70
eng,90,80,100


In [4]:
# dataframe의 구조를 변경한다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      3 non-null      object
 1   kor     3 non-null      int64 
 2   eng     3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 200.0+ bytes


In [5]:
# 컬럼의 이름과 열의 이름을 출력한다.
print(df.columns)
print(df.index)

Index(['id', 'kor', 'eng'], dtype='object')
RangeIndex(start=0, stop=3, step=1)


In [6]:
# 리스트의 값이 있으면 True를 리턴한다.
df.isin([100])

Unnamed: 0,id,kor,eng
0,False,True,False
1,False,False,False
2,False,False,True


In [9]:
# 열 이름을 기준으로 정렬
df.sort_values(['kor'], ascending=False)

Unnamed: 0,id,kor,eng
0,id-1,100,90
2,id-3,70,100
1,id-2,50,80


In [10]:
# column의 이름을 변경한다.
df.columns = ['ID', 'KOR','ENG']
df

Unnamed: 0,ID,KOR,ENG
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100


In [11]:
# row(index) 이름을 변경한다.
df.index = ['이선화','정우성','심은하']
df

Unnamed: 0,ID,KOR,ENG
이선화,id-1,100,90
정우성,id-2,50,80
심은하,id-3,70,100


In [13]:
# 열을 index로 변경한다.
df.set_index('ID')

Unnamed: 0_level_0,KOR,ENG
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,90
id-2,50,80
id-3,70,100


In [15]:
# index를 column으로 변경한다.
df.reset_index()

Unnamed: 0,index,ID,KOR,ENG
0,이선화,id-1,100,90
1,정우성,id-2,50,80
2,심은하,id-3,70,100


In [16]:
df

Unnamed: 0,ID,KOR,ENG
이선화,id-1,100,90
정우성,id-2,50,80
심은하,id-3,70,100


In [20]:
# 컬럼을 삭제한다.
df.drop('ID', axis = 1)

Unnamed: 0,KOR,ENG
이선화,100,90
정우성,50,80
심은하,70,100


In [21]:
# 컬럼을 추가한다.
df['MATH'] = [90, 98,70]
df

Unnamed: 0,ID,KOR,ENG,MATH
이선화,id-1,100,90,90
정우성,id-2,50,80,98
심은하,id-3,70,100,70


In [22]:
# 파생컬럼을 생성한다.
df['TOTAL'] = df['KOR'] + df['ENG'] + df['MATH']
df

Unnamed: 0,ID,KOR,ENG,MATH,TOTAL
이선화,id-1,100,90,90,280
정우성,id-2,50,80,98,228
심은하,id-3,70,100,70,240


In [23]:
# 특정 컬럼만 조회한다.
df[['ID', 'TOTAL']]

Unnamed: 0,ID,TOTAL
이선화,id-1,280
정우성,id-2,228
심은하,id-3,240


In [24]:
# 데이터 타입으로 컬럼을 조회한다.
df.select_dtypes(include = "number")

Unnamed: 0,KOR,ENG,MATH,TOTAL
이선화,100,90,90,280
정우성,50,80,98,228
심은하,70,100,70,240


In [25]:
# dataframe 행 조회 - loc
df.loc["이선화"]

ID       id-1
KOR       100
ENG        90
MATH       90
TOTAL     280
Name: 이선화, dtype: object

In [28]:
df.loc["이선화","TOTAL"]

280

In [27]:
# dataframe 행 조회 - iloc
df.iloc[0:2]

Unnamed: 0,ID,KOR,ENG,MATH,TOTAL
이선화,id-1,100,90,90,280
정우성,id-2,50,80,98,228


In [29]:
df.iloc[0,0]

'id-1'

In [31]:
# Boolean indexing
df[df["TOTAL"]< 250]

Unnamed: 0,ID,KOR,ENG,MATH,TOTAL
정우성,id-2,50,80,98,228
심은하,id-3,70,100,70,240


In [32]:
# 정렬
df.sort_index()

Unnamed: 0,ID,KOR,ENG,MATH,TOTAL
심은하,id-3,70,100,70,240
이선화,id-1,100,90,90,280
정우성,id-2,50,80,98,228


In [33]:
df.sort_values('TOTAL')

Unnamed: 0,ID,KOR,ENG,MATH,TOTAL
정우성,id-2,50,80,98,228
심은하,id-3,70,100,70,240
이선화,id-1,100,90,90,280


# 실습하기  

1. csv 파일을 데이터프레임으로 읽어 들인다.

```
>>> movie = pd.read_csv('../data/movie.csv')
```

2. 읽어들인 데이터프레임의 컬럼이름을 확인해 본다.

3. movie 데이터프레임에서 감독의 이름이 "James Cameron"인 데이터를 조회하시오.

4. 감독의 이름이 "James Cameron"인 데이터의 "imdb_score"의 평균을 구하시오.

5. "movie_title"을 index로 변경하시오.(reset_index)

6. index를 기준으로 데이터를 오름차순 정렬해 보시오.

7. 영화 "The Avengers" 이라는 영화의 "director_name","genres","title_year","imdb_score" 를 화면에 출력해 보시오.