# 01. 데이터프레임 생성 및 변환

## 1. Pandas 모듈을 활용한 데이터 프레임 생성

In [1]:
import pandas as pd
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}
df = pd.DataFrame(dict_data)

In [2]:
print(df)

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


2차원 배열 전환 시: 행 인덱스와 열 이름 직접 지정 가능

## 2. Pandas 모듈을 활용한 데이터 프레임 변환

### 행 인덱스와 열 이름 설정
> pandas.DataFrame(2차원 배열,index=행 인덱스 배열,columns=열 이름 배열)

In [3]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                 index=['준서', '예은'],
                 columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


### 행 인덱스와 열 이름 변경

> 행 인덱스 변경: DataFrame객체.index=새로운 행 인덱스 배열   
> 행 열 이름 변경: DataFrame객체.columns=새로운열 이름 배열  

In [4]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                  index=['준서', '예은'],
                  columns=['나이', '성별', '학교'])

df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']

df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


### 일부 행 인덱스와 열 이름 변경
* rename() 함수의 index 및 columns 옵션을 통해 기존의 이름과 변경하고자 하는 이름을 딕셔너리형태로 구성하여 선택한 행 인덱스와 열 이름을 변경할 수 있음.  

* rename() 함수의 경우 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환하는 방식이므로 원본 객체를 변경하고자 한다 면 inplace=True 옵션을 사용하면 됨.  

In [5]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                  index=['준서', '예은'],
                  columns=['나이', '성별', '학교'])

df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)
df.rename(index={'학생1':'준서', '학생2':'예은'}, inplace=True)

df

Unnamed: 0,연령,남녀,소속
준서,15,남,덕영중
예은,17,여,수리중


### 행과 열 삭제
* 데이터프레임의 행 또는 열을 삭제하는 명령으로 drop() 함수가 있음.
* 행을 삭제하고자 할 때는 축을 지정하는 axis 옵션에 0을 지정하고, 열을 삭제하고자 할 때는 axis 옵션에 1을 지정하면 됨.

> 행 삭제: DataFrame객체.drop(행 인덱스 또는 배열, axis=0)  
> 열 삭제: DataFrame객체.drop(열 이름 또는 배열, axis=1)  

In [6]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89,95],
            '음악':[85, 95, 100],'체육':[100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [7]:
df.drop('우현')

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [8]:
df.drop(['우현', '인아'], axis=0)

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [9]:
df.drop('수학', axis=1)

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [10]:
df.drop(['수학', '음악'], axis=1)

Unnamed: 0,영어,체육
서준,98,100
우현,89,90
인아,95,90


### 행, 열, 원소 선택

* 인덱스 이름을 기준으로 행을 선택할 때는 loc를 이용하고, 정수형 위치 인덱스를 사용할 때는 iloc를 이용
* 2개 이상의 행 인덱스를 리스트 형태로 입력하면 매칭되는 모든 행 데이 터를 동시에 추출할 수 있음


In [11]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89,95],
            '음악':[85, 95, 100],'체육':[100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [12]:
df.loc['서준']

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [13]:
df.iloc[0]

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

In [14]:
df.loc['서준':'우현'] # '서준','우현'으로 리스트를 만들면 에러 발생!

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


In [15]:
df.iloc[0:1]

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


> 각각의 열을 가져오고 싶을 때는 [[ ... , ... ]] 형식의 리스트 입력  
> iloc에서는 정수형 위치 인덱스로는 이 방식 사용 불가  

In [16]:
df.loc[['서준', '인아']

SyntaxError: unexpected EOF while parsing (3455418487.py, line 1)

### 열 선택

* 데이터프레임의 열 데이터를 1개만 선택할 때는 대괄호([]) 안에 열 이름을 따옴표(“”)와 함께 입력하거나, 마침표(.) 다음에 열 이름을 입력하는 두 가지 방식을 사용할 수 있음. 
* 마침표 사용의 경우 반드시 열 이름이 문자열일 경우에만 가능함.

> 열 1개 선택: DataFrame객체[“열 이름”] 또는 DataFrame객체.열이름  
> 열 n개 선택: DataFrame객체[[열1, 열2, ..., 열n]]  

In [None]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89,95],
            '음악':[85, 95, 100],'체육':[100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

df

In [None]:
df['수학']

In [None]:
df.영어 # 열 이름이 문자열일 경우만 사용 가능

In [None]:
df[['음악','체육']]

### 원소 선택

* 데이터프레임의 행 인덱스와 열 이름을 [행, 열] 형식의 2차원 좌표로 입력하여 원소 위치를 지정하는 방법  
* 행 선택 방법과 마찬가지로 행과 열의 이름을 기준으로 행을 선택할 때는 loc를 이용하고, 정수형 위치를 사용할 때는 iloc를 이용함.  

> 인덱스 이름: DataFrame객체.loc[행인덱스, 열이름]  
> 정수 위치 인덱스: DataFrame객체.iloc[행번호, 열번호]

In [None]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89,95],
            '음악':[85, 95, 100],'체육':[100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

df

In [None]:
df.loc['서준', '음악']

In [None]:
df.iloc[0, 2]

In [None]:
df.loc['서준', ['음악', '체육']]

In [None]:
df.iloc[0, [2, 3]]

### 행과 열 추가

#### 행 추가

* 추가하려는 행 이름과 데이터 값을 loc 인덱서를 이용하여 입력
* 하나의 값만 입력한 경우 행의 모든 원소에 같은 값이 추가  
* 새로운 행을 추가할 때는 기존 행 인덱스와 겹치지 않는 새로운 인덱스를 사용하고, 중복되는 경우 기존의 행의 원소값을 변경

> DataFrame객체.loc[“새로운행 이름”] = 데이터 값 (또는 배열)  

#### 열 추가
* 대괄호([]) 안에 추가하려는 열 이름을 따옴표(“”)와 함께 입력하고, 데이터값을 할당하는 방법으로 입력
* 데이터프레임의 마지막 열에 덧붙이듯 새로운 열이 추가  
* 만약 하나의 값만 입력한 경우 모든 행에 동일한 값이 입력  
> DataFrame객체[“추가하려는열 이름”] = 데이터 값  

In [None]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89,95],
            '음악':[85, 95, 100],'체육':[100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준','우현','인아'])

df

In [None]:
df['국어'] = 80
df

### 원소 값 변경
* 데이터프레임의 특정 원소를 선택하고 새로운 데이터값을 지정해주면 원 소값이 변경됨.
* 원소 1개를 선택하여 변경할 수도 있고, 여러 개의 원소를 선택하여 한 꺼번에 값을 바꿀 수도 있음.

> DataFrame객체의 일부분 또는 원소 선택=새로운 값  

In [None]:
exam_data = {'이름': ['서준', '우현', '인아'],
             '수학':[90, 80, 70], 
             '영어':[98, 89,95],
             '음악':[85, 95, 100],
             '체육':[100, 90, 90]}

df = pd.DataFrame(exam_data)
df

In [None]:
df.iloc[0, 3] = 1000 # 서준의 음악 점수
df

### 행과 열 위치 변경
* 데이터프레임의 행과 열을 서로 맞바꾸는 방법으로 전치행렬과 같은 개념임.
> DataFrame객체.transpose() 또는 DataFrame객체.T  

In [None]:
exam_data = {'이름': ['서준', '우현', '인아'],
             '수학':[90, 80, 70], 
             '영어':[98, 89,95],
             '음악':[85, 95, 100],
             '체육':[100, 90, 90]}

df = pd.DataFrame(exam_data)
df

In [None]:
df.transpose()

## 데이터프레임 정렬
### 행 인덱스를 기준으로 데이터프레임 정렬
* sort_index() 함수를 활용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬할 수 있음. 
* 여기서 ascending 옵션을 사용하여 오름차순(True) 또는 내림차순 (False)을 설정할 수 있음.

> DataFrame객체.sort_index(ascending=True/False)  


In [None]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

In [None]:
df.sort_index(ascending=False)

### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬
* sort_values() 함수를 활용하여 특정 열을 기준으로 데이터프레임의 값을 정렬할 수 있음.
* 여기서 by 옵션을 사용하여 특정 열을 지정할 수 있고, ascending 옵션을 사용하여 오름차순(True) 또는 내림차순(False)을 설정할 수 있음.

>DataFrame객체.sort_values(by=기준열이름, ascending=True/False)  

In [None]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

In [None]:
df.sort_values(by = 'c1', ascending=False)