## 데이터프레임(DataFrame)
> 판다스를 사용하는 목적은 서로 다른 여러 가지 유형의 데이터를 **공통의 포맷**으로 정리하는 것으로, 여러 유형의 데이터를 공통의 포맷으로 만들기 위해, **시리즈**(1차원벡터)와 **데이터프레임**(2차원벡터, 행렬)이라는 구조화된 데이터 형식을 제공한다.
- 판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것
- 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용
- 2차원 배열구조는 엑셀이나 관계형 데이터베이스 등 다양한 분야에서 사용되므로 변환이 유용하다
- 여러 개의 시리즈들이 모여서 구성되고 데이터의 열은 시리즈 객체이다. 시리즈들이 모여 행렬(matrix)가 된다고 할 수 있다
- 행과 열은 다양하게 불리어 진다. `행 - row, 레코드(record), 관측값(observation)`, `열 - column, 공통의 속성을 갖는 일련의 데이터, 속성, 범주, 변수(variable)`을 참고하자. 

'''
쉽게 말하면 우리는 데이터정리를 위해 엑셀(Microsoft Excel)에 작성하는 것과 같이, python의 판다스로 자료정리를 하고 있다고 보면된다. 파이썬의 리스트나 딕셔너리로 된 것을 엑셀과 같이 표 형식으로 만드는 것이 **데이터프레임**으로 변환하는 것이다.
'''

**데이터프레임도 CRUD로 이해하자**

### CREATE
**주의** : 시리즈를 변경할 반드시 비교해서 암기한다.
- 딕셔너리 -> 데이터프레임
- 리스트 -> 데이터프레임

#### 딕셔너리 -> 데이터프레임
> 시리즈에서는 키값이 인덱스로 넘어갔지만, 여기서는 열이름으로 넘어가고 자동으로 행 인덱스에 숫자가 붙는다.

In [3]:
import pandas as pd
'''
다음 딕셔너리를 데이터프레임으로 변경하자
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
'''





<class 'pandas.core.frame.DataFrame'>

   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [5]:
'''
위의 데이터프레임을 아래의 결과값이 나오도록 변경한다.

     c0  c1  c2  c3  c4
하나  1   4   7  10  13
둘    2   5   8  11  14
셋    3   6   9  12  15
'''




<class 'pandas.core.frame.DataFrame'>

    c0  c1  c2  c3  c4
하나   1   4   7  10  13
둘    2   5   8  11  14
셋    3   6   9  12  15


#### 리스트 -> 데이터프레임
> 여기서 가장 주의점은 딕셔너리는 열로 붙여졌지만, 리스트는 행으로 변환된다는 것을 인지하자.

In [2]:
'''
pandas.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열)

아래의 결과 값이 나오도록 만들자
1.
    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고

2.
Index(['진현', '민지'], dtype='object')

3.
Index(['나이', '성별', '학교'], dtype='object')


'''




    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고
Index(['진현', '민지'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


#### 열/행 추가
- 열 추가는 간단히 딕셔너리와 비슷하게 추가를 해주면 된다.
- 행 추가는 loc를 이용해서 추가해 준다. 이 때 값 하나만 넣어도 전체 부분이 다 채워진다.

In [64]:
'''
아래의 예를 참고하여 자유롭게 열 추가를 해보자
'''

import pandas as pd
exam_data = {'수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철'])
print(df)

df.loc['진현', :] = [11, 22, 333]
print(df)



     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70
    수학  영어   생물
진현  11  22  333
민지  40  70   90
성철  70  90   70


In [66]:
'''
아래의 예를 참고하여 자유롭게 열/행 추가를 실습해 보자.
'''
### 열추가
import pandas as pd
import numpy as np
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


In [67]:
df['국어'] = 80
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어
0,진현,100,50,50,88,80
1,민지,40,70,90,68,80
2,성철,70,90,70,58,80
3,지산,30,80,18,77,80


In [68]:
df['국사'] = [10, 20, 30, 40]
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사
0,진현,100,50,50,88,80,10
1,민지,40,70,90,68,80,20
2,성철,70,90,70,58,80,30
3,지산,30,80,18,77,80,40


In [69]:
df.loc[:,'AI'] = [10, 20, 30, 40]
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,10,10
1,민지,40,70,90,68,80,20,20
2,성철,70,90,70,58,80,30,30
3,지산,30,80,18,77,80,40,40


In [27]:
### 행추가
df.loc[1] = ['하나', 1, 2, 3, 4, 5, 6, 7]
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,10,10
1,하나,1,2,3,4,5,6,7
2,성철,70,90,70,58,80,30,30
3,지산,30,80,18,77,80,40,40


In [52]:
df.loc[4] = 100
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100,50,50,88,80,10,10
1,하나,1,2,3,4,5,6,7
2,성철,70,90,70,58,80,30,30
3,지산,30,80,18,77,80,40,40
4,100,100,100,100,100,100,100,100


In [54]:
df.loc[5, :] = 200
df

Unnamed: 0,이름,수학,영어,생물,도덕,국어,국사,AI
0,진현,100.0,50.0,50.0,88.0,80.0,10.0,10.0
1,하나,1.0,2.0,3.0,4.0,5.0,6.0,7.0
2,성철,70.0,90.0,70.0,58.0,80.0,30.0,30.0
3,지산,30.0,80.0,18.0,77.0,80.0,40.0,40.0
4,100,100.0,100.0,100.0,100.0,100.0,100.0,100.0
5,200,200.0,200.0,200.0,200.0,200.0,200.0,200.0


### READ

#### 행 선택 (loc, iloc)
> 행 선택 방법을 우선 확인 후에 열 선택 법을 알아보자.
- loc : 인덱스 이름을 기준으로 행을 선택한다.
- iloc : 정수형 위치 인덱스를 기준으로 행을 선택한다.
- 2개 이상의 행 인덱스를 추출하려면 리스트로 넣어서 뽑으면 된다.
- 슬라이스 기법도 사용가능하다.(python과의 차이점을 이해하자)
- 슬라이스 사용 시 loc와 iloc **차이점** 중요

In [7]:
'''
exam_data = {'수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}

1. 위의 딕셔너리를 이용하여 아래의 결과값을 만드시오
     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70

2. 만든 데이터프레임에서 아래의 시리즈를 뽑으시오 (loc, iloc 각각 사용)
수학    40
영어    70
생물    90
Name: 민지, dtype: int64
'''





     수학  영어  생물
진현  100  50  50
민지   40  70  90
성철   70  90  70


수학    40
영어    70
생물    90
Name: 민지, dtype: int64

In [9]:
'''
아래의 print문을 하나씩 실행하보고
슬라이싱 시 loc와 iloc의 차이를 서술하시오
'''

# print(df.loc[:'민지'])
# print(df.loc['민지':])
# print(df.loc[['진현', '지산']])

# print(df.iloc[1:])
# print(df.iloc[:1])
# print(df.iloc[[2, 1]])


     수학  영어  생물
진현  100  50  50
민지   40  70  90
     수학  영어  생물
진현  100  50  50


#### 열 선택
> 행과 비교를 위해 우선 loc, iloc를 통해 열을 선택하는 방법을 알아보자.
- df.수학
- df['수학']
- df[['수학']]

위의 3가지의 차이점을 이해한다.<br>
df.수학과 df['수학']은 같은 결과값으로 **시리즈 객체**를 도출한다.<br>
df[['수학']]로 2중 대괄호를 사용하면 시리즈가 아닌 **데이터프레임**을 반환한다.

In [22]:
'''
아래의 데이터프레임을 활용하여 문제를 풀어보시오
1. df.loc['수학']  가 에러가 발생함을 확인하시오
2. df.loc[:, ['수학']]  의 실행값을 생각 후 확인 하시오
3. df.iloc[:, 0]  의 실행값을 생각 후 확인 하시오
4. df.수학  의 실행값을 생각 후 확인 하시오
5. df["수학"]  의 실행값을 생각 후 확인 하시오
6. df[["수학"]]  의 실행값을 생각 후 확인 하시오
7. for문과 print 문을 활용하여 아래의 결과값 4줄을 만드시오
100
40
70
30

8. df['수학', '영어'] 가 에러가 발생함을 확인하시오
9. df[['수학', '영어']]  의 실행값을 생각 후 확인 하시오
10. df.loc[:, ['수학', '영어']]  의 실행값을 생각 후 확인 하시오
'''

import pandas as pd
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철', '지산'])
df

Unnamed: 0,수학,영어,생물,도덕
진현,100,50,50,88
민지,40,70,90,68
성철,70,90,70,58
지산,30,80,18,77


### UPDATE
> 데이터프레임을 수정하는 방법으로는 1. 행과 열이름을 변경하는 방법과 2.데이터프레임의 값들을 변경하는 방법을 둘다 알아야한다.

#### INDEX NAME, COLUMNS NAME 변경하기
**df.index**<BR>
**df.columns**

In [6]:
import pandas as pd

df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])

print(df)

    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고


In [7]:
'''
위의 데이터 프레임의 인덱스 값을 변경하여 아래의 결과값이 나오게 만들자.

     나이 성별   학교
학생1  18  남  김천고
학생2  19  여  울산고
'''





     나이 성별   학교
학생1  18  남  김천고
학생2  19  여  울산고


In [8]:
'''
위의 데이터 프레임의 인덱스 값을 변경하여 아래의 결과값이 나오게 만들자.

     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고
'''





     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고


In [10]:
'''
rename을 사용하여 아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.

     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고
'''

df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])

print(df)


    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고


     연령 남녀   소속
학생1  18  남  김천고
학생2  19  여  울산고


inplace=True 를 넣지 않으면, 원본 객체를 직접 수정하는 것이 아니라 새로운 데이터프레임 객체를 반환한다. 따라서 inplace=True를 잊지말고 넣어주자.<br>
이 방법은 일부를 선택하여 변경할 수 있다는 장점이 있지만, 가독성이 좋지 않아 잘 쓰지는 않는다. 

In [15]:
'''
**중요**
df.rename은 잘 쓰지 않는다.
df.columns로 주로 변경한다.
df.index는 사실 변경할 일이 없다. (ex_len(df.index))
'''
df.columns

Index(['연령', '남녀', '소속'], dtype='object')

#### 열을 인덱스로 지정하기
##### set_index()
> 딕셔너리로 들어온 열중에 그 열을 인덱스로 지정하고 싶을 때가 있다. 그때는 set_index() 메소드를 적용하여 새로운 인덱스로 지정할 수 있다. 그러면 지정된 인덱스에 덮어쓰기가 된다. 

In [39]:
'''
set_index()을 사용하여 아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.

   영어 생물 도덕
수학             
100  50  50  88
40   70  90  68
70   90  70  58
30   80  18  77
'''

import pandas as pd
exam_data = {'수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data, index=['진현', '민지', '성철', '지산'])





     수학  영어  생물  도덕
진현  100  50  50  88
민지   40  70  90  68
성철   70  90  70  58
지산   30  80  18  77


     영어  생물  도덕
수학             
100  50  50  88
40   70  90  68
70   90  70  58
30   80  18  77


추가적으로 set_index('수학')과 set_index(['수학'])은 같다라는 것을 참고하자.<br> inplace=True는 원본값을 직접 고쳐준다. index로 리스트로 담아 set_indx(['수학', '생물'])처럼 적용해도 된다.<br> 기초 단계에서는 2개의 인덱스를 적용할 일이 많이 없다는 점을 참고하자.

##### 데이터 프레임 수정하기
> 대부분 아래와 같은 방법으로 데이터를 가져와서 index를 설정하게 된다.

In [44]:
#data.loc[행, 열]
#data.iloc[행, 열]
'''
아래의 데이터프레임이 아래의 결과 값이 나오게 만들자.
1.
    수학 영어 생물 도덕
이름                 
진현  100  50  50  88
민지   40  70  90  68
성철   70  90  70  58
지산   30  80  18  77

2. iloc를 활용하여 아래의 값을 만들자
영어    70
생물    90
Name: 민지, dtype: int64

3. loc와 슬라이싱(:)를 활용하여 아래의 값을 만들자
영어    70
생물    90
도덕    68
Name: 민지, dtype: int64

4. loc를 활용하여 아래의 값을 만들자
영어    70
생물    90
Name: 민지, dtype: int64
'''


import pandas as pd
import numpy as np
exam_data = {'이름': ['진현', '민지', '성철', '지산'], '수학':[100, 40, 70, 30], '영어': [50, 70, 90, 80], '생물': [50, 90, 70, 18], '도덕': [88, 68, 58, 77]}
df = pd.DataFrame(exam_data)
'''
   이름 수학 영어 생물 도덕
0  진현  100  50  50  88
1  민지   40  70  90  68
2  성철   70  90  70  58
3  지산   30  80  18  77
'''





추가적으로 df.iloc[1, 1]과 df.iloc[1][1]은 같은결과값을 출력한다.

In [42]:
'''
df.iloc[1, 1]
df.iloc[1][1]
iloc를 활용하여 데이터 값들을 자유롭게 뽑아보자.
'''


70
70


#### 전치( transpose() )
- 데이터프레임의 행과 열을 서로 맞바꾸는 방법이다. 
- 선형대수학의 전치행렬과 같은 개념이다. 
- transpose() 매소드를 활용하거나 df.T와 같은 클래스 속성을 활용할 수도 있다.
- 두 번 실행하면 최초의 원본 데이터프레임으로 돌아온다.

In [44]:
'''
전치를 두번하면 본래의 값으로 돌아옴을 확인하자.
'''

import pandas as pd
import numpy as np
exam_data = {'이름': ['진현', '민지', '성철'], 
             '수학':[100, 40, 70], '영어': [50, 70, 90], '생물': [50, 90, 70]}
df = pd.DataFrame(exam_data)
print(df)

   이름   수학  영어  생물
0  진현  100  50  50
1  민지   40  70  90
2  성철   70  90  70


In [45]:
df = df.transpose()
print(df)

      0   1   2
이름   진현  민지  성철
수학  100  40  70
영어   50  70  90
생물   50  90  70


In [59]:
df = df.T
df

Unnamed: 0,이름,수학,영어,생물,도덕
0,진현,100,50,50,88
1,민지,40,70,90,68
2,성철,70,90,70,58
3,지산,30,80,18,77


#### 행인덱스 수정 ( reindex() )
- reindex() : 행인덱스 재배열
- fill_value 옵션 : NaN값이 있는 경우 지정값으로 변경한다.
- reset_index() : 인덱스 초기화 ()
'''
df.reset_index()                 : 처음상태로 복귀
df.reset_index(drop=True)        : 인덱스 삭제 (미복귀)
'''

In [70]:
'''
아래의 데이터프레임을 활용하여 문제를 풀자
1. reindex를 활용하여 아래의 값을 만들자
     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN

2. fill_value옵션을 활용하여 아래의 값을 만들자
    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0

3. 아래의 값을 만들자
   c0  c1  c2  c3  c4
a   1   4   7  10  13
b   2   5   8  11  14
c   3   6   9  12  15
d   0   0   0   0   0
e   0   0   0   0   0

'''


# reindex()
import pandas as pd
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [50]:
'''
아래의 데이터프레임을 이용하자.
1. reset_index()를 이용해서 아래의 값을 만들자.
  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15

2. reset_index()를 이용해서 아래의 값을 만들자.
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15
'''
# reset_index()
import pandas as pd
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


### 정렬
> Series와 DataFrame의 정렬에 대해 알아보자. 기본적으로 정렬 할 기준이 색인인지, 객체인지에 따라 사용하는 메서드가 다르다.

#### 색인 정렬
- 로우나 컬럼의 색인인 경우는 **sort_index** 메서드를 사용한다. 
- 디폴트 값은 오름차순이지만, 내림차순으로 정리하려면 **ascending=False** 옵션을 넣어준다

In [73]:
'''
아래의 시리즈를 이용하자.
1. sort_index()를 활용하여 아래의 값을 만들자
a    3
b    1
c    2
d    0
dtype: int64

'''
# Series의 색인 정렬
data = pd.Series(range(4), index=['d', 'b', 'c', 'a'])
data

d    0
b    1
c    2
a    3
dtype: int64

In [98]:
'''
1. sort_index()를 활용하여 아래의 값을 만들자.
       d  a  b  c
one    4  5  6  7
three  0  1  2  3


2. sort_index()를 활용하여 아래의 값을 만들자.
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
'''

# DataFrame 정렬
# axis를 활용하여 기준 축을 설정할 수 있다.
frame = pd.DataFrame(np.arange(8).reshape(2, 4), 
                    index=['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])

print(frame)

       d  a  b  c
three  0  1  2  3
one    4  5  6  7

       d  a  b  c
one    4  5  6  7
three  0  1  2  3

       a  b  c  d
three  1  2  3  0
one    5  6  7  4


#### 데이터(객체 값) 정렬
> 객체의 값에 따라 정렬을 하려면 **sort_values** 메서드를 사용한다. 이 때 정렬 시 Series 객체에서 비어있는 값은 기본적으로 마지막에 위치한다.

In [99]:
'''
아래의 시리즈를 활용한다
1. sort_values를 활용하여 아래의 값을 만들자
4   -1.0
3    3.0
0    4.0
1    9.0
2    NaN
5    NaN
dtype: float64
'''

# Series의 객체 값에 따른 정렬
# NaN은 가장 마지막에 위치한다
data = pd.Series([4, 9, np.nan, 3, -1, np.nan])
print(data)


0    4.0
1    9.0
2    NaN
3    3.0
4   -1.0
5    NaN
dtype: float64

4   -1.0
3    3.0
0    4.0
1    9.0
2    NaN
5    NaN
dtype: float64


In [53]:
'''
아래의 데이터프레임을 사용한다.
1. b를 기준으로 아래의 값을 만들자
   b  a
2 -3  1
3  2  0
0  4  0
1  7  1

2. 아래와 같이 'a'를 정렬한 후에 'b'를 정렬한다.
   b  a
1  7  1
2 -3  1
0  4  0
3  2  0
'''

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 1, 0]})
print(frame)



   b  a
0  4  0
1  7  1
2 -3  1
3  2  0

   b  a
2 -3  1
3  2  0
0  4  0
1  7  1

   b  a
1  7  1
2 -3  1
0  4  0
3  2  0


### DELETE
##### drop() 
> 데이터프레임의 행 또는 열을 삭제하는 명령
- 행삭제 : axis=0(디폴트)
- 열삭제 ; axis=1
- 다수의 행과 열 삭제 시 list로 넣어준다.
- 원본 객체 변경 시 inplace = True를 추가해 준다.

In [56]:
'''
아래의 데이터프레임을 사용한다.
1. 아래의 값을 만들자
    나이 성별   학교
민지  19  여  울산고

2. 아래의 값을 만들자
    성별
민지  여
'''

import pandas as pd

df = pd.DataFrame([[18, '남','김천고'], [19, '여', '울산고']],
                 index=['진현', '민지'],
                 columns=['나이', '성별', '학교'])
print(df)

    나이 성별   학교
진현  18  남  김천고
민지  19  여  울산고
