## Pandas_DataFrame
- 레이블 표시된 2차원 배열
- 크기 변동이 가능한 테이블형 구조로 동일하지 않은 형태의 열을 가짐
- 공통  인덱스를 가지는 열시리즈 (column series)를 딕셔너리로 묶어 놓은 것
    - `데이터 프레임은 각 열마다 자료형이 다를 수 있다.`
- 2차원이므로 각각의 행 데이터의 이름이 되는 행인덱스 뿐만 아니라 각각의 열 데이터의 이름이 되는 열인덱스도 붙일 수 있다.
- 데이터만 접근하려면 values속성을 사용하고, 열방향 인덱스와 행방향 인덱스는 각각 columns, index 속성으로 접근

- 데이터 프레임의 입력 데이터
    - 1차원 ndarray, 리스트, 딕셔너리 또는 Series의 딕셔너리
    - 2차원 ndarray, 시리즈 또는 다른 데이터 프레임

#### 1. 넘파이 배열(ndarray)에서 데이터 프레임 객체 생성

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))   #2차원 배열을 데이터프레임으로 변환

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [4]:
pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
             columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [3]:
pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
             columns=['a', 'b', 'c'], index=['가', '나', '다']) #2차원 배열을 데이터프레임으로 변환

Unnamed: 0,a,b,c
가,1,2,3
나,4,5,6
다,7,8,9


In [5]:
data = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)],
                dtype=[("a", "f8"), ("b", "f8"), ("c", "f8")])
df4 = pd.DataFrame(data, columns=['c', 'a'])
df4                     


Unnamed: 0,c,a
0,3.0,1.0
1,6.0,4.0
2,9.0,7.0


In [6]:
df4.dtypes

c    float64
a    float64
dtype: object

In [7]:
print(np.dtype('i4'))
print(np.dtype('f8'))
print(np.dtype('c16'))
print(np.dtype('a25')) #25-Length zero-terminated bytes
print(np.dtype('U25')) #25-character string

int32
float64
complex128
|S25
<U25


  print(np.dtype('a25'))


#### 2. 딕셔너리에서 데이터프레임 객체 생성

In [8]:
d = {'col1': [1, 2], 'col2': [3, 4]} # 행 길이가 달라지기 때문에 리스트의 길이는 같아야한다.
df = pd.DataFrame(data=d) #딕셔너리를 데이터프레임으로 변환
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [9]:
df.dtypes

col1    int64
col2    int64
dtype: object

In [11]:
df = pd.DataFrame(data=d, dtype=np.int8) # 데이터 타입 변환 64 -> 8
df.dtypes

col1    int8
col2    int8
dtype: object

In [12]:
#시리즈로 생성할 경우 인덱스가 일치하지 않으면 NaN으로 출력
d = {'col1': [0, 1, 2, 3], 'col2': pd.Series([2, 3], index=[2, 3])}
pd.DataFrame(data=d, index=[0, 1, 2, 3])   


Unnamed: 0,col1,col2
0,0,
1,1,
2,2,2.0
3,3,3.0


In [14]:
#NaN은 실수로 처리
df.dtypes

col1      int64
col2    float64
dtype: object

- 딕셔너리에서 인덱스로 생성한 데이터프레임은 여러 시리즈의 인덱스들의 합집합(union)이다.

In [15]:
data1 = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
         'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(data1)
type(data1)

{'one': a    1.0
b    2.0
c    3.0
dtype: float64, 'two': a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64}


dict

In [16]:
df = pd.DataFrame(data1)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     3 non-null      float64
 1   two     4 non-null      float64
dtypes: float64(2)
memory usage: 96.0+ bytes


In [18]:
df.dtypes

one    float64
two    float64
dtype: object

In [20]:
df['one']   #시리즈 형태로 컬럼 값 표시
#행을 단일값으로 가지고 올 수 없음
# ex) df['a'] error

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [21]:
df[['one']]     #데이터프레임 형태로 컬럼 값 표시

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,


In [22]:
data2 = {'one': [1., 2., 3.], 'tow': [3., 2., 1.]}
print(data2)
type(data2)

{'one': [1.0, 2.0, 3.0], 'tow': [3.0, 2.0, 1.0]}


dict

In [23]:
pd.DataFrame(data2)

Unnamed: 0,one,tow
0,1.0,3.0
1,2.0,2.0
2,3.0,1.0


In [24]:
pd.DataFrame(data2, index=['a', 'b', 'c'])

Unnamed: 0,one,tow
a,1.0,3.0
b,2.0,2.0
c,3.0,1.0


In [25]:
data3 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
data3

[{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [26]:
pd.DataFrame(data3)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [27]:
type(data3)

list

In [29]:
df = pd.DataFrame(data3)
type(df)

pandas.core.frame.DataFrame

In [30]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
        '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame = pd.DataFrame(data)
frame

Unnamed: 0,이름,나이,생년월일
0,홍길동,21,2001년 1월 1일
1,이순신,22,2000년 5월 3일
2,김유신,25,1997년 7월 9일
3,정이동,23,1999년 6월 1일
4,이순진,24,1998년 9월 12일
5,박유정,20,2002년 12월 24일


In [31]:
frame.head()

Unnamed: 0,이름,나이,생년월일
0,홍길동,21,2001년 1월 1일
1,이순신,22,2000년 5월 3일
2,김유신,25,1997년 7월 9일
3,정이동,23,1999년 6월 1일
4,이순진,24,1998년 9월 12일


In [32]:
frame.tail()

Unnamed: 0,이름,나이,생년월일
1,이순신,22,2000년 5월 3일
2,김유신,25,1997년 7월 9일
3,정이동,23,1999년 6월 1일
4,이순진,24,1998년 9월 12일
5,박유정,20,2002년 12월 24일


In [33]:
frame = pd.DataFrame(data, columns=['이름', '생년월일', '나이'],
                     index = ['one', 'two', 'three', 'four',
                              'five', 'six'])
frame

Unnamed: 0,이름,생년월일,나이
one,홍길동,2001년 1월 1일,21
two,이순신,2000년 5월 3일,22
three,김유신,1997년 7월 9일,25
four,정이동,1999년 6월 1일,23
five,이순진,1998년 9월 12일,24
six,박유정,2002년 12월 24일,20


In [34]:
frame.values

array([['홍길동', '2001년 1월 1일', 21],
       ['이순신', '2000년 5월 3일', 22],
       ['김유신', '1997년 7월 9일', 25],
       ['정이동', '1999년 6월 1일', 23],
       ['이순진', '1998년 9월 12일', 24],
       ['박유정', '2002년 12월 24일', 20]], dtype=object)

In [35]:
frame.columns

Index(['이름', '생년월일', '나이'], dtype='object')

In [36]:
frame.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

In [37]:
frame.index.name = "순서"
frame.columns.name = "개인정보"

frame

개인정보,이름,생년월일,나이
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,홍길동,2001년 1월 1일,21
two,이순신,2000년 5월 3일,22
three,김유신,1997년 7월 9일,25
four,정이동,1999년 6월 1일,23
five,이순진,1998년 9월 12일,24
six,박유정,2002년 12월 24일,20


#### 3. 딕셔너리를 데이터프레임으로 만들기 : `pd.DataFrame.from_dict()` 함수 사용
- from_dict() 함수는 딕셔너리를 입력 값으로 사용하고 데이터프레임을 반환
- 기본 동작은 딕셔너리의 키가 열 이름에 해당하고 값이 행 데이터에 해당한다고 가정

In [38]:
student_data = {'name': ['Alice', 'Bob', 'Charlie'], 'grade': [95, 87, 92], 'subjuct': ['Math', 'English', 'Science']}
df = pd.DataFrame.from_dict(student_data)
print(df)

      name  grade  subjuct
0    Alice     95     Math
1      Bob     87  English
2  Charlie     92  Science


In [39]:
#서로 다른 길이의 리스트를 포함하는 딕셔너리가 있는 경우
data = {'naeme': ['Alice', 'Bob', 'Charlie'], 'grade': [95, 87], 'subjuct': ['Math', 'English', 'Science']}
df = pd.DataFrame.from_dict(data)   #오류발생 'grade'의 길이가 다름 3개인데 grade는 2개만 있음
df

ValueError: All arrays must be of the same length

- 딕셔너리의 구조가 다른 경우 : `orient` 매개변수 사용
    - orient 매개변수는 index, columns, values와 같은 여러 값을 허용한다.
    - 기본값은 columns이다.

In [40]:
# 서로 다른 길이의 리스트를 포함하는 딕셔너리가 있는 경우
data = {'name': ['Alice', 'Bob', 'Charlie'], 'grade': [95, 87], 'subject': ['Math', 'English', 'Science']}
df = pd.DataFrame.from_dict(data, orient='index')   #행과 열을 바꾸어서 데이터프레임 생성
df
# 행 길이가 맞지 않아도 orient 라는 옵션을 가지고 방향설정을 하여 None값으로 채워진다.
# 열이 아니라 행으로 본다.

Unnamed: 0,0,1,2
name,Alice,Bob,Charlie
grade,95,87,
subject,Math,English,Science


In [41]:
data = {'name': ['Alice', 'Bob', 'Charlie'], 'grade': [95, 87], 'subject': ['Math', 'English', 'Science']}
df = pd.DataFrame.from_dict(data, orient='index', columns=['A', 'B', 'C'])   #행과 열을 바꾸어서 데이터프레임 생성
df

Unnamed: 0,A,B,C
name,Alice,Bob,Charlie
grade,95,87,
subject,Math,English,Science


In [42]:
#행과 열이 변경된다.(transpose)
df.T

Unnamed: 0,name,grade,subject
A,Alice,95.0,Math
B,Bob,87.0,English
C,Charlie,,Science


- 데이터 접근 : 행과 열의 기본처리
    - 열 인덱싱
        - 하나의 열만 인덱싱하면 시리즈가 반환
        - 하나의 열(컬럼)에 접근 : `df[열이름]` 또는 `df.열이름`

In [43]:
data = {'이름' : ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이' : [21, 22, 25, 23, 24, 20],
        '생년월일' : ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
columns = ['이름', '생년월일', '나이']
index = ['one', 'two', 'three', 'four', 'five', 'six']
frame3 = pd.DataFrame(data, index=index, columns=columns)
frame3

Unnamed: 0,이름,생년월일,나이
one,홍길동,2001년 1월 1일,21
two,이순신,2000년 5월 3일,22
three,김유신,1997년 7월 9일,25
four,정이동,1999년 6월 1일,23
five,이순진,1998년 9월 12일,24
six,박유정,2002년 12월 24일,20


In [44]:
print(frame3['이름'])
print(frame3.생년월일)

one      홍길동
two      이순신
three    김유신
four     정이동
five     이순진
six      박유정
Name: 이름, dtype: object
one        2001년 1월 1일
two        2000년 5월 3일
three      1997년 7월 9일
four       1999년 6월 1일
five      1998년 9월 12일
six      2002년 12월 24일
Name: 생년월일, dtype: object


In [45]:
frame3[['이름', '나이']]

Unnamed: 0,이름,나이
one,홍길동,21
two,이순신,22
three,김유신,25
four,정이동,23
five,이순진,24
six,박유정,20


- 열 추가, 열 수정, 열 삭제
    - 열 추가 : `df['새 열 이름'] = [값1, 값2, ...]`
    - 열 삭제 : 하나의 열만 삭제 : `del df['열 이름']` 또는 `df.pop('열 이름')`

In [46]:
data = {'이름' : ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이' : [21, 22, 25, 23, 24, 20],
        '생년월일' : ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame2 = pd.DataFrame(data, columns = ['이름', '생년월일', '나이', '학교'],
                      index = ['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2)

        이름           생년월일  나이   학교
one    홍길동    2001년 1월 1일  21  NaN
two    이순신    2000년 5월 3일  22  NaN
three  김유신    1997년 7월 9일  25  NaN
four   정이동    1999년 6월 1일  23  NaN
five   이순진   1998년 9월 12일  24  NaN
six    박유정  2002년 12월 24일  20  NaN


In [47]:
frame2['학교'] = '울산대학교' # 파생변수 만들기
print(frame2)
frame2['학점'] = '4.0'
print(frame2)

        이름           생년월일  나이     학교
one    홍길동    2001년 1월 1일  21  울산대학교
two    이순신    2000년 5월 3일  22  울산대학교
three  김유신    1997년 7월 9일  25  울산대학교
four   정이동    1999년 6월 1일  23  울산대학교
five   이순진   1998년 9월 12일  24  울산대학교
six    박유정  2002년 12월 24일  20  울산대학교
        이름           생년월일  나이     학교   학점
one    홍길동    2001년 1월 1일  21  울산대학교  4.0
two    이순신    2000년 5월 3일  22  울산대학교  4.0
three  김유신    1997년 7월 9일  25  울산대학교  4.0
four   정이동    1999년 6월 1일  23  울산대학교  4.0
five   이순진   1998년 9월 12일  24  울산대학교  4.0
six    박유정  2002년 12월 24일  20  울산대학교  4.0


In [48]:
del frame2['학점']      #frame.pop('학점')과 동일
frame2

Unnamed: 0,이름,생년월일,나이,학교
one,홍길동,2001년 1월 1일,21,울산대학교
two,이순신,2000년 5월 3일,22,울산대학교
three,김유신,1997년 7월 9일,25,울산대학교
four,정이동,1999년 6월 1일,23,울산대학교
five,이순진,1998년 9월 12일,24,울산대학교
six,박유정,2002년 12월 24일,20,울산대학교


- 지정된 위치에 열 삽입 : `df.insert(삽입할 열 위치, 열 이름, [값1, 값2, ...])`

In [49]:
frame2.insert(1, '성별', ['남', '남', '남', '여', '여', '여'])
frame2

Unnamed: 0,이름,성별,생년월일,나이,학교
one,홍길동,남,2001년 1월 1일,21,울산대학교
two,이순신,남,2000년 5월 3일,22,울산대학교
three,김유신,남,1997년 7월 9일,25,울산대학교
four,정이동,여,1999년 6월 1일,23,울산대학교
five,이순진,여,1998년 9월 12일,24,울산대학교
six,박유정,여,2002년 12월 24일,20,울산대학교


In [50]:
frame[:'four']

개인정보,이름,생년월일,나이
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,홍길동,2001년 1월 1일,21
two,이순신,2000년 5월 3일,22
three,김유신,1997년 7월 9일,25
four,정이동,1999년 6월 1일,23


In [51]:
frame['이름']['four']

'정이동'

In [52]:
df = pd.DataFrame(np.arange(24).reshape(6, 4),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


In [53]:
df[1:3]

Unnamed: 0,A,B,C,D
1,4,5,6,7
2,8,9,10,11


In [54]:
df[3:]

Unnamed: 0,A,B,C,D
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


In [55]:
df[:3]

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [56]:
df[::2]

Unnamed: 0,A,B,C,D
0,0,1,2,3
2,8,9,10,11
4,16,17,18,19


In [57]:
df[::-1]

Unnamed: 0,A,B,C,D
5,20,21,22,23
4,16,17,18,19
3,12,13,14,15
2,8,9,10,11
1,4,5,6,7
0,0,1,2,3


- 행 (인덱스), 컬럼 (열) 삭제
    - 행 삭제 : `df.drop(['행 인덱스', '행 인덱스', ...], axis=0)` 또는 `df.drop(index=['행 인덱스', '행 인덱스', ...])`
        - inplace = True : Dataframe에 수정된 결과 반영, 그렇지 않으면 원래 DataFrame이 수정되지 않은 상태 유지

In [58]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                 '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five', 'six'])
frame

Unnamed: 0,이름,나이,생년월일
one,홍길동,21,2001년 1월 1일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


In [59]:
frame.drop(index=['two', 'six'])

Unnamed: 0,이름,나이,생년월일
one,홍길동,21,2001년 1월 1일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일


In [60]:
frame.drop(['one', 'four'], axis=0) 

Unnamed: 0,이름,나이,생년월일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


In [61]:
frame.drop(index=['two', 'six'], inplace=True)  #원본 데이터프레임에서 삭제
frame

Unnamed: 0,이름,나이,생년월일
one,홍길동,21,2001년 1월 1일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일


- 데이터 접근 : 행과  열의 기본처리 : 1개 이상의 행, 열 삭제
    - 열 삭제 : `df.drop(['열 이름', '열 이름', ...], axis=1)` 또는 `df.drop(columns=['열 이름', '열 이름', ...])`

In [62]:
df = pd.DataFrame(np.arange(12).reshape(3, 4),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [63]:
df.drop(['B', 'C'], axis=1)

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


In [64]:
df.drop(columns=['B', 'C'])

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


In [65]:
df.drop([0, 1])    #행 삭제(열을 지울 순 없음)

Unnamed: 0,A,B,C,D
2,8,9,10,11


- 컬럼 이름 변경(재지정)
    - 1. `DataFrame.columns = [새 컬럼명1, 새 컬럼명2, ...]`
        - 전체 변수 이름을 재설정
        - 변수명을 차례로 재설정, 변수가 많은 경우 적절하지 않다.

In [66]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                 '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five', 'six'])
frame

Unnamed: 0,이름,나이,생년월일
one,홍길동,21,2001년 1월 1일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


In [67]:
#방법1
columns=['성명', '나이', '생일']
frame.columns = columns
frame

Unnamed: 0,성명,나이,생일
one,홍길동,21,2001년 1월 1일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


- 2. `DataFrame.rename(columns={기존 컬럼명: 새 컬럼명, ...}, inplace=True)`
    - 원하는 변수이름만 수정 가능
    - 딕셔너리 구조로 정의, 즉 이전 열이름을 키로 지정하고 새이름을 값으로 지정

In [68]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['2001년 1월 1일', '2000년 5월 3일', '1997년 7월 9일',
                 '1999년 6월 1일', '1998년 9월 12일', '2002년 12월 24일']}
frame1 = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five', 'six'])
frame1

Unnamed: 0,이름,나이,생년월일
one,홍길동,21,2001년 1월 1일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


In [69]:
# 방법 2
frame1.rename(columns={'이름':'성명', '생년월일':'생일'}, inplace=True)
frame1

Unnamed: 0,성명,나이,생일
one,홍길동,21,2001년 1월 1일
two,이순신,22,2000년 5월 3일
three,김유신,25,1997년 7월 9일
four,정이동,23,1999년 6월 1일
five,이순진,24,1998년 9월 12일
six,박유정,20,2002년 12월 24일


- 인덱스 재지정 : `DataFrame.reindex()`
    - Dataframe을 새 인덱스로 재지정 함
    - 새 인덱스가 현재 인덱스와 동일하지 않으면 새 객체가 생성
        - 이전 인덱스에 값이 없는 위치에 NA/NaN로 표시

In [73]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [74]:
frame1 = frame.reindex(['a', 'b', 'c', 'd'])
frame1

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [75]:
stats = ['Texas', 'Utah', 'California']
frame.reindex(columns=stats)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [76]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                        index=['a', 'c', 'd'],
                        columns=['Ohio', 'Texas', 'California'])
frame


Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [77]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'], fill_value=0)
frame2

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,0,0,0
c,3,4,5
d,6,7,8


In [78]:
frame3 = frame.reindex(['a', 'b', 'c', 'd'], fill_value='missing')
frame3

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,missing,missing,missing
c,3,4,5
d,6,7,8


- 인덱스 지정 : `DataFrame.set_index()`
    - 기존 열을 사용하여 DataFrame 인덱스를 설정
    - 하나 이상의 기존 열 또는 배열(올바른 길이)을 사용하여 DataFrame 인덱스 (행 레이블)를 설정
    - 인덱스는 기존 인덱스를 대체하거나 확장 할 수 있다.

In [79]:
df = pd.DataFrame({'month':[1, 4, 7, 10],
                   'year':[2012, 2014, 2013, 2014],
                   'sale':[55, 40, 84, 31]})
df

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


In [80]:
df.set_index('month')

Unnamed: 0_level_0,year,sale
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2012,55
4,2014,40
7,2013,84
10,2014,31


In [81]:
# index가 year, month로 변경되었으므로 data는 sale만 남음
df.set_index(['year', 'month'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sale
year,month,Unnamed: 2_level_1
2012,1,55
2014,4,40
2013,7,84
2014,10,31


- 데이터 형변환 : `astype()`
    - 컬럼(변수)의 데이터 타입을 변경


In [90]:
data = {'이름': ['홍길동', '이순신', '김유신', '정이동', '이순진', '박유정'],
        '나이': [21, 22, 25, 23, 24, 20],
        '생년월일': ['20010101', '20000503', '19970709',
                 '19990601', '19980912', '20021224'],
        '성별' : ['남', '여', '여', '남', '여', '남']}
df = pd.DataFrame(data, index = ['one', 'two', 'three', 'four', 'five', 'six'])
df


Unnamed: 0,이름,나이,생년월일,성별
one,홍길동,21,20010101,남
two,이순신,22,20000503,여
three,김유신,25,19970709,여
four,정이동,23,19990601,남
five,이순진,24,19980912,여
six,박유정,20,20021224,남


In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      6 non-null      object
 1   나이      6 non-null      int64 
 2   생년월일    6 non-null      object
 3   성별      6 non-null      object
dtypes: int64(1), object(3)
memory usage: 240.0+ bytes


In [87]:
# 나이 숫자 int형을 문자열 (object or str 로 가능)로 변경
df['나이']=df['나이'].astype('object')
#df['나이']=df['나이'].astype('str')도 가능
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      6 non-null      object
 1   나이      6 non-null      object
 2   생년월일    6 non-null      object
 3   성별      6 non-null      object
dtypes: object(4)
memory usage: 240.0+ bytes


In [92]:
df['생년월일']=df['생년월일'].astype('datetime64[ns]')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   이름      6 non-null      object        
 1   나이      6 non-null      int64         
 2   생년월일    6 non-null      datetime64[ns]
 3   성별      6 non-null      object        
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 240.0+ bytes


In [94]:
# 다른 방법 : 날짜형(datatime64)으로 변경할 떄는 pd.to_datatime() 사용하여 변경하여도 됨
df['생년월일']= pd.to_datetime(df['생년월일'])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   이름      6 non-null      object        
 1   나이      6 non-null      int64         
 2   생년월일    6 non-null      datetime64[ns]
 3   성별      6 non-null      object        
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 240.0+ bytes


In [95]:
df['성별'] = df['성별'].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, one to six
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   이름      6 non-null      object        
 1   나이      6 non-null      int64         
 2   생년월일    6 non-null      datetime64[ns]
 3   성별      6 non-null      category      
dtypes: category(1), datetime64[ns](1), int64(1), object(1)
memory usage: 494.0+ bytes


- 날짜형 데이터 활용 : Series.dt.형식
    - 형식 -> year, month, day 추출

In [97]:
# 날짜형으로 변경된 생년월일 컬럼에서 연도, 월, 일 추출하여 컬럼에 추가
# 날짜 형식 활용 : Series.dt.형식

df['연도']= df['생년월일'].dt.year
# df['나이']= df['연도'] - df['나이']
df['월']= df['생년월일'].dt.month
df['일']= df['생년월일'].dt.day
df

Unnamed: 0,이름,나이,생년월일,성별,연도,월,일
one,홍길동,21,2001-01-01,남,2001,1,1
two,이순신,22,2000-05-03,여,2000,5,3
three,김유신,25,1997-07-09,여,1997,7,9
four,정이동,23,1999-06-01,남,1999,6,1
five,이순진,24,1998-09-12,여,1998,9,12
six,박유정,20,2002-12-24,남,2002,12,24
