## DataFrame
- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame : spreadsheet와 같은 개념

- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부름

- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같다

- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨


## 데이터 프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임 에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음
- DataFrame()함수를 사용해서 생성


## 1. 데이터프레임 생성
### 1) 리스트로 데이터프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장


In [2]:
import pandas as pd
import numpy as np

In [3]:
#1차원 리스트를 이용해서 df생성
df=pd.DataFrame(['a','b','c'])
print(df)
#2차원 리스트를 이용해서 df생성
df=pd.DataFrame([['a','b','c'],['d','e','f']])
df

   0
0  a
1  b
2  c


Unnamed: 0,0,1,2
0,a,b,c
1,d,e,f


In [4]:
# 하위리스트의 원소의 개수가 서로 다른 경우 - None 값을 저장

df = pd.DataFrame([['a','b','c'],['a','a','g'],['a','a']])
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,a,


### 2) 딕셔너리로 데이터프레임 생성
 - dict의 key -> column name
 - dict item 은 데이터프레임의 column 으로 정의

In [15]:
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]},
                 index=[0,1,2])
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,b,c
2,d,e,


In [7]:
#df의 값을 위한 dict
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

#열방향 인덱스(컬럼명) columns=
columns = ['지역','2015','2010','2005','2000','2010-2015 증가율']

#행방향 인덱스 index =
index=['서울','부산','인천','대구']

# pd.DataFrame(데이터, index=, columns=)
df3 = pd.DataFrame(data, index =index, columns=columns)
df3


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 3) 시리즈로 데이터프레임 생성
- pd.DataFrame(시리즈) : 시리즈를 열로 정의->1개의 시리즈가 전달
- 여러개의 시리즈를 이용해서 데이터 프레임 생성: 리스트로 묶어서 전달
    - pd.DataFrame([시리즈1,시리즈2,...]) : 리스트 원소 시리즈 1개가 한 행으로 정의
    - 시리즈의인덱스 => 컬럼명


In [8]:
#시리즈로 데이터프레임 생성
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

print(pd.DataFrame(a)) #시리즈를 열로 정의->1개의 시리즈가 전달
pd.DataFrame([a]) #리스트 원소 시리즈 1개가 한 행으로 정의

     0
a  100
b  200
d  300


Unnamed: 0,a,b,d
0,100,200,300


In [10]:
pd.DataFrame([a,b,c])

Unnamed: 0,a,b,d,k,c
0,100.0,200.0,300.0,,
1,101.0,201.0,,301.0,
2,110.0,210.0,,,310.0


### 4) csv 데이터로 데이터프레임 생성
- 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
- 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
- pandas.read_csv() 함수 사용

In [18]:
import os
print(os.getcwd()) #현재 작업중인 경로

C:\Users\gg664\AppData\Local\Programs\Python\Python38\Scripts\0708


In [34]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('./data/train.csv')
print(train_data.shape)

(891, 12)


In [36]:
train_data.head() #df의 처음 5행을 출력
train_data.head(10) #df의 처음 5행을 출력
train_data.tail() #df 의 마지막 5행을 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


- shape 속성 (row, column)
 - describe 함수 - 숫자형 데이터의 통계치 계산
 - info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

In [38]:
train_data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [28]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### 4-1) read_csv 함수 파라미터
- sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
- header - header를 무시할 경우, None 설정
- index_col - index로 사용할 column 설정
- usecols - 실제로 dataframe에 로딩할 columns만 설정

In [30]:
train_data = pd.read_csv('./data/train.csv',index_col='PassengerId',usecols=['PassengerId', 'Survived', 'Pclass', 'Name'])
train_data


Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,1,3,"Heikkinen, Miss. Laina"
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,0,3,"Allen, Mr. William Henry"
...,...,...,...
887,0,2,"Montvila, Rev. Juozas"
888,1,1,"Graham, Miss. Margaret Edith"
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie"""
890,1,1,"Behr, Mr. Karl Howell"


In [31]:
train_data.columns

Index(['Survived', 'Pclass', 'Name'], dtype='object')

In [32]:
train_data.index

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
           dtype='int64', name='PassengerId', length=891)

### 2. 인덱스와 컬럼의 이해
1. 인덱스(index)
- index 속성
- 각 아이템을 특정할 수 있는 고유의 값을 저장
- 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
  
2. 컬럼(column)
- columns 속성
- 각각의 특성(feature)을 나타냄
- 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능

In [40]:
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [41]:
# df의 컬럼명(열 인덱스) 확인 -columns 속성
df3.columns


Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [42]:
# df 인덱스(행 인덱스) 확인 - index  속성
df3.index


Index(['서울', '부산', '인천', '대구'], dtype='object')

In [43]:
# #### 행/열 인덱스 이름 설정
# - index.name
# - columns.name

df3.index.name = '도시'
df3.columns.name ='특성'
df3


특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [44]:
# df프레임의 data값만 추출하려면 values 속성 사용
df3.values #np.array 형태
df3.values[0]

array(['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283], dtype=object)

In [45]:
# ### dataframe 데이터 파악하기
#  - shape 속성 (row, column)
#  - describe 함수 - 숫자형 데이터의 통계치 계산
#  - info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

In [48]:
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [53]:
# data 전체 양 확인 - df.shape : (row,column)
df3.shape

(4, 6)

In [60]:
# 참고. 출력형식 : 판다스 실수 출력 형식 변경 코드
#일반 실수 표현 
pd.options.display.float_format = '{:.2f}'.format # 일반 실수 표현
#지수표현(기본값)
#pd.reset_option('display.float_format') 

# DataFrame의 기본 통계량 출력 - df.describe()
df3.describe()

특성,2015,2010,2005,2000,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414177.5,4562197.25,4612434.25,0.04
std,3507775.58,3524530.93,3500544.86,3538749.06,0.04
min,2466052.0,2000002.0,2456016.0,2466338.0,0.01
25%,2784351.25,2474026.75,2502264.0,2472077.0,0.02
50%,3169594.0,3012613.0,3015113.5,3064713.5,0.02
75%,5062630.75,4952763.75,5075046.75,5205070.75,0.05
max,9904312.0,9631482.0,9762546.0,9853972.0,0.1


In [61]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 서울 to 대구
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지역             4 non-null      object 
 1   2015           4 non-null      int64  
 2   2010           4 non-null      int64  
 3   2005           4 non-null      int64  
 4   2000           4 non-null      int64  
 5   2010-2015 증가율  4 non-null      float64
dtypes: float64(1), int64(4), object(1)
memory usage: 224.0+ bytes


### 4.데이터프레임 전치
- 원본데이터프레임.T : 행과 열을 바꿈(전치)
- type : df. T
- 전치는 '잠깐' 보는 목적이기 때문에 원본데이터에 반영되지 않는다.

In [63]:
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.03
부산,경상권,3448737,3393191,3512547,3655437,0.02
인천,수도권,2890451,2632035,2517680,2466338,0.1
대구,경상권,2466052,2000002,2456016,2473990,0.01


In [70]:
print(type(df.T))
df3.T

<class 'pandas.core.frame.DataFrame'>


도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [71]:
df3.T['서울']

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율     0.0283
Name: 서울, dtype: object

### 5. 열추가, 열갱신, 열삭제
- 열 추가 : df[열이름] = values
- 열 갱신 : df[열이름] = values
- 열 삭제 : del df[열이름]
- 이때 조작결과는 원본데이터에 반영된다.
- 데이터가 일치하지 않으면 (없는데 삭제하거나, 없는데 갱신하거나 )에러발생

In [86]:
# 새로운 열 추가
df3['2005-2015 증가율'] = ((df3['2015']-df3['2005'])/df3['2005'] *100).round(2)
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2830000.0,1.45
부산,경상권,3448737,3393191,3512547,3655437,1630000.0,-1.82
인천,수도권,2890451,2632035,2517680,2466338,9820000.0,14.81
대구,경상권,2466052,2000002,2456016,2473990,1410000.0,0.41


In [82]:
# 열 갱신 
# 2010-2015 증가율 변경
df3['2010-2015 증가율'] = df3['2010-2015 증가율'] * 100
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2830000.0,1.45
부산,경상권,3448737,3393191,3512547,3655437,1630000.0,-1.82
인천,수도권,2890451,2632035,2517680,2466338,9820000.0,14.81
대구,경상권,2466052,2000002,2456016,2473990,1410000.0,0.41


In [88]:
#열 삭제
del df3['2005-2015 증가율']
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2830000.0
부산,경상권,3448737,3393191,3512547,3655437,1630000.0
인천,수도권,2890451,2632035,2517680,2466338,9820000.0
대구,경상권,2466052,2000002,2456016,2473990,1410000.0


In [64]:
pd.reset_option('display.float_format') # 기본 형태 출력(지수표현)

1. 열인덱싱
2. 인덱서를 사용하지않는 행 인덱싱
- []기호를 이용해서 인덱싱할때 주의점 : []기호는 열 위주 인덱싱이 원칙


### 데이터프프레임인덱싱 
1. 열인덱싱
2. 인덱서를 사용하지 않는 행 인덱싱 
[]기호는 열 위주 인덱싱이 원칙 

### 1. 열인덱싱
1.열 라벨(컬럼명)을 키값으로 생각하고 인덱싱한다.
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환


### 판다스 데이터 프레임에 열이름(컬럼명)이 문자열일 경우에는
- 수치 인덱스를 사용할 수 없음
- 위치 인덱싱 기능을 사용할 수 없다. : keyerror 발생
- 행단위 인덱싱을 하고자 하면 인덱서라는 특수 기능을 사용하지 않는 경우 슬라이싱을 해야 함(인덱서는 바로 뒤에 배움)
- 인덱스 값이 문자(라벨)면 문자슬라이싱도 가능하다


### 2. 행 단위 인덱싱
행단위 인덱싱을 하고자 하면 인덱서라는 특수기능사용하지 않는 경우, 슬라이싱진행
- 개별요소접근[열][행]

#### 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱


In [1]:
import pandas as pd
import numpy as np

#### 행과 열을 동시에 인덱싱 하는 구조는 기본 자료구조 인덱스와 차이가 있음
- df['열']
- df[:'행'] 슬라이싱이 반드시 필요
- df['열'][:'행']


### 데이터 프레임에서 인덱서 사용
#### loc, iloc 속성을 사용하는 인덱싱
loc 인덱서 : 행우선 인덱서 
- df.loc[행인덱싱값] #행우선 인덱서
- df.loc[행인덱싱값,열인덱싱값]

인덱싱값 
1. 인덱스데이터(index name, column name)
2.인덱스 데이터 슬ㄹ라이스
3.같은 행 인덱스를 갖는 Boolean 시리즈(행인덱싱인 경우) 
    -조건으로 추출가능
4.위 값을 반환하는 함수

#### pandas 패키지는 [행번호][열번호] 인덱싱 불가
    - iloc 속성 사용하면 가능
        - iloc[행번호.열번호] - 가능
        - loc[행제목.열제목] -가능


In [None]:
loc