# 데이터프레임

![day_type](./dataframe.png)


- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame : spreadsheet와 같은 개념

- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부름

- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같다

- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨


### 데이터 프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임 에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음 : 각 열의 데이터 타입은 동일해야 한다
- DataFrame()함수를 사용해서 생성


![day_type](./pandas_files.png)

# 데이터프레임 생성

#### 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장


In [46]:
import pandas as pd
import numpy as np

In [47]:
# 1차원 리스트를 이용해서 df 생성
df = pd.DataFrame(['a','b','c'])
print(df)
# 2차원 리스트를 이용해서 df 생성 - 하위리스트가 각 행으로 매핑
df = pd.DataFrame([['a','b','c'],['a','a','g']])
df

   0
0  a
1  b
2  c


Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g


In [48]:
# 하위리스트의 원소의 개수가 서로 다른 경우 - None 값을 저장
df = pd.DataFrame([['a','b','c'],['a','a','g'],['a','a']])
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,a,


### 딕셔너리로 데이터 프레임 생성
- dict의 key -> colum name

In [49]:
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]},
                 index=[0,1,2])
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [50]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

#열방향 인덱스(컬럼명) columns=
columns = ['지역','2015','2010','2005','2000','2010-2015 증가율']

#행방향 인덱스 index =
index=['서울','부산','인천','대구']

# pd.DataFrame(데이터, index=, columns= )

df3 = pd.DataFrame(data, index = index, columns = columns)
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 시리즈로 데이터 프레임 생성
- pd.DataFrame(시리즈) : 시리즈를  열로 정의 - 1개의 시리즈가 전달
-  여러개의 시리즈를 이용해서 데이터 프레임 생성 : 리슽으로 묶어서 전달
    - pd.DataFrame([시리즈1, 시리즈2, ...] ): 리스트 원소 시리즈 1개가 한 행으로 정리
    

In [51]:
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

In [52]:
print(pd.DataFrame(a))  # 시리즈를 열로 정의 -. 1개의 시리즈가 전달
pd.DataFrame([a])      # 리스트 원소 시리즈 1개가 한 행으로 정의

     0
a  100
b  200
d  300


Unnamed: 0,a,b,d
0,100,200,300


In [53]:
pd.DataFrame([a,b,c])

Unnamed: 0,a,b,d,k,c
0,100.0,200.0,300.0,,
1,101.0,201.0,,301.0,
2,110.0,210.0,,,310.0


#### csv 데이터로 부터 Dataframe 생성
 - 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
 - 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
 - pandas.read_csv 함수 사용


In [54]:
# # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('C:/DataScience/data/train.csv')
print(train_data.shape)
train_data.head() # df의 처음 5행을 출력
train_data.head(10) # df의 처음 10행을 출력
train_data.tail() # 마지막 5행을 출력



FileNotFoundError: [Errno 2] No such file or directory: 'C:/DataScience/data/train.csv'

In [None]:
train_data.info()

#### read_csv 함수 파라미터
 - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
 - header - header를 무시할 경우, None 설정
 - index_col - index로 사용할 column 설정
 - usecols - 실제로 dataframe에 로딩할 columns만 설정


In [None]:
train_data = pd.read_csv('c:/DataScience/data/train.csv', 
                         index_col = 'PassengerId',
                        usecols=['PassengerId', 'Survived', 'Pclass', 'Name'])
train_data


In [None]:
train_data.columns

In [None]:
train_data.index

#### 인덱스와 컬럼의 이해

1. 인덱스(index)
 - index 속성
 - 각 아이템을 특정할 수 있는 고유의 값을 저장
 - 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
 
2. 컬럼(column)
 - columns 속성
 - 각각의 특성(feature)을 나타냄
 - 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능


In [None]:
df3

In [None]:
# df의 컬럼명(열 인덱스)확인 - columns 속성
df3.columns

In [None]:
# df의 인덱스 (행 인덱스) 확인 - index 속성
df3.index

### 행/열 인덱스 이름 설정
- index.name
- columns.name

In [None]:
df3.index.name = '도시'
df3.columns.name = '특성'
df3

In [None]:
#  df프레임의 data 값만 추출하려면 values 속성 사용
df3.values # np.array 형태
df3.values[0]

### dataframe 데이터 파악하기
- shape 속성 (row, column)
 - describe 함수 - 숫자형 데이터의 통계치 계산
 - info 함수 - 데이터 타입, 각 아이템의 개수 등 출력


In [None]:
# data 전체 양 확인 - df.shape : (row,column)
df3
df3.shape


In [None]:
# dataframe의 개요 정보 출력
df3.info

In [None]:
# pandas 실수 출력 형식 변경 코드
pd.options.display.float_format = '{:.2f}'.format # 일반 실수 표현

In [None]:
# DataFrame의 기본 통계량 출력 - df.describe()
df3.describe()

In [None]:
pd.reset_option('display.float_format') # 기본 형태 출력(지수표현)


In [None]:
train_data.info()

### 데이터 프레임 전치
- 판다스 데이터 프레임은 전치를 포함해서 Numpy 2차원 배열에서 사용할 수 있는 속성이나 메서드를 대부분 지원함
- 전치 : 행과 열을 바꿈
        - 관련 속성 :  df.T

In [None]:
print(type(df.T))
df3.T # 원본데이터에 반영되지 않는다.

In [None]:
# df3 전치
df3.T['서울'] # dtype : object


### 데이터프레임 내용 변겅 :
- 열추가, 열삭제, 내용갱신

In [None]:
df3

### 해당열이 있으면 내용 갱신, 열이 없으면 추가
- 열추가 : df[열이름(key)]=values
- 열 내용 갱신 : df[열이름(key)]=values


In [None]:
# 열 내용 갱신
# 2010-2015 증가율 변경
#df3['2010-2015 증가율'] = 
df3['2010-2015 증가율'] * 100

In [None]:
# 새로운 열 추가
df3['2005-2015 증가율'] =((df3['2015']-df3['2005'])/df3['2005'] * 100).round(2)


In [None]:
df3


In [None]:
del df3['2010-2015 증가율'] # 원본 반영되기 때문에 두 번 이상 실행하면 에러 발생
df3

## 데이터프레임 기본 인덱싱
1. 열인덱싱
2. 인덱서를 사용하지 않는 행기준 인덱싱
- []기호를 이용해서 인덱싱할때 주의점 : []기호는 열 위주 인덱싱이 원칙


In [55]:
# 사용예제
df3
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 1. 열인덱싱
1.열 라벨(컬럼명)을 키값으로 생각하고 인덱싱한다.
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환


In [60]:
# 인덱스로 라벨 값 1개 사용 - 열 위주 인덱싱
df3
print(type(df3['지역'])) # 시리즈 형태 반환

df3['지역']

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


<class 'pandas.core.series.Series'>


서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [61]:
# 열 1개 접근할때는 . 연산자 사용 가능 : df.컬럼명
df3.지역 # 시리즈 형태 반환

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [62]:
# 열 추출할때 데이터프레임으로 반환받고자 하면 컬럼명을 리스트 형태로 사용
print(type(df3[['지역']]))
df3[['지역']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,지역
서울,수도권
부산,경상권
인천,수도권
대구,경상권


In [63]:
# 여러개의 열을 추출 - [] 리스트 사용
df3[['2010','2015']]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2000002,2466052


### 판다스 데이터 프레임에 열이름(컬럼명)이 문자열일 경우에는
- 수치 인덱스를 사용할 수 없음
- 위치 인덱싱 기능을 사용할 수 없다. : keyerror 발생


In [67]:

try :
    df3[0]
except Exception as e :
    print(type(e))

<class 'KeyError'>


In [68]:
np.arange(12)
np.arange(12).reshape(3,4)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [69]:
df5 = pd.DataFrame(np.arange(12).reshape(3,4))
df5

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [70]:
df5[[1,2]]   # 위치 인덱싱이 아닌 컬럼명이 숫자로 되어 있는 df의 인덱싱

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [None]:
# df5[[0:3]]
#  File "<ipython-input-143-0be15341c5be>", line 1
#     df5[[0:3]]
#           ^
# SyntaxError: invalid syntax

## 행 단위 인덱싱
- 행단위 인덱싱을 하고자 하면 인덱서라는 특수 기능을 사용하지 않는 경우 슬라이싱을 해야 함(인덱서는 바로 뒤에 배움)
- 인덱스 값이 문자(라벨)면 문자슬라이싱도 가능하다


In [71]:
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [72]:
# 1 행 추출 [:-1] - 슬라이싱 사용
df3[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [74]:
df3[1:3] #[시작위치 : 끝위치 + 1]


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982


In [75]:
df3['서울':'부산'] # 행인덱스 서울부터 부산까지 추출

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163


- 개별요소 접근[열]

In [76]:
df3['2015']['서울']

9904312

In [77]:
type(df3['2015']['서울'])

numpy.int64