![](./dataframe.png)


- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame : spreadsheet와 같은 개념

- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부름

- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같다

- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됨


### 데이터 프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터 프레임 에서 유래
- 데이프레임의 각 열은 시리즈로 구성되어 있음
- DataFrame()함수를 사용해서 생성


![data_type](./pandas_files.png)

## 데이터프레임 생성

#### 리스트로 데이터 프레임 만들기

- DataFrame([[list1],[list2]]) 
- 각 list는 한 행으로 구성됨
- 행의 원소 개수가 다르면 None 값으로 저장

In [21]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all" 
import pandas as pd
import numpy as np

In [25]:
#1차원 리스트를 이용해서 df 생성 = 원소가 각 행으로 매핑됨
df = pd.DataFrame(['a','b','c'])
df
#2차원 리스트를 이용해서 df생성 - 하위리스트가 각 행으로 매핑됨
df=pd.DataFrame([['a','b','c'],['a','a','g']])
df

Unnamed: 0,0
0,a
1,b
2,c


Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g


In [26]:
#하위 리스트의 원소의 개수가 서로 다른경우 -> 빈공간에 None값을 저장

df = pd.DataFrame([['a','b','c'],['a','a','g'],['a','a']])
df

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,a,


### 딕셔너리로 데이터 프레임 생성
- dict의 key => column name
- dict item은 => 데이터프레임의 column으로 정의

In [27]:
df1= pd.DataFrame({'A':[90,80,70],
                   'B':[85,98,75],
                   'C':[88,99,77],                   
                   'D':[87,89,86]},
                 index=[0,1,2])
df1

Unnamed: 0,A,B,C,D
0,90,85,88,87
1,80,98,99,89
2,70,75,77,86


In [28]:
#df의 값을 위한 dict
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2000002],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982,0.0141]
}

#열방향 인덱스(컬럼명) columns=
columns = ['지역','2015','2010','2005','2000','2010-2015 증가율']

#행방향 인덱스 index =
index=['서울','부산','인천','대구']

#pd.DataFrame(데이터, index=, columns=) 이런 구조로 만든다
df3 = pd.DataFrame(data,index=index,columns=columns)
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


### 시리즈로 데이터 프레임 생성
- pd.DataFrame(시리즈): 시리즈를 열로 정의 -> 1개의 시리즈가 전달됨
- 여러개의 시리즈를 이용해서 데이터 프레임 생성: 리스트로 묶어서 전달
    - pd.DataFrame([시리즈1,시리즈2,...]) : 리스트 원소 시리즈가 한행으로 정의
    - 시리즈의 인덱스 => 컬럼명

In [29]:
a = pd.Series([100, 200, 300], ['a', 'b', 'd'])
b = pd.Series([101, 201, 301], ['a', 'b', 'k'])
c = pd.Series([110, 210, 310], ['a', 'b', 'c'])

In [35]:
pd.DataFrame(a)
pd.DataFrame([a])

Unnamed: 0,0
a,100
b,200
d,300


Unnamed: 0,a,b,d
0,100,200,300


In [36]:
pd.DataFrame([a,b,c]) #결측치는 NaN으로 생성됨

Unnamed: 0,a,b,d,k,c
0,100.0,200.0,300.0,,
1,101.0,201.0,,301.0,
2,110.0,210.0,,,310.0


#### csv 데이터로 부터 Dataframe 생성
 - 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법
 - 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성
 - pandas.read_csv() 함수 사용


In [77]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('../Data/train.csv')
print(train_data.shape)   # 몇행 몇열인지 알려준다.
train_data.head() #숫자만큼 출력  , 숫자를 입력하지 않을시 5개가 디폴트
train_data.tail()

(891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [78]:
train_data.info() ## 꼭 전체 데이터의 현황을 좀 보고가야함 , null값이 너무 많으면 데이터로서 의미가 없음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### read_csv 함수 파라미터
 - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 
 - header - header를 무시할 경우, None 설정
 - index_col - index로 사용할 column 설정
 - usecols - 실제로 dataframe에 로딩할 columns만 설정

In [49]:
train_data = pd.read_csv('../Data/train.csv',index_col = 'PassengerId',usecols=['PassengerId', 'Survived', 'Pclass', 'Name'])
train_data

Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,1,3,"Heikkinen, Miss. Laina"
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,0,3,"Allen, Mr. William Henry"
...,...,...,...
887,0,2,"Montvila, Rev. Juozas"
888,1,1,"Graham, Miss. Margaret Edith"
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie"""
890,1,1,"Behr, Mr. Karl Howell"


In [51]:
train_data.columns
train_data.index

Index(['Survived', 'Pclass', 'Name'], dtype='object')

Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            882, 883, 884, 885, 886, 887, 888, 889, 890, 891],
           dtype='int64', name='PassengerId', length=891)

#### 인덱스와 컬럼의 이해

1. 인덱스(index)
 - index 속성
 - 각 아이템을 특정할 수 있는 고유의 값을 저장
 - 복잡한 데이터의 경우, 멀티 인덱스로 표현 가능
 
 
2. 컬럼(column)
 - columns 속성
 - 각각의 특성(feature)을 나타냄
 - 복잡한 데이터의 경우, 멀티 컬럼으로 표현 가능


In [52]:
df3

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [53]:
#df의 컬럼(열 인덱스)명 확인
df3.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [54]:
df3.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

#### 행/열 인덱스 이름설정
    - index.name
    - columns.name

In [55]:
df3.index.name = '도시'
df3.columns.name = '특성'
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2000002,2456016,2473990,0.0141


In [59]:
#df프레임의 data값만 추출하려면, values 속성사용
df3.values #np.array 형태
df3.values[0]
df3.values[0][0]

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2000002, 2456016, 2473990, 0.0141]], dtype=object)

array(['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283], dtype=object)

'수도권'

### dataframe 데이터 파악하기
    - shpae 속성( row, columns)
    - describe 함수: 숫자형 데이터의 통계치 계산
    - infor 함수: 데이터 타입, 각 아이템의 개수 등 간략한 정보 출력

In [62]:
#data 전체 양 확인
df3.shape
#data 개요정보 출력
df.info

(4, 6)

<bound method DataFrame.info of    0  1     2
0  a  b     c
1  a  a     g
2  a  a  None>

In [73]:
#판다스 실수 출력 형식 변경코드
pd.reset_option('display.float_format') #지수형태 (이게 디폴트임)
pd.options.display.float_format = '{:.2f}'.format #실수형태

In [74]:
# dataframe의 기본 통계량 출력 -> df.describe()
df3
df3.describe()

#std는 표준편차다.

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.03
부산,경상권,3448737,3393191,3512547,3655437,0.02
인천,수도권,2890451,2632035,2517680,2466338,0.1
대구,경상권,2466052,2000002,2456016,2473990,0.01


특성,2015,2010,2005,2000,2010-2015 증가율
count,4.0,4.0,4.0,4.0,4.0
mean,4677388.0,4414177.5,4562197.25,4612434.25,0.04
std,3507775.58,3524530.93,3500544.86,3538749.06,0.04
min,2466052.0,2000002.0,2456016.0,2466338.0,0.01
25%,2784351.25,2474026.75,2502264.0,2472077.0,0.02
50%,3169594.0,3012613.0,3015113.5,3064713.5,0.02
75%,5062630.75,4952763.75,5075046.75,5205070.75,0.05
max,9904312.0,9631482.0,9762546.0,9853972.0,0.1


### 데이터프레임 전치
- 판다스 데이터 프레임은 전치를 포함해서 numpy 2차원 배열에서 사용할 수 있는 속성이나 메서드를 대부분 지원함
- 전치: 행과 열을 바꿈
        - 관련 속성: df.T

In [82]:
df3
df3.T #원본 데이터를 변경하지는 않는다, 이 표를 쓰고싶다면 새로운 변수에 저장해야함

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.03
부산,경상권,3448737,3393191,3512547,3655437,0.02
인천,수도권,2890451,2632035,2517680,2466338,0.1
대구,경상권,2466052,2000002,2456016,2473990,0.01


도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2000002
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.03,0.02,0.10,0.01


In [83]:
#df3 전치
df3.T['서울'] #데이터 타입이 OBJECT로 바뀌었다

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율       0.03
Name: 서울, dtype: object

### 데이터 프레임 내용 변경:
- 열 추가/ 열 삭제/ 내용갱신

In [84]:
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.03
부산,경상권,3448737,3393191,3512547,3655437,0.02
인천,수도권,2890451,2632035,2517680,2466338,0.1
대구,경상권,2466052,2000002,2456016,2473990,0.01


### 해당열이 있으면 내용 갱신, 열이 없으면 추가
- 열추가 : df[열이름(key)]=values
- 열 내용 갱신 : df[열이름(key)]=values

In [109]:
#열 내용 갱신
#2010~2015 증가율을 변경해보자.
df3['2010-2015 증가율'] = df3['2010-2015 증가율']/100 #열에 접근해서 값 대입
df3

In [101]:
#새로운 열 추가
df3['2005-2015 증가율'] = ((df3['2015']-df3['2005'])/df3['2005']*100).round(2)
df3

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,1.45
부산,경상권,3448737,3393191,3512547,3655437,1.63,-1.82
인천,수도권,2890451,2632035,2517680,2466338,9.82,14.81
대구,경상권,2466052,2000002,2456016,2473990,1.41,0.41


In [106]:
del df3['2010-2015 증가율'] #원본에 반영이 되는 명령어, 없는 열 삭제하면 오류나게될거야

In [105]:
df3

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


### 데이터 프레임 기본 인덱싱
1. 열인덱싱
2. 인덱서를 사용하지않는 행 인덱싱
- []기호를 이용해서 인덱싱할때 주의점 : []기호는 열 위주 인덱싱이 원칙




### 1. 열인덱싱
1.열 라벨(컬럼명)을 키값으로 생각하고 인덱싱한다.
- 인덱스로 라벨값을 하나 넣으면 시리즈 객체가 반환
- 라벨의 배열이나 리스트를 넣으면 부분적 df 가 반환


In [116]:
df3

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [112]:
#인덱스로 라벨 값 1개를 사용
df3['지역'] #시리즈 형태로 반환

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [115]:
#열 1개 접근할때는 . 연산자 사용가능 :df.컬럼명
df3.지역 #시리즈 형태로 반환

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [121]:
#열을 추출할때 데이터 프레임으로 반환받고자 하면, 컬럼명을 리스트 형태로 사용
df3[['지역']]
#여러개의 열을 추출 = [] 리스트 사용]
df3[['2010','2015']]

특성,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2000002,2466052


### 판다스 데이터 프레임에 열이름(컬럼명)이 문자열일 경우에는
- 수치 인덱스를 사용할 수 없음
- 위치 인덱싱 기능을 사용할 수 없다. : keyerror 발생


In [122]:
try:
    df3[0]
except Exception as e :
    print(type(e))

<class 'KeyError'>


- 위치 인덱싱 처럼 보이는 에제

In [126]:
np.arange(12)
reshape= np.arange(12).reshape(3,4) # np.adarray.reshpae(행,열) -> 요소의 배치를 변경

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [127]:
df5 = pd.DataFrame(reshape)
df5

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [130]:
df5[[1,2]] #위치 인덱싱이 아닌 컬럼명이 숫자로 되어있는 df의 인덱싱
#된 것처럼 보이지만, 그냥 int형태라 읽어올 수 있는 것 뿐 위치 인덱싱은 아님
#즉 df5[[0:3]] 이런식으로 슬라이싱 할 수 없음.

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


# 행단위 인덱싱 
- 행단위 인덱싱을 하고자 하면 인덱서라는 특수 기능을 사용하지 않는 경우 슬라이싱을 해야 함(인덱서는 바로 뒤에 배움)
- 인덱스 값이 문자(라벨)면 문자슬라이싱도 가능하다


In [131]:
df3

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81
대구,경상권,2466052,2000002,2456016,2473990,0.41


In [133]:
#1god cncnf [:1] -> 슬라이싱 사용
df3[:1]

df3[1:3] #[시작위치 : 끝위치 +1]
#1~2번행 추출

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45


특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81


In [137]:
df3['서울':'인천'] # 행인덱스 서울 부터, 부산까지 추출

특성,지역,2015,2010,2005,2000,2005-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,1.45
부산,경상권,3448737,3393191,3512547,3655437,-1.82
인천,수도권,2890451,2632035,2517680,2466338,14.81


- 개별 요소 접근 [열][행] 
- 이차원 배열 요소 접근과 비슷함

In [139]:
df3['2015']['서울']
type(df3['2015']['서울'])

9904312

numpy.int64