# Pandas란
- "관계형" 또는 "레이블이 된" 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었고 빠르고, 유연한 데이터 구조를 제공하는 Python 패키지
- 참고사이트(https://pandas.pydata.org)

In [2]:
import pandas as pd

## 1. 데이터 생성하기
- 1차원 데이터: pd.Series(시퀀스객체)
- 2차원 데이터 : pd.DataFrame(data)

### 1.1 Series
- 세로축 라벨 : index
- 입력한 시퀀스 데이터 : values
- 시리즈 이름설정 : a.name = '이름'

In [8]:
# Serise 생성
a = pd.Series(['a','b','c',1,2,3])
a

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [9]:
type(a)

pandas.core.series.Series

In [10]:
# index, values 확인
print(a.index)
print(a.values)

RangeIndex(start=0, stop=6, step=1)
['a' 'b' 'c' 1 2 3]


In [12]:
# 딕셔너리를 이용해 Serise 생성
data = {'Ohio':3500, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
a = pd.Series(data)
a

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [14]:
# nan데이터 만들기 
# nan데이터는 float의 형식
import numpy as np
a = pd.Series([np.nan,1,2,3])
a

0    NaN
1    1.0
2    2.0
3    3.0
dtype: float64

In [16]:
# 데이터 이름 생성
a.name = "nandata"
a

0    NaN
1    1.0
2    2.0
3    3.0
Name: nandata, dtype: float64

#### 1.1.1 날짜 자동생성하기
- pd.date_ranfe(start=시작날짜 , end=끝날짜, periodes=생성기간, freq=생성주기 )
- end 와 periods는 둘중에 하나만 있어도 됨
- freq 옵션 (D : 하루주기, W : 일주일주기, M : 한달주기, H:한시간주기)

In [13]:
pd.date_range(start='2019-01-01',periods=4)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04'], dtype='datetime64[ns]', freq='D')

In [18]:
pd.date_range(start='2019-01-01',end='2019-01-05')

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05'],
              dtype='datetime64[ns]', freq='D')

In [20]:
pd.date_range(start='2019-01-01',end='2019-01-05',periods= 3)

DatetimeIndex(['2019-01-01', '2019-01-03', '2019-01-05'], dtype='datetime64[ns]', freq=None)

### 1.2 DataFrame
- data에는 리스트, 딕셔너리, array, serise, DataFrame의 타입을 넣을 수 있음
- 세로축 라벨 : index
- 가로축 라벨 : columns
- 인덱스의 이름을 지정 : df.index.name = '이름'
- 컬럼의 이름을 지정 : df.columns.name = '이름'

In [29]:
# 인덱스, 컬럼 기본값으로
data = [1,2,3,4,5]
pd.DataFrame(data)

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [34]:
# 인덱스와 컬럼 설정
data = [1,2],[3,4],[5,6]
idx = ['a','b','c']
col = ['x','y']
pd.DataFrame(data, index=idx, columns=col)

Unnamed: 0,x,y
a,1,2
b,3,4
c,5,6


In [38]:
# 딕셔너리를 이용해서 df만들기
data = {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year' : [2000, 2001, 2002, 2001, 2002, 2003],
        'pop' : [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]    
        }

df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [60]:
# index, columns, values 확인
print(df.index)
print(df.columns)
print(df.values)

RangeIndex(start=0, stop=3, step=1)
Index(['a', 'b', 'c', 'd'], dtype='object')
[[10 40 70  1]
 [20 50 80  2]
 [30 60 90  3]]


In [33]:
# 인덱스에 이름 설정
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])

df.index.name='이름'
df.columns.name = '특징'
df

특징,나이,성별,학교
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
준서,15,남,덕영중
예은,17,여,수리중


## 2. 데이터 연산
- numpy의 연산과 같은 형태
- 데이터의 크기가 서로 달라도 연산이 가능 -> 연산을 할 수 있는 항목만 연산을 실시
- axis의 개념 (axis = 0 : 열별로 연산을 실시, axis = 1 : 행별로 연산을 실시 / 기본값 : axis = 0)
- describe() 를 사용하면 통계값을 한번에 확인가능

In [57]:
# Series연산
s1 = pd.Series([1,2,3,4])
s2 = pd.Series([10,20,30,40,50])
s1+s2

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [58]:
#Dataframe 연산
df1 = pd.DataFrame({'a' : [1,2,3],
                   'b':[4,5,6]})
df2 = pd.DataFrame({'a':[10,20],
                   'b':[40,50]})
df1+df2

Unnamed: 0,a,b
0,11.0,44.0
1,22.0,55.0
2,,


In [53]:
df = pd.DataFrame({'a':[10,20,30],
                   'b':[40,50,60],
                  'c':[70,80,90],
                  'd':[1,2,3]})
df

Unnamed: 0,a,b,c,d
0,10,40,70,1
1,20,50,80,2
2,30,60,90,3


In [50]:
#dataframe 통계값 열축에 따라 구하기
df.mean(axis = 0)

a    20.0
b    50.0
c    80.0
d     2.0
dtype: float64

In [51]:
#dataframe 통계값 행축에 따라 구하기
df.mean(axis=1)

0    30.25
1    38.00
2    45.75
dtype: float64

In [59]:
#dataframe 통계값 한번에 보기
df.describe()

Unnamed: 0,a,b,c,d
count,3.0,3.0,3.0,3.0
mean,20.0,50.0,80.0,2.0
std,10.0,10.0,10.0,1.0
min,10.0,40.0,70.0,1.0
25%,15.0,45.0,75.0,1.5
50%,20.0,50.0,80.0,2.0
75%,25.0,55.0,85.0,2.5
max,30.0,60.0,90.0,3.0


## 3. 데이터 색인하기 

### 3.1 Series 데이터 색인

In [72]:
data = {'Ohio':3500, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
s = pd.Series(data)
s

Ohio       3500
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [74]:
# Texas~ Oregon 까지 색인하기
s[1:3]

Texas     71000
Oregon    16000
dtype: int64

In [80]:
# 인덱스 이름으로 색인하기
s[['Ohio', 'Utah']]

Ohio    3500
Utah    5000
dtype: int64

### 3.2 dataframe 데이터 색인 및 추가
1. index 에 따른 색인
    - df[인덱스 시작위치 : 인덱스 끝위치]
    - df.loc[시작 인덱스 이름 : 끝 인덱스 이름]
2. columns에 따른 색인
    - df[시작 컬럼이름: 시작 컬럼이름]
3. 데이터 추가
    - 새로운 컬럼추가 : df['새로운컬럼'] = data
    - 새로운 인덱스 추가 : df.loc['새로운인덱스'] = data

In [41]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [62]:
# 준서와 관련된정보 색인
df.loc['준서']

나이     15
성별      남
학교    덕영중
Name: 준서, dtype: object

In [64]:
# 준서와 관련된정보 색인
df[0:1]

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중


In [66]:
#학교, 성별과 관련된 정보 색인
df[['성별','학교']]

Unnamed: 0,성별,학교
준서,남,덕영중
예은,여,수리중


In [44]:
# 컬럼(수학점수)추가 준서 : 90점, 영희 : 97점
df['수학점수'] = [90,97]
df

Unnamed: 0,나이,성별,학교,수학점수
준서,15,남,덕영중,90
예은,17,여,수리중,97


In [45]:
# 인덱스(인아) , 16/여/덕수중/80점
df.loc['인아'] = [16,'여','덕수중',80]
df

Unnamed: 0,나이,성별,학교,수학점수
준서,15,남,덕영중,90
예은,17,여,수리중,97
인아,16,여,덕수중,80


### 3.3 데이터프레임 전치시키기
- df.T

In [82]:
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [83]:
df.T

Unnamed: 0,준서,예은
나이,15,17
성별,남,여
학교,덕영중,수리중


### 3.4 색인을 이용해 데이터 변환

In [47]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [48]:
# 준서의 나이 -> 19, 학교 -> 덕영고
df.loc['준서','나이'] = 19
df.loc['준서','학교'] = '덕영고'
df

Unnamed: 0,나이,성별,학교
준서,19,남,덕영고
예은,17,여,수리중


In [49]:
# 인덱스를 학생1, 학생2로 변경
df.index = ['학생1','학생2']
df

Unnamed: 0,나이,성별,학교
학생1,19,남,덕영고
학생2,17,여,수리중


In [54]:
# 컬럼을 정보1,정보2,정보3으로 변경
df.columns =['정보1','정보2','정보3']
df

Unnamed: 0,정보1,정보2,정보3
학생1,19,남,덕영고
학생2,17,여,수리중


## 4. 데이터 읽기 및 저장하기
- csv형식 데이터 읽기 : pd.read_csv('파일명')
- csv형식 데이터 저장 : df.to_csv('파일명')

1. 데이터 읽기 옵션 
    - 한글이 포함된 데이터 : encoding = 'cp949'
    - 구분자를 이용해 구분 : sep = '구분자'
    - 컬럼값을 인덱스로 지정 : index_col='컬럼명'