## **Pandas**
* 데이터 전처리, 변수 생성, 데이터 변환
* 데이터는 시계열이거나 테이블 형태
* 시리즈와 데이터프레임 형태의 자료구조를 사용

### **Series, Data Frame**
* 시리즈는 배열 형식으로 정의되며, 인덱스와 값으로 구성됨
* 데이터 프레임은 시리즈의 집합으로 테이블 형태로 나타냄
* 데이터 프레임은 행 인덱스와 열 인덱스로 접근 가능함

In [1]:
!pip install pandas



In [2]:
import pandas as pd

## **Series 클래스**
* 데이터를 인덱스+value로 구성한 자료구조를 시리즈라고 한다.
* Dictionary 자료형을 활용 가능하다.

In [6]:
pd_sr = pd.Series([3,7,8,9])
print(pd_sr)
print('---------------------')
print('index:',pd_sr.index)
print('values:',pd_sr.values)

0    3
1    7
2    8
3    9
dtype: int64
---------------------
index: RangeIndex(start=0, stop=4, step=1)
values: [3 7 8 9]


## **인덱스 설정**

In [7]:
pd_sr = pd.Series([3,7,8,9],index=['a','b','c','d'])
print(pd_sr)

a    3
b    7
c    8
d    9
dtype: int64


## **Dictionary 자료구조 활용**

In [9]:
dc = {2016:'원숭이',2017:'닭',2018:'개',2019:'돼지',2020:'쥐',2021:'소'}
dc_sr=pd.Series(dc)
print(dc_sr)

2016    원숭이
2017      닭
2018      개
2019     돼지
2020      쥐
2021      소
dtype: object


## **Series의 이름 지정 및 index name지정**

In [10]:
dc_sr.name = 'korean_years'
dc_sr.index.name='years'
print(dc_sr)

years
2016    원숭이
2017      닭
2018      개
2019     돼지
2020      쥐
2021      소
Name: korean_years, dtype: object


## **Series 연산**

In [13]:
pd_sr = pd.Series([3,7,8,9])
print("Series 곱:\n", pd_sr*pd_sr)
print('----------------------')
print("Series 합:\n", pd_sr+pd_sr)
print('----------------------')
print("Series 연산:\n", pd_sr-2*pd_sr)

Series 곱:
 0     9
1    49
2    64
3    81
dtype: int64
----------------------
Series 합:
 0     6
1    14
2    16
3    18
dtype: int64
----------------------
Series 연산:
 0   -3
1   -7
2   -8
3   -9
dtype: int64


## **Series 인덱스**

In [16]:
city_pop = pd.Series([1142,3726,8812],index=['강원','경기','서울'])
print(city_pop)
print('----------------')
print('인덱스 순서:', city_pop[0], ', 인덱스 값:' , city_pop['강원'])

강원    1142
경기    3726
서울    8812
dtype: int64
----------------
인덱스 순서: 1142 , 인덱스 값: 1142


  print('인덱스 순서:', city_pop[0], ', 인덱스 값:' , city_pop['강원'])


## **인덱스를 통한 데이터 전처리**

In [17]:
city_pop['강원'] = 10988
print(city_pop)

강원    10988
경기     3726
서울     8812
dtype: int64


In [19]:
del city_pop['서울']
print(city_pop)

강원    10988
경기     3726
dtype: int64


## **데이터 프레임**
* Series가 1차원의 벡터 집합이라면, Data Frame은 여러 Series의 집합이다.
* Data Frame은 행 인덱스와 열 인덱스 모두를 지정한다.
* 2차원 배열의 속성과 함수를 지원한다. 

In [22]:
dc = {
    'name': ['kim','park','lee','choi'],
    'score':[73,99,82,45],
    'grade': ['C','A','B','F']
}
df_score=pd.DataFrame(dc)
df_score

Unnamed: 0,name,score,grade
0,kim,73,C
1,park,99,A
2,lee,82,B
3,choi,45,F


## **DF의 컬럼 추가**

df_score.columns

In [26]:
df_score['answer']=['Y','N','N','Y']
df_score

Unnamed: 0,name,score,grade,answer
0,kim,73,C,Y
1,park,99,A,N
2,lee,82,B,N
3,choi,45,F,Y


In [28]:
#빈컬럼 생성
df_score['aaa']=''
df_score

Unnamed: 0,name,score,grade,answer,aaa
0,kim,73,C,Y,
1,park,99,A,N,
2,lee,82,B,N,
3,choi,45,F,Y,


## **특정 컬럼만 조회**

In [29]:
df_score[['name']]

Unnamed: 0,name
0,kim
1,park
2,lee
3,choi


## **특정 Column의 값 변경**

In [30]:
df_score['score']=100
df_score

Unnamed: 0,name,score,grade,answer,aaa
0,kim,100,C,Y,
1,park,100,A,N,
2,lee,100,B,N,
3,choi,100,F,Y,


## **컬럼 삭제**

In [32]:
del df_score['grade']
df_score

Unnamed: 0,name,score,answer,aaa
0,kim,100,Y,
1,park,100,N,
2,lee,100,N,
3,choi,100,Y,


## **numpy와 df연계**

In [34]:
import numpy as np

In [35]:
df_score['number'] = np.mean(df_score['score'])
df_score

Unnamed: 0,name,score,answer,aaa,number
0,kim,100,Y,,100.0
1,park,100,N,,100.0
2,lee,100,N,,100.0
3,choi,100,Y,,100.0


In [36]:
df_score['new_column']=pd.Series(['good','good','bad'],index=[0,2,3])
df_score

Unnamed: 0,name,score,answer,aaa,number,new_column
0,kim,100,Y,,100.0,good
1,park,100,N,,100.0,
2,lee,100,N,,100.0,good
3,choi,100,Y,,100.0,bad
