<a href="https://colab.research.google.com/github/vachkim/LECTURE/blob/master/PYTHON/Lec_PANDAS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## - 판다스
- 판다스의 데이터 구조인 시리즈와 데이터프레임에 대해 알아보자
- 판다스를 실행하기 전에는 import pandas를 해줘야 함을 기억하자

In [None]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame

In [None]:
print('pandas ver=',pd.__version__)
print('numpy ver=',np.__version__)

pandas ver= 1.0.5
numpy ver= 1.18.5


### 1) 시리즈
- 시리즈는 행과 열로 구성되어 있는 데이터프레임의 한 열이다
- 딕셔너리와 마찬가지로 key에 대한 value값으로 구성되어 있다


In [None]:
food = Series([1000,2000,3000],index=['coke','cookie','bread'])
#index를 지정하고, 그 아래에 들어갈 값을 적어주는 것
#딕셔너리를 먼저 제작하고 Series()를 이용해 시리즈로 변경하는 것도 가능
food

coke      1000
cookie    2000
bread     3000
dtype: int64

In [None]:
food.index #딕셔너리와 달리 key가 아니라 index로 호출된다

Index(['coke', 'cookie', 'bread'], dtype='object')

In [None]:
food.values

array([1000, 2000, 3000])

- Series와 Series의 Index에 이름을 붙여줄 수도 있다

In [None]:
food.name = 'FoodPrice'
food.index.name='Food'
food

Food
coke      1000
cookie    2000
bread     3000
Name: FoodPrice, dtype: int64

### 2) 데이터프레임
- 데이터프레임은 다수의 시리즈로 구성된 행과 열 형식의 데이터이다

- 딕셔너리를 데이터프레임으로 변환할 수 있다
- 데이터프레임을 만들 때, index와 column의 이름을 미리 지정하는 것이 가능하다
- index를 따로 지정해주지 않으면 순차적으로 0,1,2..이 부여된다

In [None]:
fruitData = {'fruitName':['peer','banana','apple','cherry'],
            'fruitPrice':[2500,3800,6000,1200],
            'num':[10,5,3,8]}
fruitName=fruitData['fruitName']
fruitFrame = DataFrame(fruitData,index=fruitName, columns =['num','fruitPrice'])
fruitFrame

Unnamed: 0,num,fruitPrice
peer,10,2500
banana,5,3800
apple,3,6000
cherry,8,1200


In [None]:
fruitFrame.index

Index(['peer', 'banana', 'apple', 'cherry'], dtype='object')

In [None]:
fruitFrame.values

array([[  10, 2500],
       [   5, 3800],
       [   3, 6000],
       [   8, 1200]])

- 데이터프레임에서 중요한 기능 중 하나는 칼럼명을 바탕으로 데이터를 반환하는 것이다
- 리스트를 사용하면 복수의 칼럼값을 가져올 수도 있다

In [None]:
fruitFrame['fruitPrice']

peer      2500
banana    3800
apple     6000
cherry    1200
Name: fruitPrice, dtype: int64

In [None]:
fruitFrame[['fruitPrice','num']]

Unnamed: 0,fruitPrice,num
peer,2500,10
banana,3800,5
apple,6000,3
cherry,1200,8


- 마찬가지로 칼럼명을 활용하면 새로운 데이터를 삽입하기도 쉽다

In [None]:
fruitFrame['favorite'] = [2,4,3,1] #새로 입력할 칼럼명 = 들어갈 데이터 순으로 입력하면 된다
fruitFrame

Unnamed: 0,num,fruitPrice,favorite
peer,10,2500,2
banana,5,3800,4
apple,3,6000,3
cherry,8,1200,1


- 값을 삭제할 때는 drop, del 두가지가 사용 가능하다
- drop의 장점은 일시적인 삭제가 가능하다는 것(inplace=False), del의 장점은 삭제가 쉽다

In [None]:
fruitFrame.drop('favorite',axis=1,inplace=True) #axis=1은 행이 아니라 열에서 데이터를 찾겠다는 의미 
fruitFrame
#위는 결국 del fruitFrame['favorite']와도 같다

Unnamed: 0,num,fruitPrice
peer,10,2500
banana,5,3800
apple,3,6000
cherry,8,1200


- 데이터프레임에서 데이터를 가공하는 법을 알기 위해 새로운 DF를 형성

In [None]:
Dates=pd.date_range('20200825',periods=6) #pd.date_range = date,time에 대한 index값 반환
Dates

DatetimeIndex(['2020-08-25', '2020-08-26', '2020-08-27', '2020-08-28',
               '2020-08-29', '2020-08-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
df=pd.DataFrame(np.random.randn(6,4),index=Dates,columns=['A','B','C','D']) #np.random.randn은 랜덤으로 숫자 부여
df

Unnamed: 0,A,B,C,D
2020-08-25,0.286475,0.777258,0.492491,-0.541807
2020-08-26,-1.533943,-0.865517,-0.231541,-0.413718
2020-08-27,1.221295,0.440102,1.643294,1.025714
2020-08-28,-0.368689,1.179057,0.515157,0.12622
2020-08-29,-0.054986,-1.204098,-0.067182,0.176934
2020-08-30,-0.743751,-0.349362,-0.570535,-0.111446


- 데이터프레임은 describe()를 통해 자체적으로 기본 통계값을 제공해준다
- 또한 info()를 사용하면 데이터프레임에 대한 대략의 정보를 얻을 수 있다

In [None]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.198933,-0.00376,0.296947,0.043649
std,0.936086,0.949625,0.782677,0.55947
min,-1.533943,-1.204098,-0.570535,-0.541807
25%,-0.649986,-0.736478,-0.190451,-0.33815
50%,-0.211837,0.04537,0.212655,0.007387
75%,0.20111,0.692969,0.509491,0.164255
max,1.221295,1.179057,1.643294,1.025714


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2020-08-25 to 2020-08-30
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       6 non-null      float64
 1   B       6 non-null      float64
 2   C       6 non-null      float64
 3   D       6 non-null      float64
dtypes: float64(4)
memory usage: 240.0 bytes


- 데이터프레임에서 특정 데이터를 반환하는 법을 알아보자
- 방법은 크게 행과 열을 기준으로 데이터를 반환하거나
- 데이터의 이름이나 인덱스를 기준으로 데이터를 반환하는 법으로 나뉜다

- 아래는 칼럼명을 바탕으로 데이터를 반환하는 법이다

In [None]:
df['A'] #간단하게 df.A로 해도 된다

2020-08-25    0.286475
2020-08-26   -1.533943
2020-08-27    1.221295
2020-08-28   -0.368689
2020-08-29   -0.054986
2020-08-30   -0.743751
Freq: D, Name: A, dtype: float64

- 아래는 행을 바탕으로 데이터를 반환하는 법이다
- 행은 : 를 활용해서 기준을 주어야한다

In [None]:
df['20200825':'20200826']

Unnamed: 0,A,B,C,D
2020-08-25,0.286475,0.777258,0.492491,-0.541807
2020-08-26,-1.533943,-0.865517,-0.231541,-0.413718


In [None]:
df[0:2]

Unnamed: 0,A,B,C,D
2020-08-25,0.286475,0.777258,0.492491,-0.541807
2020-08-26,-1.533943,-0.865517,-0.231541,-0.413718


In [None]:
df['A':'C'] 
#열은 :를 활용해서 데이터를 불러올 수 없다

- 기본 인덱스가 아니라 loc와 iloc를 이용할 수도 있다
- 이때 loc는 데이터의 이름을 기준으로 값을 출력, iloc는 데이터의 인덱스를 기준으로 값을 출력한다

In [None]:
df.loc['20200825':'20200827', ['A','C']] #df.loc[행에 대한 정보, 열에 대한 정보]
#df.loc[Dates[0:3],['A','C']]처럼 인덱스명을 제시하면 인덱스를 활용해 데이터를 반환할 수도 있다

Unnamed: 0,A,C
2020-08-25,0.286475,0.492491
2020-08-26,-1.533943,-0.231541
2020-08-27,1.221295,1.643294


In [None]:
df.iloc[3:5,0:2] #iloc는 loc와 달리 인덱스만 주면 된다

Unnamed: 0,A,B
2020-08-28,-0.368689,1.179057
2020-08-29,-0.054986,-1.204098


- 이제 특정 부분을 지정하는 것에서 더 나아가 조건에 맞는 값을 반환하는 법을 알아보자
- 조건을 확인하고 싶은 부분을 지정하고 조건을 연달아 써주면 된다

In [None]:
df[df.A>0] # A열의 값이 0 이상인 데이터셋을 출력한다

Unnamed: 0,A,B,C,D
2020-08-25,0.286475,0.777258,0.492491,-0.541807
2020-08-27,1.221295,0.440102,1.643294,1.025714
