<a href="https://colab.research.google.com/github/tkd8973/CodingTest/blob/main/Pandas_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

## Series


* 시계열과 표로 나타내기 위한 Module로, 시리즈(Series), 데이터프레임(Data Frame) 클래스를 제공
* 시리즈(Series)는 1차원 배열과 비슷하고, 각 데이터에 Labeling 가능
- Series의 데이터와 index의 길이는 같아야 하고, index를 Label 이라고도 한다 Label에는 문자열, 숫자, 등 모두 가능

In [None]:
import pandas as pd

data = [2002,4102,4200,7000]
index = ['서울','대구','대전','인터넷']

s=pd.Series(data,index=index)
s

서울     2002
대구     4102
대전     4200
인터넷    7000
dtype: int64

- Series의 인덱스는 Series.index 로 접근 가능
- Series의 value는 Series.values 로 접근 가능

In [None]:
s.index, s.values

Series는 넘파이 배열과 같이 벡터화 연산이 가능하며 인덱스는 변화하지 않음


In [None]:
s/1000

### Indexing & **Slicing**

In [None]:
print(s[1])
print('------------')
print(s['대전'])
print('------------')
print(s['서울':'대전'])    # 대전 포함
print('------------')
print(s[[0,3,1]])
print('------------')
print(s[s>5000])


- Numpy에서와 같은 방법과, Label을 이용한 인덱싱도 가능

In [None]:
s[0 : 3] # index 2 까지 
s['서울':'인터넷']  # 인터넷을 포함 

### Series와 Dictionary

- Label로 indexing이 가능하기 때문에 딕셔너리 자료형과 유사하다. 따라서 in, items 등의 for루프 가능


In [None]:
print('서울' in s)
print('천안' not in s)

for k,v in s.items():
    print("{k}={v}".format(k=k,v=v))
    print(f'{k}={v}')
    print('%s=%d' %(k,v))

True
True
서울=2002
서울=2002
서울=2002
대구=4102
대구=4102
대구=4102
대전=4200
대전=4200
대전=4200
인터넷=7000
인터넷=7000
인터넷=7000


- Series는 Dictionry 자료형으로 생성이 가능

In [None]:
s2 = pd.Series({'서울' : 9412534,
               '부산' : 1239592,
               '대전' : 8423293,
               '대구' : 1235992})
s2

서울    9412534
부산    1239592
대전    8423293
대구    1235992
dtype: int64

### 인덱스 기반 연산

- 두 시리즈를 연산할 경우, 동일한 인덱스(Label)를 가진 곳 에서만 진행

In [None]:
ds = s2-s
ds

대구     1231890.0
대전     8419093.0
부산           NaN
서울     9410532.0
인터넷          NaN
dtype: float64

- 시리즈에서 Nan을 알아보고 싶으면 아래 명령어를 사용

In [None]:
print(ds.notnull())
print('------------')
print(ds.isnull())
print('------------')
print(ds.notna())  

- 증가율 구하기
- (s1-s2)/s2 * 100

In [None]:
rs = (s2-s)/s * 100
rs.dropna()
rs

대구      30031.448074
대전     200454.595238
부산               NaN
서울     470056.543457
인터넷              NaN
dtype: float64

### 데이터의 갱신, 추가 삭제

- 인덱싱으로 딕셔너리처럼 갱신 혹은 업데이트
- 삭제는 del Series['Label']


In [None]:
rs['부산'] = 1099
rs

대구      30031.448074
대전     200454.595238
부산       1099.000000
서울     470056.543457
인터넷              NaN
dtype: float64

### 🦆 연습문제 1
1. 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
1. 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

In [None]:
a = pd.Series({'PD3기':20,
               'PD4기':23,
               'PD5기':17,
               'PD6기':21})

b= pd.Series({'PD3기' : 14,
              '4기 이수' : 17,
              '5기 이수' : 15,
              'PD6기' : 19})

print((a+b).dropna())
print(((b/a)*100).dropna())


PD3기    34.0
PD6기    40.0
dtype: float64
PD3기    70.00000
PD6기    90.47619
dtype: float64


## DataFrame

1. 하나의 열이 되는 데이터의 리스트나 일차원 배열 준비
2. 각각의 열에 Label을 가지는 key 생성
3. DataFrame생성시 열방향 : columns, 행방향 : index

 ``` DataFrame(values, columns=columns, index=index) ```

 ``` DataFrame(values, columns=columns, index=index) ```

In [None]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data,index=index,columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


- 데이터프레임은 각 열(Column)마다 자료형이 다를 수 있음
---




## DataFrame Indexing
- 데이터에 접근 : ``` values ```
- 열방향 인덱스 : ```columns```
- 행방향 인덱스 : ```index```
- 열방향의 이름 설정 : ```columns.name```
- 행방향의 이름 설정: ```index.name``` 
--- 


In [None]:
df.index.name='도시'
df.columns.name='특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


### 🦆 연습문제 2
다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.

1. 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.
1. 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

In [None]:
import numpy as np

data = lambda x:[np.round(np.random.randn(1),5),\
                 np.random.choice(['ㄱ','ㄴ','ㄷ','ㄹ','ㅁ']),\
                 np.random.randint(5),\
                 np.random.choice(['True',False]),
                 np.random.choice(['s','w'])]

a = pd.DataFrame([data(5) for i in range(5)],index=['a','b','c','d','e'],columns=['a','b','c','d','e'])
a

Unnamed: 0,a,b,c,d,e
a,[-0.16302],ㄴ,4,False,w
b,[0.84334],ㄷ,3,True,w
c,[0.40802],ㄱ,1,True,w
d,[-0.74053],ㅁ,4,False,s
e,[-1.02885],ㅁ,1,False,s


## 데이터의 Update


- 열 단위로 데이터를 Update 가능 함

In [None]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [None]:
df['2010-2015 증가율'] *=100
df

In [None]:
df['2005-2010 증가율'] = ((df['2010']-df['2005'])/df['2005']*100).round(2)

df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


## 열 인덱싱

- 열 Label = key, 열 Series = value
- 열의 Label로 인덱싱 가능

In [118]:
df['2015'] , df['지역']['인천']

(서울    9904312
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 2015, dtype: int64, '수도권')

- Label에 문자열이 부여되어 있다면 정수Index가 불가능 하다
- Label이 원래 정수 열 인덱스를 가지면 정수Index 가능

In [122]:
df[1]
df2 = pd.DataFrame(np.arange(12).reshape(3,-1))

df2[1]

KeyError: ignored

## 행 인덱싱


- 행 인덱싱을 하려면 슬라이싱 사용
- Label이 문자열 이라도 가능

In [124]:
print(df[:1])
print(df[1:2])
print(df[2:3])

     지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
서울  수도권  9904312  9631482  9762546  9853972           2.83          -1.34
     지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
부산  경상권  3448737  3393191  3512547  3655437           1.63           -3.4
     지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
인천  수도권  2890451  2632035  2517680  2466338           9.82           4.54


In [127]:
df['서울':'대구'] == df[:4]

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,True,True,True,True,True,True,True
부산,True,True,True,True,True,True,True
인천,True,True,True,True,True,True,True
대구,True,True,True,True,True,True,True


## 개별 데이터 인덱싱

- df에서 열 인덱싱을 하면 시리즈 반환, 시리즈를 행 라벨로 인덱싱하면 개별 데이터 반환

In [130]:
df['2015'][0], df['2015']['서울']

(9904312, 9904312)

### 🦆 연습문제 3
```
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```
1. 모든 학생의 수학 점수를 시리즈로 나타낸다.
1. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
1. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
1. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
1. 춘향의 점수를 데이터프레임으로 나타낸다.
1. 향단의 점수를 시리즈로 나타낸다.

In [168]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [152]:
# prob 1
ans1 = df['수학']
ans1

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [153]:
# prob 2
ans2 = df[['국어','영어']]
ans2

In [174]:
# prob 3
df['mean']=np.mean(df,axis=1)
df

Unnamed: 0,국어,영어,수학,mean
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [225]:
# porb 4
df['영어']['방자'] = 80
df['mean']=np.mean(df,axis=1)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,mean
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,59.999999


In [226]:
# prob 5
df[:1]

Unnamed: 0,국어,영어,수학,mean
춘향,80,90,90,86.666667


In [231]:
# prob 6
df.T['향단']

국어      70.0
영어      60.0
수학      80.0
mean    70.0
Name: 향단, dtype: float64

## 데이터 입출력

- CSV : Comma Seperate Value