<a href="https://colab.research.google.com/github/ssyyjj1012/data-analysis/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 Pandas 개요

### pandas 란?
- 패널 데이터와 Python 데이터 분석의 이름을 따서 명명
- 고수준의 자료구조와 파이썬을 통한 빠르고 데이터 분석 도구를 포함
- NumPy 기반에서 개발돼 NumPy를 사용하는 애플리케이션에 쉽게 적용
- 널리 사용되는 오픈소스 Python 프로젝트
- 일반적으로 pandas를 임포트할 때는 다음과 같은 규칙을 따름 
  - import pandas as pd

# 02 Pandas 자료구조 Series 


### 시리즈 생성
- Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조

In [1]:
import pandas as pd
a = pd.Series([1,2,3])
a

0    1
1    2
2    3
dtype: int64

In [2]:
a.index

RangeIndex(start=0, stop=3, step=1)

In [3]:
a.values

array([1, 2, 3])

###  시리즈 인덱스 수정

In [4]:
a.index = ['a','b','c']
a

a    1
b    2
c    3
dtype: int64

In [5]:
b = pd.Series([1,2,3,4], index =['a','b','c','d'])
b

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
print( "b['a'] :",b['a'])
b['b']=2017
b

b['a'] : 1


a       1
b    2017
c       3
d       4
dtype: int64

In [7]:
b[b>3]

b    2017
d       4
dtype: int64

In [8]:
b*2

a       2
b    4034
c       6
d       8
dtype: int64

### 시리즈 dict 매핑
- 파이썬 dict형과 유사하게 사용하거나 dict형을 바로 Series 매핑 가능

In [9]:
'b' in b

True

In [10]:
dict_data = {'name':'Choi',
             'age': 30,
             'hobby': ['study','swimming'],
             'gender': 'man',
             'weak point': None}

sr_data = pd.Series(dict_data)
sr_data

name                       Choi
age                          30
hobby         [study, swimming]
gender                      man
weak point                 None
dtype: object

- isnull 함수를 사용하여 데이터가 없는 지 여부 확인 가능

In [11]:
sr_data.isnull()

name          False
age           False
hobby         False
gender        False
weak point     True
dtype: bool

- Series의 이름과 index의 이름 설정 가능
> 판다스 데이터 다루기 위하여 아주 중요한 기능

In [12]:
sr_data.index.name = 'label'
sr_data.name = 'Personal Information'
sr_data

label
name                       Choi
age                          30
hobby         [study, swimming]
gender                      man
weak point                 None
Name: Personal Information, dtype: object

### 시리즈 연습문제
1) 2의 배수이면서 0부터 30까지 정수를 가진 시리즈 se1을 만들어라

2) se1의 인덱스도 데이터와 같은 값으로 만들어라

3) se1의 값 중에 4의 배수인 값에 None을 삽입하라

4) se1의 값이 None인지 확인하라

In [13]:
# 1
se1 = pd.Series(range(16))*2
se1

0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
11    22
12    24
13    26
14    28
15    30
dtype: int64

In [14]:
# 2
se1.index = se1

In [15]:
# 3
se1[(se1%4)==0] = None
se1

0      NaN
2      2.0
4      NaN
6      6.0
8      NaN
10    10.0
12     NaN
14    14.0
16     NaN
18    18.0
20     NaN
22    22.0
24     NaN
26    26.0
28     NaN
30    30.0
dtype: float64

In [16]:
# 4
se1.isnull()

0      True
2     False
4      True
6     False
8      True
10    False
12     True
14    False
16     True
18    False
20     True
22    False
24     True
26    False
28     True
30    False
dtype: bool

# 03 Pandas 자료구조 DataFrame - 데이터프레임
- 표 값은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼 소유
- 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 포함
- 데이터를 내부적으로 2차원 형식으로 저장

### 데이터프레임 생성자에 입력 가능한 배열
- 2차원 ndarray, 배열, 리스트, 튜플, NumPy의 구조화 배열, 시리즈, dict, 다른 데이터 프레임 등

### 데이터프레임 생성
- dict 또는 배열 형태 등의 데이터를 데이터프레임 형태로 전환

In [17]:
import pandas as pd

data = {
    'id' : [1,2,3],
    'name' : ['Choi','Lee','Kim'],
    'age' : [10,20,30],
    'assets' : [150.4, 123.4, 88.88],
    'job' : ['student','CEO','Dad']
}

df = pd.DataFrame(data)
df

Unnamed: 0,id,name,age,assets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


- columns 값을 지정하여 넘기면 원하는 순서대로 테이블 생성
- 없는 컬럼을 입력하는 경우에는 비어있는 데이터에 NaN 값을 자동으로 채움
- index 값을 지정하여 넘기면 index 값을 원하는 값으로 채움

In [18]:
df = pd.DataFrame(data, columns = ['id', 'name' ,'job', 'age','assets','hobby'],
                    index = ['one','two','three'])
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,10,150.4,
two,2,Lee,CEO,20,123.4,
three,3,Kim,Dad,30,88.88,


### 데이터프레임 색인
- 색인 기능을 활용하여 데이터를 한 번에 넣을 수 있음
- 색인별로 검색하려면 ix를 사용하면 색임 검색이 가능

- 컬럼 색인은 기존에 하던 방식으로 색인 가능

In [19]:
df['id']

one      1
two      2
three    3
Name: id, dtype: int64

- 색인별로 검색하려면 loc를 사용하여 색인 검색이 가능

In [20]:
df.loc['one']

id              1
name         Choi
job       student
age            10
assets      150.4
hobby         NaN
Name: one, dtype: object

- 색인 기능을 활용하여 데이터를 한 번에 넣을 수 있음

In [21]:
df['hobby'] = 'reading books'
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,10,150.4,reading books
two,2,Lee,CEO,20,123.4,reading books
three,3,Kim,Dad,30,88.88,reading books


- 색인 기능을 활용할 때 배열을 전달하여 데이터를 한꺼번에 삽입 가능

In [22]:
import numpy as np
df['age'] = np.arange(3)
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,0,150.4,reading books
two,2,Lee,CEO,1,123.4,reading books
three,3,Kim,Dad,2,88.88,reading books


### 데이터 추가 삭제
- 이미 생성된 테이블에 데이터 생성 및 삭제 가능
- 컬럼 추가 : 실습할 Series 객체 생성 및 추가

In [23]:
residence = pd.Series(['Seoul', 'Bucheon', 'Incheon'],
                       index = ['one','three','two'])
df['residence'] = residence
df

Unnamed: 0,id,name,job,age,assets,hobby,residence
one,1,Choi,student,0,150.4,reading books,Seoul
two,2,Lee,CEO,1,123.4,reading books,Incheon
three,3,Kim,Dad,2,88.88,reading books,Bucheon


- del을 사용하여 컬럼 부분 삭제

In [24]:
del df['hobby']
df

Unnamed: 0,id,name,job,age,assets,residence
one,1,Choi,student,0,150.4,Seoul
two,2,Lee,CEO,1,123.4,Incheon
three,3,Kim,Dad,2,88.88,Bucheon


In [25]:
df.index = df['id']
df

Unnamed: 0_level_0,id,name,job,age,assets,residence
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1,Choi,student,0,150.4,Seoul
2,2,Lee,CEO,1,123.4,Incheon
3,3,Kim,Dad,2,88.88,Bucheon


In [26]:
del df['id']
df

Unnamed: 0_level_0,name,job,age,assets,residence
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Choi,student,0,150.4,Seoul
2,Lee,CEO,1,123.4,Incheon
3,Kim,Dad,2,88.88,Bucheon


- 로우 추가

In [27]:
df.loc[4] = ['Hong', 'FreeLancer', 60,2000,"Gangnam"]
df

Unnamed: 0_level_0,name,job,age,assets,residence
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Choi,student,0,150.4,Seoul
2,Lee,CEO,1,123.4,Incheon
3,Kim,Dad,2,88.88,Bucheon
4,Hong,FreeLancer,60,2000.0,Gangnam


- 로우 삭제

In [28]:
df.drop(4)

Unnamed: 0_level_0,name,job,age,assets,residence
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Choi,student,0,150.4,Seoul
2,Lee,CEO,1,123.4,Incheon
3,Kim,Dad,2,88.88,Bucheon


### 기타함수


- 교차시키기

In [29]:
df.T

id,1,2,3,4
name,Choi,Lee,Kim,Hong
job,student,CEO,Dad,FreeLancer
age,0,1,2,60
assets,150.4,123.4,88.88,2000
residence,Seoul,Incheon,Bucheon,Gangnam


- 값 추출하기

In [30]:
df.values

array([['Choi', 'student', 0, 150.4, 'Seoul'],
       ['Lee', 'CEO', 1, 123.4, 'Incheon'],
       ['Kim', 'Dad', 2, 88.88, 'Bucheon'],
       ['Hong', 'FreeLancer', 60, 2000.0, 'Gangnam']], dtype=object)

- 특정 컬럼 값 추출

In [31]:
df['name'].values

array(['Choi', 'Lee', 'Kim', 'Hong'], dtype=object)

- 선택한 값 추출

In [32]:
df.loc[1]['name'] # 1번 인덱스의 name 추출

'Choi'

### 데이터프레임 연습문제
- 구구단 1단부터 3단까지 출력하는 데이터프레임 df1을 생성하라 (컬럼3 x 로우9)
- df1의 인덱스를 한글로 바꿔라( 1: '일' , 2 : '이' .. )
- df1에 4단을 추가하라
- df1의 1단을 11단으로 교체하라
- df1의 11단을 삭제하라
- 컬럼과 로우를 교차시켜라
- '오'와 '칠' 인덱스를 제거하라

1 ) 구구단 1단부터 3단까지 출력하는 데이터프레임 df1을 생성하라 (컬럼3 x 로우9)


In [33]:
import pandas as pd
import numpy as np

a = np.arange(10)       # 1단
b = np.arange(10) * 2   # 2단
c = np.arange(10) * 3   # 3단

df1 = pd.DataFrame([a,b,c], index = ['1단', '2단', '3단'])
df1 = df1.T
df1

Unnamed: 0,1단,2단,3단
0,0,0,0
1,1,2,3
2,2,4,6
3,3,6,9
4,4,8,12
5,5,10,15
6,6,12,18
7,7,14,21
8,8,16,24
9,9,18,27


2 ) df1의 인덱스를 한글로 바꿔라( 1: '일' , 2 : '이' .. )

In [34]:
df1.index = ['영','일','이','삼','사','오','육','칠','팔','구']
df1

Unnamed: 0,1단,2단,3단
영,0,0,0
일,1,2,3
이,2,4,6
삼,3,6,9
사,4,8,12
오,5,10,15
육,6,12,18
칠,7,14,21
팔,8,16,24
구,9,18,27


3 ) df1에 4단을 추가하라

In [35]:
df1['4단'] = np.arange(10) * 4
df1

Unnamed: 0,1단,2단,3단,4단
영,0,0,0,0
일,1,2,3,4
이,2,4,6,8
삼,3,6,9,12
사,4,8,12,16
오,5,10,15,20
육,6,12,18,24
칠,7,14,21,28
팔,8,16,24,32
구,9,18,27,36


4 ) df1의 1단을 11단으로 교체하라

In [36]:
df1['1단'] = np.arange(10) * 11
df1.columns = ['11단','2단','3단','4단']
df1

Unnamed: 0,11단,2단,3단,4단
영,0,0,0,0
일,11,2,3,4
이,22,4,6,8
삼,33,6,9,12
사,44,8,12,16
오,55,10,15,20
육,66,12,18,24
칠,77,14,21,28
팔,88,16,24,32
구,99,18,27,36



5 ) df1의 11단을 삭제하라

In [37]:
del df1['11단']
df1

Unnamed: 0,2단,3단,4단
영,0,0,0
일,2,3,4
이,4,6,8
삼,6,9,12
사,8,12,16
오,10,15,20
육,12,18,24
칠,14,21,28
팔,16,24,32
구,18,27,36


6 ) 컬럼과 로우를 교차시켜라

In [38]:
df1.T

Unnamed: 0,영,일,이,삼,사,오,육,칠,팔,구
2단,0,2,4,6,8,10,12,14,16,18
3단,0,3,6,9,12,15,18,21,24,27
4단,0,4,8,12,16,20,24,28,32,36



7 ) '오'와 '칠' 인덱스를 제거하라

In [39]:
df1.drop(['오','칠'])

Unnamed: 0,2단,3단,4단
영,0,0,0
일,2,3,4
이,4,6,8
삼,6,9,12
사,8,12,16
육,12,18,24
팔,16,24,32
구,18,27,36


# 04 데이터 정렬 


### 인덱스 정렬 (오름차순)
- sort_index : 로우나 칼럼의 색인을 알파벳 순으로 정렬

In [40]:
import numpy as np
import pandas as pd

se = pd.Series(range(10), index = [10,9,8,7,6,5,4,3,2,1])
se.index.name = 'index'

se

index
10    0
9     1
8     2
7     3
6     4
5     5
4     6
3     7
2     8
1     9
dtype: int64

In [41]:
se = se.sort_index()
se

index
1     9
2     8
3     7
4     6
5     5
6     4
7     3
8     2
9     1
10    0
dtype: int64

### 내림차순 정렬
- asceding 변수를 False로 만들면 데이터를 내림차순 정렬

In [42]:
data = {
    'id' : [1,2,3],
    'name' : ['Choi', 'Lee', ' Kim'],
    'age' : [10,20,30],
    'assets' : [150.4, 123.4, 88.88],
    'job' : ['student', 'CEO' , 'Dad']
}

df = pd.DataFrame(data)
df

Unnamed: 0,id,name,age,assets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


In [45]:
df.sort_index(ascending = False)

Unnamed: 0,id,name,age,assets,job
2,3,Kim,30,88.88,Dad
1,2,Lee,20,123.4,CEO
0,1,Choi,10,150.4,student


### 컬럼 이름순 정렬
- axis에 1을 세팅 => index가 아닌 컬럼 이름순으로 정렬

In [47]:
df.sort_index(axis = 1 , ascending = False) ## 컬럼을 내림차순

Unnamed: 0,name,job,id,assets,age
0,Choi,student,1,150.4,10
1,Lee,CEO,2,123.4,20
2,Kim,Dad,3,88.88,30


### 값으로 정렬
- sort_values : 값의 알파벳 순으로 정렬(시리즈, 데이터프레임)

In [48]:
se.sort_values()

index
10    0
9     1
8     2
7     3
6     4
5     5
4     6
3     7
2     8
1     9
dtype: int64

In [50]:
df.sort_values(by = 'assets')

Unnamed: 0,id,name,age,assets,job
2,3,Kim,30,88.88,Dad
1,2,Lee,20,123.4,CEO
0,1,Choi,10,150.4,student


- 리스트 형태로 값을 여러 개 넣으면 우선순위대로 값을 정렬

In [51]:
df['age'] = [10,20,10]
df.sort_values(by = ['age', 'assets'])

Unnamed: 0,id,name,age,assets,job
2,3,Kim,10,88.88,Dad
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO


### 데이터정렬 - 연습문제
- 구구단 9단 시리즈 se2를 생성하되, 인덱스를 거꾸로 생성
- 구구단을 거꾸로 출력
- 구구단 7단과 8단을 만들어 df에 추가
- df2의 컬럼을 오름차순으로 정렬

1 ) 구구단 9단 시리즈 se2를 생성하되, 인덱스를 거꾸로 생성

In [53]:
import pandas as pd
import numpy as np

ar9 = np.arange(10) * 9
se2 = pd.Series(ar9, index = [9,8,7,6,5,4,3,2,1,0])
se2

9     0
8     9
7    18
6    27
5    36
4    45
3    54
2    63
1    72
0    81
dtype: int64

2 ) 구구단을 거꾸로 출력

In [54]:
se2.sort_index()

0    81
1    72
2    63
3    54
4    45
5    36
6    27
7    18
8     9
9     0
dtype: int64

3 ) 구구단 7단과 8단을 만들어 df2에 추가

In [60]:
ar7 = np.arange(10) * 7
ar8 = np.arange(10) * 8

df2 = pd.DataFrame([ar7,ar8,ar9], index=['7단','8단','9단'])
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
7단,0,7,14,21,28,35,42,49,56,63
8단,0,8,16,24,32,40,48,56,64,72
9단,0,9,18,27,36,45,54,63,72,81


4) df2의 컬럼을 오름차순으로 정렬

In [62]:
df2.T.sort_index(axis = 1, ascending = False)

Unnamed: 0,9단,8단,7단
0,0,0,0
1,9,8,7
2,18,16,14
3,27,24,21
4,36,32,28
5,45,40,35
6,54,48,42
7,63,56,49
8,72,64,56
9,81,72,63


# 05 기술, 요약 통계
- pandass에서도 기초적인 통계 계산을 지원
- 대부분의 시리즈나 데이터프레임 하나의 컬럼이나 로우에서 단일 값을 구함
- 축소 작업과 요약 통계 범주에 속함

### 데이터 생성
- 통계에 사용할 데이터 프레임 생성

In [63]:
import pandas as pd

data = {
    'id' : [1,2,3],
    'name' : ['Choi', 'Lee', ' Kim'],
    'age' : [10,20,30],
    'assets' : [150.4, 123.4, 88.88],
    'job' : ['student', 'CEO' , 'Dad']
}

df = pd.DataFrame(data)
df

Unnamed: 0,id,name,age,assets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


### sum()
- sum() 함수 : 'age'와 'assets' , 데이터프레임 전체의 합계 계산

In [64]:
df['age'].sum()

60

In [65]:
df['assets'].sum()

362.68

In [66]:
df.sum()

id                    6
name        ChoiLee Kim
age                  60
assets           362.68
job       studentCEODad
dtype: object

### mean() , describe()

- mean() 함수 : assets 의 평균 계산

In [68]:
df['assets'].mean()

120.89333333333333

- describe() 함수 : 데이터프레임의 각 컬럼에 대한 요약 통계를 계산

In [69]:
df.describe()

Unnamed: 0,id,age,assets
count,3.0,3.0,3.0
mean,2.0,20.0,120.893333
std,1.0,10.0,30.836507
min,1.0,10.0,88.88
25%,1.5,15.0,106.14
50%,2.0,20.0,123.4
75%,2.5,25.0,136.9
max,3.0,30.0,150.4


### 기술, 요약 통계 - 연습문제
- 다음 표를 기술 통계 하라
 - 전체 평균 나이
 - 제일 많은 임금
 - 가장 적은 경력으로 일할 수 있는 직종
 - 가장 많은 사람이 종사하는 직업


In [72]:
import pandas as pd

df1 = pd.read_csv('/content/sample_data/ITrelatedWorkerStatus.csv', sep = '\t')
df1

Unnamed: 0,Code,Classification,task,Number of employees (Unit: persons),Average age,Average career,Monthly average wage,Employment premium
0,AP,Web developer,Development,24500,31,4.0,3200000,128000
1,SD,System planning and design,plan,2450,35,9.0,3420000,137000
2,SA,SW manager,management,45000,34,5.5,2800000,112000
3,SD,Web designer,Development,54500,28,2.0,2500000,75000


 - 전체 평균 나이

In [73]:
df1['Average age'].mean()

32.0

- 제일 많은 임금

In [74]:
df1['Monthly average wage'].max()

3420000

- 가장 적은 경력으로 일할 수 있는 직종


In [76]:
i = df1['Average career'].argmin()
df1.loc[i]['Classification']

'Web designer'

- 가장 많은 사람이 종사하는 직업

In [77]:
i = df1['Number of employees (Unit: persons)'].argmax()
df1.loc[i]['Classification']

'Web designer'

# 06 계층적 색인
- pandas의 중요한 기능
- 축에 대해 다중 색인 단계 지정

### 멀티 인덱스 생성하기
- 시리즈 데이터 타입 생성 시 인덱스를 다중의 리스트로 넘겨서 생성

In [79]:
import pandas as pd
import numpy as np

se = pd.Series(np.random.randn(12),
                         index = [['A','A','A','B','B','B','C','C','C','D','D','D'],
                                  [1,2,3,1,2,3,1,2,3,1,2,3]])
se

A  1    1.153993
   2    0.399214
   3   -0.131987
B  1    1.353269
   2    0.091233
   3    0.506562
C  1    0.110822
   2    2.055336
   3   -0.291328
D  1   -1.711213
   2    0.202642
   3    0.929062
dtype: float64

### 멀티 인덱스 생성하기
- 인덱스의 정보를 출력하여 labels가 두 개의 리스트로 만들어짐을 확인

In [81]:
se.index

MultiIndex([('A', 1),
            ('A', 2),
            ('A', 3),
            ('B', 1),
            ('B', 2),
            ('B', 3),
            ('C', 1),
            ('C', 2),
            ('C', 3),
            ('D', 1),
            ('D', 2),
            ('D', 3)],
           )

### 상위 계층 색인
- 지금까지 색인했던 방법과 같이 색인 가능

In [82]:
se['A']

1    1.153993
2    0.399214
3   -0.131987
dtype: float64

- 콜롬(;)을 삽입하여 데이터의 범위 지정

In [83]:
se['B':'D']

B  1    1.353269
   2    0.091233
   3    0.506562
C  1    0.110822
   2    2.055336
   3   -0.291328
D  1   -1.711213
   2    0.202642
   3    0.929062
dtype: float64

- 리스트를 넘겨 특정 인덱스 색인

In [85]:
se[['B','D']]

B  1    1.353269
   2    0.091233
   3    0.506562
D  1   -1.711213
   2    0.202642
   3    0.929062
dtype: float64

### 하위 계층 색인
- 하위 계층 색인을 원할 때는 쉼표(,) 하나를 찍고 그 뒤에 원하는 인덱스를 적음

In [86]:
se['A',1]

1.1539928275906894

- 상위 계층 색인에 콜롬(:)만 삽입하면 전체, 하위 인덱스를 대상으로 조회

In [88]:
se[:,2]

A    0.399214
B    0.091233
C    2.055336
D    0.202642
dtype: float64

### 시리즈, 데이터프레임 간 전환
- unstack과 sctack() 함수를 사용하여 시리즈 멀티인덱스 사이를 간편하게 데이터프레임으로 전환 가능
- unstack을 사용하면 하위 인덱스가 컬럼으로 올라가면서 데이터프레임으로 변환

In [89]:
df = se.unstack()
df

Unnamed: 0,1,2,3
A,1.153993,0.399214,-0.131987
B,1.353269,0.091233,0.506562
C,0.110822,2.055336,-0.291328
D,-1.711213,0.202642,0.929062


- stack을 사용하면 컬럼이 하위 인덱스로 내려가면서 시리즈로 변환

In [90]:
df.stack()

A  1    1.153993
   2    0.399214
   3   -0.131987
B  1    1.353269
   2    0.091233
   3    0.506562
C  1    0.110822
   2    2.055336
   3   -0.291328
D  1   -1.711213
   2    0.202642
   3    0.929062
dtype: float64

### 계층적 색인 - 연습문제
- 다음 표를 계층 색인할 수 있도록 변환하라
- 계층 색인을 사용하여 코드 SA의 정보를 출력할 수 있는 코드를 작성하라

In [92]:
import pandas as pd

df1 = pd.read_csv('/content/sample_data/ITrelatedWorkerStatus.csv', sep = '\t')
df1.index = df1['Code']
del df1['Code']
df1

Unnamed: 0_level_0,Classification,task,Number of employees (Unit: persons),Average age,Average career,Monthly average wage,Employment premium
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
AP,Web developer,Development,24500,31,4.0,3200000,128000
SD,System planning and design,plan,2450,35,9.0,3420000,137000
SA,SW manager,management,45000,34,5.5,2800000,112000
SD,Web designer,Development,54500,28,2.0,2500000,75000


In [93]:
se1 = df1.stack()
se1

Code                                     
AP    Classification                                      Web developer
      task                                                  Development
      Number of employees (Unit: persons)                         24500
      Average age                                                    31
      Average career                                                  4
      Monthly average wage                                      3200000
      Employment premium                                         128000
SD    Classification                         System planning and design
      task                                                         plan
      Number of employees (Unit: persons)                          2450
      Average age                                                    35
      Average career                                                  9
      Monthly average wage                                      3420000
      Employment premi

In [94]:
se1['SA']

Classification                         SW manager
task                                   management
Number of employees (Unit: persons)         45000
Average age                                    34
Average career                                5.5
Monthly average wage                      2800000
Employment premium                         112000
dtype: object

# 07 누락 값 처리
- 정기적으로 데이터 레코드에서 빈 필드 다수 존재
- 빈 필드를 받아들이고 견고한 방식으로 이런 종류의 문제를 처리하는 방법이 필요
- 실제 데이터에는 간격이 있을 뿐만 아니라 잘못된 측정 장비로 인해 잘못된 값을 가질 수 있음
- pandas에서 누락된 값은 NaN(Not a Number)으로 datetime64에서 누락된 값은 NaT(Not a Time)으로 처리
- 합을 계산할 때는 0으로 처리되지만 평균을 구할 때는 이런 값들을 제외

### NA 처리 메서드
- dropna : 누락된 데이터가 있는 축을 제외, 허용할 누락 데이터를 설정 가능
- fillna : 누락된 데이터를 대신할 값을 채움
- isnull : 누락되거나 NA인 값을 알려주는 불리언 값이 저장된 같은 형의 객체 반환
- notnull : isnull과 반대되는 메서드

In [95]:
import numpy as np
import pandas as pd

se = pd.Series([1, np.nan, 2, np.nan, 3, np.nan, 4, np.nan, 5])
se

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    NaN
6    4.0
7    NaN
8    5.0
dtype: float64

### 누락된 값 제외
- dropna() 함수나 notnull()함수를 사용하여 누락된 값 제외

In [96]:
se.dropna()

0    1.0
2    2.0
4    3.0
6    4.0
8    5.0
dtype: float64

In [97]:
se[se.notnull()]

0    1.0
2    2.0
4    3.0
6    4.0
8    5.0
dtype: float64

### 누락된 값 대체하기
- fillna() 함수를 사용하여 누락된 값을 대체

In [98]:
se.fillna(0)

0    1.0
1    0.0
2    2.0
3    0.0
4    3.0
5    0.0
6    4.0
7    0.0
8    5.0
dtype: float64

### 누락 값 처리 - 연습문제
- 다음 CSV 파일을 작성하여 로드한 뒤 다음 문제에 답하라
 - NaN 값을 포함하는 데이터를 제외
 -  CSV 파일을 다시 로드하고 NaN 값을 평균 나이로 대체하라

In [105]:
import pandas as pd

data = {
    'name' : ['Ally','Daniel','John','Baker','Josh'],
    'Age' : [21,32,None,25,None],
    'Status' : ['Single','Single','Married','Single','Married']
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,Age,Status
0,Ally,21.0,Single
1,Daniel,32.0,Single
2,John,,Married
3,Baker,25.0,Single
4,Josh,,Married


- NaN 값을 포함하는 데이터를 제외

In [107]:
df.dropna()

Unnamed: 0,name,Age,Status
0,Ally,21.0,Single
1,Daniel,32.0,Single
3,Baker,25.0,Single


- CSV 파일을 다시 로드하고 NaN 값을 평균 나이로 대체하라

In [108]:
data = {
    'name' : ['Ally','Daniel','John','Baker','Josh'],
    'Age' : [21,32,None,25,None],
    'Status' : ['Single','Single','Married','Single','Married']
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,Age,Status
0,Ally,21.0,Single
1,Daniel,32.0,Single
2,John,,Married
3,Baker,25.0,Single
4,Josh,,Married


In [110]:
df.fillna(df.mean())

Unnamed: 0,name,Age,Status
0,Ally,21.0,Single
1,Daniel,32.0,Single
2,John,26.0,Married
3,Baker,25.0,Single
4,Josh,26.0,Married
