# Data science tutorials  
### Chapter2 : Numpy and Pandas

<img style="float: right;" src="img/logo.png" width="150">

<div style="text-align: right"> <b>Author : Kwang-myung Yu</b></div>

<div style="text-align: right"> Initial issue : 2022.01.22 </div>
<div style="text-align: right"> last update : 2022.01.22 </div>

### References
- https://compmath.korea.ac.kr/appmath/NumpyBasics.html
- https://numpy.org/doc/stable/user/quickstart.html
- https://compmath.korea.ac.kr/appmath/GettingStartPandas.html
- https://pandas.pydata.org/docs/user_guide/10min.html#

### Objectives  
- Numpy와 Pandas 라이브러리 기본 사용법을 익힌다.

Pandas는 데이터의 정제, 전처리 및 분석을 쉽게 하도록 지원하는 자료구조와 라이브러리 들을 포함하고 있다.  
Pandas의 기본 자료구조에는 `Series`와 `DataFrame`이 있다.

In [1]:
import numpy as np
import pandas as pd # 라이브러리 사용을 위한 추가

### 1. Series 
---
- Series : 1차원 배열과 인덱스(index)로 구성되는 데이터 객체

#### 1.1 Series 생성

In [2]:
arr = np.arange(1, 6)
arr

array([1, 2, 3, 4, 5])

In [3]:
series = pd.Series(arr)

In [4]:
series

0    1
1    2
2    3
3    4
4    5
dtype: int32

#### 1.2 Series의 인덱싱, 슬라이싱

In [5]:
series < 3

0     True
1     True
2    False
3    False
4    False
dtype: bool

In [6]:
series[series < 3]

0    1
1    2
dtype: int32

In [7]:
# 3보다 작은 원소에 -1 대입
series[series < 3] = -1
series

0   -1
1   -1
2    3
3    4
4    5
dtype: int32

#### 1.3 인덱스를 지정하여 Series 생성하기

In [8]:
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']

series2 = pd.Series(data=data,index = index)
series2

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### 1.4 딕셔너리로 Series 생성하기

In [9]:
score = {'영수': 60, '철수': 75, '정수' : 80, '정순': 88, '민희' : 99}
series_sc = pd.Series(score)
series_sc

영수    60
철수    75
정수    80
정순    88
민희    99
dtype: int64

- key 값이 인덱스로 자동지정 됨

### 2. DataFrame
---
- DataFrame : 같은 타입의 컬럼(Column) 데이터로 구성된 2차원 자료형 

#### 2.1 DataFrame 생성하기   

In [10]:
employee = {'소속': ['pat1', 'part2', 'part1', 'part3', 'part3', 'part2'],
            '나이': [36, 54, 44, 29, 29, 37],
            '점수': [78.4, 87.45, 67.9, 90, 75, 77.9]}

df_emp = pd.DataFrame(employee)
df_emp

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
1,part2,54,87.45
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9


In [11]:
 # 또다른 방법  
df_emp = pd.DataFrame(employee, columns=employee.keys())
df_emp

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
1,part2,54,87.45
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9


ndarray 데이터로 DataFrame 생성하기

In [12]:
arr2d = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
df_arr = pd.DataFrame(arr2d)
df_arr

Unnamed: 0,0,1,2
0,1,1,1
1,2,2,2
2,3,3,3


#### 2.2 DataFrame 수정

컬럼명 변경하기

In [13]:
df_arr.columns = ['col1', 'col2', 'col3']
df_arr

Unnamed: 0,col1,col2,col3
0,1,1,1
1,2,2,2
2,3,3,3


인덱스 변경하기

In [14]:
df_arr.index = ['row1', 'row2', 'row3']
df_arr

Unnamed: 0,col1,col2,col3
row1,1,1,1
row2,2,2,2
row3,3,3,3


DataFrame 생성할 때 인덱스와 컬럼명을 지정할 수도 있다.

In [15]:
arr2d = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
df_arr2 = pd.DataFrame(data=arr2d, index=['row1', 'row2', 'row3'], columns=['col1', 'col2', 'col3'])
df_arr2

Unnamed: 0,col1,col2,col3
row1,1,1,1
row2,2,2,2
row3,3,3,3


#### 2.3 DataFrame 의 주요 속성과 메서드

In [16]:
# DataFrame 생성
depart = ['pat1', 'part2', 'part1', 'part3', 'part3', 'part2', 'part1', 'part2', 'part3']
age = [36, 54, 44, 29, 29, 37, 55, 43, 46]
score = [78.4, 87.45, 67.9, 90, 75, 77.9, 99, 87.2, 82.3]

df_emp2 = pd.DataFrame(columns=['소속', '나이', '점수'])
df_emp2

Unnamed: 0,소속,나이,점수


In [17]:
df_emp2['소속'] = depart
df_emp2['나이'] = age
df_emp2['점수'] = score
df_emp2

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
1,part2,54,87.45
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9
6,part1,55,99.0
7,part2,43,87.2
8,part3,46,82.3


1) info() : 데이터프레임 컬럼의 기본정보 출력

In [18]:
df_emp2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   소속      9 non-null      object 
 1   나이      9 non-null      int64  
 2   점수      9 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 348.0+ bytes


2) describe() : 수치형 데이터 컬럼의 기본정보 제공

In [19]:
df_emp2.describe()

Unnamed: 0,나이,점수
count,9.0,9.0
mean,41.444444,82.794444
std,9.55394,9.23128
min,29.0,67.9
25%,36.0,77.9
50%,43.0,82.3
75%,46.0,87.45
max,55.0,99.0


3) dtypes : 컬럼의 데이터 타입

In [20]:
df_emp2.dtypes

소속     object
나이      int64
점수    float64
dtype: object

4) head() : 상위 5개 자료 출력
- 데이터 형태를 간단하게 살펴볼 때 유용함

In [21]:
df_emp2.head()

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
1,part2,54,87.45
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0


5) tail() : 하위 5개 자료 출력  

In [22]:
df_emp2.tail()

Unnamed: 0,소속,나이,점수
4,part3,29,75.0
5,part2,37,77.9
6,part1,55,99.0
7,part2,43,87.2
8,part3,46,82.3


6) shape : 데이터의 사이즈 출력(rows x columns)

In [23]:
df_emp2.shape

(9, 3)

7) sum()

In [24]:
df_emp2['점수'].sum()

745.15

In [25]:
# row 방향으로 연산
df_emp2['점수'].sum(axis=0)

745.15

In [26]:
# column 방향으로 연산 : 나이 + 점수
df_emp2[['나이', '점수']].sum(axis=1)

0    114.40
1    141.45
2    111.90
3    119.00
4    104.00
5    114.90
6    154.00
7    130.20
8    128.30
dtype: float64

8) mean()

In [27]:
# row 방향으로 연산
df_emp2['나이'].mean(axis=0)

41.44444444444444

9) values : DataFrame의 데이터를 ndarray 자료형으로 리턴 

In [28]:
data = df_emp2.values
data

array([['pat1', 36, 78.4],
       ['part2', 54, 87.45],
       ['part1', 44, 67.9],
       ['part3', 29, 90.0],
       ['part3', 29, 75.0],
       ['part2', 37, 77.9],
       ['part1', 55, 99.0],
       ['part2', 43, 87.2],
       ['part3', 46, 82.3]], dtype=object)

#### 2.4 DataFrame의 인덱싱, 슬라이싱

컬럼 데이터 접근1 : 딕셔너리 키를 통한 접근 방식과 유사함

In [29]:
df_emp2['소속']

0     pat1
1    part2
2    part1
3    part3
4    part3
5    part2
6    part1
7    part2
8    part3
Name: 소속, dtype: object

- Series 타입으로 결과를 리턴한다.

컬럼 데이터 접근2 : 속성(attribute)을 통한 접근

In [30]:
df_emp2.점수

0    78.40
1    87.45
2    67.90
3    90.00
4    75.00
5    77.90
6    99.00
7    87.20
8    82.30
Name: 점수, dtype: float64

`iloc`을 이용한 인덱싱  
- rows와 columns의 인덱스 번호 사용

In [31]:
# 상위 다섯번째 까지의 샘플의 소속과 나이  
df_emp2.iloc[:5, :2]

Unnamed: 0,소속,나이
0,pat1,36
1,part2,54
2,part1,44
3,part3,29
4,part3,29


`loc`을 이용한 인덱싱  
- rows와 columns의 이름 사용

In [32]:
df_emp2.loc[:5, ['소속', '나이']]

Unnamed: 0,소속,나이
0,pat1,36
1,part2,54
2,part1,44
3,part3,29
4,part3,29
5,part2,37


- 위 예에서 rows의 이름은 index 번호와 동일하므로 그대로 사용

또 다른 인덱싱 방법 

In [33]:
df_emp2[['소속', '나이']][:5]

Unnamed: 0,소속,나이
0,pat1,36
1,part2,54
2,part1,44
3,part3,29
4,part3,29


조건절을 사용한 인덱싱

In [34]:
# 나이가 45세 이하인 직원의 정보 
df_emp2.loc[df_emp2['나이'] <= 45, :]

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9
7,part2,43,87.2


In [35]:
# 나이가 45세 이하인 직원의 정보 
df_emp2[df_emp2['나이'] <= 45]

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9
7,part2,43,87.2


값 변경하기

In [36]:
# 나이가 45세 이상인 직원의 점수를 Null로 대체
df_emp2.loc[df_emp2['나이'] >= 45, '점수'] = None
df_emp2

Unnamed: 0,소속,나이,점수
0,pat1,36,78.4
1,part2,54,
2,part1,44,67.9
3,part3,29,90.0
4,part3,29,75.0
5,part2,37,77.9
6,part1,55,
7,part2,43,87.2
8,part3,46,


결측치(missing values) 찾기

In [37]:
df_emp2.isnull()

Unnamed: 0,소속,나이,점수
0,False,False,False
1,False,False,True
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,True
7,False,False,False
8,False,False,True


In [38]:
df_emp2[df_emp2['점수'].isnull()]

Unnamed: 0,소속,나이,점수
1,part2,54,
6,part1,55,
8,part3,46,
