<a href="https://colab.research.google.com/github/sjunkim95/lab-python/blob/main/py18_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값들 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [None]:
s = pd.Series(data=[1, 2, -3, -4, 5, -6])

In [None]:
s  # expression 출력: __repr__()

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
print(s)  # print 함수 출력: __str__()

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


## `pd.Series` 속성들

In [None]:
s.index  # Series 객체의 레이블

RangeIndex(start=0, stop=6, step=1)

In [None]:
s.values  # Series 객체의 값들로만 이루어진 numpy.ndarray

array([ 1,  2, -3, -4,  5, -6])

In [None]:
s2 = pd.Series(data=[1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
s2

a    1
b    3
c    5
d    7
dtype: int64

In [None]:
s2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
s2.values

array([1, 3, 5, 7])

## indexing, slicing - `iloc`, `loc` 속성

* `iloc`: 정수 인덱스(`ndarray`의 기본 인덱스) 기반의 원소 참조(integer location).
* `loc`: 레이블 기반의 원소 참조(location).


In [None]:
s

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
s.iloc[0]  # indexing

1

In [None]:
print(s.iloc[5])
print(s.iloc[-1])

-6
-6


In [None]:
s.iloc[:3]  # [0, 3) slicing - Series에서 첫 3개 원소 잘라냄.

0    1
1    2
2   -3
dtype: int64

In [None]:
s.iloc[-3:]  # Series에서 끝에 있는 3개 원소 잘라냄.

3   -4
4    5
5   -6
dtype: int64

In [None]:
s

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
s.loc[0]

1

In [None]:
s.loc[5]
# s.loc[-1]  # 에러 발생!!!

-6

In [None]:
s.loc[:3]  # [0, 3] 범위의 인덱스로 slicing

0    1
1    2
2   -3
3   -4
dtype: int64

In [None]:
s.loc[3:5]

3   -4
4    5
5   -6
dtype: int64

`series`에서 인덱싱은 `loc` 방식이 기본 인덱싱 방식, 슬라이싱은 `iloc` 방식이 기본 슬라이싱 방식.

In [None]:
s

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
print(s[0]) # s.loc[0]
#print(s[-1]) # s.loc[-1] - loc에서는 음수 인덱스 사용 불가.

1


In [None]:
print(s[:2]) # s.iloc[:2] - [0, 2) 정수 인덱스 범위 잘라내기

0    1
1    2
dtype: int64


In [None]:
s2

a    1
b    3
c    5
d    7
dtype: int64

In [None]:
s2[0]

1

In [None]:
print(s2.loc['a'])
print(s2.iloc[0])

1
1


In [None]:
print(s2.loc[:'b']) # s2.loc['a', 'b']
print(s2.iloc[:2]) # s2.iloc[0:2 ]

a    1
b    3
dtype: int64
a    1
b    3
dtype: int64


## fancy indexing

In [None]:
s

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
print(s.loc[[0, 1, 4]])
print(s.iloc[[0, 1, 4]])

0    1
1    2
4    5
dtype: int64
0    1
1    2
4    5
dtype: int64


In [None]:
s2

a    1
b    3
c    5
d    7
dtype: int64

In [None]:
print(s2.loc[['a', 'd']])
print(s2.iloc[[0, 3]])

a    1
d    7
dtype: int64
a    1
d    7
dtype: int64


## boolean indexing

In [None]:
s

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

In [None]:
s > 0

0     True
1     True
2    False
3    False
4     True
5    False
dtype: bool

In [None]:
s[s > 0]

0    1
1    2
4    5
dtype: int64

In [None]:
s.loc[s > 0]

0    1
1    2
4    5
dtype: int64

# `DataFrame`

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스).
* 데이터베이스의 테이블과 비슷한 구조.

In [None]:
data = {
    'city' : ['서울'] * 3 + ['경기도'] * 3,
    'year' : [2020, 2021, 2022] * 2,
    'pop' : [1.1, 1.11, 1.09, 1.2, 1.25, 1.31]
}

data # dict

{'city': ['서울', '서울', '서울', '경기도', '경기도', '경기도'],
 'year': [2020, 2021, 2022, 2020, 2021, 2022],
 'pop': [1.1, 1.11, 1.09, 1.2, 1.25, 1.31]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09
3,경기도,2020,1.2
4,경기도,2021,1.25
5,경기도,2022,1.31


In [None]:
print(df)

  city  year   pop
0   서울  2020  1.10
1   서울  2021  1.11
2   서울  2022  1.09
3  경기도  2020  1.20
4  경기도  2021  1.25
5  경기도  2022  1.31


## `DataFrame`의 속성들

In [None]:
print('shape:', df.shape)  # (row 개수, column 개수)
print('index:', df.index)  # 행 레이블
print('columns:', df.columns)  # 열 레이블(열 이름)

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


# DataFrame에서 컬럼 선택

* `df['column_name']`
* `df.column_name`
    * 컬럼 이름이 Python의 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(변수, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [None]:
df['year']  # DataFrame column -> Series

0    2020
1    2021
2    2022
3    2020
4    2021
5    2022
Name: year, dtype: int64

In [None]:
df.year

0    2020
1    2021
2    2022
3    2020
4    2021
5    2022
Name: year, dtype: int64

In [None]:
df['pop']

0    1.10
1    1.11
2    1.09
3    1.20
4    1.25
5    1.31
Name: pop, dtype: float64

In [None]:
df.pop  # -> DataFrame 클래스의 pop 메서드

<bound method DataFrame.pop of   city  year   pop
0   서울  2020  1.10
1   서울  2021  1.11
2   서울  2022  1.09
3  경기도  2020  1.20
4  경기도  2021  1.25
5  경기도  2022  1.31>

In [None]:
df[['city', 'pop']]  # select city, pop from df;

Unnamed: 0,city,pop
0,서울,1.1
1,서울,1.11
2,서울,1.09
3,경기도,1.2
4,경기도,1.25
5,경기도,1.31


In [None]:
df[['pop']]  # -> 컬럼이 1개인 DataFrame. Series가 아님.
# (주의) df['pop'] -> 컬럼 1개 선택 -> Series

Unnamed: 0,pop
0,1.1
1,1.11
2,1.09
3,1.2
4,1.25
5,1.31


## DataFrame에서 행 선택

* `df.loc[label]`: 레이블 기반 참조.
* `df.iloc[integer]`: `ndarray`의 정수 인덱스 기반 참조.


In [None]:
df.loc[0]  # DataFrame에서 1개 행만 선택 -> (object들을 원소로 갖는) Series

city      서울
year    2020
pop      1.1
Name: 0, dtype: object

In [None]:
df.iloc[-1]

city     경기도
year    2022
pop     1.31
Name: 5, dtype: object

In [None]:
df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [None]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [None]:
df.head(n=3)  # df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [None]:
df.tail(n=3)  # df.iloc[-3:]

Unnamed: 0,city,year,pop
3,경기도,2020,1.2
4,경기도,2021,1.25
5,경기도,2022,1.31


## boolean indexing

In [None]:
df['year'] == 2022

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [None]:
df[df['year'] == 2022]  # select * from df where year = 2022;

Unnamed: 0,city,year,pop
2,서울,2022,1.09
5,경기도,2022,1.31


* boolean indexing에서는 `and, or, not`을 사용할 수 없음.
* `&, }, ~~` 연산자를 사용해야 함.
* 번두사 ()를 사용해서 연산의 순서를 명시해야 됨.

In [None]:
# 데이터 프레임 df에서 city가 '서울'이거나 pop가 1.3 이상인 행들을 선택
df[df['city'] == ['서울'] | df['pop'] >= 1.3]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09
3,경기도,2020,1.2
4,경기도,2021,1.25
5,경기도,2022,1.31


In [None]:
# city가 '경기도'이고 year가 2022인 행 선택
# select * from df where city = '경기도' and year = 2022;
df[(df.city == '경기도') & (df.year == 2022)]

Unnamed: 0,city,year,pop
5,경기도,2022,1.31


## DataFrame에서 행과 열을 함께 선택

In [None]:
# df에서 city가 '서울'인 레코드의 year와 pop컬럼만 선택
# select year, pop from df where city = '서울';
df[df.city == '서울'['year', 'pop']]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [None]:
df.loc[0:2, 'year':'pop'] # df.loc[row_label, column_label]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


In [None]:
df.loc[[0, 1, 2], ['year', 'pop']]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


In [None]:
df.loc[df.city == '서울 ', ['year', 'pop']] # boolean에서 iloc사용 못함

Unnamed: 0,year,pop


# DataFrane 메서드

In [None]:
df.describe()
# 숫자 타입 컬럼(들)의 기술 통계량(descriptive statistics)
# NA(not available)가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2021.0,1.176667
std,0.894427,0.091141
min,2020.0,1.09
25%,2020.25,1.1025
50%,2021.0,1.155
75%,2021.75,1.2375
max,2022.0,1.31


In [None]:
df['city'].value_counts()
# 카테고리 타입 변수의 요약 - 빈도수(frequency)

서울     3
경기도    3
Name: city, dtype: int64

In [None]:
# 통계 메서드: sum, mean, var, std, min, max, median, ...
print('인구 평균: ', df['pop'].mean())
print('인구 중앙값: ', df['pop'].median())
print('인구 표쥰편차: ', df['pop'].std())

인구 평균:  1.1766666666666667
인구 중앙값:  1.155
인구 표쥰편차:  0.09114091653404996


# DataFrame 연습

In [None]:
file_path = 'https://github.com/JakeOh/202208_itw_java134_lab_python/raw/main/csv_exam.csv' # raw에서 링크 주소 복사.

In [None]:
# GitHub에 저장된 CSV 파일을 읽고 DataFrame을 생성
exam = pd.read_csv(file_path)

In [None]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [None]:
exam.describe() # 기술 통계량

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [None]:
# 세 과목의 기술 통계량
exam[['math', 'english', 'science']]

Unnamed: 0,math,english,science
0,50,98,50
1,60,97,60
2,45,86,78
3,30,98,58
4,25,80,65
5,50,89,98
6,80,90,45
7,90,78,25
8,20,98,15
9,50,98,45


In [None]:
exam[['math', 'english', 'science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [None]:
# 1반 학생(class == 1)들만 출력
exam[exam['class'] == 1] # python에 class 명령어가 따로 사용중 임으로, 저렇게 ['class'] 로 묶어줘라.

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [None]:
# 수학 과목의 평균
exam[['math']].mean() # pandas.Series.mean() -> exam.math.mean() 요것도 가능함

math    57.45
dtype: float64

In [None]:
# 수학 점수가 평균 이상인 학생들을 출력
exam[exam.math >= exam.math.mean()]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [None]:
# 1반 학생들의 수학 점수 평균 
exam[exam['class'] == 1]['math'].mean()

46.25

In [None]:
# 2반 학생들의 수학 점수 평균 
exam[exam['class'] == 2]['math'].mean()

61.25

In [None]:
# 각 반(class 1 ~ class 5)의 수학 점수 평균을 출력
for x in range(1, 6):
    math_mean = exam[exam['class'] == x]['math'].mean()
    print(f'class{x} : {math_mean}')

class1 : 46.25
class2 : 61.25
class3 : 45.0
class4 : 56.75
class5 : 78.0


In [None]:
# 세 과목의 점수가 모두 평균 이상인 학생들 출력.
exam[(exam.math >= exam.math.mean()) &
     (exam.english >= exam.english.mean()) &
     (exam.science >= exam.science.mean())]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65
