<a href="https://colab.research.google.com/github/JakeOh/202110_itw_lab_python/blob/main/py19_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스).
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [3]:
# pd.Series 클래스의 생성자를 호출 -> Series 클래스의 인스턴스를 생성
s = pd.Series(data=[1, 3, -5, -7])

In [4]:
s  # expression(식) 자동 출력

0    1
1    3
2   -5
3   -7
dtype: int64

In [5]:
print(s)  # print 문장(statement) 출력

0    1
1    3
2   -5
3   -7
dtype: int64


In [6]:
type(s)

pandas.core.series.Series

In [7]:
s.index  # Series 객체의 index 속성(property, attribute) - 레이블(label)

RangeIndex(start=0, stop=4, step=1)

In [8]:
s.values  # Series 객체의  values 속성 - 값들의 배열(ndarray)

array([ 1,  3, -5, -7], dtype=int64)

In [9]:
print(s.values)

[ 1  3 -5 -7]


## indexing, slicing

In [10]:
s[0]  # indexing

1

In [11]:
s[3]  # indexing

-7

In [12]:
s[0:2]  # slicing - [0, 2) 범위의 원소들

0    1
1    3
dtype: int64

In [13]:
# s[-1]  # 음수 인덱스를 사용하면 ValueError가 발생
s[-2:]  # 음수 slicing 가능

2   -5
3   -7
dtype: int64

## `iloc, loc` 속성

* `iloc`: __정수 인덱스__ 기반의 원소 참조(integer location)
* `loc`: __레이블__ 기반의 원소 참조(location)

In [14]:
s

0    1
1    3
2   -5
3   -7
dtype: int64

In [15]:
s.loc[0]

1

In [16]:
s.loc[3]

-7

In [17]:
# s.loc[-1] 
#> ValueError: 레이블 -1은 없기 때문에.

In [18]:
s.iloc[3]

-7

In [19]:
s.iloc[-1]

-7

Series의 기본 indexing 방식은 loc 기반 인덱싱이이서, 음수 인덱스 사용이 불가능.

In [20]:
# loc를 사용한 slicing
s.loc[0:2]

0    1
1    3
2   -5
dtype: int64

In [21]:
# iloc를 사용한 slciing
s.iloc[0:2]

0    1
1    3
dtype: int64

Slicing의 기본 slicing 방식은 iloc 기반 slicing이어서, 음수 인덱스 사용이 가능.

In [22]:
s = pd.Series(data=[1, -3, 5, -7, 9], index=['a', 'b', 'x', 'y', 'z'])
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [23]:
# indexing
print(s.loc['z'])
print(s.iloc[4])
print(s.iloc[-1])

9
9
9


In [24]:
# slicing
print(s.loc['x':'z'])
print(s.iloc[-3:])

x    5
y   -7
z    9
dtype: int64
x    5
y   -7
z    9
dtype: int64


In [25]:
print(s.iloc[2:5])

x    5
y   -7
z    9
dtype: int64


## fancy indexing

In [26]:
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [27]:
s.loc[['a', 'x', 'z']]

a    1
x    5
z    9
dtype: int64

In [28]:
s.iloc[[0, 2, 4]]

a    1
x    5
z    9
dtype: int64

## boolean indexing

boolean indexing은 loc 기반으로만 가능.

In [29]:
s > 0

a     True
b    False
x     True
y    False
z     True
dtype: bool

In [30]:
s[s > 0]

a    1
x    5
z    9
dtype: int64

In [31]:
s.loc[s > 0]

a    1
x    5
z    9
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 구조(클래스)
* 데이터베이스의 테이블과 유사한 구조

In [32]:
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2020, 2021, 2022] * 2,
    'pop' : [0.89, 0.91, 0.92, 1.1, 1.3, 1.25],
}

In [33]:
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2020, 2021, 2022, 2020, 2021, 2022],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.3, 1.25]}

In [34]:
# pd.DataFrame 생성자 호출 -> pd.DataFrame 클래스의 인스턴스를 생성
df = pd.DataFrame(data)

In [35]:
print(df)

  city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25


In [36]:
df  # expression 자동 출력

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [37]:
# pd.DataFrame의 속성들(properties)
print('shape:', df.shape)  #> (rows, columns)
print('index:', df.index)  #> 행(row) 레이블
print('columns:', df.columns)  #> 열(column) 레이블

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


## DataFrame에서 컬럼 선택

* `df['column_name']`
* `df.column_name`
    * 컬럼 이름이 Python의 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용할 수 있음.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름 DataFrame 객체가 원래 가지고 있었던 속성(변수, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [38]:
# DataFrame에서 'pop' 컬럼 선택 --> Series
df['pop']

0    0.89
1    0.91
2    0.92
3    1.10
4    1.30
5    1.25
Name: pop, dtype: float64

In [39]:
df.pop  # pop은 DataFrame이 원래 갖고 있었던 속성의 이름.

<bound method DataFrame.pop of   city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25>

In [40]:
# DataFrame에서 'city' 컬럼 선택
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [41]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [42]:
# DataFrame에서 1개 이상의 컬럼 선택 - fancy indexing
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.89
1,서울,0.91
2,서울,0.92
3,경기,1.1
4,경기,1.3
5,경기,1.25


In [43]:
df[['pop']]  #> DataFrame - 컬럼이 1개인 데이터프레임
# df['pop']  #> Series - 컬럼

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.3
5,1.25


## DataFrame에서 행(row) 선택

* `df.loc[레이블 기반 행 인덱스]`
* `df.iloc[정수 기반 행 인덱스]`

In [44]:
df

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [45]:
df.loc[0]

city      서울
year    2020
pop     0.89
Name: 0, dtype: object

In [46]:
df.loc[5]  # loc를 사용한 indexing

city      경기
year    2022
pop     1.25
Name: 5, dtype: object

In [47]:
df.iloc[-1]  # iloc를 사용한 indexing

city      경기
year    2022
pop     1.25
Name: 5, dtype: object

In [48]:
df.loc[1:3]  # loc를 사용한 slicing

Unnamed: 0,city,year,pop
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1


In [49]:
df.iloc[1:3]  # iloc를 사용한 slicing

Unnamed: 0,city,year,pop
1,서울,2021,0.91
2,서울,2022,0.92


In [50]:
# DataFrame에서 첫 3개의 행을 출력
df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92


In [51]:
df.head(n=3)  # 메서드

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92


In [52]:
# DataFrame에서 마지막 3개의 행 출력
df.iloc[-3:]

Unnamed: 0,city,year,pop
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [53]:
df.tail(n=3)

Unnamed: 0,city,year,pop
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


## boolean indexing

DataFrame에서 조건을 만족하는 행(row)들을 선택.

In [54]:
df

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [55]:
df['year'] == 2022

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [56]:
df[df['year'] == 2022]

Unnamed: 0,city,year,pop
2,서울,2022,0.92
5,경기,2022,1.25


* boolean indexing에서는 `and, or, not`을 사용할 수 없음.
* 대신에 `&, |, ~` 연산자를 사용함.
* 반드시 `()`를 사용해서 연산의 순서를 명시해야 함.

In [57]:
# 서울의 2020년 레코드만 선택
df[(df['city'] == '서울') & (df['year'] == 2020)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89


In [58]:
df[(df.city == '서울') & (df.year == 2020)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89


In [59]:
# city가 '서울'이거나 또는 pop이 1.2 이상인 레코드들을 선택
df[(df.city == '서울') | (df['pop'] >= 1.2)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
4,경기,2021,1.3
5,경기,2022,1.25


## DataFrame 메서드

In [60]:
# 숫자 타입 데이터의 기술 통계량(descriptive statistics) 요약: 
# NA가 아닌 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2021.0,1.061667
std,0.894427,0.182364
min,2020.0,0.89
25%,2020.25,0.9125
50%,2021.0,1.01
75%,2021.75,1.2125
max,2022.0,1.3


In [61]:
# 카테고리 타입 변수의 요약: 빈도수
df['city'].value_counts()

서울    3
경기    3
Name: city, dtype: int64

In [62]:
# 통계 메서드: sum, mean, var, std, min, max, median, ...
print('평균:', df['pop'].mean())
print('표준편차:', df['pop'].std())
print('중앙값:', df['pop'].median())

평균: 1.0616666666666668
표준편차: 0.18236410465512853
중앙값: 1.01


### DataFrame 연습

In [63]:
file_path="https://github.com/JakeOh/202110_itw_lab_python/raw/main/csv_exam.csv"

In [68]:
# GitHub에 저장된 CSV 팡리을 읽고 DataFrame을 생성.
exam=pd.read_csv(file_path)
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


exam 데이터프레임에서
* 모든 컬럼의 기술 통계량을 출력
* 1반 (class) 학생들의 레코드를 출력
* 수학 평균을 출력
* 수학 점수가 평균 이상인 학생들의 레코드 출력

In [85]:
exam.describe()

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [88]:
exam[['math','english','science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [72]:
exam[exam['class']==1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [73]:
exam['math'].mean()

57.45

In [83]:
exam[exam['math'].mean() < exam['math']]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [101]:
# 세 과목의 점수가 모두 평균 이상인 학생들을 출력
exam[(exam['math'].mean() <= exam['math']) &  (exam['english'].mean() <= exam['english']) & (exam['science'].mean() <= exam['science'])]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65


In [106]:
# 1반 학생들의 수학 점수 평균
exam[exam['class']==1]['math'].mean()

46.25

In [107]:
# 2반 학생들의 수학 점수 평균
exam[exam['class']==2]['math'].mean()

61.25

In [122]:
# 중복제거
exam['class'].drop_duplicates()

0     1
4     2
8     3
12    4
16    5
Name: class, dtype: int64

In [124]:
# for-in 구문을 이용해서 각 반 학생들의 수학 점수 평균

for i in exam['class'].drop_duplicates():
    print(f'{i} 반 학생들의 수학 점수 평균은 {exam[exam["class"]==i]["math"].mean()}')

1 반 학생들의 수학 점수 평균은 46.25
2 반 학생들의 수학 점수 평균은 61.25
3 반 학생들의 수학 점수 평균은 45.0
4 반 학생들의 수학 점수 평균은 56.75
5 반 학생들의 수학 점수 평균은 78.0
