In [15]:
import numpy as np
import pandas as pd

#Series

* 한가지 타입의 값들 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [16]:
s = pd.Series(data=[-1,2,-3,4,-5,-6])

In [17]:
print(s)

0   -1
1    2
2   -3
3    4
4   -5
5   -6
dtype: int64


In [19]:
s.index # Series 객체의 레이블 

RangeIndex(start=0, stop=6, step=1)

In [24]:
s.values # Series 객체의 값들로만 이루어진 numpy.ndarray

array([-1,  2, -3,  4, -5, -6])

In [32]:
s2 = pd.Series(data=[1,3,4,8], index=['a','b','c','d'])

In [33]:
s2

a    1
b    3
c    4
d    8
dtype: int64

In [34]:
s2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [35]:
s2.values

array([1, 3, 4, 8])

## Series의 indexing, slicing

* `iloc`, `loc` 속성을 사용
    * `iloc` : 정수 인덱스(ndarray의 기본 인덱스) 기반의 원소 참조(integer location).
    * `loc` : 레이블 기반의 원소 참조(location)

* `Series`에서 인덱싱은 loc 방식이 기본 인덱싱 방식, 슬라이싱은 iloc 방식이 기본 슬리이싱 방식

In [55]:
print(s[0]) # s.loc[0]
print(s[:2]) # s.iloc

-1
0   -1
1    2
dtype: int64


In [40]:
s.iloc[5] # indexing

-6

In [41]:
s.iloc[-1]

-6

In [43]:
s.iloc[-3:]

3    4
4   -5
5   -6
dtype: int64

In [45]:
s.iloc[:3]

0   -1
1    2
2   -3
dtype: int64

In [48]:
s.loc[5]

-6

In [51]:
# s.loc[-1] # 에러 발생!!!

In [57]:
s.loc[:3]

0   -1
1    2
2   -3
3    4
dtype: int64

In [61]:
s2[-1]

8

## fancy indexing

In [64]:
s.loc[[0,1,4]]

0   -1
1    2
4   -5
dtype: int64

In [66]:
s2.loc[['a','d','c']]

a    1
d    8
c    4
dtype: int64

In [68]:
s2.iloc[[0,3,2]]

a    1
d    8
c    4
dtype: int64

## boolean indexing

In [69]:
s

0   -1
1    2
2   -3
3    4
4   -5
5   -6
dtype: int64

In [74]:
s>0

0    False
1     True
2    False
3     True
4    False
5    False
dtype: bool

In [76]:
s[s>0]

1    2
3    4
dtype: int64

In [78]:
s.loc[s>0]

1    2
3    4
dtype: int64

# `DataFrame`

* 데이터를 2차원(row, column)형태로 저장하는 데이터 타입(클래스).
* 데이터베이스의 테이블과 비슷한 구조.
* DataFrame에서 column은 Series

In [81]:
data = {

    'city' : ['서울'] *3 + ['경기'] *3,
    'year' : [2020,2021,2022] *2,
    'pop' : [1.1,1.11,1.09,1.2,1.25,1.31]

}

data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2020, 2021, 2022, 2020, 2021, 2022],
 'pop': [1.1, 1.11, 1.09, 1.2, 1.25, 1.31]}

In [83]:
df = pd.DataFrame(data)

In [86]:
df

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09
3,경기,2020,1.2
4,경기,2021,1.25
5,경기,2022,1.31


In [87]:
print(df)

  city  year   pop
0   서울  2020  1.10
1   서울  2021  1.11
2   서울  2022  1.09
3   경기  2020  1.20
4   경기  2021  1.25
5   경기  2022  1.31


## DataFrame의 속성들

In [90]:
print('shape: ', df.shape) # (row , column)
print('index: ', df.index) # row label
print('columns: ', df.columns) # column label(이름)

shape:  (6, 3)
index:  RangeIndex(start=0, stop=6, step=1)
columns:  Index(['city', 'year', 'pop'], dtype='object')


## DataFrame에서 컬럼 선택

* `df['column_name']`
* `df.column_nam`
    * 컬럼 이름이 Python의 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(변수, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [92]:
df['year'] # Series

0    2020
1    2021
2    2022
3    2020
4    2021
5    2022
Name: year, dtype: int64

In [95]:
df.year # Series

0    2020
1    2021
2    2022
3    2020
4    2021
5    2022
Name: year, dtype: int64

In [97]:
df['pop'] # Series

0    1.10
1    1.11
2    1.09
3    1.20
4    1.25
5    1.31
Name: pop, dtype: float64

In [100]:
df[['city', 'pop']] # DataFrame

Unnamed: 0,city,pop
0,서울,1.1
1,서울,1.11
2,서울,1.09
3,경기,1.2
4,경기,1.25
5,경기,1.31


In [101]:
df[['pop']] # DataFrame. df['pop'] = Series

Unnamed: 0,pop
0,1.1
1,1.11
2,1.09
3,1.2
4,1.25
5,1.31


## DataFrame에서 행 선택

* `df.loc[label]` : 레이블 기반 참조.
* `df.iloc[label]` : `ndarray`의 정수 인덱스 기반 참조.

In [112]:
df.loc[0] # 1개 행만 선택 -> Series

city      서울
year    2020
pop      1.1
Name: 0, dtype: object

In [111]:
df.loc[[0]] #DataFrame

Unnamed: 0,city,year,pop
0,서울,2020,1.1


In [114]:
df.iloc[-1] #Series

city      경기
year    2022
pop     1.31
Name: 5, dtype: object

In [122]:
df.iloc[:3] #DataFrame

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [128]:
df.head(n=3) # df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


In [130]:
df.tail(n=3) # df.iloc[-3:]

Unnamed: 0,city,year,pop
3,경기,2020,1.2
4,경기,2021,1.25
5,경기,2022,1.31


In [125]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09


## boolean indexing

In [132]:
df['year'] == 2022 # select * from df where year = 2022;

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

* boolean indexing 에서는 `and, or, not`을 사용할 수 없음.
* `&, |, ! ` 연산자를 사용
* 반드시 `()`를 사용해서 연산의 순서를 명시해야 됨.

In [143]:
# 데이터프레일 df에서 city가 '서울' 이거나 pop가 1.3 이상인 행들을 선택
df[(df['city'] == '서울') | (df['pop'] > 1.3)]

Unnamed: 0,city,year,pop
0,서울,2020,1.1
1,서울,2021,1.11
2,서울,2022,1.09
5,경기,2022,1.31


In [148]:
# 데이터프레일 df에서 city가 '경기도' 이고 year가 2022인 행들을 선택
df[(df['city'] == '경기') & (df['year'] == 2022)]

Unnamed: 0,city,year,pop
5,경기,2022,1.31


## DataFrame에서 행과 열을 함께 선택

In [150]:
# df에서 city가 '서울'인 레코드의 year와 pop 컬럼만 선택
# select year, pop from df where city = '서울';
df[df.city == '서울'][['year', 'pop']]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


In [160]:
df.loc[0:2, 'year': 'pop'] #df.loc[row_label, column_label]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


In [162]:
df.loc[[0,1,2], ['year', 'pop']]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


In [163]:
df.loc[df.city == '서울', ['year', 'pop']]

Unnamed: 0,year,pop
0,2020,1.1
1,2021,1.11
2,2022,1.09


# DataFrame 메서드

In [166]:
df.describe() # 숫자 타입 column(s)의 기술 통계량(descriptive statistics)
# NA(not available)가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2021.0,1.176667
std,0.894427,0.091141
min,2020.0,1.09
25%,2020.25,1.1025
50%,2021.0,1.155
75%,2021.75,1.2375
max,2022.0,1.31


In [168]:
df.value_counts() # 카테고리 타입 변수의 요약 - 빈도수(frequency)

city  year  pop 
경기    2020  1.20    1
      2021  1.25    1
      2022  1.31    1
서울    2020  1.10    1
      2021  1.11    1
      2022  1.09    1
dtype: int64

In [170]:
# 통계 메서드: sum, mean, var, std, min, max, median, ...

print('인구 평균 :', df['pop'].mean())
print('인구 중앙값 :', df['pop'].median())
print('인구 표준편차: :', df['pop'].std())

인구 평균 : 1.1766666666666667
인구 중앙값 : 1.155
인구 표준편차: : 0.09114091653404996


#DataFrame 연습

In [171]:
file_path = 'https://github.com/JakeOh/202208_itw_java134_lab_python/raw/main/csv_exam.csv'

In [173]:
# GitHub에 저장된 CSV 파일을 읽고 DataFrame을 생성
exam = pd.read_csv(file_path)

In [175]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [177]:
exam.describe() # 기술 통계량

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [186]:
# ex1. 세 과목의 기술 통계량
exam[['math', 'english', 'science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [205]:
# ex2. 1반 학생들 boolean indexing

exam[exam['class'] == 1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [213]:
# 수학과목의 평균
exam['math'].mean() # pandas.Series.mean()\
exam.math.mean()

57.45

In [215]:
# 수학 점수가 평균 이상인 학생들을 출력
exam[exam['math'] >= exam['math'].mean()]
exam[exam.math >= exam.math.mean()]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [216]:
# 1반 학생들의 수학점수 평균
exam[exam['class'] == 1]['math'].mean()
exam[exam['class'] == 1].math.mean()

46.25

In [218]:
# 2반 학생들의 수학점수 평균
exam[exam['class'] == 2]['math'].mean()
exam[exam['class'] == 2].math.mean()

61.25

In [220]:
# 각 반의 수학점수 평균을 출력

In [239]:
for x in range(1, 6):
    print(x,'반의 수학 평균 점수 : ', exam[exam['class'] == x].math.mean())

1 반의 수학 평균 점수 :  46.25
2 반의 수학 평균 점수 :  61.25
3 반의 수학 평균 점수 :  45.0
4 반의 수학 평균 점수 :  56.75
5 반의 수학 평균 점수 :  78.0


In [246]:
# 세 과목의 점수가 모두 평균 이상인 학생들

exam[(exam.math >= exam.math.mean()) & 
     (exam.science >= exam.science.mean()) & 
     (exam.english >= exam.english.mean())]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65
