<a href="https://colab.research.google.com/github/kkwh/java_lec_python/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트

In [None]:
import numpy as np
import pandas as pd

# Series

* 한 가지 타입의 여러개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축 레이블(axis lable)을 가지고 있는 1차원 배열(ndarray)

In [None]:
s = pd.Series(data=[1, 2, -3, -4, 5, -6]) # Series 클래스의 생성자 호출

In [None]:
type(s)

pandas.core.series.Series

In [None]:
print(s)  # __str__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


In [None]:
s.values  # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [None]:
s.index   # Series의 인덱스(레이블)

RangeIndex(start=0, stop=6, step=1)

In [None]:
s = pd.Series(data=[1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

## indexing, slicing

* `iloc`: integer location. 정수 인덱스(ndarray의 기본 인덱스) 기반으로 원소 참조 또는 슬라이싱.
* `loc`: location. 레이블 기반의 원소 첨조 또는 슬라이싱

In [None]:
np.random.seed(3)
s1 = pd.Series(data=np.random.randint(-10, 10, size=6))
s1

0     0
1    -7
2    -2
3   -10
4     9
5     0
dtype: int64

In [None]:
# iloc를 사용한 인덱싱
print(s1.iloc[0]) # Series 첫번째 원소
print(s1.iloc[-1]) # Series 마지막 원소

0
0


In [None]:
# iloc 사용한 슬라이싱
print(s1.iloc[:3]) # Series에서 첫 3개 원소 자르기
print(s1.iloc[-3:]) # Series에서 마지막 3개 원소 자르기

0    0
1   -7
2   -2
dtype: int64
3   -10
4     9
5     0
dtype: int64


In [None]:
# loc를 사용한 인덱싱
print(s1.loc[0])  # Series의 첫번째 원소
print(s1.loc[2])  # Series의 마지막 원소 - 음수 인덱스 사용 불가능!

0
-2


In [None]:
# loc를 사용한 슬라이싱
print(s1.loc[:2])

0    0
1   -7
2   -2
dtype: int64


In [None]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10, 11, size=6),
               index=['a', 'b', 'c', 'd', 'e', 'f'])
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [None]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [None]:
s2.loc['a']

-4

In [None]:
s2.loc['f']

10

In [None]:
s2.loc['c']

4

In [None]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [None]:
s2.loc[['a', 'c', 'e']] # loc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [None]:
s2.iloc[[0, 2, 4]]  # iloc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [None]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [None]:
s2[s2 > 0] #boolean indexing

b     9
c     4
f    10
dtype: int64

In [None]:
s2.loc[s2 > 0]

b     9
c     4
f    10
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스).
* 데이터베이스의 테이블과 비슷한 구조.
* DataFrame에서 컬럼은 Series 타입.

In [None]:
# dict
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2021, 2022, 2023] * 2,
    'pop': np.random.random(size=6)
}
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.15601864, 0.15599452, 0.05808361, 0.86617615, 0.60111501,
        0.70807258])}

In [None]:
df = pd.DataFrame(data)

In [None]:
print(df)

  city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073


In [None]:
df  # __repr__

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


# DataFrame 속성(Attributes)

In [None]:
df.shape  #> (row 개수, column 개수)

In [None]:
df.columns  #> 열 레이블(column label)

Index(['city', 'year', 'pop'], dtype='object')

## DataFrame에서 컬럼 선택

* `df['column_name']`
  * 항상 사용 가능
* `df.column_name`
  * 컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
    * 변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
    * 변수 이름은 숫자로 시작할 수 없다.
  * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [None]:
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [None]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [None]:
df['pop']

0    0.156019
1    0.155995
2    0.058084
3    0.866176
4    0.601115
5    0.708073
Name: pop, dtype: float64

In [None]:
df.pop  #> pop 컬럼 선택이 아니라, DataFrame의 pop 메서드를 사용.

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073>

2개 이상의 컬럼 선택 - fancy indexing

In [None]:
df[['city','pop']]

Unnamed: 0,city,pop
0,서울,0.156019
1,서울,0.155995
2,서울,0.058084
3,경기,0.866176
4,경기,0.601115
5,경기,0.708073


## DataFrame에서 행 선택

* `df.loc[label]`: 행 인덱스(레이블) 기반 참조.
* `df.iloc[integer]`: ndarray

In [None]:
df.iloc[0]  # DataFrame
#> 행 1개를 선택 -> 결과: Series

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [None]:
df.iloc[:3] # DataFrame에서 첫 3개 행 선택
#> 2개 이상의 행을 선택 -> 결과: DataFrame

In [None]:
df.loc[0]

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [None]:
df.loc[5]

city          경기
year        2023
pop     0.708073
Name: 5, dtype: object

In [None]:
df.head(n=3) # 첫 n개 행을 선택하는 메서드. 기본값은 5

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [None]:
df.tail() # 끝에서 n개의 행을 선택하는 메서드. n의 기본값은 5.

Unnamed: 0,city,year,pop
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


## DataFrame에서 조건에 맞는 행을 선택 -boolean indexing

In [None]:
df

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [None]:
df.year == 2023

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [None]:
df[df.year == 2023]

Unnamed: 0,city,year,pop
2,서울,2023,0.058084
5,경기,2023,0.708073


* boolean indexing을 사용할 때는, 파이썬의 논리 연산자(`and, or, not`)를 사용할 수 없음!
* boolean indexing에서는 '&, |, ~' 연산자를 사용함!
* 조건식과 조건식은 ()를 사용해서 구분, 연산의 순서를 명시해야 함.

In [None]:
# city가 '서울'이거나, pop이 0.65 이하인 행동을 선택:
df[(df['city'] == '서울') | (df['pop'] <= 0.65)]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
4,경기,2022,0.601115


In [None]:
# 경기도의 2023년 자료를 선택
df[(df.city == '경기') & (df.year == 2023)]

Unnamed: 0,city,year,pop
5,경기,2023,0.708073


# DataFrame에서 행과 열을 함께 선택

In [None]:
df[df.city == '서울'][['year', 'pop']]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


In [None]:
df.loc[df.city == '서울'], ['year', 'pop']

## DataFrame 메서드

In [None]:
df.describe()
# 숫자 타입 컬럼(들)의 기술 통계량(descriptive statistics)
# NA가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4사분위 값, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2022.0,0.424243
std,0.894427,0.342088
min,2021.0,0.058084
25%,2021.25,0.156001
50%,2022.0,0.378567
75%,2022.75,0.681333
max,2023.0,0.866176


## DataFrame 연습

In [None]:
file_path = 'https://github.com/JakeOh/20230228_itwill_java140_lab_python/raw/main/csv_exam.csv'

In [None]:
# github에 저장된 CSV 파일을 읽어서 데이터프레임 생성:
exam = pd.read_csv(file_path)

In [None]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


Error: Runtime no longer has a reference to this dataframe, please re-run this cell and try again.


* 데이터프레임의 첫 5개 행을 출력
* 데이터프레임의 마지막 5개 행을 출력
* 숫자 타입 컬럼들의 기술 통계량을 출력
* class 컬럼의 빈도수
* 수학, 영어, 과학 컬럼의 기술 통계량 출력
* 1반 학생들의 데이터를 출력
* 수학 평균을 출력
* 수학 점수가 평균 이상인 학생들의 데이터를 출력
* 1반 학생들의 수학 점수 평균을 찾고 출력
* 2반 학생들의 수학 점수 평균을 찾고 출력
* 반 별(class 별) 수학 점수 평균을 찾고 출력
* 세 과목의 점수가 모두 평균 이상인 학생들의 데이터를 출력

In [None]:
# 데이터프레임의 첫 5개 행 출력
print("첫 5개 행:")
print(exam.head())

# 데이터프레임의 마지막 5개 행 출력
print("마지막 5개 행:")
print(exam.tail())

# 숫자 타입 컬럼들의 기술 통계량 출력
print("숫자 타입 컬럼들의 기술 통계량:")
print(exam.describe())

# class 컬럼의 빈도수
print("class 컬럼의 빈도수:")
print(exam["class"].value_counts())

# 수학, 영어, 과학 컬럼의 기술 통계량 출력
print("수학, 영어, 과학 컬럼의 기술 통계량:")
print(exam[["math", "english", "science"]].describe())

# 1반 학생들의 데이터 출력
print("1반 학생들의 데이터:")
print(exam[exam["class"] == 1])

# 수학 평균 출력
math_mean = exam["math"].mean()
print("수학 평균:", math_mean)

# 수학 점수가 평균 이상인 학생들의 데이터 출력
print("수학 점수가 평균 이상인 학생들의 데이터:")
print(exam[exam["math"] >= math_mean])

# 1반 학생들의 수학 점수 평균 찾고 출력
class1_math_mean = exam[exam["class"] == 1]["math"].mean()
print("1반 학생들의 수학 점수 평균:", class1_math_mean)

# 2반 학생들의 수학 점수 평균 찾고 출력
class2_math_mean = exam[exam["class"] == 2]["math"].mean()
print("2반 학생들의 수학 점수 평균:", class2_math_mean)

# 반 별(class 별) 수학 점수 평균 찾고 출력
class_math_mean = exam.groupby("class")["math"].mean()
print("반 별 수학 점수 평균:")
print(class_math_mean)

# 세 과목의 점수가 모두 평균 이상인 학생들의 데이터 출력
print("세 과목의 점수가 모두 평균 이상인 학생들의 데이터:")
print(exam[(exam["math"] >= math_mean) & (exam["english"] >= exam["english"].mean()) & (exam["science"] >= exam["science"].mean())])

첫 5개 행:
   id  class  math  english  science
0   1      1    50       98       50
1   2      1    60       97       60
2   3      1    45       86       78
3   4      1    30       98       58
4   5      2    25       80       65
마지막 5개 행:
    id  class  math  english  science
15  16      4    58       98       65
16  17      5    65       68       98
17  18      5    80       78       90
18  19      5    89       68       87
19  20      5    78       83       58
숫자 타입 컬럼들의 기술 통계량:
             id      class       math    english    science
count  20.00000  20.000000  20.000000  20.000000  20.000000
mean   10.50000   3.000000  57.450000  84.900000  59.450000
std     5.91608   1.450953  20.299015  12.875517  25.292968
min     1.00000   1.000000  20.000000  56.000000  12.000000
25%     5.75000   2.000000  45.750000  78.000000  45.000000
50%    10.50000   3.000000  54.000000  86.500000  62.500000
75%    15.25000   4.000000  75.750000  98.000000  78.000000
max    20.00000   5.000000  90.00