<a href="https://colab.research.google.com/github/Doodam/Python/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트

In [None]:
import numpy as np
import pandas as pd

# Series

* 한 가지 타입의 여러개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축 레이블(axis label)을 가지고 있는 1차원 배열(ndarray)


In [None]:
s = pd.Series(data=[1, 2, -3, -4, 5, -6]) # Series 클래스의 생성자 호출

In [None]:
type(s)

pandas.core.series.Series

In [None]:
print(s)  # __str__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


In [None]:
s # __repr__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

## Series속성 (Attributes)

In [None]:
s.values  # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [None]:
s.index # Series의 인덱스(레이블)

RangeIndex(start=0, stop=6, step=1)

In [None]:
s = pd.Series(data=[1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [None]:
s.values

array([1, 2, 3])

In [None]:
s.index

Index(['a', 'b', 'c'], dtype='object')

## indexing, slicing

*`iloc`: integer location. 정수 인덱스(ndarray의 기본 인덱스) 기반으로 원소 참조 또는 슬라이싱.
* `loc`: location. 레이블 기반의 원소 참조 또는 슬라이싱.

In [None]:
np.random.seed(1)
s1 = pd.Series(data=np.random.randint(-10, 10, size=6))
s1

0   -5
1    1
2    2
3   -2
4   -1
5    1
dtype: int64

In [None]:
# iloc를 사용한 인덱싱
print(s1.iloc[0]) # Series에서 첫번째 원소
print(s1.iloc[-1])  # Series에서 마지막 원소

-5
1


In [None]:
# iloc를 사용한 슬라이싱
print(s1.iloc[:3])  # Series에서 첫 3개 원소 자르기
print(s1.iloc[-3:]) # Series에서 마지막 3개 원소 자르기

0   -5
1    1
2    2
dtype: int64
3   -2
4   -1
5    1
dtype: int64


In [None]:
# loc를 사용한 인덱싱
print(s1.loc[0])  # Series의 첫번째 원소
# print(s1.loc[-1]) # Series의 마지막 원소 - 음수 인덱스 사용 불가능!
print(s1.loc[5])

-5
1


In [None]:
# loc를 사용한 슬라이싱
print(s1.loc[:2])

0   -5
1    1
2    2
dtype: int64


In [None]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10, 11, size=6),
              index = ['a', 'b', 'c', 'd', 'e', 'f'] )
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [None]:
s2.iloc[0]

-4

In [None]:
s2.iloc[-1]

10

In [None]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [None]:
s2.loc['a']

-4

In [None]:
s2.loc['f']

10

In [None]:
s2.loc[:'c']

a   -4
b    9
c    4
dtype: int64

## fancy indexing, boolean indexing

In [None]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [None]:
s2.loc[['a', 'c','e']]  # loc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [None]:
s2.iloc[[0, 2, 4]]  # iloc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [None]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [None]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [None]:
s2[s2 > 0]  # boolean indexing

b     9
c     4
f    10
dtype: int64

In [None]:
s2.loc[s2 > 0]

b     9
c     4
f    10
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스).
* 데이터베이스의 테이블과 비슷한 구조.
* DataFrame에서 컬럼은 Series 타입.

In [None]:
# dict
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2021, 2022, 2023] * 2,
    'pop': np.random.random(size=6)
}
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.02058449, 0.96990985, 0.83244264, 0.21233911, 0.18182497,
        0.18340451])}

In [None]:
df = pd.DataFrame(data)

In [None]:
print(df) # __str__

  city  year       pop
0   서울  2021  0.020584
1   서울  2022  0.969910
2   서울  2023  0.832443
3   경기  2021  0.212339
4   경기  2022  0.181825
5   경기  2023  0.183405


In [None]:
df # __repr__

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


## DataFrame 속성(Attributes)

In [None]:
df.shape  #> (row 개수, column 개수)

(6, 3)

In [None]:
df.index  #> 행 레이블(row label)

RangeIndex(start=0, stop=6, step=1)

In [None]:
df.columns  #> 열 레이블(column label)

Index(['city', 'year', 'pop'], dtype='object')

## DataFrame에서 컬럼 선택

* `df['column_name']`
  *  항상 사용 가능
* `df.column_name`
  * 컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
    * 변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
    * 변수 이름은 숫자로 시작할 수 없다.
  *  컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [None]:
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [None]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [None]:
df['pop']

0    0.020584
1    0.969910
2    0.832443
3    0.212339
4    0.181825
5    0.183405
Name: pop, dtype: float64

In [None]:
df.pop  #> pop 컬럼 선택이 아니라, DataFrame의 pop 메서드를 사용.

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.020584
1   서울  2022  0.969910
2   서울  2023  0.832443
3   경기  2021  0.212339
4   경기  2022  0.181825
5   경기  2023  0.183405>

2개 이상의 컬럼 선택-fancy indexing

In [None]:
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.020584
1,서울,0.96991
2,서울,0.832443
3,경기,0.212339
4,경기,0.181825
5,경기,0.183405


## DataFrame에서 행 선택

* `df.loc[label]`: 행 인덱스(레이블) 기반 참조.
* `df.iloc[integer]`: ndarray의 정수 인덱스 기반 참조.

In [None]:
df.iloc[0]  # DataFrame의 첫번째 행
#> 행 1개를 선택 -> 결과: Series

city          서울
year        2021
pop     0.020584
Name: 0, dtype: object

In [None]:
df.iloc[:3]  # DataFrame에서 첫 3개 행 선택
#> 2개 이상의 행을 선택 -> 결과: DataFrame

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443


In [None]:
df.iloc[-1]  # DataFrame에서 마지막 행

city          경기
year        2023
pop     0.183405
Name: 5, dtype: object

In [None]:
df.iloc[-3:]  # DataFrame에서 마지막 3개 행

Unnamed: 0,city,year,pop
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


In [None]:
df.loc[0]

city          서울
year        2021
pop     0.020584
Name: 0, dtype: object

In [None]:
df.loc[5]

city          경기
year        2023
pop     0.183405
Name: 5, dtype: object

In [None]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443


In [None]:
df.loc[3:]

Unnamed: 0,city,year,pop
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


In [None]:
df.head(n=3)  # DaraFrame에서 첫 n개 행을 선택하는 메서드. n의 기본값은 5.

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443


In [None]:
df.tail(n=3)  # DataFrame에서 끝에서 n개의 행을 선택하는 메서드. n의 기본값은 5.

Unnamed: 0,city,year,pop
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


## DataFrame에서 조건에 맞는 행을 선택 - boolean indexing

In [None]:
df

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


In [None]:
df.year == 2023

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [None]:
df[df.year == 2023]

Unnamed: 0,city,year,pop
2,서울,2023,0.832443
5,경기,2023,0.183405


* boolean indexing을 사용할 때는, 파이썬의 논리 연산자(`and, or, not`)를 사용할 수 없음!
* boolean indexing에서는 `&, |, ~` 연산자를 사용함!
* 조건식과 조건식은 `()`를 사용해서 구분, 연산의 순서를 명시해야 함.

In [None]:
# city가 '서울'이거나, pop이 0.65 이하인 행들을 선택:
df[(df['city'] == '서울') | (df['pop'] <= 0.65)]

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


In [None]:
# 경기도의 2023년 자료를 선택
df[(df.city == '경기') & (df.year == 2023)]

Unnamed: 0,city,year,pop
5,경기,2023,0.183405


## DataFrame에서 행과 열을 함께 선택

In [None]:
df[df.city == '서울'][['year', 'pop']]

Unnamed: 0,year,pop
0,2021,0.020584
1,2022,0.96991
2,2023,0.832443


In [None]:
df.loc[df.city == '서울', ['year', 'pop']]  # df.loc[row, column]

Unnamed: 0,year,pop
0,2021,0.020584
1,2022,0.96991
2,2023,0.832443


## DataFrame 메서드

In [None]:
df

Unnamed: 0,city,year,pop
0,서울,2021,0.020584
1,서울,2022,0.96991
2,서울,2023,0.832443
3,경기,2021,0.212339
4,경기,2022,0.181825
5,경기,2023,0.183405


In [None]:
df.describe()
# 숫자 타입 컬럼(들)의 기술 통계랑(descriptive statistics)
# NA가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4사분위 값, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2022.0,0.400084
std,0.894427,0.396356
min,2021.0,0.020584
25%,2021.25,0.18222
50%,2022.0,0.197872
75%,2022.75,0.677417
max,2023.0,0.96991


In [None]:
df['city'].value_counts() # 카테고리 타입(범주형) 변수의 빈도수(frequency)

서울    3
경기    3
Name: city, dtype: int64

In [None]:
df['year'].value_counts()

2021    2
2022    2
2023    2
Name: year, dtype: int64

## DataFrame 연습

In [None]:
file_path = 'https://github.com/JakeOh/20230228_itwill_java140_lab_python/raw/main/csv_exam.csv'

In [None]:
#github에서 저장된 CSV 파일을 읽어서 데이터프레임 생성:
exam = pd.read_csv(file_path)

In [None]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


* 데이터프레임의 첫 5개 행을 출력
* 데이터프레임의 마지막 5개 행을 출력
* 숫자 타입 컬럼들의 기술 통계량을 출력
* class 컬럼의 빈도수를 찾음
* 수학, 영어, 과학 컬럼의 기술 통계량 출력
* 1반 학생들의 데이터를 출력
* 수학 평균을 찾고 출력
* 수학 점수가 평균 이상인 학생들의 데이터를 출력
* 1반 학생들의 수학 점수 평균을 찾고 출력
* 2반 학생들의 수학 점수 평균을 찾고 출력
* 반 별(class 별) 수학 점수 평균을 찾고 출력
* 세 과목의 점수가 모두 평균 이상인 학생들의 데이터를 출력

In [None]:
exam.head()

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [None]:
exam.tail()

Unnamed: 0,id,class,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [None]:
exam.describe()

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [None]:
exam['class'].value_counts()

1    4
2    4
3    4
4    4
5    4
Name: class, dtype: int64

In [None]:
exam[['math', 'english', 'science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [None]:
exam[exam['class'] == 1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [None]:
exam['math'].mean()

57.45

In [None]:
exam['math'].std()

20.29901475441604

In [None]:
exam[exam.math >= exam.math.mean()]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [None]:
# exam[exam['class'] == 1].math.mean()
exam[exam['class'] == 1]['math'].mean()

46.25

In [None]:
exam[exam['class'] == 2]['math'].mean()

61.25

In [None]:
for x in range(1, 6):
  math_mean = exam[exam['class'] == x]
  print(f'class {x} : {math_mean}')

class 1 :    id  class  math  english  science
0   1      1    50       98       50
1   2      1    60       97       60
2   3      1    45       86       78
3   4      1    30       98       58
class 2 :    id  class  math  english  science
4   5      2    25       80       65
5   6      2    50       89       98
6   7      2    80       90       45
7   8      2    90       78       25
class 3 :     id  class  math  english  science
8    9      3    20       98       15
9   10      3    50       98       45
10  11      3    65       65       65
11  12      3    45       85       32
class 4 :     id  class  math  english  science
12  13      4    46       98       65
13  14      4    48       87       12
14  15      4    75       56       78
15  16      4    58       98       65
class 5 :     id  class  math  english  science
16  17      5    65       68       98
17  18      5    80       78       90
18  19      5    89       68       87
19  20      5    78       83       58


In [None]:
means = []
for x in range(1, 6):
  math_mean = exam[exam['class'] == x].math.mean()
  means.append(math_mean)

print(means)

exam_dict = {
    'class': np.arange(1, 6),
    'math_mean': means
}
print(exam_dict)

df = pd.DataFrame(exam_dict)
df

[46.25, 61.25, 45.0, 56.75, 78.0]
{'class': array([1, 2, 3, 4, 5]), 'math_mean': [46.25, 61.25, 45.0, 56.75, 78.0]}


Unnamed: 0,class,math_mean
0,1,46.25
1,2,61.25
2,3,45.0
3,4,56.75
4,5,78.0


In [None]:
exam[(exam.math >= exam.math.mean())  &
      (exam.english >= exam.english.mean()) &
      (exam.science >= exam.science.mean())]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65


In [None]:
# 1반 학생들의 수학 평균 점수 이상인 학생들
math_mean_class1 = exam[exam['class'] == 1].math.mean()
exam[exam.math >= math_mean_class1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
9,10,3,50,98,45
10,11,3,65,65,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65
