<a href="https://colab.research.google.com/github/kim-dahun/python-study/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트



In [1]:
import numpy as np
import pandas as pd


# Series

* 한 가지 타입의 여러 개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입.(클래스)
* 축 레이블(axis label)을 가지고 있는 1차원 배열(ndarray)

In [2]:
s = pd.Series(data=[1,2,-3,-4,5,-6])

In [3]:
s.sum(axis=0)

-5

In [4]:
type(s)

pandas.core.series.Series

In [5]:
print(s)

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


## Series 속성(attribute)

In [6]:
s.values # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [7]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [8]:
s = pd.Series(data=[1,2,3],index=['a','b','c'])

In [10]:
print(s)

a    1
b    2
c    3
dtype: int64


In [11]:
s.index

Index(['a', 'b', 'c'], dtype='object')

## indexing, slicing

* `iloc` : Integer Location 정수 인덱스(ndarray의 기본인덱스) 기반으로 원소를 참조하는 방법.
* `loc` : location. 레이블 기반의 원소 참조 또는 슬라이싱

In [14]:
np.random.seed(2)
s1 = pd.Series(data=np.random.randint(-10,10, size=6))

In [15]:
s1

0   -2
1    5
2    3
3   -2
4    1
5    8
dtype: int64

In [16]:
print(s1.iloc[0])
print(s1.iloc[-1])

-2
8


In [17]:
# iloc를 사용한 슬라이싱
print(s1.iloc[0:3]) # Series에서 첫 3개 원소 자르기

0   -2
1    5
2    3
dtype: int64


In [19]:
print(s1.iloc[-3:]) # Series에서 마지막 3개 원소 자르기

3   -2
4    1
5    8
dtype: int64


In [20]:
# loc를 사용한 인덱싱
print(s1.loc[0]) # Series의 첫번쨰 원소

-2


In [22]:
# -1, -2 인덱스는 없기 때문에 loc로는 음수인덱스 사용 불가. s1.loc[-1]

In [23]:
# loc를 사용한 슬라이싱
print(s1.loc[0:2])

0   -2
1    5
2    3
dtype: int64


In [24]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10,11,size=6), index=['a','b','c','d','e','f'])

s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [25]:
s2.iloc[0]

-4

In [26]:
s2.iloc[-1]

10

In [28]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [29]:
s2.loc[:'c']

a   -4
b    9
c    4
dtype: int64

In [30]:
s2.loc['f']

10

In [31]:
s2.loc[['a','b','c']] # loc 속성을 사용한 fancy indexing

a   -4
b    9
c    4
dtype: int64

In [32]:
s2.iloc[[0,2,4]] # iloc 속성을 이용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [33]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [34]:
s2.loc[s2>0]

b     9
c     4
f    10
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스)
* 데이터 베이스의 테이블과 비슷한 구조.
* DataFrame 에서 컬럼은 Series 타입.

In [35]:
# dict

data = {
    'city' : ['서울'] * 3 + ['경기'] * 3,
    'year' : [2021,2022,2023] * 2,
    'pop' : np.random.random(size=6)
}

In [36]:
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.15601864, 0.15599452, 0.05808361, 0.86617615, 0.60111501,
        0.70807258])}

In [38]:
x = pd.DataFrame(data = data)

In [39]:
x

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')


In [40]:
print(x)

  city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073


In [41]:
x.shape #> (row 갯수, column 갯수)

(6, 3)

In [42]:
x.index #> 행 레이블(row label)

RangeIndex(start=0, stop=6, step=1)

In [44]:
x.columns

Index(['city', 'year', 'pop'], dtype='object')

# DataFrame에서 컬럼 선택

* `df['column_name']`
  * 항상 사용 가능
* `df.column_name`
  * 컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우는 사용할 수 없음.
    * 변수 이름은 영문자, 숫자, underScore(_) 만 사용 가능.
    * 변수 이름은 숫자로 시작 불가능.
  * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [45]:
x['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [46]:
x['pop']

0    0.156019
1    0.155995
2    0.058084
3    0.866176
4    0.601115
5    0.708073
Name: pop, dtype: float64

In [47]:
x.pop #> pop 컬럼 선택이 아니라, DataFrame의 pop 메서드를 사용

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073>

두 개 이상의 Column 선택 - fancy Indexing

In [49]:
x[['city','pop']]

Unnamed: 0,city,pop
0,서울,0.156019
1,서울,0.155995
2,서울,0.058084
3,경기,0.866176
4,경기,0.601115
5,경기,0.708073


  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')
  plt.savefig(f, bbox_inches='tight')


In [51]:
x.iloc[0] # DataFrame의 첫번째 행
#> 행 1개를 선택 -> 결과 : Series

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [52]:
x.iloc[:3] # DataFrame에서 첫 3개 행 선택
#> 2개 이상의 행을 선택 -> 결과 : DataFrame

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [53]:
x.iloc[-3:] # DataFrame에서 마지막 3개 행

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [54]:
x.head(n=3) # DataFrame에서 첫 3개 행을 선택하는 메서드. n의 기본값은 5

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [55]:
x.tail(n=3) # DataFrame에서 마지막 3개 행을 선택하는 메서드. n 기본값은 5

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


# DataFrame에서 조건에 맞는 행을 선택

In [57]:
x.year == 2022

0    False
1     True
2    False
3    False
4     True
5    False
Name: year, dtype: bool

* boolean indexing을 사용할 때는, 파이썬의 논리 연산자( `and`,`or`,`not`)를 사용할 수 없음!
* boolean indexing 에서는 `&, |, ~` 연산자를 사용함
* 조건식과 조건식은 ()를 사용해서 구분, 연산의 순서를 명시해야 함.

In [58]:
x

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [65]:
# city가 '서울' 이거나 'pop'이 0.65 이하인 행들은 선택:

x[(x['city']=='서울') | (x['pop']<= 0.65)]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
4,경기,2022,0.601115


In [67]:
# 경기도의 2023년 자료를 선택
x[(x.city=='경기') & (x.year == 2023)]

Unnamed: 0,city,year,pop
5,경기,2023,0.708073


## DataFrame에서 행과 열을 함께 선택하는 방법

In [71]:
x[x.city=='서울'][['year','pop']]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


In [72]:
x.loc[x.city=='서울',['year','pop']]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


DataFrame 메서드

In [73]:
x.describe()
# 숫자 타입 컬럼(들)의 기술 통계량(descriptive statistics)
# NA가 아닌 데이터 개수, 평균, 표준편차, 최소, 최대값, 4사분위 값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2022.0,0.424243
std,0.894427,0.342088
min,2021.0,0.058084
25%,2021.25,0.156001
50%,2022.0,0.378567
75%,2022.75,0.681333
max,2023.0,0.866176


In [74]:
x['city'].value_counts() # 카테고리 타입 변수의 빈도수(frequency)

서울    3
경기    3
Name: city, dtype: int64

DataFrame 연습

In [75]:
file_path = 'https://github.com/JakeOh/20230228_itwill_java140_lab_python/raw/main/csv_exam.csv'

In [76]:
# github에 저장된 CSV 파일을 읽어서 DataFrame 생성하기.

exam = pd.read_csv(file_path)

In [78]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


* DataFrame의 첫 5개 행을 출력

* DataFrame의 마지막 5개 행을 출력

* 숫자타입 컬럼들의 기술통계량을 출력

* class 컬럼의 빈도수를 찾기

* 수학, 영어, 과학 컬럼의 기술 통계량을 출력

* 1반 학생들의 데이터 출력

* 수학 평균을 찾고 출력

* 수학 점수가 평균 이상인 학생들의 데이터 출력

* 1반 학생들의 수학점수 평균을 찾고 출력

* 2반 학생들의 수학점수 평균을 찾고 출력

* Class 별로 수학 점수 평균을 찾고 출력.

* 세 과목의 점수가 모두 평균 이상인 학생들의 데이터를 출력.

In [79]:
exam[:5]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [80]:
exam[-5:]

Unnamed: 0,id,class,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [81]:
exam.describe()

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [84]:
exam['class'].value_counts()

1    4
2    4
3    4
4    4
5    4
Name: class, dtype: int64

In [90]:
exam[['math','english','science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [99]:
exam[exam['class']==1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [107]:
x = np.array(exam['math']).mean()

In [108]:
x

57.45

In [109]:
exam[exam['math']>=x]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [116]:
x1 = exam[exam['class']==1]['math']

In [119]:
x1.mean()

46.25

In [121]:
x2 = exam[exam['class']==2]['math']
x2.mean()

61.25

In [129]:
xa = exam.groupby(exam['class'])['math'].mean()

In [130]:
xa

class
1    46.25
2    61.25
3    45.00
4    56.75
5    78.00
Name: math, dtype: float64

In [137]:
exam[(exam['math']>=(exam['math'].mean())) & (exam['english']>=(exam['english'].mean())) & (exam['science']>=(exam['science'].mean()))]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65


In [140]:
means = []
for x in range(1,6):

  math_mean = exam[exam['class']==x].math.mean()
  means.append(math_mean)

exam_dict = {
    'class' : np.arange(1,6),
    'math_mean' : means
  }

In [141]:
exam_dict

{'class': array([1, 2, 3, 4, 5]),
 'math_mean': [46.25, 61.25, 45.0, 56.75, 78.0]}

In [142]:
df = pd.DataFrame(exam_dict)

In [143]:
df

Unnamed: 0,class,math_mean
0,1,46.25
1,2,61.25
2,3,45.0
3,4,56.75
4,5,78.0


In [146]:
# 1반 학생들의 수학 평균 점수 이상인 학생들.

exam[exam['math']>=(exam[exam['class']==1]['math'].mean())]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
9,10,3,50,98,45
10,11,3,65,65,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65


In [159]:
# 각 반에서 각반의 평균점을 넘는 학생들.

