<a href="https://colab.research.google.com/github/baesunyoung34/Python/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#패키지 임포트

In [1]:
import numpy as np
import pandas as pd

# Series
* 한 가지 타입의 여러개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축 레이블(axis label)을 가지고 있는 1차원 배열(ndarray)

In [2]:
s = pd.Series(data=[1,2,-3,-4,5,-6]) # Series 클래스의 생성자 호출

In [3]:
type(s)

pandas.core.series.Series

In [4]:
print(s) # __str__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


##Series 속성(Attributes)

In [5]:
s.values # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [6]:
s = pd.Series(data=[1,2,3], index = ['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [7]:
s.values

array([1, 2, 3])

In [8]:
s.index

Index(['a', 'b', 'c'], dtype='object')

## indexing, slicing
* `iloc`: integer location. 정수 인덱스(ndarray의 기본 인덱스) 기반으로 원소 참조 또는 슬라이싱
* `loc`: location. 레이블 기반의 원소 참조 또는 슬라이싱.

In [9]:
np.random.seed(1)
s1 = pd.Series(data=np.random.randint(-10,10, size=6))
s1

0   -5
1    1
2    2
3   -2
4   -1
5    1
dtype: int64

In [10]:
#iloc를 사용한 인덱싱
print(s1.iloc[0]) # Series에서 첫번째 원소
print(s1.iloc[-1]) # Series에서 마지막 원소

-5
1


In [11]:
#iloc를 사용한 슬라이싱
print(s1.iloc[:3]) # Series에서 첫 3개 원소 자르기
print(s1.iloc[3:])

0   -5
1    1
2    2
dtype: int64
3   -2
4   -1
5    1
dtype: int64


In [12]:
# loc를 사용한 인덱싱
print(s1.loc[0]) # Series의 첫번째 원소
print(s1.loc[5]) # Series의 마지막 원소 - 음수 인덱스 사용 불가능

-5
1


In [13]:
# loc를 사용한 슬라이싱
print(s1.loc[0:2])

0   -5
1    1
2    2
dtype: int64


In [14]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10,11, size=6),
               index=['a', 'b', 'c', 'd', 'e', 'f'])
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [15]:
s2.iloc[0]

-4

In [16]:
s2.iloc[-1]

10

In [17]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [18]:
s2.loc['a']

-4

In [19]:
s2.loc['f']

10

In [20]:
s2.loc[:'c']

a   -4
b    9
c    4
dtype: int64

In [21]:
s2.loc[['a','c','e']] # loc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [22]:
s2.iloc[[0,2,4]] # iloc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [23]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [24]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [25]:
s2[s2>0] # boolean indexing

b     9
c     4
f    10
dtype: int64

#DataFrame
* 데이터를 2차원(행 row, 열 column)형태로 저장하는 데이터 타입(클래스)
* 데이터베이스의 테이블과 비슷한 구조.
* DataFrame에서 컬럼은 Series 타입.

In [26]:
#dict
data = {
    'city': ['서울'] *3 + ['경기'] *3,
    'year': [2021,2022,2023] *2,
    'pop': np.random.random(size=6)
}
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.15601864, 0.15599452, 0.05808361, 0.86617615, 0.60111501,
        0.70807258])}

In [27]:
 df = pd.DataFrame(data)

In [28]:
print(df)

  city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073


In [29]:
df # __repr__

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


##DataFrame 속성(Attributes)

In [30]:
df.shape #> (row 개수, column 개수)

(6, 3)

In [31]:
df.index #> 행 레이블(row label)

RangeIndex(start=0, stop=6, step=1)

In [32]:
df.columns #> 열 레이블(column label)

Index(['city', 'year', 'pop'], dtype='object')

## DataFrame에서 컬럼 선택
* `df['column_name']`
    * 항상 사용 가능
* `df.column_name`
    * 컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
        * 변수 이름은 숫자로 시작할 수 없다.
    * 컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음

In [33]:
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [34]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [35]:
df['pop']

0    0.156019
1    0.155995
2    0.058084
3    0.866176
4    0.601115
5    0.708073
Name: pop, dtype: float64

In [36]:
df.pop #> pop 컬럼 선택이 아니라 DataFrame의 pop 메서드를 사용

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073>

2개 이상의 컬럼 선택 - Fancy indexing

In [37]:
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.156019
1,서울,0.155995
2,서울,0.058084
3,경기,0.866176
4,경기,0.601115
5,경기,0.708073


##DataFrame에서 행 선택
* `df.loc[label]`: 행 인덱스(레이블) 기반 참조
* `df.iloc[integer]`: ndarray의 정수 인덱스 기반 참조.


In [38]:
df.iloc[0] # DataFrame의 첫번째 행
#> 행 1개를 선택 -> 결과: Series

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [39]:
df.iloc[:3] # DataFrame에서 첫 3개 행 선택
#> 2개 이상의 행을 선택 -> 결과: DataFrame

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [40]:
df.iloc[-1] # DataFrame에서 마지막 행

city          경기
year        2023
pop     0.708073
Name: 5, dtype: object

In [41]:
df.iloc[-3] # DataFrame에서 마지막 3개 행

city          경기
year        2021
pop     0.866176
Name: 3, dtype: object

In [42]:
df.loc[5]

city          경기
year        2023
pop     0.708073
Name: 5, dtype: object

In [43]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [44]:
df.loc[3:]

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [45]:
df.head(n=3) #DataFrame에서 첫 n개 행을 선택하는 메서드, n의 기본 값은 5

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [46]:
df.tail(n=3) #DataFrame에서 끝 n개 행을 선택하는 메서드, n의 기본 값은 5

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


##DataFrame에서 조건에 맞는 행을 선택 = Boolean indexing

In [47]:
df.year==2023

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [48]:
df[df.year==2023]

Unnamed: 0,city,year,pop
2,서울,2023,0.058084
5,경기,2023,0.708073


* boolean indexing을 사용할 때는, 파이썬 논리 연산자(`and, or, not`)를 사용할 수 없음@
* boolean indexing에서는 `&, |, ~` 연산자를 사용함!
* 조건식과 조건식은 ()을 사용해서 구분, 연산의 순서를 명시해야 함.

In [49]:
# city가 서울이거나, pop이 0.65 이하인 행들을 선택
df[(df['city'] == '서울') | (df['pop'] <= 0.65)]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
4,경기,2022,0.601115


In [50]:
# 경기ㅏㅏ도의 2023년 자료를 선택
df[(df.city =='경기') & (df.year == 2023)]

Unnamed: 0,city,year,pop
5,경기,2023,0.708073


##DataFrame에서 행과 열을 함께 선택

In [51]:
df[df.city =='서울'][['year', 'pop']]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


## DataFrame 메서드

In [52]:
df.describe()
# 숫자 타입 컬럼(들)의 기술 통계량(descriptive statistics)
# NA가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4사분위 값, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2022.0,0.424243
std,0.894427,0.342088
min,2021.0,0.058084
25%,2021.25,0.156001
50%,2022.0,0.378567
75%,2022.75,0.681333
max,2023.0,0.866176


In [53]:
df['city'].value_counts() # category type variable frequency

서울    3
경기    3
Name: city, dtype: int64

#DataFrame 연습

In [54]:
file_path = 'https://raw.githubusercontent.com/JakeOh/20230228_itwill_java140_lab_python/main/csv_exam.csv'

In [55]:
# github에 저장된 CSV 파일을 읽어서 데이터프레임 생성:
exam = pd.read_csv(file_path)

In [56]:
exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


* DataFrame의 첫 5개 행 출력
* DataFrame의 마지막 5개 행 출력
* 숫자 타입 기술 통계량 출력
* class 컬럼의 빈도수
* 수학, 영어, 과학 컬럼의 기술 통계량
* 1반 학생들의 데이터 출력
* 수학 평균을 출력
* 수학 점수가 평균 이상인 학생들의 데이터 출력
* 1반 학생들의 수학 점수 평균 출력
* 2반 학생들의 수학 점수 평균 출력
* class별 수학 점수 평균 출력
* 3 과목의 점수가 모두 평균 이상인 학생들의 데이터 출력

In [57]:
exam.head()

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [58]:
exam.tail()

Unnamed: 0,id,class,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [59]:
exam.describe()

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


In [60]:
exam.value_counts('class')

class
1    4
2    4
3    4
4    4
5    4
dtype: int64

In [61]:
exam['class'].value_counts()

1    4
2    4
3    4
4    4
5    4
Name: class, dtype: int64

In [62]:
exam[['math', 'english', 'science']].describe()

Unnamed: 0,math,english,science
count,20.0,20.0,20.0
mean,57.45,84.9,59.45
std,20.299015,12.875517,25.292968
min,20.0,56.0,12.0
25%,45.75,78.0,45.0
50%,54.0,86.5,62.5
75%,75.75,98.0,78.0
max,90.0,98.0,98.0


In [63]:
exam[exam['class']==1]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [64]:
exam['math'].mean()

57.45

In [65]:
exam[exam.math>=exam['math'].mean()]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [66]:
exam[(exam['class']==1)].math.mean()

46.25

In [67]:
exam[(exam['class']==2)]['math'].mean()

61.25

In [68]:
for x in range(1,6):
    math_mean = exam[exam['class'] == x].math.mean()
    print(f'class {x} math mean = {math_mean}')

class 1 math mean = 46.25
class 2 math mean = 61.25
class 3 math mean = 45.0
class 4 math mean = 56.75
class 5 math mean = 78.0


In [69]:
means = []
for x in range(1, 6):
    math_mean = exam[exam['class'] == x].math.mean()
    means.append(math_mean)
print(means)

exam_dict = {
    'class': np.arange(1, 6), 'math_mean': means
    }
print(exam_dict)

df = pd.DataFrame(exam_dict)
df

[46.25, 61.25, 45.0, 56.75, 78.0]
{'class': array([1, 2, 3, 4, 5]), 'math_mean': [46.25, 61.25, 45.0, 56.75, 78.0]}


Unnamed: 0,class,math_mean
0,1,46.25
1,2,61.25
2,3,45.0
3,4,56.75
4,5,78.0


In [70]:
exam[
    (exam.math>=exam['math'].mean()) &
    (exam.english>=exam['english'].mean())&
    (exam.science>=exam['science'].mean())
     ]

Unnamed: 0,id,class,math,english,science
1,2,1,60,97,60
15,16,4,58,98,65


In [71]:
# 1반 수학 평균 점수 이상
exam[(exam.math >= exam[exam['class']==1].math.mean())]

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
9,10,3,50,98,45
10,11,3,65,65,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65
