# 06 테이블 분석 패키지 pandas

## section 01 pandas 개요

## Series

In [48]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8], name='first')
s

# Series는 1차원 배열처럼 보이지만, 넘파이 배열 + 인덱스가 결합된 구조라는 점에서 아주 강력한 데이터 구조야.






0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
Name: first, dtype: float64

In [49]:
s.name

'first'

In [50]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [51]:
s.values

array([ 1.,  3.,  5., nan,  6.,  8.])

In [52]:
s.shape

(6,)

In [53]:
s.size

6

#### 시리즈 인덱싱

In [54]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
Name: first, dtype: float64

In [55]:
s[1]

3.0

In [56]:
s[1:5]

1    3.0
2    5.0
3    NaN
4    6.0
Name: first, dtype: float64

In [57]:
s.index = list('abcdef')
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
Name: first, dtype: float64

In [58]:
print(s['b'], s['d'])

3.0 nan


In [59]:
s['c':'e']

c    5.0
d    NaN
e    6.0
Name: first, dtype: float64

In [60]:
s['b':'f']

b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
Name: first, dtype: float64

In [61]:
s[0:3]

a    1.0
b    3.0
c    5.0
Name: first, dtype: float64

In [62]:
s1 = s[1:4]
s1

b    3.0
c    5.0
d    NaN
Name: first, dtype: float64

In [63]:
s1[0]

  s1[0]


3.0

In [64]:
s1[0] = 10
s1

# 단일 인덱싱은 값 그 자체를 나타내지만, 슬라이싱은 시리즈 형태를 유지한다!

  s1[0] = 10


b    10.0
c     5.0
d     NaN
Name: first, dtype: float64

In [65]:
s

# "슬라이싱해서 새 변수에 할당하면, 새로운 객체(파이썬 레벨)는 맞지만, 내부 데이터는 복사될 수도, 공유(view)가 될 수도 있다. 
# pandas가 이걸 자동으로 최적화하기 때문에, 정확한 동작을 가정하지 말고, 안전하게 쓰고 싶으면 .copy()를 써야 한다."

a     1.0
b    10.0
c     5.0
d     NaN
e     6.0
f     8.0
Name: first, dtype: float64

In [66]:
s.index = np.arange(1, 7)
s

1     1.0
2    10.0
3     5.0
4     NaN
5     6.0
6     8.0
Name: first, dtype: float64

In [67]:
s[1]

1.0

In [68]:
s[0]

KeyError: 0

In [None]:
s[1:3]

2    10.0
3     5.0
Name: first, dtype: float64

In [None]:
s[0:3]

1     1.0
2    10.0
3     5.0
Name: first, dtype: float64

#### 시리즈 고급 인덱싱

In [None]:
import pandas as pd

age = pd.Series([9, 17, 32, 45, 65, 98], index=list('abcdef'), name='age')
age

a     9
b    17
c    32
d    45
e    65
f    98
Name: age, dtype: int64

In [None]:
age['b']

17

In [None]:
age[[1, 3, 5]]

# age[1, 3, 5]는 파이썬이 내부적으로 age[(1, 3, 5)]로 해석하고,
# 이때 (1, 3, 5)는 "인덱스 하나", 즉 튜플 타입의 단일 인덱스 값으로 간주돼.

# 반면 age[[1, 3, 5]] 는 고급인덱싱(fancy indexing)으로 해석돼.
# 고급 인덱싱은 인덱스 리스트를 사용해, 해당하는 인덱스의 값을 가져오는 방식이야.
# 겹친 리스트 인덱싱(Fancy Indexing)은 항상 Series 형태를 반환해.(이중괄호에 하나의 인덱스를 넣을때도!)

  age[[1, 3, 5]]


b    17
d    45
f    98
Name: age, dtype: int64

In [None]:
age[['a', 'f', 'd']]

a     9
f    98
d    45
Name: age, dtype: int64

In [None]:
age[['c']]

c    32
Name: age, dtype: int64

#### 시리즈 불리안 인덱싱

In [None]:
import pandas as pd

s = pd.Series([3, 6, -3, 0, -4, 8, -7])
s

0    3
1    6
2   -3
3    0
4   -4
5    8
6   -7
dtype: int64

In [None]:
s > 0

0     True
1     True
2    False
3    False
4    False
5     True
6    False
dtype: bool

In [None]:
s%2 == 0

0    False
1     True
2    False
3     True
4     True
5     True
6    False
dtype: bool

In [None]:
s[s > 0]

0    3
1    6
5    8
dtype: int64

In [None]:
s[~(s > 0)]

2   -3
3    0
4   -4
6   -7
dtype: int64

In [None]:
s[s%2 == 0]

1    6
3    0
4   -4
5    8
dtype: int64

In [None]:
s[s%2 != 0]

0    3
2   -3
6   -7
dtype: int64

In [None]:
s[(s > 0) & (s%2 == 0)]

1    6
5    8
dtype: int64

### 01주 수업 종료
# ----------------------------
### 02주 수업 시작


#### Series의 index name

In [None]:
import numpy as np
import pandas as pd

s = ['희빈', '수영', '현수', '지호', '지민']
p = pd.Series([99, 84, 92, 65, 78], index=s)
p

희빈    99
수영    84
현수    92
지호    65
지민    78
dtype: int64

In [None]:
p.name = '수학성적'
p.index.name = '이름'
p

이름
희빈    99
수영    84
현수    92
지호    65
지민    78
Name: 수학성적, dtype: int64

In [None]:
p.sort_values()

이름
지호    65
지민    78
수영    84
현수    92
희빈    99
Name: 수학성적, dtype: int64

In [None]:
p.sort_values(ascending=False)

이름
희빈    99
현수    92
수영    84
지민    78
지호    65
Name: 수학성적, dtype: int64

In [None]:
p.sort_index()      # pandas에서 sort_index()나 sort_values()를 사용할 때, 엄밀히 말하면 **"유니코드 코드포인트 순서"**로 정렬돼.


이름
수영    84
지민    78
지호    65
현수    92
희빈    99
Name: 수학성적, dtype: int64

In [None]:
p.sort_index(ascending=False)

이름
희빈    99
현수    92
지호    65
지민    78
수영    84
Name: 수학성적, dtype: int64

## 시리즈의 기본 통계 함수

In [None]:
print(p.max())
print(p.min())

99
65


In [None]:
print(p.mean())
print(p.median())

83.6
84.0


In [None]:
print(p.count())
print(p.size)

5
5


In [None]:
p.describe()

count     5.000000
mean     83.600000
std      13.088163
min      65.000000
25%      78.000000
50%      84.000000
75%      92.000000
max      99.000000
Name: 수학성적, dtype: float64

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([3, 1, 1, 2, None, np.nan, 4, 6, 6, np.nan])
s

0    3.0
1    1.0
2    1.0
3    2.0
4    NaN
5    NaN
6    4.0
7    6.0
8    6.0
9    NaN
dtype: float64

In [None]:
s.values

array([ 3.,  1.,  1.,  2., nan, nan,  4.,  6.,  6., nan])

In [None]:
s.count() # nan 제외

7

In [None]:
s.value_counts()

1.0    2
6.0    2
3.0    1
2.0    1
4.0    1
dtype: int64

In [None]:
s.value_counts(dropna=False)

# dropna=False는 pandas에서 결측치(NaN)를 포함해서 연산하겠다는 의미야!

NaN    3
1.0    2
6.0    2
3.0    1
2.0    1
4.0    1
dtype: int64

In [None]:
s.value_counts(sort=False, dropna=False)

3.0    1
1.0    2
2.0    1
NaN    3
4.0    1
6.0    2
dtype: int64

In [None]:
s.value_counts(bins=4)

(7.75, 10.0]    2
(0.99, 3.25]    1
(3.25, 5.5]     1
(5.5, 7.75]     1
Name: count, dtype: int64

In [None]:
# 구간 하나의 크기 <- (최대값 - 최소값) / 구간수
(s.max()-s.min()) / 4 # 1.25

2.25

In [None]:
s.value_counts(bins=4, sort=False)

(0.99, 3.25]    1
(3.25, 5.5]     1
(5.5, 7.75]     1
(7.75, 10.0]    2
Name: count, dtype: int64

In [None]:
s.value_counts(bins=4, sort=True)

(7.75, 10.0]    2
(0.99, 3.25]    1
(3.25, 5.5]     1
(5.5, 7.75]     1
Name: count, dtype: int64

In [None]:
s.value_counts(bins=[0.5, 3.5, 6.5], sort=False)

(0.499, 3.5]    1
(3.5, 6.5]      2
Name: count, dtype: int64

In [None]:
import pandas as pd

data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
data.value_counts(bins=4)

(0.99, 3.25]    3
(7.75, 10.0]    3
(3.25, 5.5]     2
(5.5, 7.75]     2
dtype: int64

## section 02 DataFrame 생성

## (1) DataFrame 생성 기초 

### 클래스 DataFrame 생성자 개요

In [None]:
import pandas as pd

df = pd.DataFrame([10, 20, 30, 40, 50])
df

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [None]:
import pandas as pd

df = pd.DataFrame([[1, 2, 3], [10, 20, 30], [100, 200, 300]], index=list('abc'))
df

Unnamed: 0,0,1,2
a,1,2,3
b,10,20,30
c,100,200,300


In [None]:
df = pd.DataFrame([[1, 2, 3], [10, 20, 30], [100, 200, 300]],
                   index=list('abc'), columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
a,1,2,3
b,10,20,30
c,100,200,300


In [None]:
print(df.index)
print(df.columns)

Index(['a', 'b', 'c'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')


In [None]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame(data = np.arange(12).reshape(3, 4))
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
import numpy as np
import pandas as pd

np.random.seed(100)
df1 = pd.DataFrame(np.random.randint(1, 46, (5, 6)))
df1

# 시드에 관한 정리 : 시드를 정의하고 n개의 랜덤한 존재를 생성할때 같은 시드에 접근해서 m개의 랜덤한 존재를 생성하면 n개의 랜덤한 존재까지는 차례대로
# 같은 랜덤한 존재가 생성된다. 만약 다른 시드를 정의한다면 독립적으로 다른 랜덤인 존재들이 생성된다!

Unnamed: 0,0,1,2,3,4,5
0,9,25,4,40,24,16
1,11,31,35,3,35,15
2,35,25,16,37,44,17
3,10,30,23,3,28,45
4,5,32,2,14,20,37


In [None]:
df1 = pd.DataFrame(np.random.random((5, 3)))
df1

Unnamed: 0,0,1,2
0,0.442254,0.030123,0.776005
1,0.550958,0.381073,0.529266
2,0.956877,0.175821,0.118303
3,0.862946,0.074867,0.825095
4,0.836132,0.075395,0.011401


#### dict의 테이블 데이터 사용

In [None]:
import pandas as pd

df = pd.DataFrame({'numbers': [1, 2, 3], 
                   'colors': ['red', 'white', 'blue']})
df

Unnamed: 0,numbers,colors
0,1,red
1,2,white
2,3,blue


In [None]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
df.columns

Index(['numbers', 'colors'], dtype='object')

In [None]:
df = pd.DataFrame({'국어': [82, 76, 67], '수학': [99, 87, 78]}, 
                  index=['김국진', '신영희', '이길순'])
df

Unnamed: 0,국어,수학
김국진,82,99
신영희,76,87
이길순,67,78


In [None]:
df.index

Index(['김국진', '신영희', '이길순'], dtype='object')

In [None]:
df.columns

Index(['국어', '수학'], dtype='object')

#### 여러 Series로 DataFrame 생성

In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
courses

0      Spark
1    PySpark
2     Hadoop
Name: courses, dtype: object

In [None]:
fees = pd.Series([250000, 300000, 200000], name='fees')
fees

0    250000
1    300000
2    200000
Name: fees, dtype: int64

In [None]:
df = pd.DataFrame({courses.name: courses, fees.name: fees})     # courses.name 과 fees.name은 각각 시리즈의 이름('courses', 'fees')을 의미해!
df

Unnamed: 0,courses,fees
0,Spark,250000
1,PySpark,300000
2,Hadoop,200000


In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
fees = pd.Series([250000, 300000, 200000], name='fees')

df = pd.concat([courses,fees], axis=1)
df


# Series는 기본적으로 "세로(열)"로 취급된다!!


Unnamed: 0,courses,fees
0,Spark,250000
1,PySpark,300000
2,Hadoop,200000


In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
fees = pd.Series([250000, 300000, 200000], name='fees')

df = pd.concat([courses,fees])
df

0      Spark
1    PySpark
2     Hadoop
0     250000
1     300000
2     200000
dtype: object

In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
fees = pd.Series([250000, 300000, 200000], name='fees')

df = pd.DataFrame([courses,fees])
df


Unnamed: 0,0,1,2
courses,Spark,PySpark,Hadoop
fees,250000,300000,200000


In [None]:
df.T

Unnamed: 0,courses,fees
0,Spark,250000
1,PySpark,300000
2,Hadoop,200000


In [None]:
df = pd.DataFrame()
df

In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
df[courses.name] = courses
df

# Series는 기본적으로 "세로(열)"로 취급된다!!--> 데이터프레임에 추가될때도 적용될때도 마찬가지!


Unnamed: 0,courses
0,Spark
1,PySpark
2,Hadoop


In [None]:
fees = pd.Series([250000, 300000, 200000], name='fees')
df[fees.name] = fees
df

Unnamed: 0,courses,fees
0,Spark,250000
1,PySpark,300000
2,Hadoop,200000


In [None]:
courses = pd.Series(["Spark","PySpark","Hadoop"], name='courses')
fees = pd.Series([250000, 300000, 200000], name='fees')

df = pd.DataFrame({courses.name: courses, fees.name: fees})
df

# 기본은 행은 기본 인덱스 , 열은 (시리즈등의)이름!!

Unnamed: 0,courses,fees
0,Spark,250000
1,PySpark,300000
2,Hadoop,200000


#### 여러 dict의 목록 데이터 사용

In [None]:
import pandas as pd

df= pd.DataFrame([{'국어': 70, '수학': 89, '영어': 90}, 
                  {'국어': 80, '영어': 99}, 
                  {'수학': 66, '영어': 78}])
df

# 기본은 행은 기본 인덱스 , 열은 (시리즈등의)이름!!

Unnamed: 0,국어,수학,영어
0,70.0,89.0,90
1,80.0,,99
2,,66.0,78


In [None]:
import pandas as pd

s1 = pd.Series([90, 80, 60, 66])
s2 = pd.Series([45, 73, 83, 99])
s3 = pd.Series([92, 75, 82, 75])
s1

0    90
1    80
2    60
3    66
dtype: int64

In [None]:
df = pd.DataFrame({'국어': s1, '영어': s2, '수학': s3})
df

Unnamed: 0,국어,영어,수학
0,90,45,92
1,80,73,75
2,60,83,82
3,66,99,75


In [None]:
df.index = ['노', '장', '박', '강']
df

Unnamed: 0,국어,영어,수학
노,90,45,92
장,80,73,75
박,60,83,82
강,66,99,75


In [None]:
df = pd.DataFrame({'A': pd.Series([10, 20, 30], index=[0, 1, 2]), 
                   'B': pd.Series([3, 2, 1], index=[1, 2, 3])})
df

Unnamed: 0,A,B
0,10.0,
1,20.0,3.0
2,30.0,2.0
3,,1.0


In [None]:
s1 = pd.Series([90, 80, 60], index=['노', '장', '박'])
s2 = pd.Series([45, 73, 99], index=['장', '박', '강'])
s3 = pd.Series([92, 75, 82, 75])

In [None]:
df = pd.DataFrame({'국어': s1, '영어': s2, '수학': s3}, 
                  index=['노', '장', '박', '강'])
df

Unnamed: 0,국어,영어,수학
노,90.0,,
장,80.0,45.0,
박,60.0,73.0,
강,,99.0,


In [None]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [None]:
df.dtypes

col1    int64
col2    int64
dtype: object

In [None]:
df = pd.DataFrame(data=d, dtype=np.int8)
df.dtypes

col1    int8
col2    int8
dtype: object

### 02주차 1교시 여기까지

#### 날짜를 위한 자료형

In [None]:
import numpy as np
import pandas as pd

dates = pd.date_range("20250101", periods=6)
dates

DatetimeIndex(['2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
               '2025-01-05', '2025-01-06'],
              dtype='datetime64[ns]', freq='D')

In [None]:
dates[0]

Timestamp('2025-01-01 00:00:00', freq='D')

In [None]:
type(dates[0])

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
dates = pd.date_range("20250101", end='20250110')
dates

DatetimeIndex(['2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
               '2025-01-05', '2025-01-06', '2025-01-07', '2025-01-08',
               '2025-01-09', '2025-01-10'],
              dtype='datetime64[ns]', freq='D')

In [None]:
dates = pd.date_range("20250101", periods=6, freq='3D')
dates

DatetimeIndex(['2025-01-01', '2025-01-04', '2025-01-07', '2025-01-10',
               '2025-01-13', '2025-01-16'],
              dtype='datetime64[ns]', freq='3D')

In [None]:
dates = pd.date_range("20250101", periods=6, freq='3H')
dates

DatetimeIndex(['2025-01-01 00:00:00', '2025-01-01 03:00:00',
               '2025-01-01 06:00:00', '2025-01-01 09:00:00',
               '2025-01-01 12:00:00', '2025-01-01 15:00:00'],
              dtype='datetime64[ns]', freq='3H')

In [None]:
dates = pd.date_range("20250101", periods=6, freq='W')
dates

# 왜 1월 5일이 시작인가요?
# freq='W'는 "그 주의 마지막 일요일"을 기준으로 잡습니다.
# 2025년 1월 1일은 수요일 → 같은 주의 일요일인 1월 5일부터 시작합니다.

DatetimeIndex(['2025-01-05', '2025-01-12', '2025-01-19', '2025-01-26',
               '2025-02-02', '2025-02-09'],
              dtype='datetime64[ns]', freq='W-SUN')

In [None]:
dates = pd.date_range("20250401", periods=6, freq='W-SUN')
dates

# **2025년 4월 1일(화요일)**을 기준으로
# 그 다음에 오는 일요일부터 시작해서,
# 6주 동안 매주 화요일 날짜를 생성합니다.

DatetimeIndex(['2025-04-06', '2025-04-13', '2025-04-20', '2025-04-27',
               '2025-05-04', '2025-05-11'],
              dtype='datetime64[ns]', freq='W-SUN')

In [None]:
dates = pd.date_range("20260101", periods=6, freq='W-TUE')
dates

# **2026년 1월 1일(목요일)**을 기준으로
# 그 다음에 오는 화요일부터 시작해서,
# 6주 동안 매주 화요일 날짜를 생성합니다.

DatetimeIndex(['2026-01-06', '2026-01-13', '2026-01-20', '2026-01-27',
               '2026-02-03', '2026-02-10'],
              dtype='datetime64[ns]', freq='W-TUE')

In [None]:
dates = pd.date_range("20260101", periods=6, freq='W-FRI')
dates

DatetimeIndex(['2026-01-02', '2026-01-09', '2026-01-16', '2026-01-23',
               '2026-01-30', '2026-02-06'],
              dtype='datetime64[ns]', freq='W-FRI')

In [None]:
dates = pd.date_range("20250101", periods=6, freq='M')
dates

# 좋아요! 이번에는 freq='M'을 사용했네요. 이건 매월 말일 기준으로 날짜를 생성하는 옵션!



DatetimeIndex(['2025-01-31', '2025-02-28', '2025-03-31', '2025-04-30',
               '2025-05-31', '2025-06-30'],
              dtype='datetime64[ns]', freq='M')

In [None]:
dates = pd.date_range("20250101", periods=6, freq='MS')
dates

# freq='MS'를 사용했네요. 이건 매월 초일(첫날) 기준으로 날짜를 생성하는 옵션!

DatetimeIndex(['2025-01-01', '2025-02-01', '2025-03-01', '2025-04-01',
               '2025-05-01', '2025-06-01'],
              dtype='datetime64[ns]', freq='MS')

#### 날짜를 포함한 데이터프레임

In [None]:
dates = pd.date_range("20250302", periods=6)
dates

DatetimeIndex(['2025-03-02', '2025-03-03', '2025-03-04', '2025-03-05',
               '2025-03-06', '2025-03-07'],
              dtype='datetime64[ns]', freq='D')

In [None]:

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

# np.random.randn(6, 4)
# 6행 4열의 **정규분포(평균 0, 표준편차 1)**를 따르는 난수 배열 생성

Unnamed: 0,A,B,C,D
2025-04-06,1.018202,0.21472,-0.298604,-0.984339
2025-04-13,-1.457805,-0.626015,-0.796837,-0.780172
2025-04-20,-0.528022,-0.511695,-1.388906,1.458788
2025-04-27,0.882716,-0.376607,-0.997868,1.823936
2025-05-04,0.164375,-0.482491,0.538247,-1.254095
2025-05-11,-0.308035,-1.101676,0.436415,-0.135174


In [None]:
df2 = pd.DataFrame({
        "A": 1.0,
        "B": pd.Timestamp("20260302"),
        "C": pd.Series(np.arange(1, 3, .5)),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo"
      })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2026-03-02,1.0,3,test,foo
1,1.0,2026-03-02,1.5,3,train,foo
2,1.0,2026-03-02,2.0,3,test,foo
3,1.0,2026-03-02,2.5,3,train,foo


In [None]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float64
D             int32
E          category
F            object
dtype: object

## section 03 데이터프레임의 다양한 참조

### 열 및 행 참조

In [69]:
import pandas as pd

pf = pd.DataFrame(data = [[25, 35, 8, 18], 
                          [18, 27, 10, 20], 
                          [17, 17, 10, 19], 
                          [12, 22, 9, 20], 
                          [22, 34, 8, 16]], 
                  index=['윤일형', '강수희', '홍소희', '유한빈', '신수빈'],
                  columns=['중간', '기말', '과제', '출석'])
pf

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20
신수빈,22,34,8,16


In [None]:
pf['중간']


# DataFrame과 Series의 관계
# DataFrame은 여러 개의 Series를 모아놓은 2차원 표 형태입니다.

# pf['중간']처럼 하나의 열(column)을 선택하면, 그건 본질적으로 **1개의 Series**가 됩니다.

# 즉,

# 열 하나 = Series
# 여러 열 모음 = DataFrame

윤일형    25
강수희    18
홍소희    17
유한빈    12
신수빈    22
Name: 중간, dtype: int64

In [None]:
pf.중간

# pf['중간'] 은 항상 동작하는 정식 방법
# pf.중간 은 일부 경우에만 가능한 단축 표현

윤일형    25
강수희    18
홍소희    17
유한빈    12
신수빈    22
Name: 중간, dtype: int64

In [None]:
pf['출석']      

윤일형    18
강수희    20
홍소희    19
유한빈    20
신수빈    16
Name: 출석, dtype: int64

In [None]:
pf[['출석'],['기말']] # --> 오류!!! // 바로 아래 코드와 비교하기!!!

In [None]:
pf[['출석','기말']] # 🔹 [] 한 번은 "그 열의 값"만 뽑는 거 → 1차원 (Series)
            # 🔹 [] 두 번은 "열을 여러 개 뽑으려는 의도(가능성의 인식)" → 표 형식 유지 (DataFrame)

Unnamed: 0,출석,기말
윤일형,18,35
강수희,20,27
홍소희,19,17
유한빈,20,22
신수빈,16,34


In [None]:
pf[['기말', '출석', '중간']]

Unnamed: 0,기말,출석,중간
윤일형,35,18,25
강수희,27,20,18
홍소희,17,19,17
유한빈,22,20,12
신수빈,34,16,22


In [None]:
pf[['기말']]

Unnamed: 0,기말
윤일형,35
강수희,27
홍소희,17
유한빈,22
신수빈,34


#### 조건으로 행 참조

In [None]:
pf['중간'] > 20

윤일형     True
강수희    False
홍소희    False
유한빈    False
신수빈     True
Name: 중간, dtype: bool

In [None]:
pf[pf['중간'] > 20]  # 일반화 가능성이 조금이라도 있으면 그 가능성일때를 따른다!

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
신수빈,22,34,8,16


In [None]:
pf[pf['출석'] >= 19]

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20


In [None]:
pf[(pf['출석'] >= 19) & (pf['기말'] >= 20)]

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
유한빈,12,22,9,20


### 02주차 2교시 여기까지

#### pd.loc()

In [None]:
pf

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20
신수빈,22,34,8,16


In [None]:
pf.loc['윤일형']

중간    25
기말    35
과제     8
출석    18
Name: 윤일형, dtype: int64

In [None]:
pf.loc[['윤일형']]

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18


In [None]:
pf.loc[['홍소희', '윤일형']]

Unnamed: 0,중간,기말,과제,출석
홍소희,17,17,10,19
윤일형,25,35,8,18


In [None]:
pf.loc['윤일형':'유한빈']

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20


In [None]:
pf.loc[pf.중간 > 20]

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
신수빈,22,34,8,16


In [None]:
pf[pf.중간 > 20]

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
신수빈,22,34,8,16


In [None]:
pf.loc[(pf.중간 > 10) & (pf.과제 == 10)]

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
홍소희,17,17,10,19


In [None]:
pf[(pf.중간 > 10) & (pf.과제 == 10)]

# pf.중간 와 pf['중간']의 차이?--> . 을 사용할때는 큰따옴표 없음! 로 기억!

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
홍소희,17,17,10,19


#### loc[index[i]]로 행 참조

In [None]:
pf.loc[pf.index[0]] # 첫 번째 행 검색

중간    25
기말    35
과제     8
출석    18
Name: 윤일형, dtype: int64

In [None]:
pf.loc[[pf.index[0]]] # 첫 번째 행 검색

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18


In [None]:
pf.loc[pf.index[1:4]] # 슬라이싱 행 검색

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20


In [None]:
pf.loc[pf.index[1:4]][['기말', '과제']] 

Unnamed: 0,기말,과제
강수희,27,10
홍소희,17,10
유한빈,22,9


#### 열 참조

In [None]:
# pf.loc[, '과제'] # 오류
pf.loc[:, '과제']

윤일형     8
강수희    10
홍소희    10
유한빈     9
신수빈     8
Name: 과제, dtype: int64

In [None]:
pf.loc[:, ['과제']]

Unnamed: 0,과제
윤일형,8
강수희,10
홍소희,10
유한빈,9
신수빈,8


In [None]:
pf.loc[:, '중간':'과제']

Unnamed: 0,중간,기말,과제
윤일형,25,35,8
강수희,18,27,10
홍소희,17,17,10
유한빈,12,22,9
신수빈,22,34,8


In [None]:
pf.loc[:, ['기말', '출석']]

Unnamed: 0,기말,출석
윤일형,35,18
강수희,27,20
홍소희,17,19
유한빈,22,20
신수빈,34,16


#### loc[:, columns[i]]로 열 참조

In [None]:
pf.loc[:, pf.columns[0]] # 첫 번째 열 조회

윤일형    25
강수희    18
홍소희    17
유한빈    12
신수빈    22
Name: 중간, dtype: int64

In [None]:
pf.loc[:, [pf.columns[0]] ] # 첫 번째 열 조회 데이터프레임 반환

# 결국 헷갈리는 part 는 벡터와 행렬의 겹치는 부분임!

# 판단은 결국 시리즈 형태의 괄호 형태를 먼저 떠올린 후 데이터프레임 형태의 괄호 형태를 유추하는 식으로 해라!

Unnamed: 0,중간
윤일형,25
강수희,18
홍소희,17
유한빈,12
신수빈,22


In [None]:
pf.loc[:, pf.columns[1:]] # 슬라이싱 열 검색

Unnamed: 0,기말,과제,출석
윤일형,35,8,18
강수희,27,10,20
홍소희,17,10,19
유한빈,22,9,20
신수빈,34,8,16


In [None]:
pf.loc[:, pf.columns[1:3]]

Unnamed: 0,기말,과제
윤일형,35,8
강수희,27,10
홍소희,17,10
유한빈,22,9
신수빈,34,8


In [None]:
pf.loc[:, pf.columns[1:]][['기말', '과제']] 


# pf.columns[1:] → ['기말', '과제', '출석']

# pf.loc[:, pf.columns[1:]] → 이 3개 열만 선택

# [['기말', '과제']] → 다시 그 중 '기말'과 '과제'만 남김

Unnamed: 0,기말,과제
윤일형,35,8
강수희,27,10
홍소희,17,10
유한빈,22,9
신수빈,34,8


#### 행과 열 참조

In [None]:
pf.loc['윤일형', '출석']

18

In [None]:
pf.loc['윤일형':'유한빈', '기말']

윤일형    35
강수희    27
홍소희    17
유한빈    22
Name: 기말, dtype: int64

In [None]:
pf.loc['윤일형':'유한빈', '기말':'과제']

Unnamed: 0,기말,과제
윤일형,35,8
강수희,27,10
홍소희,17,10
유한빈,22,9


In [None]:
pf.loc[pf.index[0], pf.columns[1]]

35

In [None]:
pf.loc[pf.index[0:3], pf.columns[2]]

윤일형     8
강수희    10
홍소희    10
Name: 과제, dtype: int64

In [None]:
pf.loc[pf.index[0:3], pf.columns[2:]]

Unnamed: 0,과제,출석
윤일형,8,18
강수희,10,20
홍소희,10,19


## df.iloc[정수] 참조 

In [None]:
pf.iloc[1]

중간    18
기말    27
과제    10
출석    20
Name: 강수희, dtype: int64

In [None]:
pf.iloc[[1]]

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20


In [None]:
pf.iloc[[1, 3]]

Unnamed: 0,중간,기말,과제,출석
강수희,18,27,10,20
유한빈,12,22,9,20


In [None]:
pf.iloc[2:]

Unnamed: 0,중간,기말,과제,출석
홍소희,17,17,10,19
유한빈,12,22,9,20
신수빈,22,34,8,16


#### 열 참조

In [None]:
pf.iloc[:, 2]

윤일형     8
강수희    10
홍소희    10
유한빈     9
신수빈     8
Name: 과제, dtype: int64

In [None]:
pf.iloc[:, [2]]

Unnamed: 0,과제
윤일형,8
강수희,10
홍소희,10
유한빈,9
신수빈,8


In [None]:
pf.iloc[:, 1:]

Unnamed: 0,기말,과제,출석
윤일형,35,8,18
강수희,27,10,20
홍소희,17,10,19
유한빈,22,9,20
신수빈,34,8,16


#### 행과 열 참조

In [None]:
pf.iloc[1, 1]

27

In [None]:
pf.iloc[1:3, 1:]

Unnamed: 0,기말,과제,출석
강수희,27,10,20
홍소희,17,10,19


In [None]:
pf.iloc[:, 1:]

Unnamed: 0,기말,과제,출석
윤일형,35,8,18
강수희,27,10,20
홍소희,17,10,19
유한빈,22,9,20
신수빈,34,8,16


In [None]:
pf.iloc[[1, 3, 4], 1:]

Unnamed: 0,기말,과제,출석
강수희,27,10,20
유한빈,22,9,20
신수빈,34,8,16


In [None]:
pf.iloc[[1, 3, 4], [0, 1]]  # [1,3,4] 는 행 , [0,1]은 열!

Unnamed: 0,중간,기말
강수희,18,27
유한빈,12,22
신수빈,22,34


## (4) at(), iat() 참조 

#### at[] 참조

In [None]:
pf

Unnamed: 0,중간,기말,과제,출석
윤일형,25,35,8,18
강수희,18,27,10,20
홍소희,17,17,10,19
유한빈,12,22,9,20
신수빈,22,34,8,16


In [None]:
pf.at['윤일형', '과제']

8

In [None]:
pf.at['유한빈', '기말']

22

In [None]:
pf.at[pf.index[1], '출석']

20

In [None]:
pf.at[pf.index[3], pf.columns[2]]

9

In [None]:
pf.iat[1, 2]

10

In [None]:
pf.iat[2, 3]

19

## end of code