In [21]:
import pandas as pd

### DataFrame 객체 만들기
* 리스트로부터 만들기
* 딕셔너리로부터 만들기
* 파일로부터 읽어들이기

In [22]:
df_from_list = pd.DataFrame([["홍길동", 75.5], ["김유신", 90], ["이순신", 88]],
                            index=[0, 1, 2], columns=["이름", "점수"])
print(df_from_list)
print(df_from_list.dtypes)

df_from_dict = pd.DataFrame({"이름" : ["홍길동", "김유신", "이순신"],
                             "점수" : [75.5, 90, 88]},
                            index=[0, 1, 2])
print(df_from_dict)

# csv 파일로부터 만들기
df = pd.read_csv("data/score.csv", encoding="cp949")
print(df)

    이름    점수
0  홍길동  75.5
1  김유신  90.0
2  이순신  88.0
이름     object
점수    float64
dtype: object
    이름    점수
0  홍길동  75.5
1  김유신  90.0
2  이순신  88.0
     id           name  level     sex  score
0  1111   Hong Gildong      1    male   75.5
1  1112      Kim Yusin      3    male   90.0
2  1113      Yi Sunsin      3    male   88.0
3  1114   Gang Gamchan      2    male   83.5
4  1115     Yu Gwansun      4  female   92.0
5  1116  Jang Yeongsil      1    male   79.0
6  1117       Jo Areum      4  female   95.5
7  1118        Na Isul      3  female   91.0
8  1119    Lee Gippuem      2    male   86.0
9  1120        Yi Nara      2  female   88.5


### 데이터 보기

In [23]:
print(df.shape)
print(df.head(3))
df.info()

(10, 5)
     id          name  level   sex  score
0  1111  Hong Gildong      1  male   75.5
1  1112     Kim Yusin      3  male   90.0
2  1113     Yi Sunsin      3  male   88.0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      10 non-null     int64  
 1   name    10 non-null     object 
 2   level   10 non-null     int64  
 3   sex     10 non-null     object 
 4   score   10 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 528.0+ bytes


In [24]:
print(df.describe())
print(df.dtypes)

               id      level      score
count    10.00000  10.000000  10.000000
mean   1115.50000   2.500000  86.900000
std       3.02765   1.080123   6.100091
min    1111.00000   1.000000  75.500000
25%    1113.25000   2.000000  84.125000
50%    1115.50000   2.500000  88.250000
75%    1117.75000   3.000000  90.750000
max    1120.00000   4.000000  95.500000
id         int64
name      object
level      int64
sex       object
score    float64
dtype: object


In [25]:
print(df.index)
print(df.columns)
print(df.values)
print(len(df))
print(df.count())
print(df["level"].value_counts())

RangeIndex(start=0, stop=10, step=1)
Index(['id', 'name', 'level', 'sex', 'score'], dtype='object')
[[1111 'Hong Gildong' 1 'male' 75.5]
 [1112 'Kim Yusin' 3 'male' 90.0]
 [1113 'Yi Sunsin' 3 'male' 88.0]
 [1114 'Gang Gamchan' 2 'male' 83.5]
 [1115 'Yu Gwansun' 4 'female' 92.0]
 [1116 'Jang Yeongsil' 1 'male' 79.0]
 [1117 'Jo Areum' 4 'female' 95.5]
 [1118 'Na Isul' 3 'female' 91.0]
 [1119 'Lee Gippuem' 2 'male' 86.0]
 [1120 'Yi Nara' 2 'female' 88.5]]
10
id       10
name     10
level    10
sex      10
score    10
dtype: int64
level
3    3
2    3
1    2
4    2
Name: count, dtype: int64


### 행, 열, 셀 데이터 인덱싱

In [26]:
# 행 참조 : 현재 df 데이터의 경우 인덱스와 행번호가 동일하므로 loc, iloc 모두 동일
print(df.loc[3])
print(df.loc[[3, 6]])
print(df.iloc[3])
print(df.iloc[[3, 6]])

id               1114
name     Gang Gamchan
level               2
sex              male
score            83.5
Name: 3, dtype: object
     id          name  level     sex  score
3  1114  Gang Gamchan      2    male   83.5
6  1117      Jo Areum      4  female   95.5
id               1114
name     Gang Gamchan
level               2
sex              male
score            83.5
Name: 3, dtype: object
     id          name  level     sex  score
3  1114  Gang Gamchan      2    male   83.5
6  1117      Jo Areum      4  female   95.5


In [27]:
# 열 참조
print(df["name"])
print(df[["name", "level"]])

0     Hong Gildong
1        Kim Yusin
2        Yi Sunsin
3     Gang Gamchan
4       Yu Gwansun
5    Jang Yeongsil
6         Jo Areum
7          Na Isul
8      Lee Gippuem
9          Yi Nara
Name: name, dtype: object
            name  level
0   Hong Gildong      1
1      Kim Yusin      3
2      Yi Sunsin      3
3   Gang Gamchan      2
4     Yu Gwansun      4
5  Jang Yeongsil      1
6       Jo Areum      4
7        Na Isul      3
8    Lee Gippuem      2
9        Yi Nara      2


In [28]:
# 셀 참조
print(df.loc[3, "name"])
print(df.iloc[3, 1])

Gang Gamchan
Gang Gamchan


### 슬라이싱

In [29]:
df = pd.DataFrame({"이름" : ["홍길동", "김유신", "이순신", "강감찬", "유관순"],
                   "학년" : [1, 3, 3, 2, 2],
                   "점수" : [90, 90, 88, 88, 88]},
                  index=[100, 200, 300, 400, 500])

print(df.loc[200:400, "이름":"학년"])     # 인덱스 200~400, 열 "이름"~"학년"
print(df.iloc[1:4, 0:2])                 # 행번호 인덱스 1~3, 열번호 인덱스 0~1

print(df.loc[200:400])                    # 행들
print(df.iloc[1:4])                       # 행들

print(df.loc[:, "이름":"학년"])           # 열들
print(df.iloc[:, 0:2])                    # 열들

print(df.loc[[200, 400], ["이름", "학년"]])   # 행들, 열들
print(df.iloc[[1, 3], [0, 2]])                # 행들, 열들

      이름  학년
200  김유신   3
300  이순신   3
400  강감찬   2
      이름  학년
200  김유신   3
300  이순신   3
400  강감찬   2
      이름  학년  점수
200  김유신   3  90
300  이순신   3  88
400  강감찬   2  88
      이름  학년  점수
200  김유신   3  90
300  이순신   3  88
400  강감찬   2  88
      이름  학년
100  홍길동   1
200  김유신   3
300  이순신   3
400  강감찬   2
500  유관순   2
      이름  학년
100  홍길동   1
200  김유신   3
300  이순신   3
400  강감찬   2
500  유관순   2
      이름  학년
200  김유신   3
400  강감찬   2
      이름  점수
200  김유신  90
400  강감찬  88


### query 함수

In [30]:
df = pd.DataFrame({"이름" : ["홍길동", "김유신", "이순신", "강감찬", "유관순"],
                   "학년" : [1, 3, 3, 2, 4],
                   "점수" : [75.5, 90, 88, 83.5, 92]},
                  index=[100, 200, 300, 400, 500])

print(df.query("학년 == 3"))
print(df.query("학년 <= 3 and 점수 <= 85"))
print(df.query("학년 in [3]"))
print(df.query("학년 in [1, 4]"))
#level = [1, 4]
#print(df.query("학년 in @level")) # 외부 변수 참조 또는 f-string 활용 가능
print(df.query("index >= 200 and index <= 300"))

      이름  학년    점수
200  김유신   3  90.0
300  이순신   3  88.0
      이름  학년    점수
100  홍길동   1  75.5
400  강감찬   2  83.5
      이름  학년    점수
200  김유신   3  90.0
300  이순신   3  88.0
      이름  학년    점수
100  홍길동   1  75.5
500  유관순   4  92.0
      이름  학년    점수
200  김유신   3  90.0
300  이순신   3  88.0


### 데이터 수정

In [31]:
df = pd.read_csv("data/score.csv", encoding="cp949")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      10 non-null     int64  
 1   name    10 non-null     object 
 2   level   10 non-null     int64  
 3   sex     10 non-null     object 
 4   score   10 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 528.0+ bytes


In [32]:
df = df.rename(columns={"sex":"gender"})
df["level"] = df["level"].astype("category")
df = df.sort_values(by=["score"], ascending=False)
df["times"] = df["score"] * 2
df.info()
print(df)
df = df.sample(frac=1)
print(df)

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 6 to 0
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   id      10 non-null     int64   
 1   name    10 non-null     object  
 2   level   10 non-null     category
 3   gender  10 non-null     object  
 4   score   10 non-null     float64 
 5   times   10 non-null     float64 
dtypes: category(1), float64(2), int64(1), object(2)
memory usage: 694.0+ bytes
     id           name level  gender  score  times
6  1117       Jo Areum     4  female   95.5  191.0
4  1115     Yu Gwansun     4  female   92.0  184.0
7  1118        Na Isul     3  female   91.0  182.0
1  1112      Kim Yusin     3    male   90.0  180.0
9  1120        Yi Nara     2  female   88.5  177.0
2  1113      Yi Sunsin     3    male   88.0  176.0
8  1119    Lee Gippuem     2    male   86.0  172.0
3  1114   Gang Gamchan     2    male   83.5  167.0
5  1116  Jang Yeongsil     1    male   79.0  158.0
0  1111   

### 결측 데이터 처리

In [33]:
print(df.isnull().sum())

id        0
name      0
level     0
gender    0
score     0
times     0
dtype: int64


### 데이터 구간화

In [34]:
# 점수 구간을 나눠서(0, 80, 90, 100) C, B, A로 나누기
df["grade"] = pd.cut(df["score"], bins=[0, 80, 90, 100], labels=["C", "B", "A"])
print(df)                                                                    

     id           name level  gender  score  times grade
8  1119    Lee Gippuem     2    male   86.0  172.0     B
0  1111   Hong Gildong     1    male   75.5  151.0     C
3  1114   Gang Gamchan     2    male   83.5  167.0     B
1  1112      Kim Yusin     3    male   90.0  180.0     B
2  1113      Yi Sunsin     3    male   88.0  176.0     B
7  1118        Na Isul     3  female   91.0  182.0     A
5  1116  Jang Yeongsil     1    male   79.0  158.0     C
6  1117       Jo Areum     4  female   95.5  191.0     A
9  1120        Yi Nara     2  female   88.5  177.0     B
4  1115     Yu Gwansun     4  female   92.0  184.0     A


In [35]:
# grade를 one-hot 인코딩으로 만들기
df = pd.get_dummies(df, columns=["grade"], dtype=int)  # 0, 1로 변환 dtype=int
print(df)

     id           name level  gender  score  times  grade_C  grade_B  grade_A
8  1119    Lee Gippuem     2    male   86.0  172.0        0        1        0
0  1111   Hong Gildong     1    male   75.5  151.0        1        0        0
3  1114   Gang Gamchan     2    male   83.5  167.0        0        1        0
1  1112      Kim Yusin     3    male   90.0  180.0        0        1        0
2  1113      Yi Sunsin     3    male   88.0  176.0        0        1        0
7  1118        Na Isul     3  female   91.0  182.0        0        0        1
5  1116  Jang Yeongsil     1    male   79.0  158.0        1        0        0
6  1117       Jo Areum     4  female   95.5  191.0        0        0        1
9  1120        Yi Nara     2  female   88.5  177.0        0        1        0
4  1115     Yu Gwansun     4  female   92.0  184.0        0        0        1
