# **1. 판다스(Pandas)**
판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다.

```
pip install pandas
```

In [78]:
import pandas as pd

# **2. Series와 DataFrame**


##1. Series

Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다. Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.

In [79]:
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 90, 62, 98]

pd.Series(data)

Unnamed: 0,0
0,67
1,75
2,90
3,62
4,98


In [80]:
pd.Series(data, idx)

Unnamed: 0,0
김사과,67
반하나,75
오렌지,90
이메론,62
배애리,98


In [81]:
se1 = pd.Series(data, idx)
se1

Unnamed: 0,0
김사과,67
반하나,75
오렌지,90
이메론,62
배애리,98


In [82]:
print(se1.index)
print(se1.values)
print(type(se1.values))

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
[67 75 90 62 98]
<class 'numpy.ndarray'>


## 2. DataFrame

데이터프레임(DataFrame)은 판다스(Pandas) 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로, 2차원의 테이블 형태 데이터를 다루는 데 사용됩니다. 또한 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다.

In [83]:
data = [[67, 93, 91],
        [75, 68, 96],
        [87, 81, 82],
        [62, 70, 75],
        [98, 56, 87]]

idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']

In [84]:
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,67,93,91
1,75,68,96
2,87,81,82
3,62,70,75
4,98,56,87


In [85]:
pd.DataFrame(data, idx)

Unnamed: 0,0,1,2
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [86]:
pd.DataFrame(data, idx, col)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [87]:
pd.DataFrame(index=idx, columns=col, data=data)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [88]:
df = pd.DataFrame(index=idx, columns=col, data=data)
df


Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82
이메론,62,70,75
배애리,98,56,87


In [89]:
print(df.index)
print(df.columns)
print(df.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')
[[67 93 91]
 [75 68 96]
 [87 81 82]
 [62 70 75]
 [98 56 87]]


In [90]:
# 딕셔너리를 사용하여 데이터프레임을 생성하기
dic = {
    '국어':[67, 75, 76, 62, 98],
    '영어':[93, 68, 81, 70, 56],
    '수학':[91, 96, 82, 75, 87]
}

df = pd.DataFrame(data=dic, index=idx)
df

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,76,81,82
이메론,62,70,75
배애리,98,56,87


# **3.CSV 파일 읽어오기
CSV 파일은 Comma-Separated Values(쉼표로 구분된 값) 파일의 약자로, 데이터를 단순한 텍스트 형식으로 저장하는 데 사용되는 파일 형식입니다.

In [91]:
df = pd.read_csv('/content/drive/MyDrive/랭체인 AI 영상객체탐지분석 플랫폼 구축/9. 데이터 분석/data/idol.csv')
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


# **4. 데이터프레임 기본 정보 알아보기**

In [92]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [93]:
df.columns

Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object')

In [94]:
new_columns = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood', 'brand']
df.columns = new_columns
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [95]:
# describe(): 통계 정보를 반환
df.describe()

Unnamed: 0,height,brand
count,19.0,20.0
mean,170.536842,2700190.0
std,7.225204,1381919.0
min,161.0,1680587.0
25%,164.75,1887423.0
50%,168.0,2074682.0
75%,179.0,2623465.0
max,182.0,6267302.0


In [96]:
df.describe(include=object) # Top: 최빈값, freq: 최빈값의 빈도

Unnamed: 0,name,group,company,gender,birthday,blood
count,20,20,19,20,20,19
unique,20,6,5,2,20,4
top,지민,방탄소년단,빅히트,여자,1995-10-13,A
freq,1,5,7,13,1,11


In [97]:
df.head() # 상위 5개

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [98]:
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [99]:
df.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [100]:
df.tail(2)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587


In [101]:
# 정렬
df.sort_index() # index로 오름차순 정렬: 기본값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [102]:
df.sort_index(ascending=False) # index로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [103]:
df.sort_values(by='height') # 키로 오름차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297


In [104]:
df.sort_values(by='height', ascending=False) # 키로 내림차순 정렬

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
14,로제,블랙핑크,와이지,여자,1997-02-11,168.0,B,1888132


In [105]:
df.sort_values(by='height', ascending=False, na_position='first') # 키로 내림차순 정렬. NaN을 위로 올림

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [106]:
df.sort_values(by=['height','brand'], ascending=[False,False], na_position='first')

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


# **5. 데이터 다루기**

In [107]:
df.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [108]:
df['blood']

Unnamed: 0,blood
0,A
1,A
2,A
3,O
4,AB
5,
6,O
7,A
8,B
9,A


In [109]:
type(df['blood'])

In [110]:
df.blood

Unnamed: 0,blood
0,A
1,A
2,A
3,O
4,AB
5,
6,O
7,A
8,B
9,A


In [111]:
df.head(3)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [112]:
df[:3]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081


In [113]:
# df.loc[행에 대한 조건, 열 선]
df.loc[:, 'name'] # df['name'] , df.name

Unnamed: 0,name
0,지민
1,정국
2,민지
3,하니
4,뷔
5,다니엘
6,혜인
7,지수
8,해린
9,태연


In [114]:
df.loc[2:5, 'name'] # 5번을 포함

Unnamed: 0,name
2,민지
3,하니
4,뷔
5,다니엘


In [115]:
df.loc[2:5, ['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
2,민지,여자,169.0
3,하니,여자,161.7
4,뷔,남자,179.0
5,다니엘,여자,165.0


In [116]:
df.loc[[2,5], ['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
2,민지,여자,169.0
5,다니엘,여자,165.0


In [117]:
df.loc[2:5, 'name':'gender']

Unnamed: 0,name,group,company,gender
2,민지,뉴진스,어도어,여자
3,하니,뉴진스,어도어,여자
4,뷔,방탄소년단,빅히트,남자
5,다니엘,뉴진스,어도어,여자


In [118]:
# iloc 인덱싱: index로 인덱싱
df.iloc[:, 0]

Unnamed: 0,name
0,지민
1,정국
2,민지
3,하니
4,뷔
5,다니엘
6,혜인
7,지수
8,해린
9,태연


In [119]:
df.iloc[:, 0:3] # 3을 포함하지 않음

Unnamed: 0,name,group,company
0,지민,방탄소년단,빅히트
1,정국,방탄소년단,빅히트
2,민지,뉴진스,어도어
3,하니,뉴진스,어도어
4,뷔,방탄소년단,빅히트
5,다니엘,뉴진스,어도어
6,혜인,뉴진스,어도어
7,지수,블랙핑크,와이지
8,해린,뉴진스,어도어
9,태연,소녀시대,에스엠


In [120]:
df.iloc[:, [0, 3]]

Unnamed: 0,name,gender
0,지민,남자
1,정국,남자
2,민지,여자
3,하니,여자
4,뷔,남자
5,다니엘,여자
6,혜인,여자
7,지수,여자
8,해린,여자
9,태연,여자


In [121]:
df.iloc[1:5, [0, 3]]

Unnamed: 0,name,gender
1,정국,남자
2,민지,여자
3,하니,여자
4,뷔,남자


In [122]:
df['height'] >= 180

Unnamed: 0,height
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,False


In [123]:
df[df['height'] >= 180]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444


In [124]:
df[df['height'] >= 180]['name'] # df['name'][df['height'] >= 180]

Unnamed: 0,name
10,RM
18,강다니엘


In [125]:
df[df['height'] >= 180][['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [126]:
df.loc[df['height'] >= 180, ['name', 'gender', 'height']]

Unnamed: 0,name,gender,height
10,RM,남자,181.0
18,강다니엘,남자,182.0


In [127]:
df

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [128]:
company = ['빅히트', '어도어']
# isin(): 해당 요소가 데이터와 일치하면 True, 니면 False
df['company'].isin(company)

Unnamed: 0,company
0,True
1,True
2,True
3,True
4,True
5,True
6,True
7,False
8,True
9,False


In [129]:
df[df['company'].isin(company)] # df.loc[df['company'].isin(company),:]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514


# **6. 결측값**
결측값은 값이 누락된 데이터를 의미하며, 판다스에서는 일반적으로 NaN으로 표시됩니다.

In [130]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [131]:
df.isna()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [132]:
df['height'].isna()

Unnamed: 0,height
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,True


In [133]:
df[df['height'].isna()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [134]:
df[df['height'].isna()]['name']

Unnamed: 0,name
9,태연


In [135]:
df.isnull() # df.notnull() NaN이 아닌 값

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False
9,False,False,False,False,False,True,False,False


In [136]:
df[df['height'].isnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [137]:
df[~df['height'].isnull()] # df[df['heightt'].notnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499


In [138]:
df.loc[df['height'].notnull(), ['name', 'company', 'gender']]

Unnamed: 0,name,company,gender
0,지민,빅히트,남자
1,정국,빅히트,남자
2,민지,어도어,여자
3,하니,어도어,여자
4,뷔,빅히트,남자
5,다니엘,어도어,여자
6,혜인,어도어,여자
7,지수,와이지,여자
8,해린,어도어,여자
10,RM,빅히트,남자


In [139]:
# fillna(): 결측값을 채워주는 함수
df['height'].fillna(0) # df['height'].fillna(0, inplace = True) 저장할려면

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,0.0


In [140]:
df_copy = df.copy()
height = df_copy['height'].mean()
height

np.float64(170.53684210526316)

In [141]:
df_copy['height'] = df_copy['height'].fillna(height)
df_copy['height']

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,170.536842


In [142]:
df_copy = df.copy()
df_copy['height']

Unnamed: 0,height
0,174.0
1,179.0
2,169.0
3,161.7
4,179.0
5,165.0
6,170.0
7,162.0
8,164.5
9,


In [143]:
df_copy['height'].fillna(df_copy['height'].median(), inplace=True)

In [144]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [145]:
# dropna(): 결측값이 있는 행 또는 열을 모두 제거
df_copy.dropna() # axix=0(행 삭제)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250


In [146]:
df_copy.dropna(axis=1)

Unnamed: 0,name,group,gender,birthday,brand
0,지민,방탄소년단,남자,1995-10-13,6267302
1,정국,방탄소년단,남자,1997-09-01,5805844
2,민지,뉴진스,여자,2004-05-07,4437081
3,하니,뉴진스,여자,2004-10-06,4161153
4,뷔,방탄소년단,남자,1995-12-30,3470048
5,다니엘,뉴진스,여자,2005-04-11,2341271
6,혜인,뉴진스,여자,2008-04-21,2301785
7,지수,블랙핑크,여자,1995-01-03,2227460
8,해린,뉴진스,여자,2006-05-15,2173376
9,태연,소녀시대,여자,1989-03-09,2079866


# **7. 행, 열 추가 및 삭제하기**

In [147]:
df_copy = df.copy()
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [148]:
dic = {
    'name': '김사과',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '2000-01-01',
    'height': 160.0,
    'blood': 'A',
    'brand': 1234567
}

In [149]:
df_copy = pd.concat([df_copy, pd.DataFrame(dic, index=[0])], ignore_index=True)
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [150]:
dic = {
    'name': '김사과',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '1995-01-01',
    'height': 160.0,
    'blood': 'B',
    'brand': 1000000
}

In [151]:
df_copy.loc[len(df_copy)] = dic # 컬럼명이 모두 같아야 추가됨
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [152]:
df_copy['nation'] = '대한민국'
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [153]:
df_copy.drop(20, axis=0) # 0: 행

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국


In [154]:
df_copy.drop({1, 3, 5, 7, 20, 21})

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499,대한민국
11,제니,블랙핑크,와이지,여자,1996-01-16,163.0,B,2069250,대한민국
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327,대한민국
13,리사,블랙핑크,와이지,여자,1997-03-27,167.0,A,1912800,대한민국


In [155]:
df_copy.drop(['nation', 'group', 'gender'], axis=1)

Unnamed: 0,name,company,birthday,height,blood,brand
0,지민,빅히트,1995-10-13,174.0,A,6267302
1,정국,빅히트,1997-09-01,179.0,A,5805844
2,민지,어도어,2004-05-07,169.0,A,4437081
3,하니,어도어,2004-10-06,161.7,O,4161153
4,뷔,빅히트,1995-12-30,179.0,AB,3470048
5,다니엘,어도어,2005-04-11,165.0,,2341271
6,혜인,어도어,2008-04-21,170.0,O,2301785
7,지수,와이지,1995-01-03,162.0,A,2227460
8,해린,어도어,2006-05-15,164.5,B,2173376
9,태연,에스엠,1989-03-09,,A,2079866


In [156]:
df_copy['height'].sum() # 합계

np.float64(3560.2)

In [157]:
df_copy['height'].count() # Nan은 포함하지 않음

np.int64(21)

In [158]:
df_copy['height'].mean() # 평균

np.float64(169.53333333333333)

In [159]:
df_copy['height'].median() # 중앙값

168.0

# **※ 평균과 중앙값**
평균은 모든 데이터를 더한 후, 데이터 개수로 나눈 값입니다. 데이터를 고르게 분배했을 때, 한 데이터가 가질 수 있는 이론적인 중심값을 의미합니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때, 가운데 위치하는 값입니다. 데이터의 순서에만 영향을 받고, 값의 크기에는 영향을 받지 않습니다. 데이터가 고르게 분포된 경우 평균과 중앙값이 비슷하거나 같습니다. 하지만 데이터에 극단값(Outlier)이 있는 경우 평균은 극단값의 영향을 받아 왜곡될 수 있지만, 중앙값은 비교적 안정적입니다.

In [160]:
df_copy['height'].max() # 최댓값

182.0

In [161]:
df_copy['height'].min() # 최솟값

160.0

In [162]:
df_copy['height'].var() # 분산

57.02833333333335

In [163]:
df_copy['height'].std() # 표준편차

7.55171062298691

# **※ 분산과 표준편차**
분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다. 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다. 평균에서 각 데이터의 거리를 제곱한 값들의 평균입니다. 표준편차는 분산의 제곱근입니다. 분산은 제곱 값이기 때문에 단위가 커질 수 있는데, 이를 원래 데이터와 같은 단위로 변환하기 위해 제곱근을 씌웁니다.
<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FlSDKp%2FbtsLh5aU1e8%2FAAAAAAAAAAAAAAAAAAAAALLo-v9lCG02Pjz21LsA2v3fa3ieSoACoMfBNnkw9FCc%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1767193199%26allow_ip%3D%26allow_referer%3D%26signature%3DxwMZhWgOxQ2CmRKqwvQnZ%252FlQUro%253D" />

# **9. 그룹**

In [164]:
df_copy

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
5,다니엘,뉴진스,어도어,여자,2005-04-11,165.0,,2341271,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
7,지수,블랙핑크,와이지,여자,1995-01-03,162.0,A,2227460,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866,대한민국
