# 1. 판다스(Pandas)

판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다.
```
!pip install pandas
```

In [272]:
import pandas as pd

# 2. Series와 DataFrame

1. Series

Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다. Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있습니다.

In [273]:
idx = ['김사과', '반하나', '오렌지', '이메론', '배애리']
data = [67, 75, 90, 62, 98]

# pd.Series(데이터, 인덱스, ...)
print(pd.Series(data))

0    67
1    75
2    90
3    62
4    98
dtype: int64


In [274]:
se1 = pd.Series(data, idx)
print(se1)

김사과    67
반하나    75
오렌지    90
이메론    62
배애리    98
dtype: int64


In [275]:
print(se1.index)
print(se1.values)
print(type(se1))

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
[67 75 90 62 98]
<class 'pandas.core.series.Series'>


2. DataFrame

데이터프레임(DataFrame)은 판다스(Pandas) 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로, 2차원의 테이블 형태 데이터를 다루는 데 사용됩니다. 또한 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있습니다. 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다.

In [276]:
data = [[67, 93, 91],
        [75, 68, 96],
        [87, 81, 82],
        [62, 70, 75],
        [98, 56, 87]]

idx_norm = ['김사과', '반하나', '오렌지', '이메론', '배애리']
col = ['국어', '영어', '수학']
df_norm = pd.DataFrame(data, index=idx_norm, columns=col)

In [277]:
df_norm.head(3)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,87,81,82


In [278]:
print(df_norm.index)
print(df_norm.columns)
print(df_norm.values)

Index(['김사과', '반하나', '오렌지', '이메론', '배애리'], dtype='object')
Index(['국어', '영어', '수학'], dtype='object')
[[67 93 91]
 [75 68 96]
 [87 81 82]
 [62 70 75]
 [98 56 87]]


In [279]:
# 딕셔너리를 사용하여 데이터프레임을 생성하기
dic = {
    '국어':[67, 75, 76, 62, 98],
    '영어':[93, 68, 81, 70, 56],
    '수학':[91, 96, 82, 75, 87]
}
idx_dic = ['김사과', '반하나', '오렌지', '이메론', '배애리']

df_dic = pd.DataFrame(data=dic, index=idx_dic)

In [280]:
df_dic.head(3)

Unnamed: 0,국어,영어,수학
김사과,67,93,91
반하나,75,68,96
오렌지,76,81,82


# 3. CSV 파일 읽어오기

CSV 파일은 Comma-Separated Values(쉼표로 구분된 값) 파일의 약자로, 데이터를 단순한 텍스트 형식으로 저장하는 데 사용되는 파일 형식입니다.



아래 파일을 다운받고 구글드라이브에 업로드합니다.

In [281]:
idol = pd.read_csv("/content/drive/MyDrive/KDT/9_데이터분석/data/idol.csv")
idol = pd.DataFrame(idol)
idol.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [282]:
idol.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       20 non-null     object 
 1   그룹       20 non-null     object 
 2   소속사      19 non-null     object 
 3   성별       20 non-null     object 
 4   생년월일     20 non-null     object 
 5   키        19 non-null     float64
 6   혈액형      19 non-null     object 
 7   브랜드평판지수  20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


# 4. 데이터프레임 기본 정보 알아보기

In [283]:
new_columns = ['name', 'group', 'company', 'gender', 'birthday', 'height', 'blood', 'brand']
idol.columns = new_columns

In [284]:
idol.describe()

Unnamed: 0,height,brand
count,19.0,20.0
mean,170.536842,2700190.0
std,7.225204,1381919.0
min,161.0,1680587.0
25%,164.75,1887423.0
50%,168.0,2074682.0
75%,179.0,2623465.0
max,182.0,6267302.0


In [285]:
idol.sort_index(ascending=False).head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767
16,조이,레드벨벳,빅히트,여자,1996-09-03,168.0,A,1830514
15,윤아,소녀시대,에스엠,여자,1990-05-30,168.0,B,1885297


In [286]:
idol.height.sort_values(na_position="first").head()

Unnamed: 0,height
9,
17,161.0
3,161.7
7,162.0
11,163.0


In [287]:
idol.sort_values(by=["height", "brand"], ascending=[False, False]).head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
10,RM,방탄소년단,빅히트,남자,1994-09-12,181.0,A,2069499
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048
12,옹성우,워너원,판타지오,남자,1995-08-25,179.0,A,1954327


# 5. 데이터 다루기

In [288]:
# 인덱스 번호를 가져옴(이름이 아님)
idol.iloc[0:5, [0, 2, 5]]

Unnamed: 0,name,company,height
0,지민,빅히트,174.0
1,정국,빅히트,179.0
2,민지,어도어,169.0
3,하니,어도어,161.7
4,뷔,빅히트,179.0


In [289]:
idol.loc[idol["height"] <= 170, ["name", "gender"]].head()

Unnamed: 0,name,gender
2,민지,여자
3,하니,여자
5,다니엘,여자
6,혜인,여자
7,지수,여자


In [290]:
idol['company'].isin(['빅히트', '어도어']).head()

Unnamed: 0,company
0,True
1,True
2,True
3,True
4,True


In [291]:
idol[idol['company'].isin(['빅히트', '어도어'])].head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


# 6. 결측값

결측값은 값이 누락된 데이터를 의미하며, 판다스에서는 일반적으로 NaN으로 표시됩니다.

In [292]:
idol.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      20 non-null     object 
 1   group     20 non-null     object 
 2   company   19 non-null     object 
 3   gender    20 non-null     object 
 4   birthday  20 non-null     object 
 5   height    19 non-null     float64
 6   blood     19 non-null     object 
 7   brand     20 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.4+ KB


In [293]:
idol[idol['height'].isnull()]

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
9,태연,소녀시대,에스엠,여자,1989-03-09,,A,2079866


In [294]:
# NaN값 빼고 보기
idol[~idol['height'].isnull()].head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [295]:
i_drop = idol.dropna()
idx = [i for i in range(17)]
i_drop = pd.DataFrame(i_drop, index=idx)
i_drop.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17 entries, 0 to 16
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      15 non-null     object 
 1   group     15 non-null     object 
 2   company   15 non-null     object 
 3   gender    15 non-null     object 
 4   birthday  15 non-null     object 
 5   height    15 non-null     float64
 6   blood     15 non-null     object 
 7   brand     15 non-null     float64
dtypes: float64(2), object(6)
memory usage: 1.2+ KB


# 7. 행, 열 추가 및 삭제하기

In [296]:
i_copy = idol.copy()
i_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [297]:
dic = {
    'name': '김사과',
    'group': '과수원',
    'company': '애플',
    'gender': '여자',
    'birthday': '2000-01-01',
    'height': 160.0,
    'blood': 'A',
    'brand': 1234567
}

dic_b = {
    'name': '반하나',
    'group': '과수원',
    'company': '바나나',
    'gender': '남자',
    'birthday': '1999-01-01',
    'height': 171.0,
    'blood': 'B',
    'brand': 1234567
}

In [298]:
# ignore_index=True 자기 자신의 인덱스를 무시하고 인덱스에 맞게 들어감
i_copy = pd.concat([i_copy, pd.DataFrame(dic, index=[0])], ignore_index=True)
i_copy.head(5)

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [299]:
i_copy.loc[len(i_copy)] = dic_b
i_copy.sort_index(ascending=False).head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
21,반하나,과수원,바나나,남자,1999-01-01,171.0,B,1234567
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767


In [300]:
i_copy["nation"] = "대한민국"
i_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


In [301]:
i_copy.loc[i_copy["name"] == "김사과", "nation"] = "USA"
i_copy.tail()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
17,슬기,레드벨벳,빅히트,여자,1994-02-10,161.0,A,1741767,대한민국
18,강다니엘,워너원,,남자,1996-12-10,182.0,A,1706444,대한민국
19,진,방탄소년단,빅히트,남자,1992-12-04,179.0,O,1680587,대한민국
20,김사과,과수원,애플,여자,2000-01-01,160.0,A,1234567,USA
21,반하나,과수원,바나나,남자,1999-01-01,171.0,B,1234567,대한민국


In [302]:
i_copy.drop([1, 3, 5, 7, 20], axis=0).head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국
6,혜인,뉴진스,어도어,여자,2008-04-21,170.0,O,2301785,대한민국
8,해린,뉴진스,어도어,여자,2006-05-15,164.5,B,2173376,대한민국


In [303]:
i_copy.drop(['nation', 'group'], axis=1).head()

Unnamed: 0,name,company,gender,birthday,height,blood,brand
0,지민,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,빅히트,남자,1995-12-30,179.0,AB,3470048


# 8. 통계 함수

※ 평균과 중앙값

평균은 모든 데이터를 더한 후, 데이터 개수로 나눈 값입니다. 데이터를 고르게 분배했을 때, 한 데이터가 가질 수 있는 이론적인 중심값을 의미합니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때, 가운데 위치하는 값입니다. 데이터의 순서에만 영향을 받고, 값의 크기에는 영향을 받지 않습니다. 데이터가 고르게 분포된 경우 평균과 중앙값이 비슷하거나 같습니다. 하지만 데이터에 극단값(Outlier)이 있는 경우 평균은 극단값의 영향을 받아 왜곡될 수 있지만, 중앙값은 비교적 안정적입니다.

※ 분산과 표준편차

분산(Variance)과 표준편차(Standard Deviation)는 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 산포도(분포 정도)를 측정하는 지표입니다. 분산은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타냅니다. 평균에서 각 데이터의 거리를 제곱한 값들의 평균입니다. 표준편차는 분산의 제곱근입니다. 분산은 제곱 값이기 때문에 단위가 커질 수 있는데, 이를 원래 데이터와 같은 단위로 변환하기 위해 제곱근을 씌웁니다.

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FlSDKp%2FbtsLh5aU1e8%2FAAAAAAAAAAAAAAAAAAAAALLo-v9lCG02Pjz21LsA2v3fa3ieSoACoMfBNnkw9FCc%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1767193199%26allow_ip%3D%26allow_referer%3D%26signature%3DxwMZhWgOxQ2CmRKqwvQnZ%252FlQUro%253D">

# 9. 그룹

In [304]:
i_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


In [305]:
i_copy.groupby(["blood", "gender"]).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,height,brand
blood,gender,Unnamed: 2_level_1,Unnamed: 3_level_1
A,남자,179.0,3560683.0
A,여자,164.5,2209151.0
AB,남자,179.0,3470048.0
B,남자,171.0,1234567.0
B,여자,165.875,2004014.0
O,남자,179.0,1680587.0
O,여자,165.85,3231469.0


# 10. 중복값 제거하기

In [306]:
# 마지막 인덱스를 가져오기 -> keep
i_copy["blood"].drop_duplicates(keep="last")

Unnamed: 0,blood
4,AB
5,
19,O
20,A
21,B


In [307]:
i_copy["blood"].value_counts(dropna=False)

Unnamed: 0_level_0,count
blood,Unnamed: 1_level_1
A,12
B,5
O,3
AB,1
,1


# 11. 데이터프레임 합치기

In [308]:
idol1 = pd.read_csv("/content/drive/MyDrive/KDT/9_데이터분석/data/idol.csv")
idol2 = pd.read_csv("/content/drive/MyDrive/KDT/9_데이터분석/data/idol2.csv")

In [309]:
idol2.head()

Unnamed: 0,이름,연봉,가족수
0,지민,3000,3
1,정국,3500,3
2,민지,3200,4
3,하니,3050,4
4,뷔,4300,3


In [310]:
i_row = pd.concat([idol1, idol1], axis=0, ignore_index=True)
i_row.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


In [311]:
i_column = pd.concat([idol1, idol2], axis=1)
i_column.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,이름.1,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,지민,3000,3
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,정국,3500,3
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,민지,3200,4
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,하니,3050,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,뷔,4300,3


In [312]:
i_merge = pd.merge(idol1, idol2, on="이름", how="right")
i_merge.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,연봉,가족수
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,3000,3
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,3500,3
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3200,4
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,3050,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,4300,3


# 12. 등수 매기기

In [313]:
idol1["브랜드순위"] = idol1.브랜드평판지수.rank(ascending=False).astype(int)
idol1.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,브랜드순위
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,1
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,2
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,3
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,4
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,5


# 13. 날짜타입 사용하기

In [314]:
i_copy.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand,nation
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302,대한민국
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844,대한민국
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081,대한민국
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153,대한민국
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048,대한민국


In [315]:
# to_datetime() : object 타입에서 datetime 타입으로 변환
i_copy["birthday"] = pd.to_datetime(i_copy["birthday"])

In [316]:
i_copy.birthday.dt.dayofweek # 요일: 0(월요일) ~ 6(일요일)
i_copy.birthday.dt.isocalendar().week # 해당 주

Unnamed: 0,week
0,41
1,36
2,19
3,41
4,52
5,15
6,17
7,1
8,20
9,10


# 14. apply 사용하기

Pandas의 apply() 함수는 데이터프레임이나 시리즈의 데이터를 사용자 정의 함수 또는 내장 함수에 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. 데이터를 행(row) 또는 열(column) 단위로 처리할 수 있는 강력한 도구입니다.

In [317]:
# idol.gender = idol.gender.apply(lambda x:1 if x=="남자" else 0)
# idol.head()

# 15. map 사용하기

Pandas의 map() 함수는 Series 객체에서 사용할 수 있는 함수로, 각 요소에 대해 함수나 매핑 규칙을 적용하여 새로운 값을 계산하거나 변환할 때 사용됩니다. map()은 데이터의 각 요소를 순회하며 특정 작업을 수행하므로, 데이터를 가공하거나 변환하는 데 유용합니다.

In [318]:
# idol.blood = idol.blood.map({"A":0, "B":1, "AB":2, "O":3})

In [319]:
idol.head()

Unnamed: 0,name,group,company,gender,birthday,height,blood,brand
0,지민,방탄소년단,빅히트,남자,1995-10-13,174.0,A,6267302
1,정국,방탄소년단,빅히트,남자,1997-09-01,179.0,A,5805844
2,민지,뉴진스,어도어,여자,2004-05-07,169.0,A,4437081
3,하니,뉴진스,어도어,여자,2004-10-06,161.7,O,4161153
4,뷔,방탄소년단,빅히트,남자,1995-12-30,179.0,AB,3470048


# 16. 데이터프레임의 산술연산

In [320]:
python1 = pd.DataFrame({
    '파이썬':[60, 70, 80, 90, 95],
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})
python1.head()

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝
0,60,40,35
1,70,60,40
2,80,70,30
3,90,55,70
4,95,87,55


In [321]:
python1["총점"] = python1.파이썬 + python1.데이터분석 + python1.머신러닝딥러닝
python1.head()

Unnamed: 0,파이썬,데이터분석,머신러닝딥러닝,총점
0,60,40,35,135
1,70,60,40,170
2,80,70,30,180
3,90,55,70,215
4,95,87,55,237


In [322]:
df1 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55, 87],
    '머신러닝딥러닝':[35, 40, 30, 70, 55]
})

df2 = pd.DataFrame({
    '데이터분석':[40, 60, 70, 55],
    '머신러닝딥러닝':[35, 40, 30, 70]
})

d_sum = df1 + df2
d_sum.head()

Unnamed: 0,데이터분석,머신러닝딥러닝
0,80.0,70.0
1,120.0,80.0
2,140.0,60.0
3,110.0,140.0
4,,


# 17. select_dtypes

In [324]:
idol.select_dtypes(include='object').head()

Unnamed: 0,name,group,company,gender,birthday,blood
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,정국,방탄소년단,빅히트,남자,1997-09-01,A
2,민지,뉴진스,어도어,여자,2004-05-07,A
3,하니,뉴진스,어도어,여자,2004-10-06,O
4,뷔,방탄소년단,빅히트,남자,1995-12-30,AB


In [325]:
idol.select_dtypes(exclude="object").head()

Unnamed: 0,height,brand
0,174.0,6267302
1,179.0,5805844
2,169.0,4437081
3,161.7,4161153
4,179.0,3470048


In [328]:
str_cols = idol.select_dtypes(include='object').columns
print(str_cols)

Index(['name', 'group', 'company', 'gender', 'birthday', 'blood'], dtype='object')


# 18. get_dummies

get_dummies()는 Pandas에서 범주형 데이터를 원-핫 인코딩(one-hot encoding) 방식으로 변환하는 데 사용됩니다.

1. 데이터의 종류
<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FvmnOx%2FdJMcacnX56W%2FAAAAAAAAAAAAAAAAAAAAAGpDja0-RlnxiVyllwjgZkpmqk9189V9r98SJ6LIeOsy%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1767193199%26allow_ip%3D%26allow_referer%3D%26signature%3DxW93p%252B%252FdQJ6DxVBH5dtFyZ3UwV8%253D">

## 2. 데이터 분석에서 범주형 컬럼 판단 기준
데이터 분석 또는 머신러닝 모델을 만들 때, 각 컬럼(특징)을 범주형 데이터로 변환할지, 또는 삭제해야 할지 판단하는 과정은 매우 중요합니다. 특히 실제 데이터는 숫자처럼 보이지만 의미가 없는 것들도 많고, 범주형으로 처리하지 않으면 분석 결과가 왜곡되는 경우도 많습니다.

1. 값의 종류가 적고 의미 있는 그룹을 형성할 때
>성별, 지역, 직급, 요일, 날씨
이런 값들은 자연스럽게 “그룹 분석”이 가능하고, 평균·합계를 내는 것보다 범주별 비교가 더 의미 있는 케이스입니다.



2. 숫자처럼 보이지만 수학적 의미가 없을 때
>회원번호. 상품 코드, 우편번호, 전화번호
겉으로는 숫자이지만, 덧셈∙평균 같은 연산은 전혀 의미가 없습니다. 따라서 문자열 또는 범주형으로 변환해야 분석에 적합합니다.



3. 머신러닝 입력을 위해 인코딩이 필요한 경우
>```컬러(color): red / blue / green```, ```브라우저(browser): chrome / edge / safari```
머신러닝은 문자열을 직접 다루지 못하므로, 범주형으로 변환한 뒤 원-핫 인코딩(One-Hot Encoding) 또는 레이블 인코딩(Label Encoding)을 적용합니다.



4. 연속 값이지만 범주로 나누는 것이 더 의미 있을 때
>```나이 → 10대/20대/30대```, ```매출 → 고/중/저, 위험등급 → Low / Medium / High```
이처럼 의미 있는 구간(bin)을 만들어 카테고리화하면 분석 인사이트가 더 명확해집니다.

## 3. 어떤 컬럼은 제거(drop)하는 것이 좋을까?

1. 고유값(Unique)이 너무 많아 패턴이 없는 경우
>주문번호, 주민번호, UUID, 세션 ID, 상세주소
이런 컬럼들은 대부분 값이 전부 다르기 때문에 모델이 패턴을 학습할 수 없고 오히려 노이즈로 작용합니다.



2. 지나치게 상세한 정보(과도한 해상도)
>초 단위 timestamp, 도로명 + 상세 주소 (건물번호, 호수까지 포함)
이런 값들은 정보는 많지만 분석에서 의미 있는 패턴을 제공하지 않습니다. 일반적으로 다음처럼 가공해야 합니다:```시간 → year, month, hour, weekday, 주소 → 시/구 단위```


3. 결측치가 지나치게 많아 의미가 없을 때
>```예: 전체의 80% 이상이 null```
대부분의 경우 해당 컬럼은 과감히 삭제하는 것이 모델의 성능에 이롭습니다.

### 4. 원-핫 인코딩

원-핫 인코딩은 각 범주를 별도의 열로 변환하고, 해당 범주에 해당하는 곳에 1을, 나머지에는 0을 채우는 방식입니다. 예를 들어, 데이터가 "Red", "Green", "Blue"와 같은 문자열이라면, 모델은 이를 이해하지 못합니다. 범주형 데이터를 숫자로 변환해야 모델이 계산할 수 있습니다. 원-핫 인코딩은 범주형 데이터를 숫자로 변환하면서도 각 범주 간의 순서나 크기를 부여하지 않습니다.

In [333]:
idol_company_dumies = pd.get_dummies(idol, columns=["company"], dtype=int)
idol_company_dumies.head()

Unnamed: 0,name,group,gender,birthday,height,blood,brand,company_빅히트,company_어도어,company_에스엠,company_와이지,company_판타지오
0,지민,방탄소년단,남자,1995-10-13,174.0,A,6267302,1,0,0,0,0
1,정국,방탄소년단,남자,1997-09-01,179.0,A,5805844,1,0,0,0,0
2,민지,뉴진스,여자,2004-05-07,169.0,A,4437081,0,1,0,0,0
3,하니,뉴진스,여자,2004-10-06,161.7,O,4161153,0,1,0,0,0
4,뷔,방탄소년단,남자,1995-12-30,179.0,AB,3470048,1,0,0,0,0
