## Pandas로 수행할 수 있는 주요 작업
- Pandas는 Python의 강력한 데이터 조작 라이브러리로, 데이터 분석 및 조작 작업에 일반적으로 사용.
- Pandas로 수행할 수 있는 주요 작업

- 데이터 읽기: Pandas는 CSV, Excel, SQL 데이터베이스, JSON 등과 같은 다양한 소스에서 데이터를 읽을 수 있다.
  - pd.read_csv('file.csv'): CSV 파일에서 데이터를 읽기.
  - Excel 파일의 경우 pd.read_excel('file.xlsx').
- 데이터 탐색:
  - df.head()는 DataFrame의 처음 몇 행을 보여줍니다.
  - df.describe()는 숫자 열에 대한 요약 통계를 제공합니다.
  - df.info()는 DataFrame의 간결한 요약을 제공합니다.
- 데이터 선택:
  - 단일 열을 선택하려면 df['column'].
  - df[['col1', 'col2']]를 사용하면 여러 열을 선택할 수 있다.
  - 정수 위치 기반 인덱싱의 경우 df.iloc[rows, columns].
  - 라벨 기반 색인 생성을 위한 df.loc[rows, columns].
- 데이터 필터링:
  - df[df['column'] > value]는 조건에 따라 행을 필터링합니다.
- 데이터 조작:
  - df['new_column'] = df['column1'] + df['column2'] 새 열을 생성합니다.
  - df.drop('column', axis=1) 열을 삭제합니다.
  - df.rename(columns={'old_name': 'new_name'}) 열 이름 바꾸기.
- 누락된 데이터 처리:
  - df.dropna() - 누락된 값이 있는 행을 삭제합니다.
  - df.fillna(value)는 누락된 값을 지정된 값으로 채웁니다.
- 그룹화 및 집계:
  - df.groupby('column').sum()은 열과 합계 값을 기준으로 그룹화합니다.
  - df.agg({'column1': 'sum', 'column2': 'mean'}): 다양한 열에 대한 다양한 집계.
- 데이터 정렬:
  - df.sort_values(by='column') - 특정 열을 기준으로 DataFrame을 정렬합니다.
- 병합 및 결합:
  - pd.merge(df1, df2, on='column') - 공통 열에서 두 개의 DataFrame을 병합.
  - df1.join(df2) - 두 개의 DataFrame을 해당 인덱스에 결합합니다.
- 피벗 테이블 및 크로스탭:
  - 피벗 테이블 생성을 위한 pd.pivot_table(df, value='column', index='row', columns='col').
  - 크로스탭 생성을 위한 pd.crosstab(df['column1'], df['column2'])

In [1]:
import pandas as pd
import numpy as np
st1 = pd.Series({'국어':100,'영어':80,'수학':90})
st2 = pd.Series({'수학':80,'국어':90,'영어':80})

print(st1,'\n')
print(st2)

국어    100
영어     80
수학     90
dtype: int64 

수학    80
국어    90
영어    80
dtype: int64


In [2]:
add = st1 + st2
sub = st1 - st2
mul = st1 * st2
div = round((st1 / st2), 2)
df = pd.concat([add, sub, mul, div], axis=1)
df.columns = ['add', 'sub', 'mul', 'div']
print(df,type(df))

    add  sub   mul   div
국어  190   10  9000  1.11
수학  170   10  7200  1.12
영어  160    0  6400  1.00 <class 'pandas.core.frame.DataFrame'>


In [3]:
df = pd.concat([add, sub, mul, div], axis=0)
df

국어     190.00
수학     170.00
영어     160.00
국어      10.00
수학      10.00
영어       0.00
국어    9000.00
수학    7200.00
영어    6400.00
국어       1.11
수학       1.12
영어       1.00
dtype: float64

In [4]:
result = pd.DataFrame([add, sub, mul, div],index=['add', 'sub', 'mul', 'div'])
result

Unnamed: 0,국어,수학,영어
add,190.0,170.0,160.0
sub,10.0,10.0,0.0
mul,9000.0,7200.0,6400.0
div,1.11,1.12,1.0


In [5]:
result.to_csv('result.csv', index=False)

In [7]:
result = pd.read_csv('result.csv')
result

Unnamed: 0,국어,수학,영어
0,190.0,170.0,160.0
1,10.0,10.0,0.0
2,9000.0,7200.0,6400.0
3,1.11,1.12,1.0


In [8]:
result.iloc[0] -= 100
result.iloc[1] += 70
result.iloc[2] = round(result.iloc[2]/100)
result.iloc[3] = round(result.iloc[3]*80)
result

Unnamed: 0,국어,수학,영어
0,90.0,70.0,60.0
1,80.0,80.0,70.0
2,90.0,72.0,64.0
3,89.0,90.0,80.0


문제1_1127. DataFrame의 처음 2행과 요약 통계를 표시하라.

In [9]:
df = result
df.describe()

Unnamed: 0,국어,수학,영어
count,4.0,4.0,4.0
mean,87.25,78.0,68.5
std,4.856267,9.092121,8.698659
min,80.0,70.0,60.0
25%,86.75,71.5,63.0
50%,89.5,76.0,67.0
75%,90.0,82.5,72.5
max,90.0,90.0,80.0


문제2_1127. 평균이 중앙값보다 작은 경우와 큰 경우에 대해 설명하세요.

문제3_1127. result에서 '수학' 열과 1에서 2행까지를 선택하라.

In [12]:
print(result['수학'], '\n')
print(result.iloc[0:2])

0    70.0
1    80.0
2    72.0
3    90.0
Name: 수학, dtype: float64 

     국어    수학    영어
0  90.0  70.0  60.0
1  80.0  80.0  70.0


문제4_1127. "수학"에 10을 더한 '과학'이라는 새 열을 만들어라.

In [13]:
result['과학'] = result['수학'] + 10
result

Unnamed: 0,국어,수학,영어,과학
0,90.0,70.0,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


문제5_1127: result로 df1을 복사하고 df1의 0행 1열에 null값을 삽입하세요.

In [14]:
df1 = result
df1.iloc[0,1] = np.nan
df1

Unnamed: 0,국어,수학,영어,과학
0,90.0,,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


문제6_1127. df1의 '수학' 열의 결측치를 평균 나이로 채우라

In [15]:
df1['수학'].fillna(df1['수학'].mean(), inplace=True)
df1

Unnamed: 0,국어,수학,영어,과학
0,90.0,80.666667,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


In [17]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


문제7_1127. 'pclass'별로 그룹화하고 평균 나이를 계산하라.

In [21]:
group = titanic.groupby('pclass')
group['age'].mean()

pclass
1    38.233441
2    29.877630
3    25.140620
Name: age, dtype: float64

문제8_1127. 'Age' 열을 기준으로 DataFrame을 정렬(sort)하세요.

In [22]:
df_age = titanic.sort_values(by='age') 
df_age.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False


In [20]:
titanic.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

문제9_1127: titanic 데이터프레임에서 중복성이 있는 컬럼을 삭제하고 7개 컬럼으로 df_t를 작성하세요.

In [None]:
['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare','embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town','alive', 'alone']

In [23]:
titanic = sns.load_dataset('titanic')
ttc = titanic.head()

df_t = ttc.drop(['parch', 'adult_male', 'embarked', 'sex', 'survived','sibsp', 'deck','pclass'], axis = 1)
df_t

Unnamed: 0,age,fare,class,who,embark_town,alive,alone
0,22.0,7.25,Third,man,Southampton,no,False
1,38.0,71.2833,First,woman,Cherbourg,yes,False
2,26.0,7.925,Third,woman,Southampton,yes,True
3,35.0,53.1,First,woman,Southampton,yes,False
4,35.0,8.05,Third,man,Southampton,no,True


In [27]:
import numpy
np.arange(12.).reshape((4,3))

array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.],
       [ 9., 10., 11.]])

In [1]:
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

df2.loc[1,'b'] = np.nan
print(df1,'\n')
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0 

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


문제10_1127. 'a' 열을 기준으로 두 DataFrame, df1과 df2를 병합하라(merge 사용)
- 공통인 것만 병합
- 전체 병합

In [3]:
pd.merge(df1, df2, on = 'a') # how = 'inner' default

Unnamed: 0,a,b_x,c_x,d_x,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,1.0,2.0,3.0,4.0


In [4]:
pd.merge(left = df1, right = df2, on = 'a', how = 'outer')

Unnamed: 0,a,b_x,c_x,d_x,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,,,,
2,8.0,9.0,10.0,11.0,,,,
3,5.0,,,,,7.0,8.0,9.0
4,10.0,,,,11.0,12.0,13.0,14.0
5,15.0,,,,16.0,17.0,18.0,19.0


In [None]:
# merged_df = pd.merge(df1, df2, on='a')
merged_df = pd.merge(df1, df2, on='a',how='inner')
merged_df

In [None]:
merged_df = pd.merge(df1, df2, on='a', how='outer')
merged_df

문제11_1127.두 열의 이름이 다를 경우(df1 a, df2 e) 병합하세요.

In [5]:
MN = pd.merge(df1, df2, left_on='a', right_on='e', how='inner')

MN

Unnamed: 0,a_x,b_x,c_x,d_x,a_y,b_y,c_y,d_y,e
0,4.0,5.0,6.0,7.0,0.0,1.0,2.0,3.0,4.0


In [6]:
MN = pd.merge(df1, df2, left_on='a', right_on='e', how='outer')

MN

Unnamed: 0,a_x,b_x,c_x,d_x,a_y,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,,,,,
1,4.0,5.0,6.0,7.0,0.0,1.0,2.0,3.0,4.0
2,8.0,9.0,10.0,11.0,,,,,
3,,,,,5.0,,7.0,8.0,9.0
4,,,,,10.0,11.0,12.0,13.0,14.0
5,,,,,15.0,16.0,17.0,18.0,19.0


In [None]:
# 두 열의 이름이 다를 경우 사용
pd.merge(df1,df2, left_on ='a',right_on='e')

In [None]:
pd.merge(df1,df2, how='outer', left_on ='a',right_on='e')

In [29]:
pd.concat([df1,df2], axis=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,
1,4.0,5.0,6.0,7.0,
2,8.0,9.0,10.0,11.0,
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [32]:
# ignore_index=True을 줘서 인덱스를 재배열
pd.concat([df1,df2], axis=0, ignore_index=True)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,
1,4.0,5.0,6.0,7.0,
2,8.0,9.0,10.0,11.0,
3,0.0,1.0,2.0,3.0,4.0
4,5.0,,7.0,8.0,9.0
5,10.0,11.0,12.0,13.0,14.0
6,15.0,16.0,17.0,18.0,19.0


In [30]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,a,b,c,d,a.1,b.1,c.1,d.1,e
0,0.0,1.0,2.0,3.0,0.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,5.0,,7.0,8.0,9.0
2,8.0,9.0,10.0,11.0,10.0,11.0,12.0,13.0,14.0
3,,,,,15.0,16.0,17.0,18.0,19.0


In [31]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,a,b,c,d,a.1,b.1,c.1,d.1,e
0,0.0,1.0,2.0,3.0,0.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,5.0,,7.0,8.0,9.0
2,8.0,9.0,10.0,11.0,10.0,11.0,12.0,13.0,14.0


In [33]:
print(df1,'\n')
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0 

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [34]:
# reindex할 때도 fill_value 지정
df1.reindex(columns=df2.columns,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [36]:
# DataFrame과 Series간 연산
df = pd.DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'),
                  index = ['Utah','Ohio','Texas','Oregon'])
df


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [37]:
series = df.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [38]:
df - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map함수 : DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용
- apply함수 : 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply함수를 사용
- applymap함수 : DataFrame클래스의 함수이긴 하나, 위의 apply함수처럼 각 row(axis=1)나 각 column(axis=0)별로
작동하는 함수가 아니라, 각 요소(element)별로 작동  
마치 선형대수에서 벡터에 스칼라를 연산하면, 벡터의 요소 하나하나에 해당 연산을 해주는 것처럼(elementwise)
적용하는 DataFrame의 각 요소마다 커스텀 함수(반드시 Single vaule를 반환하는)를 수행한다고 보면 된다.
applymap에 인자로 전달하는 커스텀함수가 Single value로부터 Single value를 반환한다는 점이 중요하다

In [39]:
df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                  index = ['Utah','Ohio','Texas','Oregon'])
df

Unnamed: 0,b,d,e
Utah,-0.701715,-0.822447,0.42274
Ohio,-1.086914,-0.420256,-0.980624
Texas,0.787636,0.398112,1.455363
Oregon,-1.099076,-0.577145,-0.56987


In [42]:
# series의 최대값과 최소값의 차이를 계산
f = lambda x:x.max() - x.min()
df.apply(f,axis='columns')

Utah      1.245187
Ohio      0.666657
Texas     1.057251
Oregon    0.529205
dtype: float64

In [43]:
df.apply(f,axis=0)

b    1.886711
d    1.220559
e    2.435987
dtype: float64

In [44]:
f1 = lambda x: round(x*20)
df.apply(f1, axis=1)

Unnamed: 0,b,d,e
Utah,-14.0,-16.0,8.0
Ohio,-22.0,-8.0,-20.0
Texas,16.0,8.0,29.0
Oregon,-22.0,-12.0,-11.0


In [45]:
# Q. b,d, e의 합계를 구하세요
f2 = lambda x: sum(x)
df.apply(f2, axis=0)

b   -2.100068
d   -1.421736
e    0.327609
dtype: float64

 문제12_1127. df의 실수값을 문자열 포맷으로 변환하세요.(-0.701715 -> -0.70) lambda 함수 이용

In [8]:
df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                  index = ['Utah','Ohio','Texas','Oregon'])
df

Unnamed: 0,b,d,e
Utah,-1.053639,0.696139,-1.009642
Ohio,-0.670711,-0.162127,0.559411
Texas,0.226484,-1.668665,0.835908
Oregon,1.171868,-0.848543,1.167609


In [11]:
# 실수값을 문자열 포맷으로 변환
import warnings
warnings.filterwarnings('ignore')
format = lambda x: '%.2f' %x
df.applymap(format)

Unnamed: 0,b,d,e
Utah,-1.05,0.7,-1.01
Ohio,-0.67,-0.16,0.56
Texas,0.23,-1.67,0.84
Oregon,1.17,-0.85,1.17


Q. 데이터를 아래 수정 사항을 참조하여 본인이 의도하는 데이터 셋으로 작성하세요. 

[데이터 수정 사항]

상품별 가격대 결정 : 1 ~ 5번 상품 평균가격을 1000 ~ 50000원으로 산정(1000, 5000, 10000, 25000, 50000 )  
판매 수량 성장율: 저가(1000, 5000) 20%, 중가(10000,25000) -10%, 고가(50000) 5% 성장
상품 비중(판매금액 기준) : 저가 50%, 중가 30%, 고가 20%  
고객 비중도 상품 비중과 동일  
판매금액 변수 생성 (a_19, a_20) : 판매수량 * 평균가격

In [47]:
import numpy as np
import pandas as pd

id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000)
g1 = pd.Series(gender)
age = np.random.randint(1,81,size=1000)
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
pdt_19 = np.random.randint(1, 6,size=1000)
p_19 = pd.Series(pdt_19)
pdt_20 = np.random.randint(1, 6,size=1000)
p_20 = pd.Series(pdt_20)
price_avg_19 = np.random.rand(1000)
pr19 = price_avg_19*10000
pa_19 = pd.Series(pr19)
price_avg_20 = np.random.rand(1000)
pr20 = price_avg_20*10000
pa_20 = pd.Series(pr20)
qty_19 = np.random.randint(1,101, 1000)
q_19 = pd.Series(qty_19)
qty_20 = np.random.randint(1,101, 1000)
q_20 = pd.Series(qty_20)
time_19 = np.random.randint(1, 24, 1000)
t_19 = pd.Series(time_19)
time_20 = np.random.randint(1, 24, 1000)
t_20 = pd.Series(time_20)
df = pd.concat([i1, g1,a1,r1,p_19,p_20,pa_19,pa_20,q_19,q_20,t_19,t_20],axis=1)
df.rename(columns={0:'id',1:'gender',2:'age',3:'region',4:'pdt_19',5:'pdt_20',6:'pa_19',7:'pa_20',\
                  8:'q_19',9:'q_20',10:'t_19',11:'t_20'},inplace=True)
df['pa_19'] = round(df['pa_19'],2)
df['pa_20'] = round(df['pa_20'],2)
df.iloc[0,1] = np.nan
print(type(pa_19))
df.head()

<class 'pandas.core.series.Series'>


Unnamed: 0,id,gender,age,region,pdt_19,pdt_20,pa_19,pa_20,q_19,q_20,t_19,t_20
0,1,,3,5,2,3,905.01,703.66,80,21,23,19
1,2,0.0,44,4,4,2,9031.84,9877.42,30,3,1,11
2,3,0.0,71,4,1,3,9193.95,8231.38,11,68,1,12
3,4,1.0,25,9,1,2,4909.45,9325.93,70,47,11,2
4,5,0.0,49,5,1,3,1105.78,207.23,96,30,1,5


In [12]:
import numpy as np
import pandas as pd

# 고유 식별자
id = np.arange(1, 1001)
i1 = pd.Series(id)

# 2019년과 2020년 인구수
population_19 = np.random.randint(100000, 1000000, size=1000)
p_19 = pd.Series(population_19)

population_20 = population_19 + np.random.randint(-5000, 5000, size=1000)
p_20 = pd.Series(population_20)

# 인구 증가율
growth_rate = (population_20 - population_19) / population_19 * 100
gr = pd.Series(growth_rate)

# 면적
area = np.random.randint(50, 500, size=1000)
ar = pd.Series(area)

# 인구 밀도
density_19 = population_19 / area
d_19 = pd.Series(density_19)

density_20 = population_20 / area
d_20 = pd.Series(density_20)

# 평균 소득
avg_income_19 = np.random.rand(1000) * 50000
ai_19 = pd.Series(avg_income_19)

avg_income_20 = avg_income_19 * np.random.uniform(0.95, 1.05, size=1000)   #uniform을 쓰면 지정된 범위 내에서 모든 값이 나타날 확률이 동일한 균일 분포(uniform distribution)를 따름
ai_20 = pd.Series(avg_income_20)

# 실업률
unemployment_rate_19 = np.random.rand(1000) * 10
ur_19 = pd.Series(unemployment_rate_19)

unemployment_rate_20 = unemployment_rate_19 * np.random.uniform(0.9, 1.1, size=1000)
ur_20 = pd.Series(unemployment_rate_20)

# DataFrame 생성
df = pd.concat([i1, p_19, p_20, gr, ar, d_19, d_20, ai_19, ai_20, ur_19, ur_20], axis=1)
df.columns = ['고유번호', '2019년 인구수', '2020년 인구수', '인구 증가율', '면적', 
              '2019년 인구밀도', '2020년 인구밀도', '2019년 평균소득', '2020년 평균소득', 
              '2019년 실업률', '2020년 실업률']

# 데이터 수정
df.iloc[0, 1] = 10000000
df.iloc[0, 2] = 10000000

df['2019년 평균소득'] = round(df['2019년 평균소득'])
df['2020년 평균소득'] = round(df['2020년 평균소득'])


# 행 이름 변경
df.index = ['서울', '부산', '대전', '대구', '제주도'] + df.index.tolist()[5:]


# 결과 확인
df.head()

Unnamed: 0,고유번호,2019년 인구수,2020년 인구수,인구 증가율,면적,2019년 인구밀도,2020년 인구밀도,2019년 평균소득,2020년 평균소득,2019년 실업률,2020년 실업률
서울,1,10000000,10000000,0.482759,85,9950.164706,9998.2,3792.0,3967.0,4.13003,4.148921
부산,2,334381,331523,-0.854714,320,1044.940625,1036.009375,22054.0,21240.0,6.551749,6.081784
대전,3,874687,878368,0.420836,358,2443.259777,2453.541899,41092.0,40498.0,4.137659,3.958208
대구,4,762312,764004,0.221956,317,2404.769716,2410.107256,16904.0,16472.0,8.915209,8.185692
제주도,5,265575,266068,0.185635,400,663.9375,665.17,42161.0,44202.0,0.788841,0.72403


In [15]:
mtcars = pd.read_csv('dataset/mtcars.csv',index_col=0)
mtcars.head()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [16]:
mtcars.info()

<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, Mazda RX4 to Volvo 142E
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   mpg     32 non-null     float64
 1   cyl     32 non-null     int64  
 2   disp    32 non-null     float64
 3   hp      32 non-null     int64  
 4   drat    32 non-null     float64
 5   wt      32 non-null     float64
 6   qsec    32 non-null     float64
 7   vs      32 non-null     int64  
 8   am      32 non-null     int64  
 9   gear    32 non-null     int64  
 10  carb    32 non-null     int64  
dtypes: float64(5), int64(6)
memory usage: 3.0+ KB


In [17]:
# 1g = 3.78541l
# 1l = 1g/3.785411
mtcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


In [18]:
# Q. 연비에 주로 영향을 미치는 요인들이 무엇인가?

['mpg', 'cyl', 'disp', 'hp',  'wt']

Index(['mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear',
       'carb'],
      dtype='object')

In [21]:
# 불필요한 컬럼 삭제
mcars = mtcars[['mpg', 'cyl', 'disp', 'hp',  'wt']]
# mcars = mtcars.drop(['drat', 'qsec', 'vs', 'am', 'gear', 'carb'], axis=1)
mcars.head()

Unnamed: 0,mpg,cyl,disp,hp,wt
Mazda RX4,21.0,6,160.0,110,2.62
Mazda RX4 Wag,21.0,6,160.0,110,2.875
Datsun 710,22.8,4,108.0,93,2.32
Hornet 4 Drive,21.4,6,258.0,110,3.215
Hornet Sportabout,18.7,8,360.0,175,3.44


In [24]:
mcars.isnull().sum().sum()

0

In [25]:
mcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,wt
count,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.21725
std,6.026948,1.785922,123.938694,68.562868,0.978457
min,10.4,4.0,71.1,52.0,1.513
25%,15.425,4.0,120.825,96.5,2.58125
50%,19.2,6.0,196.3,123.0,3.325
75%,22.8,8.0,326.0,180.0,3.61
max,33.9,8.0,472.0,335.0,5.424


In [27]:
# 상관관계
mcars.corr()

Unnamed: 0,mpg,cyl,disp,hp,wt
mpg,1.0,-0.852162,-0.847551,-0.776168,-0.867659
cyl,-0.852162,1.0,0.902033,0.832447,0.782496
disp,-0.847551,0.902033,1.0,0.790949,0.88798
hp,-0.776168,0.832447,0.790949,1.0,0.658748
wt,-0.867659,0.782496,0.88798,0.658748,1.0


In [35]:
auto_df = pd.read_csv('dataset/auto-mpg.csv')
auto_df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [55]:
auto_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


문제1_1128. mpg로 부터 mpl이라는 새로운 컬럼을 추가히세요.

In [57]:
auto_dfhw1 = auto_df.copy()
# 1l = 1g/3.785411
auto_dfhw1['mpl'] = round(auto_dfhw1['mpg']/3.78541,1)
auto_dfhw1[['mpg','mpl']].head()

Unnamed: 0,mpg,mpl
0,18.0,4.8
1,15.0,4.0
2,18.0,4.8
3,16.0,4.2
4,17.0,4.5


In [37]:
auto_df['horsepower'].unique()

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [38]:
# Q. ?가 포함되어 있는 행인덱스를 찾으세요.
find_index = auto_df[auto_df['horsepower']=='?'].index
print(find_index)

Index([32, 126, 330, 336, 354, 374], dtype='int64')


문제2_1128. 6개 horsepower '?'을 horsepower의 평균값으로 대체하세요.

In [58]:
# '?'로 인하여 평균값을 구할 수 없으므로 우선 np.nan으로 처리 후 진행
auto_df.horsepower.replace('?', np.nan, inplace=True)
auto_df['horsepower'] = auto_df.horsepower.astype(float)
auto_df.horsepower.fillna(round(auto_df.horsepower.mean()), inplace=True)
auto_df.horsepower.unique()

array([130., 165., 150., 140., 198., 220., 215., 225., 190., 170., 160.,
        95.,  97.,  85.,  88.,  46.,  87.,  90., 113., 200., 210., 193.,
       104., 100., 105., 175., 153., 180., 110.,  72.,  86.,  70.,  76.,
        65.,  69.,  60.,  80.,  54., 208., 155., 112.,  92., 145., 137.,
       158., 167.,  94., 107., 230.,  49.,  75.,  91., 122.,  67.,  83.,
        78.,  52.,  61.,  93., 148., 129.,  96.,  71.,  98., 115.,  53.,
        81.,  79., 120., 152., 102., 108.,  68.,  58., 149.,  89.,  63.,
        48.,  66., 139., 103., 125., 133., 138., 135., 142.,  77.,  62.,
       132.,  84.,  64.,  74., 116.,  82.])

In [42]:
auto_df.info()
adf = auto_df.mpg.astype(int)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [44]:
auto_df1 = auto_df.copy()

In [47]:
auto_df1['horsepower'].unique()

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [48]:
auto_df1.horsepower.replace('?',np.nan, inplace=True)
auto_df1.horsepower.isnull().sum()

6

In [49]:
auto_df1.dropna(subset=['horsepower'],axis=0, inplace=True)
auto_df1.horsepower.isnull().sum()

0

In [50]:
auto_df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    object 
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 30.6+ KB


In [52]:
auto_df1['horsepower'] = auto_df1.horsepower.astype(float)
auto_df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 30.6+ KB


In [53]:
# Q. auto_df1를 바이너리 파일로 auto_df1.pkl로 저장 후 다시 불러오세요
auto_df1.to_pickle('dataset/auto_df1.pkl')
auto_df1 = pd.read_pickle('dataset/auto_df1.pkl')
auto_df1.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,1,ford torino


In [65]:
auto_df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 30.6+ KB


최소-최대 정규화: 
- 이 방법은 음수를 포함한 모든 값을 0과 1 사이로 변환. 데이터셋의 최소값이 음수인 경우에도 적용 가능
- (x - min(x)) / (max(x) - min(x)) 공식을 사용하여 계산되며, 이 공식은 음수 값을 적절히 처리

In [64]:
li2 = [-100, -50, -20, 50, 100]
df = pd.DataFrame(li2,columns=['num'])
df['num1'] = df.num/df.num.max()
df['num2'] = df.num/abs(df.num.max())
df['num3'] = (df.num-df.num.min())/(df.num.max()-df.num.min())
df

Unnamed: 0,num,num1,num2,num3
0,-100,-1.0,-1.0,0.0
1,-50,-0.5,-0.5,0.25
2,-20,-0.2,-0.2,0.4
3,50,0.5,0.5,0.75
4,100,1.0,1.0,1.0


Z-점수 정규화 (Standardization):
- 이 방법은 데이터의 평균을 0으로 맞춘다. 따라서 음수 값을 포함하는 데이터셋에 적합
- (x - min(x)) / std(x) 공식을 사용하여 계산되며, 음수 값도 적절히 처리

문제3_1128. auto_df1의 horsepower 열의 모든 데이터를 최대값으로 나눠서 저장하세요.

In [66]:
auto_df1['horsepower_divmax'] = round(auto_df1['horsepower']/auto_df1['horsepower'].max(),2)
auto_df1[['horsepower','horsepower_divmax']].head()

Unnamed: 0,horsepower,horsepower_divmax
0,130.0,0.57
1,165.0,0.72
2,150.0,0.65
3,150.0,0.65
4,140.0,0.61


문제4_1128. auto_df의 horsepower열 데이터에서 해당 열의 최소값을 뺀 값을 분자, 해당 열의 최대값 - 최소값을 분모로 계산하여 저장하세요 

In [67]:
auto_df1['horsepower_p4'] = round((auto_df1['horsepower']-auto_df1['horsepower'].min())/(auto_df1['horsepower'].max()-auto_df1['horsepower'].min()),2)
auto_df1[['horsepower','horsepower_divmax','horsepower_p4']].head()

Unnamed: 0,horsepower,horsepower_divmax,horsepower_p4
0,130.0,0.57,0.46
1,165.0,0.72,0.65
2,150.0,0.65,0.57
3,150.0,0.65,0.57
4,140.0,0.61,0.51


In [2]:
import pandas as pd
auto_df1 = pd.read_pickle('dataset/auto_df1.pkl')
auto_df1.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,1,ford torino


문제5_1128. mpg, cylinders, weight로 데이터프레임 adf1을 생성하고 cylinders 로 그룹화를 진행해서 그룹별 평균을 구하세요.

In [3]:
adf1 = auto_df1[['mpg', 'cylinders', 'weight']]

group = adf1.groupby('cylinders')
group.mean()

Unnamed: 0_level_0,mpg,weight
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1
3,20.55,2398.5
4,29.28392,2305.110553
5,27.366667,3103.333333
6,19.973494,3202.120482
8,14.963107,4114.718447


문제6_1128. 문제 5에서 cylinders 로 그룹화한 후 mpg는 평균값을 weight는 최대값을 구하세요.

In [4]:
adf1.groupby('cylinders').agg({'mpg':'mean','weight':'max'})

Unnamed: 0_level_0,mpg,weight
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1
3,20.55,2720
4,29.28392,3270
5,27.366667,3530
6,19.973494,3907
8,14.963107,5140


In [85]:
agg_format = {'mpg':'mean','weight':'max'}
adf_g1 = adf1.groupby('cylinders').agg(agg_format)
adf_g1

Unnamed: 0_level_0,mpg,weight
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1
3,20.55,2720
4,29.28392,3270
5,27.366667,3530
6,19.973494,3907
8,14.963107,5140


문제7_1128. auto_df1.origin 열의 정수형 데이터를 문자형 데이터로 변환하세요.
- 1:'USA', 2:'EU', 3:'JAPAN'로 각각 변환

In [5]:
auto_df7 = auto_df1.copy()
dic_ori = {1: 'USA', 2: 'EU', 3: 'JAPAN'}
auto_df7['origin'] = auto_df7['origin'].map(dic_ori)
auto_df7.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504,12.0,70,USA,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,USA,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,USA,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,USA,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,USA,ford torino


In [71]:
auto_df1.origin.value_counts()

origin
1    245
3     79
2     68
Name: count, dtype: int64

In [81]:
auto_df1.origin.unique()

array([1, 3, 2], dtype=int64)

In [87]:
# A.
# origin 열의 고유값 확인
print(auto_df1['origin'].unique())

# 정수형 데이터를 문자형 데이터로 변환 
auto_df1['origin'].replace({1:'USA', 2:'EU', 3:'JAPAN'}, inplace=True)

print(auto_df1['origin'].unique())
auto_df1.head()

['USA' 'JAPAN' 'EU']
['USA' 'JAPAN' 'EU']


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name,hp_bin
0,18.0,8,307.0,130.0,3504,12.0,70,USA,chevrolet chevelle malibu,보통출력
1,15.0,8,350.0,165.0,3693,11.5,70,USA,buick skylark 320,보통출력
2,18.0,8,318.0,150.0,3436,11.0,70,USA,plymouth satellite,보통출력
3,16.0,8,304.0,150.0,3433,12.0,70,USA,amc rebel sst,보통출력
4,17.0,8,302.0,140.0,3449,10.5,70,USA,ford torino,보통출력


도전_문제8_1128. auto_df1의 horsepower열을 3개의 bin으로 나누고 bin_names = ['저출력', '보통출력', '고출력']으로 출력하세요.

In [6]:
auto_df1['horsepower'].describe()

count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64

In [10]:
row = auto_df1['horsepower'].describe()['25%']
high = auto_df1['horsepower'].describe()['75%']
change = lambda x: '저출력' if x <= row else '고출력' if x >= high else '보통출력'
auto_df1['bin_names'] = auto_df1.horsepower.apply(change)
auto_df1[['horsepower','bin_names']].head()

Unnamed: 0,horsepower,bin_names
0,130.0,고출력
1,165.0,고출력
2,150.0,고출력
3,150.0,고출력
4,140.0,고출력


In [82]:
# A.
import pandas as pd
import numpy as np
auto_df1 = pd.read_pickle('./dataset/auto_df1.pkl')

# np.histogram 함수로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(auto_df1['horsepower'], bins=3)
print(bin_dividers)
print()

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 함수로 각 데이터를 3개의 bin에 할당
auto_df1['hp_bin'] = pd.cut(x=auto_df1['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함 

# horsepower 열, hp_bin 열의 첫 15행을 출력
print(auto_df1[['horsepower', 'hp_bin']].head(15))

[ 46.         107.33333333 168.66666667 230.        ]

    horsepower hp_bin
0        130.0   보통출력
1        165.0   보통출력
2        150.0   보통출력
3        150.0   보통출력
4        140.0   보통출력
5        198.0    고출력
6        220.0    고출력
7        215.0    고출력
8        225.0    고출력
9        190.0    고출력
10       170.0    고출력
11       160.0   보통출력
12       150.0   보통출력
13       225.0    고출력
14        95.0    저출력


In [22]:
import seaborn as sns
titanic_df = sns.load_dataset('titanic')
titanic_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [23]:
tdf = titanic_df.copy()
tdf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [78]:
tdf.deck.unique()

[NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

In [14]:
tdf.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [80]:
tdf.survived.value_counts()

survived
0    549
1    342
Name: count, dtype: int64

문제9_1128. tdf 데이터 프레임으로 생존자 예측분석을 할 수 있는 분석용 데이터 세트를 다음 작업을 포함하여 수행하세요.
- 결측치 처리
- 변수 선택
- sex 값을 {'male':0,'female':1} 로 변경
- 컬럼명을 대문자로 변경
- 컬럼 순서 변경 (종속변수인 survived를 맨뒤로 위치)


In [15]:
import warnings
warnings.filterwarnings('ignore')

#결측치 처리: age, embarked
#age
tdf1 = tdf.copy()
tdf1.head()
age_null = tdf1[tdf['age'].isnull()].index.tolist()
for x in age_null:
    if tdf1.loc[x,'sibsp'] > 0 and tdf1.loc[x,'parch'] > 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp > 0) & (tdf1.parch >0)].age.mean(),1)
    elif tdf1.loc[x,'sibsp'] == 0 and tdf1.loc[x,'parch'] > 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp == 0) & (tdf1.parch >0)].age.mean(),1)
    elif tdf1.loc[x,'sibsp'] > 0 and tdf1.loc[x,'parch'] == 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp > 0) & (tdf1.parch ==0)].age.mean(),1)
    else:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp == 0) & (tdf1.parch == 0)].age.mean(),1)        
tdf1['age'].isnull().sum()

#embarked
group = tdf1.groupby(['embarked','pclass'])
group.describe().fare
# c1 은 85명, mean 105, range (26.55~512.33)
# Q1 은 2명
# S1 은 127명, mean 70, range (0~263)
#S1일 가능성이 크다고 판단.
# null 두명 pclass 1이고 fare가 80인 고객을 embarked = S로 분류
embarked_null = tdf1[tdf1['embarked'].isnull()].index.tolist()
for x in embarked_null:
    tdf1.loc[x,'embarked'] = 'S'
tdf1['embarked'].isnull().sum()

# 변수 선택, 컬럼 순서변경
tdf_select = tdf1[['pclass','sex','age','sibsp','parch','embarked','survived']]
# sex 값을 {'male':0, 'female':1} 로 변경
f1 = lambda x:0 if x =='male' else 1
tdf_select['sex'] = tdf_select['sex'].apply(f1)


#컬럼명을 대문자로 변경
column_names = tdf_select.columns
tdf_select.columns = [x.upper() for x in tdf_select.columns]
tdf_select.head()

Unnamed: 0,PCLASS,SEX,AGE,SIBSP,PARCH,EMBARKED,SURVIVED
0,3,0,22.0,1,0,S,0
1,1,1,38.0,1,0,C,1
2,3,1,26.0,0,0,S,1
3,1,1,35.0,1,0,S,1
4,3,0,35.0,0,0,S,0


In [None]:
# 특정 컬럼의 값을 변경
titanic['sex'] = titanic.sex.replace({'male':0,'female':1})
titanic.head()

In [None]:
# 컬럼명을 대문자로 변경
titanic.columns = map(lambda x : str(x).upper(),titanic.columns)
titanic.head()

In [None]:
# 컬럼 순서 변경 : 'pclass','gender','age_cat','survived'
new_order = ['pclass','gender','c_level','survived']
df = titanic[new_order]
df.head()

문제10_1128. 'age' 컬럼을 범주화하여 새로운 'age_class' 컬럼을 생성하세요. (null값을 먼저 삭제 혹은 대체한 후 진행)

In [17]:
import math

tdf10 = tdf.copy()
def age_class(val):
    if math.isnan(val):
        return '값이 없음'
    elif val < 10:
        return '10살 미만'
    elif val < 20:
        return '10대'
    elif val < 30:
        return '20대'
    elif val < 40:
        return '30대'
    elif val < 50:
        return '40대'
    elif val < 60:
        return '50대'
    elif val < 70:
        return '60대'
    else:
        return '70살 이상'
    
tdf10['age_class'] = tdf10['age'].apply(age_class)
tdf10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,20대
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,30대
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,20대
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,30대
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,30대


In [None]:
# Q. 'age' 컬럼을 범주화하여 새로운 'age_class' 컬럼을 생성하세요.
# (null값은 별도로 처리 필요)

def agegroup(x):
    cat = ''
    if x < 10:
        cat = 'child'
    elif x < 25:
        cat = 'young'
    elif x < 40:
        cat = 'adult'
    elif x < 60:
        cat = 'senior'
    else:
        cat = 'old'
        
    return cat

age_class = tdf.age.apply(lambda x:agegroup(x))

tdf['age_class'] = age_class

tdf.head()


In [18]:
tdf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [24]:
tdf1 = tdf[['survived', 'age', 'sibsp']]
tdf1.head()

Unnamed: 0,survived,age,sibsp
0,0,22.0,1
1,1,38.0,1
2,1,26.0,0
3,1,35.0,1
4,0,35.0,0


In [25]:
tdf1.age.isnull().sum()

177

In [30]:
tdf1.dropna(subset=['age'],inplace=True)
tdf1.age.isnull().sum()

0

In [27]:
tdf1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  714 non-null    int64  
 1   age       714 non-null    float64
 2   sibsp     714 non-null    int64  
dtypes: float64(1), int64(2)
memory usage: 22.3 KB


In [33]:
# tdf1 = tdf[['survived', 'age', 'sibsp']]

tdf2 = tdf1.astype({'age':'int','sibsp':'float'})
tdf2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  714 non-null    int64  
 1   age       714 non-null    int32  
 2   sibsp     714 non-null    float64
dtypes: float64(1), int32(1), int64(1)
memory usage: 19.5 KB


레이블 인코딩(Label Encoding)과 원핫 인코딩(One-Hot Encoding)
- 레이블 인코딩과 원핫 인코딩은 범주형 데이터를 숫자형 데이터로 변환하는 두 가지 기법

- 레이블 인코딩: 이 방법은 범주형 변수의 각 고유한 값에 대해 숫자를 할당. 예를 들어, "red", "blue", "green"이라는 세 가지 색상이 있다면 "red"는 0, "blue"는 1, "green"은 2와 같이 숫자를 할당. 순서가 있는 범주형 데이터에 적합.

- 원핫 인코딩: 이 방법은 각 범주를 하나의 열로 나타내고, 해당 범주에 속하는 경우 1, 그렇지 않은 경우 0으로 표시. 이는 순서가 없는 범주형 데이터에 적합.

In [34]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# 예시 데이터
data = {
    'color': ['red', 'blue', 'green', 'blue', 'red']
}
df = pd.DataFrame(data)

# 레이블 인코더 초기화 및 적용
label_encoder = LabelEncoder()
df['color_encoded'] = label_encoder.fit_transform(df['color'])

print(df)


   color  color_encoded
0    red              2
1   blue              0
2  green              1
3   blue              0
4    red              2


In [35]:
import pandas as pd

# 예시 데이터
data = {
    'color': ['red', 'blue', 'green', 'blue', 'red']
}
df = pd.DataFrame(data)
print(df,'\n')
# 원핫 인코딩 적용
df_onehot = pd.get_dummies(df, columns=['color'])

print(df_onehot)


   color
0    red
1   blue
2  green
3   blue
4    red 

   color_blue  color_green  color_red
0       False        False       True
1        True        False      False
2       False         True      False
3        True        False      False
4       False        False       True


In [36]:
tdf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [37]:
from sklearn.preprocessing import LabelEncoder

tdf2 = tdf[['survived','sex','class']]
le = LabelEncoder()
features = ['sex','class']
for feature in features:    
    tdf2[feature] = le.fit_transform(tdf2[feature])
tdf2.head()

Unnamed: 0,survived,sex,class
0,0,1,2
1,1,0,0
2,1,0,2
3,1,0,0
4,0,1,2


In [38]:
tdf3 = tdf[['sex','class']]
pd.get_dummies(tdf3).head()

Unnamed: 0,sex_female,sex_male,class_First,class_Second,class_Third
0,False,True,False,False,True
1,True,False,True,False,False
2,True,False,False,False,True
3,True,False,True,False,False
4,False,True,False,False,True
