## Pandas로 수행할 수 있는 주요 작업
- Pandas는 Python의 강력한 데이터 조작 라이브러리로, 데이터 분석 및 조작 작업에 일반적으로 사용.
- Pandas로 수행할 수 있는 주요 작업

- 데이터 읽기: Pandas는 CSV, Excel, SQL 데이터베이스, JSON 등과 같은 다양한 소스에서 데이터를 읽을 수 있다.
  - pd.read_csv('file.csv'): CSV 파일에서 데이터를 읽기.
  - Excel 파일의 경우 pd.read_excel('file.xlsx').
- 데이터 탐색:
  - df.head()는 DataFrame의 처음 몇 행을 보여줍니다.
  - df.describe()는 숫자 열에 대한 요약 통계를 제공합니다.
  - df.info()는 DataFrame의 간결한 요약을 제공합니다.
- 데이터 선택:
  - 단일 열을 선택하려면 df['column'].
  - df[['col1', 'col2']]를 사용하면 여러 열을 선택할 수 있다.
  - 정수 위치 기반 인덱싱의 경우 df.iloc[rows, columns].
  - 라벨 기반 색인 생성을 위한 df.loc[rows, columns].
- 데이터 필터링(불린 인덱싱(필터링)):
  - df[df['column'] > value]는 조건에 따라 행을 필터링합니다.
- 데이터 조작:
  - df['new_column'] = df['column1'] + df['column2'] 새 열을 생성합니다.
  - df.drop('column', axis=1) 열을 삭제합니다.
  - df.rename(columns={'old_name': 'new_name'}) 열 이름 바꾸기.
- 누락된 데이터 처리:
  - df.dropna() - 누락된 값이 있는 행을 삭제합니다.
  - df.fillna(value)는 누락된 값을 지정된 값으로 채웁니다.
- 그룹화 및 집계:
  - df.groupby('column').sum()은 열과 합계 값을 기준으로 그룹화합니다.
  - df.agg({'column1': 'sum', 'column2': 'mean'}): 다양한 열에 대한 다양한 집계.
- 데이터 정렬:
  - df.sort_values(by='column') - 특정 열을 기준으로 DataFrame을 정렬합니다.
- 병합 및 결합:
  - pd.merge(df1, df2, on='column') - 공통 열에서 두 개의 DataFrame을 병합.
  - df1.join(df2) - 두 개의 DataFrame을 해당 인덱스에 결합합니다.
- 피벗 테이블 및 크로스탭:
  - 피벗 테이블 생성을 위한 pd.pivot_table(df, value='column', index='row', columns='col').
  - 크로스탭 생성을 위한 pd.crosstab(df['column1'], df['column2'])

In [32]:
import pandas as pd
import numpy as np
st1 = pd.Series({'국어':100, '영어':80, '수학':90})
st2 = pd.Series({'수학':80, '국어':90, '영어':80})

print(st1, '\n')
print(st2)

국어    100
영어     80
수학     90
dtype: int64 

수학    80
국어    90
영어    80
dtype: int64


In [33]:
add = st1 + st2
sub = st1 - st2
mul = st1 * st2
div = round((st1 / st2), 2)
df = pd.concat([add, sub, mul, div], axis=1)
df.columns = ['add', 'sub', 'mul', 'div']
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,add,sub,mul,div
국어,190,10,9000,1.11
수학,170,10,7200,1.12
영어,160,0,6400,1.0


In [34]:
df = pd.concat([add, sub, mul, div], axis=0)
df

국어     190.00
수학     170.00
영어     160.00
국어      10.00
수학      10.00
영어       0.00
국어    9000.00
수학    7200.00
영어    6400.00
국어       1.11
수학       1.12
영어       1.00
dtype: float64

In [35]:
result = pd.DataFrame([add, sub, mul, div], index=['add', 'sub', 'mul', 'div'])
result

Unnamed: 0,국어,수학,영어
add,190.0,170.0,160.0
sub,10.0,10.0,0.0
mul,9000.0,7200.0,6400.0
div,1.11,1.12,1.0


In [36]:
result.to_csv('result.csv', index=False)

In [37]:
ls

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\hjh_directory\workspace\jupyter 디렉터리

2023-11-27  오전 10:37    <DIR>          .
2023-11-27  오전 10:37    <DIR>          ..
2023-11-27  오전 09:52    <DIR>          .ipynb_checkpoints
2023-11-27  오전 09:51    <DIR>          m3_분석라이브러리
2023-11-20  오후 12:55    <DIR>          myplace
2023-11-13  오후 05:52    <DIR>          project
2023-11-15  오후 05:08    <DIR>          python programming
2023-11-27  오전 10:41                93 result.csv
2023-11-27  오전 10:37            17,438 전처리.ipynb
               2개 파일              17,531 바이트
               7개 디렉터리  462,249,689,088 바이트 남음


In [38]:
result = pd.read_csv('result.csv')
result

Unnamed: 0,국어,수학,영어
0,190.0,170.0,160.0
1,10.0,10.0,0.0
2,9000.0,7200.0,6400.0
3,1.11,1.12,1.0


In [39]:
# result 수정
result.iloc[0] -= 100
result.iloc[1] += 70
result.iloc[2] = round(result.iloc[2]/100)
result.iloc[3] = round(result.iloc[3]*80)
result

Unnamed: 0,국어,수학,영어
0,90.0,70.0,60.0
1,80.0,80.0,70.0
2,90.0,72.0,64.0
3,89.0,90.0,80.0


In [40]:
#### 문제1_1127 : DataFrame의 처음 2행과 요약 통계를 표시하라.

In [41]:
# 문제1_1127 솔루션
df = result
df.describe()
# 국어 수학 영어..
# count - 개수 4개..
# mean - 평균. 87.25(국어)
# 50% 중간 정도가 89.5(국어)
# 그럼 이때 중앙값이 평균보다 큰 경우...
# 국어와 수학의 분포정도.. 국어가 점수가 더 높은편. 수학이 더 어렵다는 뜻 이 클래스
# 표준편자가 더 큼. 더 퍼져있음.
# range도 80-90 인데 수학은 70-90. 그래서 standard 가 2배정도..
# 영어는 평균이 훨씬낮고 분포는 수학과 비슷 min max 차가 20정도차이라서 수학과 같지만 더 낮음.
# 수학은 70-90, 영어 60-80
# 영어는 어려움 - 평균이 젤 낮음
# 수학 편차가 심함
# 국어는 이중에서 제일 쉬운편

Unnamed: 0,국어,수학,영어
count,4.0,4.0,4.0
mean,87.25,78.0,68.5
std,4.856267,9.092121,8.698659
min,80.0,70.0,60.0
25%,86.75,71.5,63.0
50%,89.5,76.0,67.0
75%,90.0,82.5,72.5
max,90.0,90.0,80.0


In [None]:
#### 문제2_1127 : 평균이 중앙값보다 작은 경우와 큰 경우에 대해 설명하세요.

In [None]:
# 문제2_1127 솔루션


In [None]:
#### 문제3_1127 : result 에서 '수학' 열과 1에서 2행까지를 선택해라.(인덱싱 복습)

In [65]:
# 문제3_1127 솔루션
result.iloc[1:3,1:2]

Unnamed: 0,수학
1,80.0
2,72.0


In [67]:
# 문제3_1127 심주승님 솔루션
print(result['수학'], '\n')
print(result.iloc[0:2])

0    70.0
1    80.0
2    72.0
3    90.0
Name: 수학, dtype: float64 

     국어    수학    영어
0  90.0  70.0  60.0
1  80.0  80.0  70.0


In [None]:
#### 문제4_1127 : "수학"에 10을 더한 '과학'이라는 새 열을 만들어라.

In [68]:
# 문제4_1127 솔루션
result['과학'] = result['수학'] + 10
result

Unnamed: 0,국어,수학,영어,과학
0,90.0,70.0,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


In [None]:
#### 문제5_1127 : result로 df1을 복사하고 df1의 0행 1열에 null값을 삽입하세요.

In [69]:
# 문제5_1127 솔루션
df1 = result.copy()
df1.iloc[0,1] = np.nan
df1

Unnamed: 0,국어,수학,영어,과학
0,90.0,,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


In [None]:
#### 문제6_1127 : df1의 '수학' 열의 결측치를 수학평균 점수로 채우라

In [74]:
# 문제5_1127 솔루션
df1['수학'].fillna(df1['수학'].mean(), inplace=True)
df1

Unnamed: 0,국어,수학,영어,과학
0,90.0,80.666667,60.0,80.0
1,80.0,80.0,70.0,90.0
2,90.0,72.0,64.0,82.0
3,89.0,90.0,80.0,100.0


In [75]:
# 타이타닉 데이터 가져와서 데이터셋 보기
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
#### 문제7_1127 : 'pclass' 별로 그룹화하고 평균 나이를 계산하라. (전처리)

In [107]:
# 문제7_1127 솔루션
import pandas as pd
group_pclass = titanic.groupby('pclass')
# group_pclass['avg_age'] = group_pclass['age'].mean()
group_pclass.size()

pclass
1    216
2    184
3    491
dtype: int64

In [108]:
# 문제7_1127 전유빈님 솔루션
group = titanic.groupby('pclass')
group['age'].mean()

pclass
1    38.233441
2    29.877630
3    25.140620
Name: age, dtype: float64

In [None]:
#### 문제8_1127 : 'Age'열을 기준으로 DataFrame을 정렬(sort)하세요.

In [168]:
# 문제8_1127 솔루션
sorted_age = titanic.sort_values(by='age')
sorted_age.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False


In [109]:
# 문제8_1127 주용규님 솔루션
df_age = titanic.sort_values(by='age') 
df_age.head()
# 여기서 age가 0.42 이런것은 개월수..

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False


In [None]:
#### 문제9_1127 : titanic 데이터프레임에서 중복성이 있는 컬럼을 삭제하서 7개 컬럼으로 df_t를 작성하세요.

In [83]:
# 컬럼 확인
titanic.columns
# ['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [110]:
# 문제9_1127 심주승님 솔루션
titanic = sns.load_dataset('titanic')
ttc = titanic.head()

df_t = ttc.drop(['parch', 'adult_male', 'embarked', 'sex', 'survived','sibsp', 'deck','pclass'], axis = 1)
df_t
# 보통 'survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked' 이걸 남김

Unnamed: 0,age,fare,class,who,embark_town,alive,alone
0,22.0,7.25,Third,man,Southampton,no,False
1,38.0,71.2833,First,woman,Cherbourg,yes,False
2,26.0,7.925,Third,woman,Southampton,yes,True
3,35.0,53.1,First,woman,Southampton,yes,False
4,35.0,8.05,Third,man,Southampton,no,True


In [119]:
# numpy
import numpy as np
np.arange(12,).reshape((4,3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [4]:
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

df2.loc[1,'b'] = np.nan
print(df1, '\n')
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0 

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


#### 문제10_1127 : 'a' 열을 기준으로 두 DataFrame, df1과 df2를 병합하라.(merge 사용)
- 공통인 것만 병합
- 전체 병합


In [5]:
# 문제10_1127 솔루션
import pandas as pd
merge_outer = pd.merge(df1,df2, how='outer',on='a')
merge_outer

Unnamed: 0,a,b_x,c_x,d_x,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,,,,
2,8.0,9.0,10.0,11.0,,,,
3,5.0,,,,,7.0,8.0,9.0
4,10.0,,,,11.0,12.0,13.0,14.0
5,15.0,,,,16.0,17.0,18.0,19.0


In [None]:
# 문제10_1127 심주승님 솔루션
pd.merge(left = df1, right = df2, on = 'a', how = 'inner')
pd.merge(left = df1, right = df2, on = 'a', how = 'outer')

In [8]:
# 문제10_1127 심주승님 솔루션
# merge는 값이 같은거 있어야 나오고 a b c 다넣고 해도되는데 만약 같은게 없었다면... 안됐을것임
pd.merge(df1, df2, on = 'a', how = 'outer') # how = 'inner' default
# pd.merge(left = df1, right = df2, on = 'a', how = 'outer')

Unnamed: 0,a,b_x,c_x,d_x,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,,,,
2,8.0,9.0,10.0,11.0,,,,
3,5.0,,,,,7.0,8.0,9.0
4,10.0,,,,11.0,12.0,13.0,14.0
5,15.0,,,,16.0,17.0,18.0,19.0


#### 문제11_1127 : 두열의 이름이 다를 경우(df1 a, df2 e) 병합하세요.

In [11]:
# 문제11_1127 윤성민님 솔루션(교집합)
# titanic 에서 alive와 survived 가 있음 결국 같은 테이블인데, 그걸 합칠때 이런거 쓰면 됨
# titanic 예보다는,,, 증권쪽? 예로 들면 같은 종목인데 테이블이 회사가 달라서 테이블 명만 다르다면... 통합할때 공통된것이 있을것임
# 공통된것만 -> inner , 합집합은 -> outer 이러면 없는 건 NaN 으로 나올것임
MN = pd.merge(df1, df2, left_on='a', right_on='e', how='inner')

MN
# 출력값
# a_x	b_x	c_x	d_x	a_y	b_y	c_y	d_y	e
# 0	4.0	5.0	6.0	7.0	0.0	1.0	2.0	3.0	4.0
# a , e 비교하면 4.0 만 같으니 결과 e 는 4.0 나오고
# _x 는 df1 컬럼꺼, _y 는 df2 컬럼꺼, e 는 공통된게 없음. 이렇게 자동으로 구분해서 나와줌

Unnamed: 0,a_x,b_x,c_x,d_x,a_y,b_y,c_y,d_y,e
0,4.0,5.0,6.0,7.0,0.0,1.0,2.0,3.0,4.0


In [10]:
# 문제11_1127 윤성민님 솔루션(합집합)
MN = pd.merge(df1, df2, left_on='a', right_on='e', how='outer')

MN

Unnamed: 0,a_x,b_x,c_x,d_x,a_y,b_y,c_y,d_y,e
0,0.0,1.0,2.0,3.0,,,,,
1,4.0,5.0,6.0,7.0,0.0,1.0,2.0,3.0,4.0
2,8.0,9.0,10.0,11.0,,,,,
3,,,,,5.0,,7.0,8.0,9.0
4,,,,,10.0,11.0,12.0,13.0,14.0
5,,,,,15.0,16.0,17.0,18.0,19.0


In [None]:
# merge, concat, join 만 알면 모든 결합을 할 수 있음

In [121]:
pd.concat([df1, df2], axis=0)
# 인덱스가 01230123임...

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,
1,4.0,5.0,6.0,7.0,
2,8.0,9.0,10.0,11.0,
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [125]:
# 인덱스 무시하고 병합! ignoer_index=True 인덱스 무시해라~ (인덱스 재배열)
pd.concat([df1, df2], axis=0, ignore_index=True)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,
1,4.0,5.0,6.0,7.0,
2,8.0,9.0,10.0,11.0,
3,0.0,1.0,2.0,3.0,4.0
4,5.0,,7.0,8.0,9.0
5,10.0,11.0,12.0,13.0,14.0
6,15.0,16.0,17.0,18.0,19.0


In [122]:
# default 가 outter 임!
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,c,d,a.1,b.1,c.1,d.1,e
0,0.0,1.0,2.0,3.0,0.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,5.0,,7.0,8.0,9.0
2,8.0,9.0,10.0,11.0,10.0,11.0,12.0,13.0,14.0
3,,,,,15.0,16.0,17.0,18.0,19.0


In [124]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,a,b,c,d,a.1,b.1,c.1,d.1,e
0,0.0,1.0,2.0,3.0,0.0,1.0,2.0,3.0,4.0
1,4.0,5.0,6.0,7.0,5.0,,7.0,8.0,9.0
2,8.0,9.0,10.0,11.0,10.0,11.0,12.0,13.0,14.0


In [126]:
print(df1,'\n')
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0 

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [127]:
# reindex할 때도 fill_value 지정
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [129]:
# DataFrame과 Series간 연산
# 머신러닝할때 벡터쓰는데 Series가 벡터라고 생각하면됨
# 스칼라(특정수) 벡터(크기,방향). 여러 수가 잇음
# 벡터를 2차원 배열에 같이 계산 하는 경우가 많음
# DataFrame 2차원, Series 1차원
df = pd.DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'),
                  index = ['Utah','Ohio','Texax','Oregon'])
df

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texax,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [133]:
series = df.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [134]:
# df 과 series간에 연산이 된다
df - series 

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texax,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map함수 : DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용
- apply함수 : 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply함수를 사용. 컬럼이나 전체행이나 적용할 때 apply 함수 사용
- applymap함수 : DataFrame클래스의 함수이긴 하나, 위의 apply함수처럼 각 row(axis=1)나 각 column(axis=0)별로
작동하는 함수가 아니라, 각 요소(element)별로 작동. apply와 다른점은 map들어간것은 각 요소별로 작동
마치 선형대수에서 벡터에 스칼라를 연산하면, 벡터의 요소 하나하나에 해당 연산을 해주는 것처럼(elementwise)
적용하는 DataFrame의 각 요소마다 커스텀 함수(반드시 Single vaule를 반환하는)를 수행한다고 보면 된다.
applymap에 인자로 전달하는 커스텀함수가 Single value로부터 Single value를 반환한다는 점이 중요하다

In [13]:
df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                 index = ['Utah','Ohio','Texax','Oregon'])
df

Unnamed: 0,b,d,e
Utah,0.340066,-0.916609,-1.019417
Ohio,-0.648999,-0.897222,-1.250275
Texax,0.83683,0.068072,1.5065
Oregon,0.882503,-0.343325,0.192974


In [14]:
# series의 최댓값과 최솟값의 차이를 계산
f = lambda x : x.max() - x.min()
# apply 함수 사용. (함수를 주고, 방향을 선정)
df.apply(f,axis='columns') # columns 으로 봐라. 근데 max - min, columns 대신 1 줘도됨

Utah      1.359483
Ohio      0.601275
Texax     1.438429
Oregon    1.225828
dtype: float64

In [15]:
df.apply(f,axis=0)

b    1.531502
d    0.984680
e    2.756775
dtype: float64

In [16]:
f1 = lambda x : round(x*20)
df.apply(f1, axis = 1)

Unnamed: 0,b,d,e
Utah,7.0,-18.0,-20.0
Ohio,-13.0,-18.0,-25.0
Texax,17.0,1.0,30.0
Oregon,18.0,-7.0,4.0


In [17]:
# Q. b,d,e 의 합계를 구하세요

In [18]:
# 솔루션
f2 = lambda x : sum(x)
df.apply(f2, axis = 0)

b    1.410399
d   -2.089084
e   -0.570217
dtype: float64

#### 문제12_1127 : df의 실수값을 문자열 포맷으로 변환하세요. (예를들어, -0.70688 -> -0.70 ) lambda 함수 이용

In [45]:
df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                 index = ['Utah','Ohio','Texax','Oregon'])
df

Unnamed: 0,b,d,e
Utah,-1.784901,0.03752,0.664282
Ohio,-0.462739,-1.350009,0.408787
Texax,-0.356091,0.484974,-0.151737
Oregon,-1.308936,1.490383,-0.936743


In [48]:
# 문제12_1127 솔루션
# applymap 함수를 사용 -> 모든 원소에 적용
f3 = lambda x : str(round(x,2))
df.applymap(f3)

  df.applymap(f3)


Unnamed: 0,b,d,e
Utah,-1.78,0.04,0.66
Ohio,-0.46,-1.35,0.41
Texax,-0.36,0.48,-0.15
Oregon,-1.31,1.49,-0.94


In [34]:
# 문제12_1127 전유빈님 솔루션
f3 = lambda x:round(x).to_string()
df_test = df.apply(f3,axis=1)
df_test

Utah      b    0.0\nd   -1.0\ne   -1.0
Ohio      b   -1.0\nd   -1.0\ne   -1.0
Texax     b    1.0\nd    0.0\ne    2.0
Oregon    b    1.0\nd   -0.0\ne    0.0
dtype: object

In [35]:
df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index=['Utah','Ohio','Texas','Oregon'])

f_str = lambda x: str(round(x,1))
df.applymap(f_str)

  df.applymap(f_str)


Unnamed: 0,b,d,e
Utah,-0.2,-0.2,-0.7
Ohio,2.1,2.4,0.5
Texas,-0.1,-0.9,1.7
Oregon,2.3,-1.3,-0.4


Q. 데이터를 아래와 같이 수정한 후 연도별 판매금액 증감여부에 따라서 고객을 구매금액의 증가, 감소를 기준으로 1,0으로 구분하는 파생변수를 생성하세요.

[데이터 수정 사항]
상품별 가격대 결정 : 1 ~ 5번 상품 평균가격을 1000 ~ 50000원으로 산정(1000, 5000, 10000, 25000, 50000 )  
판매 수량 성장율: 저가(1000, 5000) 20%, 중가(10000,25000) -10%, 고가(50000) 5% 성장
상품 비중(판매금액 기준) : 저가 50%, 중가 30%, 고가 20%  
고객 비중도 상품 비중과 동일  
판매금액 변수 생성 (a_19, a_20) : 판매수량 * 평균가격

In [166]:
import numpy as np
import pandas as pd

id = np.arange(1,1001)
i1 = pd.Series(id)
gender = np.random.randint(2,size=1000) # randint 0이나 1만 나오게 랜덤하게.. 그 사이즈가 1000개(관측치가1000개)
g1 = pd.Series(gender)
age = np.random.randint(1,81,size=1000) 
a1 = pd.Series(age)
region = np.random.randint(1,11,size=1000)
r1 = pd.Series(region)
pdt_19 = np.random.randint(1, 6,size=1000)
p_19 = pd.Series(pdt_19)
pdt_20 = np.random.randint(1, 6,size=1000)
p_20 = pd.Series(pdt_20)
price_avg_19 = np.random.rand(1000) # rand 는 균등숫자에 랜덤을뽑는것임
pr19 = price_avg_19*10000
pa_19 = pd.Series(pr19)
price_avg_20 = np.random.rand(1000)
pr20 = price_avg_20*10000
pa_20 = pd.Series(pr20)
qty_19 = np.random.randint(1,101, 1000)
q_19 = pd.Series(qty_19)
qty_20 = np.random.randint(1,101, 1000)
q_20 = pd.Series(qty_20)
time_19 = np.random.randint(1, 24, 1000)
t_19 = pd.Series(time_19)
time_20 = np.random.randint(1, 24, 1000)
t_20 = pd.Series(time_20)
# concat
df = pd.concat([i1, g1,a1,r1,p_19,p_20,pa_19,pa_20,q_19,q_20,t_19,t_20],axis=1)
# 컬럼이름을 딕셔너리에 넣고 원본에 반영하기.
df.rename(columns={0:'id',1:'gender',2:'age',3:'region',4:'pdt_19',5:'pdt_20',6:'pa_19',7:'pa_20',
                  8:'q_19',9:'q_20',10:'t_19',11:'t_20'},inplace=True)
# 둘째자리까지반올림
df['pa_19'] = round(df['pa_19'],2)
df['pa_20'] = round(df['pa_20'],2)
# null 값을 넣음.
df.iloc[0,1] = np.nan 
print(type(pa_19))
df.head()

<class 'pandas.core.series.Series'>


Unnamed: 0,id,gender,age,region,pdt_19,pdt_20,pa_19,pa_20,q_19,q_20,t_19,t_20
0,1,,14,10,3,4,3023.47,3747.1,27,92,3,6
1,2,1.0,63,3,5,3,5185.3,1045.72,100,64,20,7
2,3,0.0,79,7,2,3,9553.31,8171.94,20,78,17,15
3,4,1.0,78,4,5,4,7461.87,9699.8,98,92,7,4
4,5,1.0,5,1,1,3,339.02,5342.46,54,74,23,22


#### 솔루션
pdt 구매개수 pa 가격 q 수량 t 주로구매시간
[데이터 수정 사항 예] 
상품별 가격대 결정 : 1 ~ 5번 상품 평균가격을 1000 ~ 50000원으로 산정(1000, 5000, 10000, 25000, 50000 )  
판매 수량 성장율: 저가(1000, 5000) 20%, 중가(10000,25000) -10%, 고가(50000) 5% 성장
상품 비중(판매금액 기준) : 저가 50%, 중가 30%, 고가 20%  
고객 비중도 상품 비중과 동일  
판매금액 변수 생성 (a_19, a_20) : 판매수량 * 평균가격

In [177]:
a_19 = df['pdt_19'].sum() * df['pa_19'].mean()
# a_20 = pdt_20 * pa_20

15429332.77965

In [None]:
연도별 판매금액 증감여부에 따라서 고객을 구매금액의 증가, 감소를 기준으로 1,0으로 구분하는 파생변수를 생성

In [49]:
#문제12_1127. 의미있는 데이터로 바꿔보기 최재빈님 솔루션

import numpy as np
import pandas as pd

# 고유 식별자
id = np.arange(1, 1001)
i1 = pd.Series(id)

# 2019년과 2020년 인구수
population_19 = np.random.randint(100000, 1000000, size=1000)
p_19 = pd.Series(population_19)

population_20 = population_19 + np.random.randint(-5000, 5000, size=1000)
p_20 = pd.Series(population_20)

# 인구 증가율
growth_rate = (population_20 - population_19) / population_19 * 100
gr = pd.Series(growth_rate)

# 면적
area = np.random.randint(50, 500, size=1000)
ar = pd.Series(area)

# 인구 밀도
density_19 = population_19 / area
d_19 = pd.Series(density_19)

density_20 = population_20 / area
d_20 = pd.Series(density_20)

# 평균 소득
avg_income_19 = np.random.rand(1000) * 50000
ai_19 = pd.Series(avg_income_19)

avg_income_20 = avg_income_19 * np.random.uniform(0.95, 1.05, size=1000)   #uniform을 쓰면 지정된 범위 내에서 모든 값이 나타날 확률이 동일한 균일 분포(uniform distribution)를 따름
ai_20 = pd.Series(avg_income_20)

# 실업률
unemployment_rate_19 = np.random.rand(1000) * 10
ur_19 = pd.Series(unemployment_rate_19)

unemployment_rate_20 = unemployment_rate_19 * np.random.uniform(0.9, 1.1, size=1000)
ur_20 = pd.Series(unemployment_rate_20)

# DataFrame 생성
df = pd.concat([i1, p_19, p_20, gr, ar, d_19, d_20, ai_19, ai_20, ur_19, ur_20], axis=1)
df.columns = ['고유번호', '2019년 인구수', '2020년 인구수', '인구 증가율', '면적', 
              '2019년 인구밀도', '2020년 인구밀도', '2019년 평균소득', '2020년 평균소득', 
              '2019년 실업률', '2020년 실업률']

# 데이터 수정
df.iloc[0, 1] = 10000000
df.iloc[0, 2] = 10000000

df['2019년 평균소득'] = round(df['2019년 평균소득'])
df['2020년 평균소득'] = round(df['2020년 평균소득'])


# 행 이름 변경
df.index = ['서울', '부산', '대전', '대구', '제주도'] + df.index.tolist()[5:]


# 결과 확인
df.head()

Unnamed: 0,고유번호,2019년 인구수,2020년 인구수,인구 증가율,면적,2019년 인구밀도,2020년 인구밀도,2019년 평균소득,2020년 평균소득,2019년 실업률,2020년 실업률
서울,1,10000000,10000000,-0.814064,158,1579.044304,1566.189873,10706.0,10768.0,7.501537,7.203991
부산,2,106084,109658,3.369028,283,374.855124,387.484099,22265.0,21745.0,4.26692,4.542715
대전,3,534239,538640,0.823789,490,1090.283673,1099.265306,34034.0,33273.0,7.457897,7.807661
대구,4,212223,212418,0.091884,143,1484.076923,1485.440559,20838.0,20377.0,0.171681,0.161256
제주도,5,916684,920264,0.390538,355,2582.208451,2592.292958,12770.0,12645.0,9.120295,8.882252


In [55]:
ls

 D 드라이브의 볼륨: 새 볼륨
 볼륨 일련 번호: 02B1-19A2

 D:\hjh_directory\workspace\jupyter\m3_분석라이브러리 디렉터리

2023-11-28  오전 10:40    <DIR>          .
2023-11-28  오전 10:40    <DIR>          ..
2023-11-28  오전 10:38    <DIR>          .ipynb_checkpoints
2023-11-28  오전 10:39    <DIR>          pandas
2023-11-28  오전 10:40           131,660 전처리.ipynb
               1개 파일             131,660 바이트
               4개 디렉터리  462,249,099,264 바이트 남음


In [1]:
%pwd

'D:\\hjh_directory\\workspace\\jupyter\\m3_분석라이브러리\\pandas'

In [2]:
import pandas as pd
mtcars = pd.read_csv('dataset/mtcars.csv', index_col=0)
mtcars.head()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [3]:
mtcars.info()
# 컬럼 11개, 널값이 없음

<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, Mazda RX4 to Volvo 142E
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   mpg     32 non-null     float64
 1   cyl     32 non-null     int64  
 2   disp    32 non-null     float64
 3   hp      32 non-null     int64  
 4   drat    32 non-null     float64
 5   wt      32 non-null     float64
 6   qsec    32 non-null     float64
 7   vs      32 non-null     int64  
 8   am      32 non-null     int64  
 9   gear    32 non-null     int64  
 10  carb    32 non-null     int64  
dtypes: float64(5), int64(6)
memory usage: 3.0+ KB


In [4]:
mtcars.describe()
# miles per gallon(연비mpg) cylinder displayment weight gear ... 자동차 정보
# 연비 평균이 약 20정도됨
# 1gal = 3.78541l, mpg 처럼 mpl(miles per leter) 컬럼을 만들수 있을듯

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


In [15]:
mtcars.corr()
# 0.2 나오기도 힘듦. 여기서 0.9 도나오고 막 이러는거는 교육용자료라서..
# x1 x2 x3 x4 게수, y, 계수가 가중치 임 머신러닝할때 계수를 바꿔가면서.,..
# 범주화 hp, 저출력 중출력 고출력 -> 그걸로 탐색해볼수 있겠음. 이게 파생변수의 영역.
# disp wt 같은것도 이거자체로 하기 어려움.. 그래서 범주화를 하고. 그러면 아이디어가 떠오를수 있음.

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
mpg,1.0,-0.852162,-0.847551,-0.776168,0.681172,-0.867659,0.418684,0.664039,0.599832,0.480285,-0.550925
cyl,-0.852162,1.0,0.902033,0.832447,-0.699938,0.782496,-0.591242,-0.810812,-0.522607,-0.492687,0.526988
disp,-0.847551,0.902033,1.0,0.790949,-0.710214,0.88798,-0.433698,-0.710416,-0.591227,-0.555569,0.394977
hp,-0.776168,0.832447,0.790949,1.0,-0.448759,0.658748,-0.708223,-0.723097,-0.243204,-0.125704,0.749812
drat,0.681172,-0.699938,-0.710214,-0.448759,1.0,-0.712441,0.091205,0.440278,0.712711,0.69961,-0.09079
wt,-0.867659,0.782496,0.88798,0.658748,-0.712441,1.0,-0.174716,-0.554916,-0.692495,-0.583287,0.427606
qsec,0.418684,-0.591242,-0.433698,-0.708223,0.091205,-0.174716,1.0,0.744535,-0.229861,-0.212682,-0.656249
vs,0.664039,-0.810812,-0.710416,-0.723097,0.440278,-0.554916,0.744535,1.0,0.168345,0.206023,-0.569607
am,0.599832,-0.522607,-0.591227,-0.243204,0.712711,-0.692495,-0.229861,0.168345,1.0,0.794059,0.057534
gear,0.480285,-0.492687,-0.555569,-0.125704,0.69961,-0.583287,-0.212682,0.206023,0.794059,1.0,0.274073


In [None]:
# 문제1_1128 솔루션


In [None]:
# Q. 연비에 주로 영향을 미치는 요인들이 무엇인가?

In [5]:
#솔루션
mtcars.columns

Index(['mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear',
       'carb'],
      dtype='object')

In [None]:
['mpg', 'cyl', 'disp', 'hp', 'wt']

In [8]:
mcars = mtcars[['mpg','cyl','disp','hp','wt']] # 필요한것만 뽑기
# mcars = mtcars.drop(['drat','qsec', 'am', 'gear','carb'], axis=1) # 필요없는거 제거해서뽑기
mcars.head()

Unnamed: 0,mpg,cyl,disp,hp,wt
Mazda RX4,21.0,6,160.0,110,2.62
Mazda RX4 Wag,21.0,6,160.0,110,2.875
Datsun 710,22.8,4,108.0,93,2.32
Hornet 4 Drive,21.4,6,258.0,110,3.215
Hornet Sportabout,18.7,8,360.0,175,3.44


In [12]:
mcars.isnull().sum().sum()

0

In [13]:
mcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,wt
count,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.21725
std,6.026948,1.785922,123.938694,68.562868,0.978457
min,10.4,4.0,71.1,52.0,1.513
25%,15.425,4.0,120.825,96.5,2.58125
50%,19.2,6.0,196.3,123.0,3.325
75%,22.8,8.0,326.0,180.0,3.61
max,33.9,8.0,472.0,335.0,5.424


In [14]:
# corr() 는 변수들간에 컬럼들간에 어떤 관계가있느냐.상관관계.
# -1 부터 1 인데 전혀상관없어 0. 똑같이움직이면 1. 똑같이 움직이는데 반대로 가 -1
mcars.corr()
# 파생변수. 상관관계 더 높은거 파생변수를 구하는게 굉장히 중요
# 연비가 어떻게 이루어지는지 도메인지식도중요할수있음. 연비 공식이 cyl가 상관관계가 높으니, 제곱해서 할수도있으니 그런것도 찾아볼필요
# 그렇게 머신러닝 만들어지면,,,,, 일반화 머신 임 분석용 데이터셋
# 학습용데이터와 평가용데이터 구분해서 머신에 넣었을때 .... 이게 중요함
# 그래서 데이터가있으면 7 3 으로 나눠서 3은 평가용으로 한다던지 그런 솔루션이 필요함
# 과대적합 .. 학습데이터에 너무 맞게됨 그걸 경계해야함 그 시점을 찾기.
# 빅분기

Unnamed: 0,mpg,cyl,disp,hp,wt
mpg,1.0,-0.852162,-0.847551,-0.776168,-0.867659
cyl,-0.852162,1.0,0.902033,0.832447,0.782496
disp,-0.847551,0.902033,1.0,0.790949,0.88798
hp,-0.776168,0.832447,0.790949,1.0,0.658748
wt,-0.867659,0.782496,0.88798,0.658748,1.0


In [137]:
auto_df = pd.read_csv('dataset/auto-mpg.csv')
auto_df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [138]:
auto_df.info()
# horsepower가 object인데 숫자임 이게 문제 같다고 보임

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [139]:
# 398개 중에서 유니크한것만 있음.
auto_df['horsepower'].unique()
# 널값은 없는데 ? 가 있음. type 은 하나라도 있음 그것으로 감.
# 나중에 이렇게 하면 계산이 안됨. 빅분기에서 시험에 나왔음(40점) 계산이 안되는데.. ? 이거 그냥 삭제 하면 됨

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [140]:
# 다시확인해 보면 ? 없음
auto_df['horsepower'].unique()

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [None]:
# Q. ?가 포함되어 있는 행인덱스를 찾으세요.

In [41]:
# 주용규님 솔루션. 배운것을 응용하면 되지만 쉽지는 않을 것
find_index = auto_df[auto_df['horsepower']=='?'].index
print(find_index)

Index([32, 126, 330, 336, 354, 374], dtype='int64')


In [236]:
auto_df1 = auto_df.copy()

In [237]:
# 원본복사한거 확인. ? 가 있는지없는지로 확인..
auto_df1['horsepower'].unique()

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

#### 문제1_1128 : mpg로 부터 mpl이라는 새로운 컬럼으로 추가하세요

In [238]:
# 문제1_1128 솔루션
# 1갤런을 리터로 치환하려면.. 1g = 3.78541l
auto_df1['mpl'] = round(auto_df1['mpg'] / 3.78541, 1)
auto_df1


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name,mpl
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu,4.8
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320,4.0
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite,4.8
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst,4.2
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino,4.5
...,...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86,2790,15.6,82,1,ford mustang gl,7.1
394,44.0,4,97.0,52,2130,24.6,82,2,vw pickup,11.6
395,32.0,4,135.0,84,2295,11.6,82,1,dodge rampage,8.5
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger,7.4


In [239]:
# auto_df1.columns # 컬럼명 확인 후 컬럼 순서 변경 mpl을 mpg 옆으로
# 컬럼명..
# ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration', 'model year', 'origin', 'car name', 'mpl'],
auto_df1 = auto_df1[['mpg', 'mpl', 'cylinders', 'displacement', 'horsepower', 'weight','acceleration', 'model year', 'origin', 'car name']]

# 확인
auto_df1

Unnamed: 0,mpg,mpl,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,4.8,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,4.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,4.8,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,4.2,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,4.5,8,302.0,140,3449,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...,...
393,27.0,7.1,4,140.0,86,2790,15.6,82,1,ford mustang gl
394,44.0,11.6,4,97.0,52,2130,24.6,82,2,vw pickup
395,32.0,8.5,4,135.0,84,2295,11.6,82,1,dodge rampage
396,28.0,7.4,4,120.0,79,2625,18.6,82,1,ford ranger


#### 문제2_1128 : 6개 horsepower '?'을 horsepower의 평균값으로 대체하세요.

In [148]:
# 문제2_1128 주용규님 솔루션
auto_df1.horsepower.replace('?', np.nan, inplace=True) # ? 를 none 으로 바꾸고 float으로 바꿀수있게끔..
auto_df1['horsepower'] = auto_df1.horsepower.astype(float) # horsepower 를 float으로 전환
auto_df1.horsepower.fillna(round(auto_df1.horsepower.mean()), inplace=True) # fillna 와 mean을 활용해서 널값채우기
auto_df1.horsepower.unique() # 유니크로 출력하여 ? 있는지 확인

array([130., 165., 150., 140., 198., 220., 215., 225., 190., 170., 160.,
        95.,  97.,  85.,  88.,  46.,  87.,  90., 113., 200., 210., 193.,
       104., 100., 105., 175., 153., 180., 110.,  72.,  86.,  70.,  76.,
        65.,  69.,  60.,  80.,  54., 208., 155., 112.,  92., 145., 137.,
       158., 167.,  94., 107., 230.,  49.,  75.,  91., 122.,  67.,  83.,
        78.,  52.,  61.,  93., 148., 129.,  96.,  71.,  98., 115.,  53.,
        81.,  79., 120., 152., 102., 108.,  68.,  58., 149.,  89.,  63.,
        48.,  66., 139., 103., 125., 133., 138., 135., 142.,  77.,  62.,
       132.,  84.,  64.,  74., 116.,  82.])

In [131]:
# 문제2_1128 솔루션
# 일단 ? 를 먼저 찾기.
find_object = auto_df1[auto_df1['horsepower'] == '?'].index
find_object

Index([32, 126, 330, 336, 354, 374], dtype='int64')

In [107]:
# horserpower 평균값 구하기
# auto_df1['horsepower'].avg() # 안되는 이유는... 타입을 봐야함
hp_list = []
hp_list = auto_df1['horsepower']
hp_list

0      130
1      165
2      150
3      150
4      140
      ... 
393     86
394     52
395     84
396     79
397     82
Name: horsepower, Length: 398, dtype: object

In [106]:
hp_list.pop(32, 126, 330, 336, 354, 374)
hp_list

TypeError: Series.pop() takes 2 positional arguments but 7 were given

In [108]:
# 기본 리스트
arr = [5, 7, 1, 1, 2, 6, 1, 6, 7]
print(arr) # [5, 7, 1, 1, 2, 6, 1, 6, 7]

# 삭제할 원소 집합 생성
rm_set = {1, 6}
# 리스트 컴프리헨션 활용: 삭제할 원소 집합 데이터와 일일이 비교
arr_new = [i for i in arr if i not in rm_set]
print(arr_new) # [5, 7, 2, 7]

[5, 7, 1, 1, 2, 6, 1, 6, 7]
[5, 7, 2, 7]


In [45]:
# mpg의 타입을 지금 실수형인데 바꾸려고한다면?
auto_df.info()
adf = auto_df.mpg.astype(int)
# .astype(int) 인데 정수로 바뀜

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [46]:
adf.head()

0    18
1    15
2    18
3    16
4    17
Name: mpg, dtype: int32

In [51]:
# ? 없애기.
# .horsepower 이렇게해도됨
# replace 사용 (대치)
import numpy as np
auto_df1.horsepower.replace('?',np.nan, inplace=True)
auto_df1.horsepower.isnull().sum()

6

In [52]:
# axis=0 헷갈리지 말자!
auto_df1.dropna(subset=['horsepower'], axis=0, inplace=True)
auto_df1.horsepower.isnull().sum()

0

In [53]:
auto_df1.info()
# 아직 horsepower 가 object임

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    object 
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 30.6+ KB


In [56]:
# horsepower 를 object 처리.
auto_df1['horsepower'] = auto_df1.horsepower.astype(float)
auto_df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 30.6+ KB


In [2]:
# Q. auto_df1 을 바이너리 파일로 auto_df1.pkl 로 저장 후 다시 불러오세요
# pickle 은 바이너리. 굉장히 적은 용량으로 보관.(간단히보관)
auto_df1.to_pickle('dataset/auto_df1.pkl')
auto_df1 = pd.read_pickle('dataset/auto_df1.pkl')
auto_df1.head()

NameError: name 'auto_df1' is not defined

In [58]:
# pickle 로 저장한것을 불러옴
auto_df1.info()
# pickle 그 만든거를 보면 바이너리라서 굉장히 신기하게보임(memo)

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   model year    392 non-null    int64  
 7   origin        392 non-null    int64  
 8   car name      392 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 30.6+ KB


In [None]:
# 0~100 인수가 있으면 가장큰수 100, 100으로 나누면 상대적으로 변함.
# 이처럼, horsepower는 백단위임. 스케일이 큰데, 그걸최댓값으로 나누면(사실 어떤것이든지) 0-1 사이로됨

최소-최대 정규화(min-max scaler): 
- 이 방법은 음수를 포함한 모든 값을 0과 1 사이로 변환. 데이터셋의 최소값이 음수인 경우에도 적용 가능
- (x - min(x)) / (max(x) - min(x)) 공식을 사용하여 계산되며, 이 공식은 음수 값을 적절히 처리

In [118]:
li2 = [-100,-50,-20,50,100]
df = pd.DataFrame(li2,columns=['num'])
df['num1'] = df.num/df.num.max()
df['num2'] = df.num/abs(df.num.max())
df['num3'] = (df.num-df.num.min())/(df.num.max()-df.num.min()) # 이걸 굳이 안줘도 최댓값을 그냥 나눠주면 됨
df

Unnamed: 0,num,num1,num2,num3
0,-100,-1.0,-1.0,0.0
1,-50,-0.5,-0.5,0.25
2,-20,-0.2,-0.2,0.4
3,50,0.5,0.5,0.75
4,100,1.0,1.0,1.0


Z-점수 정규화 (Standardization):
- 이 방법은 데이터의 평균을 0으로 맞춘다. 따라서 음수 값을 포함하는 데이터셋에 적합
- (x - min(x)) / std(x) 공식을 사용하여 계산되며, 음수 값도 적절히 처리

#### 문제3_1128 : auto_df1의 horsepower 열의 모든 데이터를 최댓값으로 나눠서 저장하세요. 

In [129]:
# 문제3_1128 솔루션
auto_df1['horsepower'].max()


'?'

In [147]:
auto_df1['horsepower_divmax'] = round(auto_df1['horsepower']/auto_df1['horsepower'].max(),2)
auto_df1[['horsepower','horsepower_divmax']].head()

Unnamed: 0,horsepower,horsepower_divmax
0,130.0,0.57
1,165.0,0.72
2,150.0,0.65
3,150.0,0.65
4,140.0,0.61


#### 문제4_1128 : auto_df1의 horsepower 열 데이터에서 해당 열의 최솟값을 뺀 값을 분자, 해당 열의 최댓값 - 최솟값을 분모로 계산하여 저장하세요.

In [None]:
# 문제4_1128 솔루션 

### SAVEPOINT..

In [3]:
import pandas as pd
auto_df1 = pd.read_pickle('dataset/auto_df1.pkl')
auto_df1.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,1,ford torino


#### 문제5_1128 : mpg, cylinders, weight로 데이터프레임 adf1을 생성하고 cylinders 로 그룹화를 진행해서 그룹별 평균을 구하세요.

In [4]:
# 문제5_1128 솔루션
adf1 = auto_df1[['mpg', 'weight', 'cylinders']]
adf1_group = adf1.groupby('cylinders')
adf1_group.mean()

Unnamed: 0_level_0,mpg,weight
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1
3,20.55,2398.5
4,29.28392,2305.110553
5,27.366667,3103.333333
6,19.973494,3202.120482
8,14.963107,4114.718447


#### 문제6_1128 : 문제 5에서 cylinders 로 그룹화한 후 mpg는 평균값을, weight는 최댓값을 구하세요.

In [5]:
# 문제6_1128 서영우님 솔루션
adf1.groupby('cylinders').agg({'mpg':'mean','weight':'max'})

Unnamed: 0_level_0,mpg,weight
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1
3,20.55,2720
4,29.28392,3270
5,27.366667,3530
6,19.973494,3907
8,14.963107,5140


#### 문제7_1128 auto_df1.orgin 열의 정수형 데이터를 문자형 데이터로 변환하세요.
- 1:'USA', 2:'EU', 3:'JAPAN'로 각각 변환

In [None]:
# 문제7_1128 주용규님 솔루션
auto_df7 = auto_df1.copy()
dic_ori = {1: 'USA', 2: 'EU', 3: 'JAPAN'}
auto_df7['origin'] = auto_df7['origin'].map(dic_ori)
auto_df7.head()

In [173]:
# 개수를 세줌. 1이245개.
auto_df1.origin.value_counts()

origin
1    245
3     79
2     68
Name: count, dtype: int64

In [174]:
# 머머가 있는지 알 수 있음
auto_df1.origin.unique()

array([1, 3, 2], dtype=int64)

#### 도전_문제8_1128 : auto_df1의 horsepower열을 3개의 bin으로 나누고 bin_names = ['저출력','보통출력','고출력']으로 출력하세요

In [7]:
# 도전_문제8_1128 서영우님 솔루션
row = auto_df1['horsepower'].describe()['25%']
high = auto_df1['horsepower'].describe()['75%']
change = lambda x: '저출력' if x <= row else '고출력' if x >= high else '보통출력'
auto_df1['bin_names'] = auto_df1.horsepower.apply(change)
auto_df1[['horsepower','bin_names']].head()

Unnamed: 0,horsepower,bin_names
0,130.0,고출력
1,165.0,고출력
2,150.0,고출력
3,150.0,고출력
4,140.0,고출력


In [22]:
import seaborn as sns
titanic_df = sns.load_dataset('titanic')
titanic_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [23]:
tdf = titanic_df.copy()
tdf.info()
# Sibsp - Number of Siblings/Spouses Aboard; Parch - Number of Parents/Children Aboard;

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [195]:
tdf.deck.unique()

[NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

In [10]:
tdf.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [11]:
tdf.survived.value_counts() # 생존률 = mean() 약 38프로

survived
0    549
1    342
Name: count, dtype: int64

#### 문제9_1128 : tdf 데이터 프레임으로 생존자 예측분석을 할 수 있는 분석용 데이터 세트를 다음 작업을 포함하여 수행하세요.
- 결측치 처리
- 변수 처리
- sex 값을 {'male':0, 'female':1} 로 변경
- 컬럼명을 대문자로 변경
- 컬럼 순서 변경 (종속변수인 survived 를 맨뒤로 위치)

In [None]:
Data Dictionary
survivied: 생존여부 (1: 생존, 0: 사망)
pclass: 좌석 등급 (1등급, 2등급, 3등급)
sex: 성별
age: 나이
sibsp: 형제 + 배우자 수
parch: 부모 + 자녀 수
fare: 좌석 요금
embarked: 탑승 항구 (S, C, Q)
class: pclass와 동일
who: 남자(man), 여자(woman), 아이(child)
adult_male: 성인 남자 여부
deck: 데크 번호 (알파벳 + 숫자 혼용)
embark_town: 탑승 항구 이름
alive: 생존여부 (yes, no)
alone: 혼자 탑승 여부

In [12]:
# 문제9_1128 전유빈님 솔루션
import warnings
warnings.filterwarnings('ignore')

#결측치 처리: age, embarked
#age
tdf1 = tdf.copy()
tdf1.head()
age_null = tdf1[tdf['age'].isnull()].index.tolist()
for x in age_null:
    if tdf1.loc[x,'sibsp'] > 0 and tdf1.loc[x,'parch'] > 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp > 0) & (tdf1.parch >0)].age.mean(),1)
    elif tdf1.loc[x,'sibsp'] == 0 and tdf1.loc[x,'parch'] > 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp == 0) & (tdf1.parch >0)].age.mean(),1)
    elif tdf1.loc[x,'sibsp'] > 0 and tdf1.loc[x,'parch'] == 0:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp > 0) & (tdf1.parch ==0)].age.mean(),1)
    else:
        tdf1.loc[x,'age'] = round(tdf1[(tdf1.sibsp == 0) & (tdf1.parch == 0)].age.mean(),1)        
tdf1['age'].isnull().sum()

#embarked
group = tdf1.groupby(['embarked','pclass'])
group.describe().fare
# c1 은 85명, mean 105, range (26.55~512.33)
# Q1 은 2명
# S1 은 127명, mean 70, range (0~263)
#S1일 가능성이 크다고 판단.
# null 두명 pclass 1이고 fare가 80인 고객을 embarked = S로 분류
embarked_null = tdf1[tdf1['embarked'].isnull()].index.tolist()
for x in embarked_null:
    tdf1.loc[x,'embarked'] = 'S'
tdf1['embarked'].isnull().sum()

# 변수 선택, 컬럼 순서변경
tdf_select = tdf1[['pclass','sex','age','sibsp','parch','embarked','survived']]
# sex 값을 {'male':0, 'female':1} 로 변경
f1 = lambda x:0 if x =='male' else 1
tdf_select['sex'] = tdf_select['sex'].apply(f1)


#컬럼명을 대문자로 변경
column_names = tdf_select.columns
tdf_select.columns = [x.upper() for x in tdf_select.columns]
tdf_select.head()

Unnamed: 0,PCLASS,SEX,AGE,SIBSP,PARCH,EMBARKED,SURVIVED
0,3,0,22.0,1,0,S,0
1,1,1,38.0,1,0,C,1
2,3,1,26.0,0,0,S,1
3,1,1,35.0,1,0,S,1
4,3,0,35.0,0,0,S,0


In [196]:
# 문제9_1128 솔루션
# 결측치 처리
# age, embarked, deck, embark_town 이 null값이 있음
# tdf.info()

# age 먼저 처리. 하려고했지만 제일 애매한것같아서 좀 미루기..

# embarked null값 처리
# embarked 에는 S, C, Q 와 널값이 있음
tdf.embarked.unique()

# # 문제2_1128 주용규님 솔루션
# auto_df1.horsepower.replace('?', np.nan, inplace=True) # ? 를 none 으로 바꾸고 float으로 바꿀수있게끔..
# auto_df1['horsepower'] = auto_df1.horsepower.astype(float) # horsepower 를 float으로 전환
# auto_df1.horsepower.fillna(round(auto_df1.horsepower.mean()), inplace=True) # fillna 와 mean을 활용해서 널값채우기
# auto_df1.horsepower.unique() # 유니크로 출력하여 ? 있는지 확인

array(['S', 'C', 'Q', nan], dtype=object)

In [246]:
# 문제9_1128 솔루션
# 변수 처리
tdf.head()
# 다음중 -> 는 선택. 그외는 중복으로 삭제
# pclass 와 class -> pclass
# sex 와 who -> sex
# age 는 중복 없음
# sibsp 와 parch는 일단 남겨놓기.. # Sibsp - Number of Siblings/Spouses Aboard; Parch - Number of Parents/Children Aboard;
# fare 는 요금인데 일단 남겨놓기..
# embarked 와 embark_town -> embarked
# adult_male 은 그나마 쓸만한 컬럼,,,,? 일단 남겨두자
# deck 는 널값이 많고(3분의2정도) 쓸만한 그런 건 아니어서 삭제해야할것으로 보임
# alive 와 survived -> survived
# alone sibsp 이나 parch 와 좀 겹치는 부분이 있는듯한데 일단 남겨두기

Unnamed: 0,PCLASS,SEX,AGE,SIBSP,PARCH,FARE,EMBARKED,CLASS,WHO,ADULT_MALE,DECK,EMBARK_TOWN,ALIVE,ALONE,SURVIVED
0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,0
1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1
2,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,1
3,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1
4,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,0


In [219]:
# 문제9_1128 솔루션
# sex 값을 {'male':0, 'female':1} 로 변경
tdf = tdf.replace({'sex' : 'male'}, 0)
tdf = tdf.replace({'sex' : 'female'}, 1)
tdf.head()

Unnamed: 0,SURVIVED,PCLASS,SEX,AGE,SIBSP,PARCH,FARE,EMBARKED,CLASS,WHO,ADULT_MALE,DECK,EMBARK_TOWN,ALIVE,ALONE
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [243]:
# 문제9_1128 솔루션
# 컬럼명을 대문자로 변경
tdf.columns = map(lambda x : x.upper(), tdf.columns)
tdf.columns

Index(['PCLASS', 'SEX', 'AGE', 'SIBSP', 'PARCH', 'FARE', 'EMBARKED', 'CLASS',
       'WHO', 'ADULT_MALE', 'DECK', 'EMBARK_TOWN', 'ALIVE', 'ALONE',
       'SURVIVED'],
      dtype='object')

In [244]:
# 문제9_1128 솔루션
# 컬럼 순서 변경 (종속변수인 survived 를 맨뒤로 위치)
tdf.columns # ['SURVIVED', 'PCLASS', 'SEX', 'AGE', 'SIBSP', 'PARCH', 'FARE','EMBARKED', 'CLASS', 'WHO', 'ADULT_MALE', 'DECK', 'EMBARK_TOWN','ALIVE', 'ALONE']
tdf = tdf[['PCLASS', 'SEX', 'AGE', 'SIBSP', 'PARCH', 'FARE',
       'EMBARKED', 'CLASS', 'WHO', 'ADULT_MALE', 'DECK', 'EMBARK_TOWN',
       'ALIVE', 'ALONE', 'SURVIVED']]
tdf.head()

Unnamed: 0,PCLASS,SEX,AGE,SIBSP,PARCH,FARE,EMBARKED,CLASS,WHO,ADULT_MALE,DECK,EMBARK_TOWN,ALIVE,ALONE,SURVIVED
0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,0
1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,1
2,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,1
3,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,1
4,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,0


eplace 이용 특정 값 대체
특정 값들만을 골라 다른 값으로 대체하고 싶은 경우에는

판다스에서 제공하는 df.replace 메소드를 사용하면 편리합니다.

 

사용 방법은 df = df.replace(기존 값, 변경 값) 형태로 작성하면 되며,

특정 열 내에서만 값 대체를 하고싶다면 df = df.replace({'열 이름' : 기존 값}, 변경 값) 형태로

코드를 지정해주시면 됩니다.

<!-- df = df.replace(-500, 0)
# df = df.replace({'B' : -500}, 0) : 바꿀 값의 범위를 B열로만 한정
df -->

#### 문제10_1128 : 'age' 컬럼을 범주화하여 새로운 'age_class' 컬럼을 생성하세요. (null값을 먼저 삭제 혹은 대체한 후 진행)

In [15]:
# 문제10_1128 주용규님 솔루션
import math

tdf10 = tdf.copy()
def age_class(val):
    if math.isnan(val):
        return '값이 없음'
    elif val < 10:
        return '10살 미만'
    elif val < 20:
        return '10대'
    elif val < 30:
        return '20대'
    elif val < 40:
        return '30대'
    elif val < 50:
        return '40대'
    elif val < 60:
        return '50대'
    elif val < 70:
        return '60대'
    else:
        return '70살 이상'
    
tdf10['age_class'] = tdf10['age'].apply(age_class)
tdf10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,20대
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,30대
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,20대
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,30대
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,30대


In [16]:
tdf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [17]:
tdf1.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [24]:
# 간단 연습.. 'survived','age','sibsp' 이것 세개만 선택해서 tdf1을 만들기 
tdf1 = tdf[['survived','age','sibsp']]
tdf1.head()

Unnamed: 0,survived,age,sibsp
0,0,22.0,1
1,1,38.0,1
2,1,26.0,0
3,1,35.0,1
4,0,35.0,0


In [26]:
# subset 주는것의 유의
# age의 널값 없애기 원래는 177개
tdf1.dropna(subset=['age'], inplace= True)
tdf1.age.isnull().sum()

0

In [27]:
tdf1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  714 non-null    int64  
 1   age       714 non-null    float64
 2   sibsp     714 non-null    int64  
dtypes: float64(1), int64(2)
memory usage: 22.3 KB


In [30]:
# tdf1 = tdf[['survived','age','sibsp']]
# 여기서 tdf2 안만들고 그냥 뽑으면 astype 이 info에서 적용안되나면, inplace = True 안넣었기때문이다.
# 그래서 tdf2 를 만들고 해야함
tdf2 = tdf1.astype({'age' : 'int', 'sibsp' : 'float'})
tdf2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  714 non-null    int64  
 1   age       714 non-null    int32  
 2   sibsp     714 non-null    float64
dtypes: float64(1), int32(1), int64(1)
memory usage: 19.5 KB


In [None]:
💖

레이블 인코딩(Label Encoding)과 원핫 인코딩(One-Hot Encoding)
- 인코딩 : 문자열을 숫자로 바꾸는것.
- 알고리즘을 활용하려면 문자를 숫자로 바꿔야함.
- 레이블 인코딩과 원핫 인코딩은 범주형 데이터를 숫자형 데이터로 변환하는 두 가지 기법

- 레이블 인코딩: 이 방법은 범주형 변수의 각 고유한 값에 대해 숫자를 할당. 예를 들어, "red", "blue", "green"이라는 세 가지 색상이 있다면 "red"는 0, "blue"는 1, "green"은 2와 같이 숫자를 할당. 순서가 있는 범주형 데이터에 적합.

- 원핫 인코딩: 이 방법은 각 범주를 하나의 열로 나타내고, 해당 범주에 속하는 경우 1, 그렇지 않은 경우 0으로 표시. 이는 순서가 없는 범주형 데이터에 적합.

In [None]:
# 간단한 설명 ..
color
0
1
2
red blue green # 해당 범주에 속한경우 1, 아니면 0
1   0    0
0   1    0
0   0    1

In [33]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# 예시 데이터
data = {
    'color' : ['red', 'blue', 'green', 'blue', 'red']
}
df = pd.DataFrame(data)

# 레이블 인코더 초기화 및 적용
label_encoder = LabelEncoder()
df['color_encoded'] = label_encoder.fit_transform(df['color'])

print(df)
# blue 0 green 1 red 2 는 알파벳순으로 매겨짐

   color  color_encoded
0    red              2
1   blue              0
2  green              1
3   blue              0
4    red              2


In [34]:
import pandas as pd

# 예시 데이터
data = {
    'color' : ['red', 'blue', 'green', 'blue', 'red']
}
df = pd.DataFrame(data)
print(df,'\n')
# 원핫 인코딩 적용
label_encoder = LabelEncoder()
df_onehot = pd.get_dummies(df, columns=['color'])

print(df_onehot)

   color
0    red
1   blue
2  green
3   blue
4    red 

   color_blue  color_green  color_red
0       False        False       True
1        True        False      False
2       False         True      False
3        True        False      False
4       False        False       True


In [35]:
tdf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [37]:
from sklearn.preprocessing import LabelEncoder

tdf2 = tdf[['survived','sex','class']]
le = LabelEncoder()
features = ['sex','class']
for feature in features:
    tdf2[feature] = le.fit_transform(tdf2[feature])
tdf2.head()

Unnamed: 0,survived,sex,class
0,0,1,2
1,1,0,0
2,1,0,2
3,1,0,0
4,0,1,2


In [45]:
from sklearn.preprocessing import LabelEncoder

tdf3 = tdf[['sex','class']]
le = LabelEncoder()
onehot = pd.get_dummies(tdf3)
print(onehot.head())
onehot.head()

   sex_female  sex_male  class_First  class_Second  class_Third
0       False      True        False         False         True
1        True     False         True         False        False
2        True     False        False         False         True
3        True     False         True         False        False
4       False      True        False         False         True


Unnamed: 0,sex_female,sex_male,class_First,class_Second,class_Third
0,False,True,False,False,True
1,True,False,True,False,False
2,True,False,False,False,True
3,True,False,True,False,False
4,False,True,False,False,True
