## 데이터 전처리

In [1]:
import numpy as np
import pandas as pd

### 중복 데이터 제거
#### 중복된 데이터가 존재하면 분석 결과를 왜곡할 수 있음
#### 중복된 데이터가 존재하면 중복 데이터가 분석을 할 때 영향을 더 많이 주게 됨

In [8]:
# 데이터 생성
df = pd.DataFrame([['안녕하세요','안녕하세요','헬로우','키아 오라','반갑습니다','오하요'],
                  ['한국','한국','미국','뉴질랜드','한국','일본']])
#행 열 전치
df = df.T
df.columns = ['인사말','국가']

#데이터 확인
print(df)


     인사말    국가
0  안녕하세요    한국
1  안녕하세요    한국
2    헬로우    미국
3  키아 오라  뉴질랜드
4  반갑습니다    한국
5    오하요    일본


In [4]:
# help(df.duplicated)

Help on method duplicated in module pandas.core.frame:

duplicated(subset: 'Hashable | Sequence[Hashable] | None' = None, keep: 'DropKeep' = 'first') -> 'Series' method of pandas.core.frame.DataFrame instance
    Return boolean Series denoting duplicate rows.
    
    Considering certain columns is optional.
    
    Parameters
    ----------
    subset : column label or sequence of labels, optional
        Only consider certain columns for identifying duplicates, by
        default use all of the columns.
    keep : {'first', 'last', False}, default 'first'
        Determines which duplicates (if any) to mark.
    
        - ``first`` : Mark duplicates as ``True`` except for the first occurrence.
        - ``last`` : Mark duplicates as ``True`` except for the last occurrence.
        - False : Mark all duplicates as ``True``.
    
    Returns
    -------
    Series
        Boolean series for each duplicated rows.
    
    See Also
    --------
    Index.duplicated : Equivalent method 

In [10]:
# 중복 확인
print(df.duplicated()) # 모든 컬럼의 값이 중복인지를 확인
print(df.duplicated(subset = ['국가'])) # 국가 컬럼의 값이 중복인지를 확인

print(df.drop_duplicates(subset = ['국가'])) # 기본은 앞의 데이터를 보존
print(df.drop_duplicates(subset = ['국가'], keep = 'last')) # 마지막 데이터를 보존

0    False
1     True
2    False
3    False
4    False
5    False
dtype: bool
0    False
1     True
2    False
3    False
4     True
5    False
dtype: bool
     인사말    국가
0  안녕하세요    한국
2    헬로우    미국
3  키아 오라  뉴질랜드
5    오하요    일본
     인사말    국가
2    헬로우    미국
3  키아 오라  뉴질랜드
4  반갑습니다    한국
5    오하요    일본


## 타이타닉 데이터 불러오기

In [11]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB
None


### apply함수 적용

In [16]:
df = titanic[['sex', 'age']]
print(df.head())


      sex   age
0    male  22.0
1  female  38.0
2  female  26.0
3  female  35.0
4    male  35.0


In [17]:
#실수 한개를 받아서 1을 더해 리턴하는 함수
def plusone(data: float) -> float :
    return data + 1

#1번 방법
df['age'] = df['age'].apply(plusone)
print(df.head())

      sex   age
0    male  23.0
1  female  39.0
2  female  27.0
3  female  36.0
4    male  36.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['age'] = df['age'].apply(plusone)


In [18]:
# 2번 방법 : 람다
df['age'] = df['age'].apply(lambda data : data + 1)
print(df.head())

      sex   age
0    male  24.0
1  female  40.0
2  female  28.0
3  female  37.0
4    male  37.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['age'] = df['age'].apply(lambda data : data + 1)


In [19]:
# 3번 심플
df['age'] = df['age'] + 1
print(df.head())

      sex   age
0    male  25.0
1  female  41.0
2  female  29.0
3  female  38.0
4    male  38.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['age'] = df['age'] + 1


In [21]:
#sex 열의 모든 내용을 대문자로 변경 - 문자열 클래스에 대문자로 변경해주는 메서드가 있는지 확인
df['sex'] = df['sex'].apply(str.upper)
print(df.head())

      sex   age
0    MALE  25.0
1  FEMALE  41.0
2  FEMALE  29.0
3  FEMALE  38.0
4    MALE  38.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['sex'] = df['sex'].apply(str.upper)


In [23]:
# 'age' 떄문에 한번에 계산이 안됨!!
#df = df.apply(str.upper)
#print(df.head())

def missing_value(series : pd.Series) -> pd.Series :
    return series.isnull()
result = df.apply(missing_value)
print(result.head())



     sex    age
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


In [29]:
# 오프더레코드

print(0 and None)
print(False and None)
print(None and 0)
print(None and False)

0
False
None
None


## pipe 적용

In [35]:
# Series를 받아서 NaN여부를 리턴하는 함수
def missing_value(x :pd.Series) -> pd.Series :
    return x.isnull()

#Series 를 받아서 True의 개수를 리턴하는 함수
def missing_count(x : pd.Series) -> int :
    return missing_value(x).sum()

#DataFrame을 받아서 총 NaN의 개수를 리턴하는 함수
def total_number_missing(x : pd.DataFrame) -> int :
    return missing_count(x).sum()

In [30]:
print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB
None


In [38]:
df = titanic[['age','embarked']]
# print(df.info())

#Series를 받아서 Series를 리턴하는 함수를 적용
#DataFrame을 리턴
print(df.pipe(missing_value).head())

     age  embarked
0  False     False
1  False     False
2  False     False
3  False     False
4  False     False


In [36]:
#Series를 받아서 1개의 값(정수, 스칼라)를 리턴하는 함수를 적용
#Series를 리턴 - 각 열의 결과
print(df.pipe(missing_count))

age         177
embarked      2
dtype: int64


In [37]:
#DataFramd을 받아서 집계를 한 후 하나의 값을 리턴함수를 적용
#하나의 값을 리턴
print(df.pipe(total_number_missing))

179


## 컬럼 재구성

### 열 재구성
#### 열의 순서를 변경

In [41]:
# 열 이름을 전부 가져오기
columns = titanic.columns.values
print(columns) # ndarray
# print(type(columns))

columns = list(titanic.columns.values)
print(columns) # list

['survived' 'pclass' 'sex' 'age' 'sibsp' 'parch' 'fare' 'embarked' 'class'
 'who' 'adult_male' 'deck' 'embark_town' 'alive' 'alone']
['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']


In [43]:
#컬럼 이름을 알파벳 순으로 정렬해서 재배치
df_sorted = titanic[sorted(columns)]
print(df_sorted.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   adult_male   891 non-null    bool    
 1   age          714 non-null    float64 
 2   alive        891 non-null    object  
 3   alone        891 non-null    bool    
 4   class        891 non-null    category
 5   deck         203 non-null    category
 6   embark_town  889 non-null    object  
 7   embarked     889 non-null    object  
 8   fare         891 non-null    float64 
 9   parch        891 non-null    int64   
 10  pclass       891 non-null    int64   
 11  sex          891 non-null    object  
 12  sibsp        891 non-null    int64   
 13  survived     891 non-null    int64   
 14  who          891 non-null    object  
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


AttributeError: 'NoneType' object has no attribute 'head'

## 날짜 컬럼을 분할

In [45]:
## 참고
message = "Hello World"
#공백을 기준으로 분할 - list를 리턴
ar = message.split(' ')
print(ar)

['Hello', 'World']


In [44]:
#엑셀 데이터, 주가 데이터 불러오기
df = pd.read_excel('./data/주가데이터.xlsx')
# df.info()
print(df.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   연월일     20 non-null     datetime64[ns]
 1   당일종가    20 non-null     int64         
 2   전일종가    20 non-null     int64         
 3   시가      20 non-null     int64         
 4   고가      20 non-null     int64         
 5   저가      20 non-null     int64         
 6   거래량     20 non-null     int64         
dtypes: datetime64[ns](1), int64(6)
memory usage: 1.2 KB
         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039


In [49]:
# dates = df['연월일'].str.split(' ') # 문자열이 아니라 에러
#날짜 컬럼을 문자열로 변환
df['연월일'] = df['연월일'].astype('str')

# -기준으로 분할
dates = df['연월일'].str.split('-')
# print(dates.head())
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
print(df.head())

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26  10800   350  10900  11000  10700   63039  2018  06  26


## 필터링

조건 = ? <br>
결과 = titanic.loc[조건, :] <br>
print(결과.head()) <br>
print(결과['age'].unique()) <br>

In [50]:
titanic = sns.load_dataset('titanic')

#age가 10 ~19인 데이터만 추출
조건 = (titanic['age']>= 10) & (titanic['age']<= 19)
결과 = titanic.loc[조건, :]
print(결과.head())
print(결과['age'].unique())

    survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
9          1       2  female  14.0      1      0   30.0708        C  Second   
14         0       3  female  14.0      0      0    7.8542        S   Third   
22         1       3  female  15.0      0      0    8.0292        Q   Third   
27         0       1    male  19.0      3      2  263.0000        S   First   
38         0       3  female  18.0      2      0   18.0000        S   Third   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    Cherbourg   yes  False  
14  child       False  NaN  Southampton    no   True  
22  child       False  NaN   Queenstown   yes   True  
27    man        True    C  Southampton    no  False  
38  woman       False  NaN  Southampton    no  False  
[14.  15.  19.  18.  11.  17.  16.  14.5 12.  10.  13. ]


In [53]:
# age가 10세 미만이고 sex 가 female인 데이터 중에서 age, sex,alone 컬럼만 추출
con = (titanic['age']<10) & (titanic['sex'] == 'female')
res = titanic.loc[con, ['age','sex','alone']]
print(res.head())

     age     sex  alone
10   4.0  female  False
24   8.0  female  False
43   3.0  female  False
58   5.0  female  False
119  2.0  female  False


In [56]:
#sibsp 가 3, 4, 5 인 데이터 추출
con1 = (titanic['sibsp'].isin([3, 4, 5]))
res1 = titanic.loc[con1, :]
# print(res1['sibsp'].unique())
print(res1.head())

    survived  pclass     sex   age  sibsp  parch      fare embarked  class  \
7          0       3    male   2.0      3      1   21.0750        S  Third   
16         0       3    male   2.0      4      1   29.1250        Q  Third   
24         0       3  female   8.0      3      1   21.0750        S  Third   
27         0       1    male  19.0      3      2  263.0000        S  First   
50         0       3    male   7.0      4      1   39.6875        S  Third   

      who  adult_male deck  embark_town alive  alone  
7   child       False  NaN  Southampton    no  False  
16  child       False  NaN   Queenstown    no  False  
24  child       False  NaN  Southampton    no  False  
27    man        True    C  Southampton    no  False  
50  child       False  NaN  Southampton    no  False  


## 데이터 결합
### concat

In [62]:
# df 준비
df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                   'b':['b0','b1','b2','b3'],
                   'c':['c0','c1','c2','c3']},
                  index = [0, 1, 2, 3])
df2 = pd.DataFrame({'a':['a4','a5','a6','a7'],
                   'b':['b4','b5','b6','b7'],
                   'd':['d4','d5','d6','d7']},
                  index = [2, 3, 4, 5])
print(df1)
print(df2)

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3
    a   b   d
2  a4  b4  d4
3  a5  b5  d5
4  a6  b6  d6
5  a7  b7  d7


In [60]:
#concat에 옵션이 없는 경우 : set 연산처럼 세로 방향으로 합쳐집니다.
# 컬럼의 이름이 같은 경우는 바로 합쳐지지만, 다른 경우는 반대편에 NaN을 갖는 컬럼을 생성해서 합칩니다.
print(pd.concat([df1, df2]))

    a   b    c    d
0  a0  b0   c0  NaN
1  a1  b1   c1  NaN
2  a2  b2   c2  NaN
3  a3  b3   c3  NaN
2  a4  b4  NaN   d4
3  a5  b5  NaN   d5
4  a6  b6  NaN   d6
5  a7  b7  NaN   d7


In [61]:
#좌우로 합치기 - axis = 1
#다른 옵션이 없으면 index를 기준으로 합쳐집니다.
#기본적으로 outer join 처럼 수행됩니다.
print(pd.concat([df1, df2], axis = 1))

     a    b    c    a    b    d
0   a0   b0   c0  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN
2   a2   b2   c2   a4   b4   d4
3   a3   b3   c3   a5   b5   d5
4  NaN  NaN  NaN   a6   b6   d6
5  NaN  NaN  NaN   a7   b7   d7


In [63]:
#inner join
print(pd.concat([df1, df2], axis = 1, join='inner')) #공통으로 들어있는 것들만

    a   b   c   a   b   d
2  a2  b2  c2  a4  b4  d4
3  a3  b3  c3  a5  b5  d5


### append

In [71]:
# 최신버전에는 없어짐
print(df1._append(df2))

    a   b    c    d
0  a0  b0   c0  NaN
1  a1  b1   c1  NaN
2  a2  b2   c2  NaN
3  a3  b3   c3  NaN
2  a4  b4  NaN   d4
3  a5  b5  NaN   d5
4  a6  b6  NaN   d6
5  a7  b7  NaN   d7


### combine_first

In [72]:
print(df1.combine_first(df2))

    a   b    c    d
0  a0  b0   c0  NaN
1  a1  b1   c1  NaN
2  a2  b2   c2   d4
3  a3  b3   c3   d5
4  a6  b6  NaN   d6
5  a7  b7  NaN   d7


In [None]:
print(df1.combine_first(df2))

In [73]:
price = pd.read_excel('./data/stock price.xlsx')
valuation = pd.read_excel('./data/stock valuation.xlsx')
print(price.head())
print(valuation.head())

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
       id     name           eps     bps        per       pbr
0  130960   CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480       하림    274.166667    3551  11.489362  0.887074
2  138040  메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480      이마트  18268.166667  295780  13.931338  0.860437
4  145990      삼양사   5741.000000  108090  14.283226  0.758627


In [74]:
# 아무런 옵션이 없음 동일한 이름의 컬럼을 가지고  join 
# inner join을 수행
print(pd.merge(price, valuation))

       id stock_name          value   price    name           eps     bps  \
0  130960     CJ E&M   58540.666667   98900  CJ E&M   6301.333333   54068   
1  139480        이마트  239230.833333  254500     이마트  18268.166667  295780   
2  145990        삼양사   82750.000000   82000     삼양사   5741.000000  108090   
3  185750        종근당   40293.666667  100500     종근당   3990.333333   40684   
4  204210     모두투어리츠    3093.333333    3475  모두투어리츠     85.166667    5335   

         per       pbr  
0  15.695091  1.829178  
1  13.931338  0.860437  
2  14.283226  0.758627  
3  25.185866  2.470259  
4  40.802348  0.651359  


In [75]:
#full outer join
print(pd.merge(price, valuation, how = 'outer', on = 'id'))

        id stock_name          value     price       name           eps  \
0   128940       한미약품   59385.666667  421000.0        NaN           NaN   
1   130960     CJ E&M   58540.666667   98900.0     CJ E&M   6301.333333   
2   138250      엔에스쇼핑   14558.666667   13200.0        NaN           NaN   
3   139480        이마트  239230.833333  254500.0        이마트  18268.166667   
4   142280     녹십자엠에스     468.833333   10200.0        NaN           NaN   
5   145990        삼양사   82750.000000   82000.0        삼양사   5741.000000   
6   185750        종근당   40293.666667  100500.0        종근당   3990.333333   
7   192400      쿠쿠홀딩스  179204.666667  177500.0        NaN           NaN   
8   199800         툴젠   -2514.333333  115400.0        NaN           NaN   
9   204210     모두투어리츠    3093.333333    3475.0     모두투어리츠     85.166667   
10  136480        NaN            NaN       NaN         하림    274.166667   
11  138040        NaN            NaN       NaN    메리츠금융지주   2122.333333   
12  161390        NaN    

In [None]:
#join하는 컬럼의 이름이 다를 때
print(pd.merge(price, valuation, how='right', left_on='stock_name', right_on ='name'))

## JOIN

In [78]:
#join은 기본적으로 인덱스를 가지고 join 을 수행
price.index = price['id']
valuation.index = valuation['id']

#동일한 컬럼 이름 제거
price .drop(['id'], axis = 1, inplace = True)
valuation.drop(['id'], axis=1, inplace = True)
print(price.join(valuation) )

       stock_name          value   price    name           eps       bps  \
id                                                                         
128940       한미약품   59385.666667  421000     NaN           NaN       NaN   
130960     CJ E&M   58540.666667   98900  CJ E&M   6301.333333   54068.0   
138250      엔에스쇼핑   14558.666667   13200     NaN           NaN       NaN   
139480        이마트  239230.833333  254500     이마트  18268.166667  295780.0   
142280     녹십자엠에스     468.833333   10200     NaN           NaN       NaN   
145990        삼양사   82750.000000   82000     삼양사   5741.000000  108090.0   
185750        종근당   40293.666667  100500     종근당   3990.333333   40684.0   
192400      쿠쿠홀딩스  179204.666667  177500     NaN           NaN       NaN   
199800         툴젠   -2514.333333  115400     NaN           NaN       NaN   
204210     모두투어리츠    3093.333333    3475  모두투어리츠     85.166667    5335.0   

              per       pbr  
id                           
128940        NaN       NaN

## 그룹 연산

### group by

In [80]:
titanic = sns.load_dataset('titanic')
#print(titanic.info())

df = titanic[['age','sex','class','fare','survived']]
print(df.head())

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


In [83]:
#그룹화
grouped = df.groupby(['class'])
#그룹화 한 후 각 그룹의 데이터 개수 출력
for key, group in grouped :
    print(key, len(group))

('First',) 216
('Second',) 184
('Third',) 491


In [85]:
#특정 그룹의 데이터를 선택
group3 = grouped.get_group('Third')
print(group3.head())

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


In [89]:
#두개의 열로 그룹화 -key가 2개의 항목의 튜플로 만들어집니다.
grouped = df.groupby(['class', 'sex'])
for key, group in grouped :
    print(key)

('First', 'female')
('First', 'male')
('Second', 'female')
('Second', 'male')
('Third', 'female')
('Third', 'male')


In [91]:
#한개의 데이터를 가져올 때
group3m = grouped.get_group(('Third', 'male'))
print(group3m.head())

     age   sex  class     fare  survived
0   22.0  male  Third   7.2500         0
4   35.0  male  Third   8.0500         0
5    NaN  male  Third   8.4583         0
7    2.0  male  Third  21.0750         0
12  20.0  male  Third   8.0500         0


## 집계연산

In [92]:
#제공되는 집계 함수를 호출
df = titanic[['class', 'age']]
#class 별로 그룹화 해서 age의 표준편차 확인
grouped = df.groupby(['class'])
std_all = grouped.std()
print(std_all)

              age
class            
First   14.802856
Second  14.001077
Third   12.495398


In [93]:
#데이터 모임을 가지고 하나의 값을 리턴하는 함수
def min_max(x) :
     return x.max() - x.min()
    
# 사용자 정의 함수를 이용한 집계    
result = grouped.agg(min_max)
print(result)

          age
class        
First   79.08
Second  69.33
Third   73.58


In [97]:
#age열의 값을 z-score로 변환
# z-score : (값-평균)/ 표준편차

#점수가 어느 정도에 위치하는지 알고자 할 때 이용

#z_score 구해주는 함수
def z_score(x) :
    return (x - x.mean())/ x.std()

age_zscore = grouped.transform(z_score)
print(age_zscore.tail()) # NaN은 결측치가 포함된 경우

          age
886 -0.205529
887 -1.299306
888       NaN
889 -0.826424
890  0.548953


## 멀티 인덱스

In [109]:
df = titanic[['class','sex','age']]
#2개의 컬럼을 이용해서 그룹화
grouped = df.groupby(['class','sex'])

'''
for key in grouped :
    print(key)
'''
  
#age의 평균 구하기
gdf = grouped.mean()
print(gdf)

#특정 class 출력
print(gdf.loc['First'])

#특정 sex 출력
print(gdf.xs('male',level = 'sex'))

#특정 행 출력
print(gdf.loc[('First', 'female')])

                     age
class  sex              
First  female  34.611765
       male    41.281386
Second female  28.722973
       male    30.740707
Third  female  21.750000
       male    26.507589
              age
sex              
female  34.611765
male    41.281386
              age
class            
First   41.281386
Second  30.740707
Third   26.507589
age    34.611765
Name: (First, female), dtype: float64


In [103]:
#age의 평균 구하기
gdf1 = grouped.count()
gdf2 = grouped.size()

print(gdf1)
print(gdf2)

               age
class  sex        
First  female   85
       male    101
Second female   74
       male     99
Third  female  102
       male    253
class   sex   
First   female     94
        male      122
Second  female     76
        male      108
Third   female    144
        male      347
dtype: int64


## pivot_table

In [110]:
df = titanic[['class','sex','age']]
result = pd.pivot_table(df, index ='class', columns = 'sex',
                        values = 'age', aggfunc ='sum') # 클래스 별로, sex의 age값들을 합해 라는 뜻
print(result)

sex     female     male
class                  
First   2942.0  4169.42
Second  2125.5  3043.33
Third   2218.5  6706.42


# stack

In [114]:
#stacked : 행을 열로 변경하는 작업- 넓게 펼처진 데이터를 깊게 만드느 작업
mul_index = pd.MultiIndex.from_tuples([('cust_1', '2015'),('cust_1', '2016'),
                                      ('cust_2', '2015'),('cust_2', '2016')])
data = pd.DataFrame(data =np.arange(16).reshape(4, 4), index = mul_index,
                   columns = ['prd_1','prd_2','prd_3','prd_4'], dtype = 'int')
print(data)

             prd_1  prd_2  prd_3  prd_4
cust_1 2015      0      1      2      3
       2016      4      5      6      7
cust_2 2015      8      9     10     11
       2016     12     13     14     15


In [115]:
stacked = data.stack()
print(stacked)

cust_1  2015  prd_1     0
              prd_2     1
              prd_3     2
              prd_4     3
        2016  prd_1     4
              prd_2     5
              prd_3     6
              prd_4     7
cust_2  2015  prd_1     8
              prd_2     9
              prd_3    10
              prd_4    11
        2016  prd_1    12
              prd_2    13
              prd_3    14
              prd_4    15
dtype: int32


## unstacked

In [119]:
#첫 레벨의 인덱스가 컬럼이 됩니다.
unstacked = stacked.unstack(level = 0)
print(unstacked)

#다단으로 구성된 인덱스의 경우는 여러번 unstack이 가능!
print(unstacked.unstack())

            cust_1  cust_2
2015 prd_1       0       8
     prd_2       1       9
     prd_3       2      10
     prd_4       3      11
2016 prd_1       4      12
     prd_2       5      13
     prd_3       6      14
     prd_4       7      15
     cust_1                   cust_2                  
      prd_1 prd_2 prd_3 prd_4  prd_1 prd_2 prd_3 prd_4
2015      0     1     2     3      8     9    10    11
2016      4     5     6     7     12    13    14    15


## 단위 환산

In [122]:
#mpg 데이터는 자동차에 대한 정보를 가지는 데이터입니다.
#mpg 열이 연비인데 미국에서는 갤런당 마일을 사용하는데 우리나라는 리터당 킬로미터를 사용함
#이런 경우는 단위 변환을 해주는 것이 데이터를 읽는데 편리합니다.
#1마일은 1.60934km 이고 1갤런은 3.78541리터

#데이터 불러오기
mpg = pd.read_csv('./data/auto-mpg.csv', header= None)
mpg.columns=['mpg','cylinders','displacement','horsepower','weight','acceleration',
             'model year','origin','name']
print(mpg.head())

    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2  18.0          8         318.0      150.0  3436.0          11.0          70   
3  16.0          8         304.0      150.0  3433.0          12.0          70   
4  17.0          8         302.0      140.0  3449.0          10.5          70   

   origin                       name  
0       1  chevrolet chevelle malibu  
1       1          buick skylark 320  
2       1         plymouth satellite  
3       1              amc rebel sst  
4       1                ford torino  


In [123]:
#갤런당 마일을 리터당 km로 변환할 수 있는 상수 구하기
mpg_to_kpi = 1.60934 / 3.78541
# 'kpl' 이라는 컬럼 생성 : 우리나라의 연비 의미
mpg['kpl'] = mpg['mpg'] * mpg_to_kpi
print(mpg.head())



    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  18.0          8         307.0      130.0  3504.0          12.0          70   
1  15.0          8         350.0      165.0  3693.0          11.5          70   
2  18.0          8         318.0      150.0  3436.0          11.0          70   
3  16.0          8         304.0      150.0  3433.0          12.0          70   
4  17.0          8         302.0      140.0  3449.0          10.5          70   

   origin                       name       kpl  
0       1  chevrolet chevelle malibu  7.652571  
1       1          buick skylark 320  6.377143  
2       1         plymouth satellite  7.652571  
3       1              amc rebel sst  6.802286  
4       1                ford torino  7.227428  


### 자료형 변경

In [134]:
# print(mpg.dtypes)
#horsepower은 마력을 나타내는 것이므로 숫자 자료형이어야 하는데 object임

# ? 데이터가 존재해서 형 변환 실패 -.-
# mpg['horsepower'] = mpg['horsepower'].astype('float')

#데이터 확인
#중복된 데이터를 제거하고 모든 데이터를 추출
# print(mpg['horsepower'].unique())

#?를 Nan으로 치환
mpg['horsepower'].replace('?', np.nan, inplace = True)

#NaN을 제거
mpg.dropna(subset=['horsepower'],inplace = True)

#실수 자료형으로 변경
mpg['horsepower'] = mpg['horsepower'].astype('float')

print(mpg.dtypes)

mpg             float64
cylinders         int64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
model year        int64
origin            int64
name             object
kpl             float64
dtype: object
