In [1]:
# 라이브러리 -> 특정 작업을 수행하기 위해 미리 작성된 코드의 집합
# 개발속도를 높이고, 재사용성을 높이고, 코드의 유지 보수를 쉽게 만드는 효과
# numpy(복잡한 계산), pandas(데이터 분석)

# 00. 판다스 기본 자료 
# 1) 시리즈(Series)
# 1차원 배열, 인덱스 사용, 데이터 타입을 가짐 
# pd.Series() -> 하나의 열

# numpy array로 생성 
import numpy as np
arr = np.arange(100, 105)  # range는 정수 단위만 지원 / np.arange는 실수 단위도 표현
arr 

array([100, 101, 102, 103, 104])

In [2]:
import pandas as pd
s = pd.Series(arr)
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

In [3]:
# 리스트로 생성
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

In [4]:
# 다양한 타입의 데이터를 섞은 경우
# 시리즈에 다양한 데이터 생성시 object 타입으로 생성
s = pd.Series([91, 2.5, '스포츠', 4, 5, 5.16])
s

0      91
1     2.5
2     스포츠
3       4
4       5
5    5.16
dtype: object

In [5]:
# 인덱싱, 0 부터 순차적으로 나옴
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

In [6]:
s.index 

RangeIndex(start=0, stop=5, step=1)

In [7]:
s[0]

'부장'

In [8]:
s[[1, 3]] # 1, 3인 인덱스를 추출 

1    차장
3    사원
dtype: object

In [9]:
s[np.arange(1, 4, 2)] # 1~3 / 2씩 커짐 

1    차장
3    사원
dtype: object

In [10]:
# boolean indexing -> 조건 인덱싱 (True, False)
np.random.seed(0) # seed(숫자) 고정된 값을 출력
s = pd.Series(np.random.randint(10000,20000,size=10,)) # randint(시작, 끝, 개수) -> 범위의 정수를 출력
s

0    12732
1    19845
2    13264
3    14859
4    19225
5    17891
6    14373
7    15874
8    16744
9    13468
dtype: int32

In [11]:
s > 15000

0    False
1     True
2    False
3    False
4     True
5     True
6    False
7     True
8     True
9    False
dtype: bool

In [12]:
s [ s > 15000] # 데이터 필터링 -> 데이터 프라임[조건]

1    19845
4    19225
5    17891
7    15874
8    16744
dtype: int32

In [13]:
# 사용자 인덱스 지정
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [14]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [15]:
s['c'] # 사용자 정의 인덱스 부여시 변경된 인덱스로 조회가 가능

'개발'

In [16]:
s[['a', 'c']] 

a    마케팅
c     개발
dtype: object

In [17]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'])
s.index

RangeIndex(start=0, stop=5, step=1)

In [18]:
s.index = list('abcde') 
# s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])와 같은 말
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

In [19]:
# 속성(attribute)
# values -> Series의 데이터 값만 numpy array 형식으로 가져옴 
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

In [20]:
# ndim 차원 -> Series는 1차원 구조이기 때문에 출력시 1이 나옴 
s.ndim

1

In [21]:
# shape 데이터의 모양 -> 데이터의 갯수 -> 튜플(tuple)의 형식으로 출력 / 튜플은 한 번 생성하면 변경할 수 없는 속성 , () 사용  -> 요소가 하나일 땐 ,(콤마)가 필요함
s.shape

(5,)

In [22]:
# NaN(Not a Number) -> 결측치 데이터 -> 비어있는 값을 대입하고자 할 때는 numpy의 num (np.nan)을 입력
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

In [23]:
# NaN(결측치) 값 처리 
# isnull() / isna() -> NaN를 찾는 함수 (결과가 동일) -> 결측치 True (bool타입)
# notnull() / notna() -> NaN이 아닌 비어있지 않은 데이터를 찾음 -> 결측치 False
s.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [24]:
s.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [25]:
s[s.isnull()]

2    NaN
dtype: object

In [26]:
s[s.isna()]

2    NaN
dtype: object

In [27]:
s.notnull()  

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [28]:
s.notna()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [29]:
s[s.notnull()]

0    선화
1    강호
3    소정
4    우영
dtype: object

In [30]:
s[s.notna()]

0    선화
1    강호
3    소정
4    우영
dtype: object

In [31]:
# 슬라이싱 -> 숫자형 인덱스는 뒷 인덱스를 포함하지 않음
s = pd.Series(np.arange(100, 150, 10))
s

0    100
1    110
2    120
3    130
4    140
dtype: int32

In [32]:
s[1:3]

1    110
2    120
dtype: int32

In [33]:
# 문자열은 마지막 인덱스 모두 포함
s.index = list('가나다라마')
s

가    100
나    110
다    120
라    130
마    140
dtype: int32

In [34]:
s['나':'라']

나    110
다    120
라    130
dtype: int32

In [35]:
# 연습문제 1. 시리즈 생성
pd.Series(np.arange(3, 12, 2), dtype='float32')

0     3.0
1     5.0
2     7.0
3     9.0
4    11.0
dtype: float32

In [36]:
# 2. 시리즈 생성
pd.Series(list('가나다라마')) # pd.Series(['가','나','다','라','마'])

0    가
1    나
2    다
3    라
4    마
dtype: object

In [37]:
# 3. 시리즈 생성 후 sample 변수에 대입
s = pd.Series(np.arange(10,60,10), index=list('가나다라마'))
s

가    10
나    20
다    30
라    40
마    50
dtype: int32

In [38]:
# 4. '나'와 '라' 데이터 출력
s[['나','라']]

나    20
라    40
dtype: int32

In [39]:
# 5. 160 이하인 데이터만 필터
np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size=(15,)))
sample2

sample2 [sample2 <= 160]

2     115
4     128
6     109
7     120
9     122
11    134
13    140
dtype: int32

In [40]:
# 6. 130이상 170이하 
np.random.seed(20)
sample2 = pd.Series(np.random.randint(100, 200, size=(15,)))
sample2

sample2 [(sample2 >= 130) & (sample2 <= 170)]

11    134
13    140
dtype: int32

In [41]:
# 7. 시리즈 생성 
s = pd.Series(['apply', np.nan, 'banana', 'kiwi', 'gubong'], index=list('가나다라마'))
s

가     apply
나       NaN
다    banana
라      kiwi
마    gubong
dtype: object

In [42]:
# 8. 결측치 데이터 필터
sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample
sample [sample.isnull()]

1    NaN
3    NaN
dtype: object

In [43]:
# 9. 결측치가 아닌 데이터만 필터
sample = pd.Series(['IT서비스', np.nan, '반도체', np.nan, '바이오', '자율주행'])
sample

sample [sample.notnull()]

0    IT서비스
2      반도체
4      바이오
5     자율주행
dtype: object

In [44]:
# 10. 슬라이싱
np.random.seed(0)
sample = pd.Series(np.random.randint(100, 200, size=(10,)))
sample

sample[2:7]

2    164
3    167
4    167
5    109
6    183
dtype: int32

In [45]:
# 11. 슬라이싱
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

sample2['바':'차'] # sample2['바':]

바    109
사    183
아    121
자    136
차    187
dtype: int32

In [46]:
# 12. 슬라이싱
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

sample2['가':'다'] # sample2[:'다']

가    144
나    147
다    164
dtype: int32

In [47]:
# 13. 슬라이싱
np.random.seed(0)
sample2 = pd.Series(np.random.randint(100, 200, size=(10,)), index=list('가나다라마바사아자차'))
sample2

sample2['나':'바']

나    147
다    164
라    167
마    167
바    109
dtype: int32

In [48]:
# 2) 데이터프레임(DataFrame)
# 2차원 데이터 구조, 행과 열로 구성, 각 열은 각각의 데이터 타입을 가짐


# list를 통한 생성, columns 지정
pd.DataFrame([[1,2,3],
             [4,5,6],
             [7,8,9]], columns=['가','나','다'])

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [49]:
# dictionary를 통한 생성 -> key의 값이 자동으로 column명으로 지정됨
data = {
    'name':['Kim','Lee','Park'],
    'age':[24,27,34],
    'children':[2,1,3]
}
pd.DataFrame(data)

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [50]:
# 속성
# index-> 기본값으로 숫자 / columns-> column 명 / values-> 데이터 값 / dtypes-> column 별 데이터 타입 / T-> DataFrame
data = {
    'name':['Kim','Lee','Park'],
    'age':[24,27,34],
    'children':[2,1,3]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [51]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [52]:
df.columns

Index(['name', 'age', 'children'], dtype='object')

In [53]:
df.values

array([['Kim', 24, 2],
       ['Lee', 27, 1],
       ['Park', 34, 3]], dtype=object)

In [54]:
df.dtypes

name        object
age          int64
children     int64
dtype: object

In [55]:
df.T

Unnamed: 0,0,1,2
name,Kim,Lee,Park
age,24,27,34
children,2,1,3


In [56]:
# 인덱스 지정
df.index = list('abc')
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


In [57]:
# column 
# 1개의 column 선택시 Series가 됨
df['name']

a     Kim
b     Lee
c    Park
Name: name, dtype: object

In [58]:
type(df['name'])

pandas.core.series.Series

In [59]:
# 2개 이상의 colomn의 선택은 fancy indexing으로 가능
df[['name', 'children']]

Unnamed: 0,name,children
a,Kim,2
b,Lee,1
c,Park,3


In [60]:
# inplace=True 옵션으로 변경사항 원본에 바로 적용 
df.rename(columns={'name':'이름'},inplace=True)
df

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


In [61]:
# 연습문제 1. 데이터 프레임 생성
import pandas as pd
data = {
    'food':['KFC', 'McDonald', 'SchoolFood'],
    'price':[1000, 2000, 2500],
    'rating':[4.5, 3.9, 4.2]
}
df = pd.DataFrame(data)
df

Unnamed: 0,food,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


In [62]:
# 2. food, rating 컬럼만 선택
df[['food','rating']]

Unnamed: 0,food,rating
0,KFC,4.5
1,McDonald,3.9
2,SchoolFood,4.2


In [63]:
# 3.food 컬럼명을 place로 변경
df.rename(columns={'food':'place'}, inplace=True)
df

Unnamed: 0,place,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


In [64]:
# 01. 파일 입출력
# 1) Excel
import openpyxl
print(f"openpyxl version: {openpyxl.__version__}")

openpyxl version: 3.0.10


In [65]:
from opendata import dataset
dataset.download('서울시대중교통')
dataset.download('서울시주민등록인구')

ModuleNotFoundError: No module named 'opendata'

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd

In [None]:
pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx')

In [None]:
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='버스', engine='openpyxl')
excel.head()

In [None]:
# sheet_name을 None으로 지정하면 모든 sheet를 들고옴
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name=None, engine='openpyxl')
excel

In [None]:
# key()로 포함하고 있는 시트 조회
excel.keys()

In [None]:
excel['철도'].head()

In [None]:
excel['버스'].head()

In [None]:
# Excel 저장하기 -> 데이터프레임을 엑셀로 저장가능 / index=false은 가급적 꼭 지정 / sheet_name을 지정하여 지정할 시트 이름을 변경할 수 있음
excel=pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl')
excel.head()

# 별도의 시트명 지정 없이 저장
excel.to_excel('sample.xlsx', index=True)

In [None]:
# 시트명을 샘플로 지정하여 저장
excel=pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl')
excel.head()

excel.to_excel('sample.xlsx', index=False, sheet_name='샘플')

In [None]:
# 2) CSV -> -- 한 줄이 한 개의 행에 해당. 열 사이는 쉼표를 넣어구분
# CVS 불러오기 
df = pd.read_csv('data\서울시주민등록인구\seoul_population.csv')
df

In [None]:
# CSv-저장하기 -> excel과 저장법이 유사하나 csv파일 형식에는 sheet_name 옵션이 없음
df = pd.read_csv('data\서울시주민등록인구\seoul_population.csv')

# to_csv으로 저장
df.to_csv('sample.csv', index=False)

In [None]:
# Excel 파일도 CSV로 저장할 수 있음
excel = pd.read_excel('data/서울시대중교통/seoul_transportation.xlsx', sheet_name='버스', engine='openpyxl')
excel.head()

In [None]:
excel.to_csv('sample.csv', index=False)

In [None]:
# 연습문제 1
dataset.download('판다스입출력샘플')

In [None]:
sample = pd.read_excel('data/판다스입출력샘플/file_sample.xlsx')
sample.head()

In [None]:
sample = pd.read_excel('data/판다스입출력샘플/file_sample.xlsx', sheet_name=None)
sample.keys()

In [None]:
sample_202010 = sample['2020년 10월']
sample_202010

In [None]:
sample_202010.to_csv('2020-10-oil-price.csv', index=False)

In [66]:
# 02. 조회, 정렬, 조건필터

from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns # 고급그래프 도구 (파이썬 시각화 도구의 고급 버전)


In [67]:
# 타이타닉: 탑승객의 사망자와 생존자 데이터 분석
df = sns.load_dataset('titanic')
df.head()

# column
# survivied:생존여부(1:생존, 0:사망), pclass: 좌석등급(1,2,3등급), sex:성별, age:나이, sibsp:형제+배우자 수, parch:부모+자녀 수, fare:좌석 요금, embarked:탑승항구(S,C,Q), class(pclass와 동일),
# who:남자(man),여자(woman),아이(child), adult_male:성인 남자 여부, deck:데크 번호(알파벳+숫자), embark_town:탑승 항구 이름, alive:생존여부(yes,no), alone:혼자 탑승 여부


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [68]:
# head() 앞 부분 / tail() 뒷 부분 조회 -> 괄호 안에 숫자를 넣어 조회하고 싶은 행의 갯수를 지정할 수 있음
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [69]:
df.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [70]:
df.head(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


In [71]:
df.tail(7)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [72]:
# info() -> 컬럼별 정보를 보여줌 / 데이터 갯수, 데이터 타입을 확인할 때 사용
df.info()

# ocject -> 문자열 , category -> 문자열이지만 남자, 여자와 같은 카테고리화 할 수 있는 컬럼

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [73]:
# value_counts() -> column 별 값의 분포 
# 남자, 여자, 아이의 데이터 분포 
df['who'].value_counts()

man      537
woman    271
child     83
Name: who, dtype: int64

In [74]:
# 속성 -> 속성은 함수형으로 조회하지 않음 
# ndim -> 차원을 나타냄
df.ndim

2

In [75]:
# shape -> (행, 열) 순서로 출력
df.shape

(891, 15)

In [76]:
# index -> 기본 설정된 RangeIndex가 출력
df.index

RangeIndex(start=0, stop=891, step=1)

In [77]:
# columns -> 열 출력
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [78]:
# values -> 모든 값 출력, numpy array 형식으로 출력
df.values

array([[0, 3, 'male', ..., 'Southampton', 'no', False],
       [1, 1, 'female', ..., 'Cherbourg', 'yes', False],
       [1, 3, 'female', ..., 'Southampton', 'yes', True],
       ...,
       [0, 3, 'female', ..., 'Southampton', 'no', False],
       [1, 1, 'male', ..., 'Cherbourg', 'yes', True],
       [0, 3, 'male', ..., 'Queenstown', 'no', True]], dtype=object)

In [79]:
# T (Transpose) -> index와 column의 축을 교환
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,881,882,883,884,885,886,887,888,889,890
survived,0,1,1,1,0,0,0,0,1,1,...,0,0,0,0,0,0,1,0,1,0
pclass,3,1,3,1,3,3,1,3,3,2,...,3,3,2,3,3,2,1,3,1,3
sex,male,female,female,female,male,male,male,male,female,female,...,male,female,male,male,female,male,female,female,male,male
age,22.0,38.0,26.0,35.0,35.0,,54.0,2.0,27.0,14.0,...,33.0,22.0,28.0,25.0,39.0,27.0,19.0,,26.0,32.0
sibsp,1,1,0,1,0,0,0,3,0,1,...,0,0,0,0,0,0,0,1,0,0
parch,0,0,0,0,0,0,0,1,2,0,...,0,0,0,0,5,0,0,2,0,0
fare,7.25,71.2833,7.925,53.1,8.05,8.4583,51.8625,21.075,11.1333,30.0708,...,7.8958,10.5167,10.5,7.05,29.125,13.0,30.0,23.45,30.0,7.75
embarked,S,C,S,S,S,Q,S,S,S,C,...,S,S,S,S,Q,S,S,S,C,Q
class,Third,First,Third,First,Third,Third,First,Third,Third,Second,...,Third,Third,Second,Third,Third,Second,First,Third,First,Third
who,man,woman,woman,woman,man,man,man,child,woman,child,...,man,woman,man,man,woman,man,woman,woman,man,man


In [80]:
# 타입 변환 (astype)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [81]:
# int32로 변경
df['pclass'].astype('int32').head()

0    3
1    1
2    3
3    1
4    3
Name: pclass, dtype: int32

In [82]:
# object로 변경
df['pclass'].astype('str').head()

0    3
1    1
2    3
3    1
4    3
Name: pclass, dtype: object

In [83]:
# category로 변경 -> categories가 같이 출력 됨
df['pclass'].astype('category').head()

0    3
1    1
2    3
3    1
4    3
Name: pclass, dtype: category
Categories (3, int64): [1, 2, 3]

In [84]:
# 정렬 (sort)
# sort_index -> index 정렬 / 인덱스 기준으로 정렬(기본 오름차순), 내림차순 정렬시 ascending=False
df.sort_index().head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [85]:
df.sort_index(ascending=False).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True


In [86]:
# sort_values -> 값에 대한 정렬 
# 값을 기준으로 행을 정렬, by에 기준이 되는 행 설정, 오름차순 내림차순을 컬럼별로 지정 가능
df.sort_values(by='age').head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False


In [87]:
# 내림차순
df.sort_values(by='age',ascending=False).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
630,1,1,male,80.0,0,0,30.0,S,First,man,True,A,Southampton,yes,True
851,0,3,male,74.0,0,0,7.775,S,Third,man,True,,Southampton,no,True
493,0,1,male,71.0,0,0,49.5042,C,First,man,True,,Cherbourg,no,True
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
116,0,3,male,70.5,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [88]:
# 문자열 컬럼 오름차순, 내림차순 정렬 -> 알파벳 순서
df.sort_values(by='class', ascending=False).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
511,0,3,male,,0,0,8.05,S,Third,man,True,,Southampton,no,True
500,0,3,male,17.0,0,0,8.6625,S,Third,man,True,,Southampton,no,True
501,0,3,female,21.0,0,0,7.75,Q,Third,woman,False,,Queenstown,no,True
502,0,3,female,,0,0,7.6292,Q,Third,woman,False,,Queenstown,no,True


In [89]:
# 2개 이상의 컬럼을 기준으로 정렬
df.sort_values(by=['fare','age']).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
302,0,3,male,19.0,0,0,0.0,S,Third,man,True,,Southampton,no,True
271,1,3,male,25.0,0,0,0.0,S,Third,man,True,,Southampton,yes,True
179,0,3,male,36.0,0,0,0.0,S,Third,man,True,,Southampton,no,True
822,0,1,male,38.0,0,0,0.0,S,First,man,True,,Southampton,no,True
806,0,1,male,39.0,0,0,0.0,S,First,man,True,A,Southampton,no,True


In [90]:
# 각 컬럼에 오름차순 내림차순 지정 (오름차순-True, 내림차순-False)
df.sort_values(by=['fare','age'], ascending=[False,True]).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
88,1,1,female,23.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False


In [91]:
# indexing, slicing 조건 필터링
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [92]:
# ioc-indexing/slicing  -> slicing은 [시작(포함):끝(포함)]
df.loc[5,'class'] # df.loc[행 인덱스 이름, 열 인덱스 이름] -> 특정 값을 골라오는 방법 (하나의 행만 뽑아옴)

'Third'

In [93]:
df.loc[2:5,['age','fare','who']]

Unnamed: 0,age,fare,who
2,26.0,7.925,woman
3,35.0,53.1,woman
4,35.0,8.05,man
5,,8.4583,man


In [94]:
# slicing 예시
df.loc[2:5, 'class':'deck'].head()

Unnamed: 0,class,who,adult_male,deck
2,Third,woman,False,
3,First,woman,False,C
4,Third,man,True,
5,Third,man,True,


In [95]:
df.loc[:6, 'class':'deck']

Unnamed: 0,class,who,adult_male,deck
0,Third,man,True,
1,First,woman,False,C
2,Third,woman,False,
3,First,woman,False,C
4,Third,man,True,
5,Third,man,True,
6,First,man,True,E


In [96]:
# loc 조건 필터
cond = (df['age']>=70)
cond

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [97]:
df.loc[cond] # True만 출력 

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
116,0,3,male,70.5,0,0,7.75,Q,Third,man,True,,Queenstown,no,True
493,0,1,male,71.0,0,0,49.5042,C,First,man,True,,Cherbourg,no,True
630,1,1,male,80.0,0,0,30.0,S,First,man,True,A,Southampton,yes,True
672,0,2,male,70.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
745,0,1,male,70.0,1,1,71.0,S,First,man,True,B,Southampton,no,False
851,0,3,male,74.0,0,0,7.775,S,Third,man,True,,Southampton,no,True


In [98]:
# loc 다중 조건
# 다중 조건은 먼저 조건을 정의, &과 | 연산자로 복합 조건 생성

# 조건1
cond1 = (df['fare']>30)
# 조건2
cond2 = (df['who']=='woman')

df.loc[cond1&cond2]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
25,1,3,female,38.0,1,5,31.3875,S,Third,woman,False,,Southampton,yes,False
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False


In [None]:
df.loc[cond1 | cond2]

In [None]:
# 조건 필터 후 데이터 대입
cond = (df['age']>=70)
df.loc[cond]    

In [None]:
# 나이 컬럼만 출력
df.loc[cond, 'age']

In [None]:
# 조건 필터 후 원하는 값 대입
df.loc[cond, 'age'] = -1
df.loc[cond]

In [None]:
# iloc -> 이름 대신 인덱스 숫자로 위치 선택 (0부터 시작), 종료 인덱스 번호는 포함x
# df.iloc[인덱스번호, 열 번호]
df.head()

In [None]:
# 인덱싱
df.iloc[1,3] # 0부터 시작

In [None]:
# fancy indexing -> 범위가 아닌 측정 인덱스의 집합 값을 선택하여 추출
df.iloc[[0,3,4],[0,1,5,6]]

In [None]:
# 슬라이싱
df.iloc[:3, :5]

In [None]:
# isin -> 특정 값의 포함 여부 
sample = pd.DataFrame({'name':['kim','lee','park','choi'],
                       'age':[24,27,34,19]})
sample

In [None]:
sample['name'].isin(['kim','lee'])

In [None]:
# 조건 필터링
condition = sample['name'].isin(['kim','lee'])
sample.loc[condition]

In [None]:
# 연습문제 1. 
df.head()

In [None]:
# fare 30이상, 40미만을 지불한 승객
# pclass는 1등급
condition1 = (df['fare'] >= 30) & (df['fare'] < 40)
condition2 = (df['pclass'] == 1)

df.loc[condition1 & condition2, 'age'].count()


In [None]:
# 2. age칼럼의 평균
df.loc[condition1 & condition2, 'age'].mean()  # mean -> 평균

In [None]:
diamond = sns.load_dataset('diamonds')
diamond

In [None]:
# 3. depth의 최소값
diamond['depth'].min()  # min -> 최솟값

In [None]:
# 4. carat에 대한 평균과 분산 
diamond['carat'].agg(['mean','var']) # var -> 분산

In [None]:
# 5. X, Y에 대한 합계와 표준편차
diamond[['x', 'y']].agg(['sum','std'])

In [None]:
penguin = sns.load_dataset('penguins')
penguin

In [None]:
# 6. species 컬럼의 고유값
penguin['species'].unique()

In [None]:
# 7. island 컬럼의 최빈값
penguin['island'].mode() 

In [None]:
# 8. body_mass_g 칼럼의 10% 분위수(하위 10%)
penguin['body_mass_g'].quantile(0.1)

In [None]:
# 9. body_mass_g 칼럼의 80% 분위수(상위 20%)
penguin['body_mass_g'].quantile(0.8)

In [None]:
# 04. 복사와 결측치
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
df = sns.load_dataset('titanic')
df.head()

In [None]:
# copy(복사) -> 데이터프레임을 복제, 수정을 해도 원본에는 영향을 미치지 않음
df_copy = df.copy()
df_copy.head()

In [None]:
# age를 99999로 수정 -> 원본 데이터는 변경되지 않음
df_copy.loc[0,'age'] = 99999
df_copy.head()

In [None]:
# 결측치 확인 -> isnull() / isnan()
df.isnull().sum() # df.isna().sum()

In [None]:
# 데이터 프레임의 전체 결측 데이터의 갯수는 sum을 두 번사용
df.isnull().sum().sum()

In [None]:
# 결측치가 아닌 데이터 -> notnull()
df.notnull().sum()

In [None]:
# 결측 데이터 필터링 -> loc에 적용하여 조건 필터링을 사용
df.loc[df['age'].isnull()] 

In [None]:
# 결측치 채우기 -> fillna()
df = sns.load_dataset('titanic')
df1 = df.copy()
df1.tail()

In [None]:
df1['age'].fillna(700).tail() # df1['age'] = df1['age'].fillna(700)와 같음

In [None]:
df1['age'] = df1['age'].fillna(700)
df1.tail()

In [None]:
# 통계값으로 채우기
df1 = df.copy()
df1.tail()

In [None]:
# 평균으로 채우기
df1['age'].fillna(df1['age'].mean()).tail()

In [None]:
# 중앙값으로 채우기
df1['age'].fillna(df1['age'].median()).tail()

In [None]:
# 최빈값으로 채우기
df1['deck'].mode()

In [None]:
# 최빈값으로 채울 때는 반드시 0번째 인덱스를 지정하여 값을 추출한 후  채워야 함
df1['deck'].mode()[0]

In [None]:
df1['deck'].fillna(df1['deck'].mode()[0]).tail()

In [None]:
# NaN 값이 있는 데이터 제거하기 -> dropna
df1 = df.copy()
df1.tail()

In [None]:
df1.dropna() 
# 기본 옵션 값은 how=any로 설정되어 있음 
# any -> 1개 라도 NaN값이 존재시 drop
# all -> 모든 값이 NaN인 경우 drop

In [None]:
df1.dropna(how='all')

In [None]:
df.tail()

In [None]:
df = sns.load_dataset('titanic')
df.tail()

In [None]:
# 연습문제 1. age가 결측치인 승객의 나이를 30세로 일괄 채움
df.loc[df['age'].isnull(), 'age'] = 30
df.tail()

In [None]:
# 2. 
# 남자 승객 나이의 결측치는 남자 승객의 나이의 평균
# 여자 승객 나이의 결측치는 여자 승객의 나이의 평균
df = sns.load_dataset('titanic')
df.tail()

In [None]:
female = (df1['sex'] == 'famale')
male = (df1['sex'] == 'male')

female_age = df1.loc[female, 'age'].mean()
male_age = df1.loc[male, 'age'].mean()

df1.loc[female, 'age'] = df1.loc[female, 'age'].fillna(female_age)
df1.loc[male, 'age'] = df1.loc[male, 'age'].fillna(male_age)


In [None]:
# 05. 데이터 전처리, 추가, 삭제, 변환
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns
import warnings

# warning 무시
warnings.filterwarnings('ignore')

# e notation 표현 방식 변경  (소숫점 자리수 포맷팅)
pd.options.display.float_format = '{:.2f}'.format

# 모든 컬럼 표시   (숫자표기 리셋)
pd.set_option('display.max_columns', None)

df = sns.load_dataset('titanic')
df.head()

In [None]:
df = sns.load_dataset('titanic')
df.head()

df1 = df.copy()
df1.head()

In [None]:
# 임의의 값을 대입하여 새로운 컬럼 추가 (마지막에 추가됨 
df1['VIP'] = True
df1.head()

In [None]:
# 중간에 컬럼 추가 -> insert(컬럼인덱스, 컬럼명, 값)
df1.insert(5, 'RICH', df1['fare'] > 100)

In [None]:
df1

In [None]:
# 행과 열 삭제 
# row 행삭제
df1.drop(1)

In [None]:
# 범위를 지정하여 삭제
df1.drop(np.arange(10))

In [None]:
# fancy indexing 활용하여 삭제 
df1.drop([1,3,5,7,9])

In [None]:
# 열 삭제 -> 열 삭제시 반드시 axis=1 옵션을 지정해야함 , 2번째 위치에서 지정시 생략가능 
# axis=0은 행을 기준으로 동작하는 것, 1은 열을 기준으로 동작
df1.head()

In [None]:
df1.drop('class', axis=1).head()         

In [None]:
# 다수의 컬럼 삭제
df1.drop(['who','deck','alive'], axis=1) 

In [None]:
# 삭제된 내용을 바로 적용하려면 -> inplace=True
df1.drop(['who','deck','alive'], axis=1, inplace=True)
df1.head() 

In [None]:
# 컬럼간 연산
df1 = df.copy()

In [None]:
# family = sibsp + parch
df1['family'] = df1['sibsp'] + df1['parch']
df1.head()

In [None]:
# 문자열의 합 (이어붙이기)
df1['gender'] = df1['who'] + '-' + df1['sex']
df1.head()

In [None]:
# 컬럼간 연산시 round를 사용하여 소수점을 지정할 수 있음 -> round(숫자, 소수 점 자리)
# 연산시 1개의 컬럼이라도 NaN값을 포함하고 있다면 결과는 NaN
df1['round'] = round(df1['fare'] / df1['age'], 2)
df1.head()

In [None]:
# category 타입
df1 = df.copy()
df1.head(2)

In [None]:
df1.info()

In [None]:
# category로 변경
df1['who'].astype('category').head()

In [None]:
df1['who'] = df1['who'].astype('category')

In [None]:
df1.info()

In [None]:
# category로 변환하면 .cat으로 접근하여 attribute 사용 가능
# 카테고리 출력
df1['who'].cat.categories


In [None]:
# datetime - 날짜 시간
# 실습용 데이터셋 다운로드
!pip install opendata-kr -q

from opendata import dataset

dataset.download('서울시자전거')

In [None]:
import pandas as pd

# 데이터셋 로드
df2 = pd.read_csv('data/서울시자전거/seoul_bicycle.csv')
df2.head()

In [None]:
 df2.info() # 날짜는 문자열로 인식, datetime타입으로 변경해야 .dt 접근자를 사용할 수 있음

In [None]:
# pd.to_datetime() -> datetime 타입으로 변환
pd.to_datetime(df2['대여일자'])

In [None]:
df2['대여일자'] = pd.to_datetime(df2['대여일자'])
df2.info()

In [None]:
df2['대여일자'].dt.year

In [None]:
df2['대여일자'].dt.month

In [None]:
df2['대여일자'].dt.day

In [None]:
df2['대여일자'].dt.dayofweek # 요일 -> weekday와 같음

In [None]:
# pd.cut() - 구간 나누기 -> 연속된 수치를 구간으로 나누어 카테고리와 할 때 사용
# 동일한 길이로 구간을 나눔  동일한 데이터 개수로 구간을 나눔
# cut.[데이터, 구간의 갯수, 레이블명, 경계 포함]
df2.head()

In [None]:
# right=False 로 지정시 우측 범위를 포함하지 않음 -> 특정 값을 '미만'으로 구역으로 나눔 / 부등호 포함 위치
bins = [0, 6000, 100000, df2['이동거리'].max()]
pd.cut(df2['이동거리'], bins, right=False) 

In [None]:
labels = ['적음', '보통', '많음']
pd.cut(df2['이동거리'],bins,labels=labels,right=False)
# cut.[데이터, 구간의 갯수, 레이블명, 경계 포함]

In [None]:
df2.head()

In [None]:
# bins -> 옵션에 나누고자 하는 구간의 개수 설정
# pd.qcut() -> 동일한 갯수를 갖도록 구간 분할
df2['이동거리_qcut'] = pd.qcut(df2['이동거리'], q=3)
df2['이동거리_qcut'].value_counts()  # 간격이 일정하게 정해지지 않음

# .value_counts() 는 범주가 어떻게 구분되었는지 데이터 수를 알 수 있음 

In [None]:
qcut_bins = [0, 0.2, 0.8, 1]
pd.qcut(df2['이동거리'], qcut_bins)

In [None]:
qcut_labels = ['적음', '보통', '많음']
pd.qcut(df2['이동거리'], qcut_bins, labels=qcut_labels).value_counts()

In [None]:
# 05. 데이터 전처리, 추가, 삭제, 변환
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns
import warnings

# warning 무시
warnings.filterwarnings('ignore')

# e notation 표현 방식 변경  (소숫점 자리수 포맷팅)
pd.options.display.float_format = '{:.2f}'.format

# 모든 컬럼 표시   (숫자표기 리셋)
pd.set_option('display.max_columns', None)

df = sns.load_dataset('titanic')
df.head()

In [None]:
df = sns.load_dataset('titanic')
df.head()

df1 = df.copy()
df1.head()

In [None]:
# 연습 문제 1
# df1에서 1,3,5행 삭제 
# df1에서 embarked, class, alone 컬럼 삭제
# df1의 상위 10개 행을 출력
df1 = df1.drop([1, 3, 5])
df1 = df1.drop(['embarked', 'class', 'alone'], axis=1)
df1.head(10)

In [None]:
# 2.
# iris 붓꽃 데이터셋을 활용
# species: 붓꽃 데이터의 종류 / sepal_length: 꽃받침의 길이 / sepal_width: 꽃받침의 넓이 / petal_length: 꽃잎의 길이 / petal_width: 꽃잎의 넓이
iris = sns.load_dataset('iris')
iris.head()

In [None]:
# sepal 컬럼을 생성하고, sepal_length와 sepal_width를 곱한 값을 대입, 상위 5개의 행만 출력
iris['sepal'] = iris['sepal_length'] * iris['sepal_width']
iris.head() 

In [None]:
# 3.
# petal 컬럼을 생성, petal_length 와 petal_width를 곱한 값을 대입, 상위 5개의 행만 출력
iris['petal'] = iris['petal_length'] * iris['petal_width']
iris.head()

In [None]:
# 4.
# petal_length, petal_width 컬럼 제거, 상위 5개의 행만 출력
iris = iris.drop(['petal_length', 'petal_width'], axis=1)
iris.head()

In [None]:
# 5.
# species가 setosa인 꽃 중 sepal을기준으로 내림차순 정렬, 상위 10개의 행만 출력
iris.loc[iris['species'] == 'setosa'].sort_values('sepal', ascending=False).head(10)

In [None]:
# 6.
# sepal 컬럼과 petal 컬럼의 평균의 차이
iris['sepal'].mean() - iris['petal'].mean()

In [None]:
# 7.
# 데이터셋 로드
df2 = pd.read_csv('data/서울시자전거/seoul_bicycle.csv')
df2.head()

In [None]:
# 컬럼에서 연도, 월, 일, 요일, 데이터를 추출하여 컬럼 추가, 상위 5개의 행만 출력
df2['대여일자'] = pd.to_datetime(df2['대여일자'])
df2['연도'] = df2['대여일자'].dt.year
df2['월'] = df2['대여일자'].dt.month
df2['일'] = df2['대여일자'].dt.day
df2['요일'] = df2['대여일자'].dt.dayofweek
df2.head(5)

In [None]:
# 8. 
sample = sns.load_dataset('titanic')
sample.head(3)

In [None]:
# age 구간 나누기 0세 초과 ~ 15세 이하 / 15세 초과 ~ 30세 이하 / 30세 초과 ~ 45세 이하 / 45세 초과 ~ 최대값
# 구간을 나눈 후 age_bin 컬럼을 생성하여 나눈 값을 대입하고 분포 출력 -> cut() 함수를 활용
# 코드를 입력해 주세요
sample['age_bin'] = pd.cut(sample['age'], [0, 15, 30, 45, sample['age'].max()])
sample['age_bin'].value_counts()

In [None]:
# 3개의 균등 분할 , 분포 출력
sample['age_qbin'] = pd.qcut(sample['age'], 3, labels=['young', 'normal', 'old'])
sample['age_qbin'].value_counts()

In [99]:
# 06. Groupby와 pivot table
# groupby() -> 데이터를 피봇팅하여 통계량을 볼 수 있도록 도와주는 메서드, 데이터를 특정 조건에 맞게 전처리 해 줄 때 용이
# pivot_table() -> 데이터를 특정 조건에 따라 행과 열을 기준으로 데이터를 펼쳐서 그에 대한 통계량을 볼 때 활용
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

In [100]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [101]:
# apply() -> 데이터 전처리시 많이 활용됨
# who 컬럼에 대해 man은 남자, woman은 여자, child는 아이로 변경
df['who'].value_counts()

man      537
woman    271
child     83
Name: who, dtype: int64

In [102]:
# 함수 정의 
def transform_who(x):
    if x == 'man':
        return '남자'
    elif x == 'woman':
        return '여자'
    else:
        return '아이'

In [103]:
df['who'].apply(transform_who)

0      남자
1      여자
2      여자
3      여자
4      남자
       ..
886    남자
887    여자
888    여자
889    남자
890    남자
Name: who, Length: 891, dtype: object

In [104]:
# 분포확인
df['who'].apply(transform_who).value_counts()

남자    537
여자    271
아이     83
Name: who, dtype: int64

In [105]:
def transform_who(x):
    return x['fare'] / x['age']

df.apply(transform_who, axis=1)

0      0.329545
1      1.875876
2      0.304808
3      1.517143
4      0.230000
         ...   
886    0.481481
887    1.578947
888         NaN
889    1.153846
890    0.242188
Length: 891, dtype: float64

In [106]:
# apply() - lambda 함수 -> 간단한 logic은 함수를 굳이 정의하지 않고, lambda 함수로 쉽게 해결 가능
df['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

In [107]:
# 0: 사망, 1: 생존으로 변경
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [108]:
df['survived'].apply(lambda x: '생존' if x == 1 else '사망')

0      사망
1      생존
2      생존
3      생존
4      사망
       ..
886    사망
887    생존
888    사망
889    생존
890    사망
Name: survived, Length: 891, dtype: object

In [109]:
df['survived'].apply(lambda x: '생존' if x == 1 else '사망').value_counts()

사망    549
생존    342
Name: survived, dtype: int64

In [110]:
# 1) groupby() -> 데이터를 특정 기준으로 그룹핑할 때 사용, 엑셀의 피벗테이블과 유사
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [111]:
data = sns.load_dataset('titanic')

In [112]:
# 타이타닉호의 생존자와 사망자를 성별기준으로 그룹핑
# 성별, 좌석등급 별 통계
df.groupby(['sex']).count()

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
female,314,314,261,314,314,314,312,314,314,314,97,312,314,314
male,577,577,453,577,577,577,577,577,577,577,106,577,577,577


In [117]:
df.groupby('sex').mean()

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


In [115]:
df.groupby(["sex"])["pclass"].agg(["mean","var"])

Unnamed: 0_level_0,mean,var
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,2.159236,0.734946
male,2.389948,0.661913


In [None]:
df['sex'].value_counts()

In [None]:
# 2개 이상의 컬럼으로 그룹
df.groupby(['sex', 'pclass']).mean()

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])['survived'].mean()

In [None]:
# DataFrame으로 출력
pd.DataFrame(df.groupby(['sex', 'pclass'])['survived'].mean())
# 와 같음 df.groupby(['sex', 'pclass'])[['survived']].mean()

In [None]:
# reset_index() -> 인덱스 초기화 , 그룹핑된 데이터프레임의 index를 초괴화하여 새로운 데이터프레임 생성
# index 초기화
df.groupby(['sex', 'pclass'])['survived'].mean().reset_index()

In [None]:
# 다중 컬럼에 대한 결과 도출
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])[['survived','age']].mean()

In [None]:
# 다중 통계 함수 적용 -> 여러 가지의 통계 값을 적용할 때는 agg() 사용
# 성별, 좌석등급 별 통계
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])[['survived', 'age']].agg(['mean', 'sum'])

In [None]:
# 연습문제 1.
sample = df.copy()
sample.head()

In [None]:
sample['class'].value_counts()

In [None]:
def convert(x):
    if x == 'Frist':
        return '일등석'
    elif x == "Second":
        return '이등석'
    elif x == 'Third':
        return '삼등석'
sample['class'].apply(convert).value_counts()

In [None]:
# 2.
sample = df.copy()
sample

In [None]:
# pclass 별 생존율
sample.groupby('pclass')['survived'].mean()

In [None]:
# 3. 
# embarked 별 생존율 