### 구글드라이브 연동

In [2]:
# 구글드라이브 연동
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

# 구글 드라이브 파일 확인
!ls '/gdrive/My Drive/temp/'

# 반복되는 드라이브 경로 변수화
drive_path = '/gdrive/My Drive/temp/'

Mounted at /gdrive
매수종목1.txt  height_weight.txt      sample2.pdf
매수종목2.txt  Helloword.xlsx	      sample_merge.pdf
adult.data     HelloWorld.xlsx	      sample.xlsx
auto-mpg.csv   little-char.png	      score.csv
bmi_500.csv    population_number.csv  test.db.db
citibike.csv   ram_price.csv	      Traffic_Accident_2017.csv
매수종목.csv   ratings_small.txt      train.csv
database       ratings_test.txt       user_id_mean.csv
data_mine.csv  ratings_train.txt      user_id_mean.gsheet
example.docx   sample1.pdf	      남북한발전전력량.xlsx


# Pandas
데이터 핸들링


## Pandas 기초
Pandas 모듈
- Series Class : 1차원
 - 인덱스(index) + 값(value)
- DataFrame Class : 2차원
 - 표와 같은 형태


In [3]:
import pandas as pd

### Series

In [4]:
# Series 생성
s = pd.Series([4,7,-5,3])
s

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
# 인덱스 지정하여 생성
s= pd.Series([4,7,-5,3], index=['d','b','a','c'])
s

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
 # 값 확인
 # 인덱스 확인
 # 타입 확인
 print(s.values)
 print(s.index)

[ 4  7 -5  3]
Index(['d', 'b', 'a', 'c'], dtype='object')


#### Pandas 연습 01
각 도시의 2015년 인구 데이터를 시리즈로 만드시오.
```
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
```

In [7]:
pop = pd.Series([9904312,3448737,2890451,2466052],index=['서울','부산','인천','대구'])
pop

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### Series

In [8]:
# Series 이름 지정
pop.name = '인구'
pop.index.name = 'city'

In [9]:
# Series 연산
pop / 10000

city
서울    990.4312
부산    344.8737
인천    289.0451
대구    246.6052
Name: 인구, dtype: float64

In [10]:
# Series 인덱싱
pop[1], pop['부산']

(3448737, 3448737)

In [11]:
pop[[0,1,3]]

city
서울    9904312
부산    3448737
대구    2466052
Name: 인구, dtype: int64

In [12]:
# Series 슬라이싱
pop[1:3], pop['부산':'대구']

(city
 부산    3448737
 인천    2890451
 Name: 인구, dtype: int64, city
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 인구, dtype: int64)

In [13]:
# Series Boolean 인덱싱
# 인구 250만 이상 도시
pop[pop>=2500000]

city
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [14]:
# 인구 500만 이하 도시
pop[pop<=5000000]

# 인구 250만 이상 500만 이하 도시
pop[pop<=5000000][pop>=2500000]
pop[(pop<=5000000) & (pop>=2500000)]


city
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [15]:
# 딕셔너리 객체로 Series 생성 (2010년 인구수)
data = {'서울' : 9631482, '부산' : 3393191, '인천' : 2632035, '대전' : 1490158}
s2 = pd.Series(data)
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [16]:
# 2015년도와 2010년도의 인구 증가를 계산
# 이 경우는 키값에 따라서 계산되는 것이기 때문에 순서는 크게 상관이 없음
ds = pop - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [17]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [18]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [19]:
# 2015년도와 2010년도의 인구 증가율(%)를 계산
rs=(ds/s2)*100
rs

대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [20]:
# Series 데이터 갱신, 추가, 삭제
rs['대구'] = 1.41
rs['부산'] = 1.6
rs
del rs['서울']

### DataFrame

In [86]:
# DataFrame 생성
data= {'2015':[9904312,3448737,2890451,2466052],
       '2010':[9631482,3393191,2632035,2431774]}

df = pd. DataFrame(data)
display(df)# 그냥 df가 출력이 안되면

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [102]:
# DataFrame 인덱스 수정
df.index= ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,245016


In [78]:
# DataFrame 인덱스 지정하여 생성
data= [[9904312,3448737,2890451,2466052],
       [9631482,3393191,2632035,2431774]]
index = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data,index=index,columns=col)
display(df2)
display(df2.T)

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


#### Pandas 연습 02
DataFrame을 이용하여 아래와 같은 결과를 구성하시오.

| |홍길동|	김사또|	임꺽정|
|---|---|---|---|
|키|	175.3|	180.2|	178.6|
|몸무게|	66.2|	78.9|	55.1|
|나이|	27.0|	49.0|	35.0|


In [24]:
dic = {'홍길동':[175.3,66.2,27.0],'김사또':[180.2,78.9,49.0],'임꺽정':[178.6,55.1,35.0]}
ind = ['키','몸무게','나이']
df = pd.DataFrame(dic,index=ind)
df

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


#### DataFrame

In [68]:
 # 값 확인
print(df.values)
 # 인덱스 확인
print(df.index)
 # 컬럼 확인
print(df.columns)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')


In [80]:
# DataFrame 열 인덱스
# 열 인덱스는 하나의 시리즈만 추출이 가능 DataFrame 열 인덱스
# 열 인덱스는 하나의 시리즈만 추출이 가능
df["2015"]
df[['2015','2010']]
df["2015"]
df[['2015','2010']]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [100]:
# "2005" 라는 컬럼명으로 2005년 인구수 대입
df['2005'] = [9762546,3512547,2517680,245016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,245016


In [89]:
# DataFrame 행 인덱스
# 인덱스 범위수정을 하는 건 행 인덱스만 가능함
df[0: 1]
df['서울':'인천']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [96]:
# DataFrame Boolean 인덱스
display(df['2010'] > 300000)
display(df['2010'])
display(df['2010'][df['2010'] > 300000])

서울     True
 부산    True
인천     True
대구     True
Name: 2010, dtype: bool

서울     9631482
 부산    3393191
인천     2632035
대구     2431774
Name: 2010, dtype: int64

서울     9631482
 부산    3393191
인천     2632035
대구     2431774
Name: 2010, dtype: int64


#### loc, iloc 인덱서

In [101]:
# loc[] - 실제 인덱스를 사용하여 행을 가지고 올 때 사용
df.loc['서울':'부산','2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [103]:
# iloc[] - numpy의 array인덱싱 방식으로 행을 가지고 올 때 사용
df.iloc[3]

2015    2466052
2010    2431774
2005     245016
Name: 대구, dtype: int64

#### csv 파일-1

population_number.csv

In [116]:
# euc-kr 했는데 한글이 깨진다 -> utf-8
p_number = pd.read_csv(drive_path + "population_number.csv",
                       index_col='도시', encoding="euc-kr")
p_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [117]:
# 데이터 개수
#결측치 개수를 확인할 수 있음
p_number.count()
#boolean index도 가능함

지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64

In [118]:
# value_counts 함수
# - 값이 숫자, 문자열, 카테고리 값인 경우에 각각의 값이 나온 횟수를 셀 수 있다.
import numpy as np

s2= pd.Series(np.random.randint(6,size=100))
s2.value_counts()

5    24
4    19
3    16
0    15
1    14
2    12
dtype: int64

In [119]:
p_number['2015'].value_counts()

2466052    1
2890451    1
3448737    1
9904312    1
Name: 2015, dtype: int64

In [120]:
# 정렬
# sort_index 함수 : 인덱스 값을 기준으로 정렬한다.
# sort_values 함수 : 데이터 값을 기준으로 정렬한다.
p_number['2010'].sort_values(ascending=True)

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [121]:
# DataFrame을 2010년 인구수 기준으로 정렬
p_number.sort_values(by='2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [124]:
# DataFrame을 지역, 2010년 인구수 기준으로 정렬
p_number.sort_values(by=['지역', '2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [125]:
p_number.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


#### csv 파일-2

score.csv

In [159]:
score = pd.read_csv(drive_path + "score.csv", index_col="과목", encoding="euc-kr")
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [160]:
# 학급별 총계
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [161]:
# 학급별 순위
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [145]:
# 과목별 총계
score.sum(axis=1).sort_values(ascending=False)

과목
사회    298
영어    282
국어    253
수학    201
과학    163
dtype: int64

In [162]:
# 과목별 합계를 DataFrame에 추가
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [136]:
# max(), min()
display(score.max())
display(score.min())
display(score.mean())

1반     92
2반     92
3반     85
4반     69
합계    596
dtype: int64

1반     11
2반     44
3반     45
4반     26
합계    326
dtype: int64

1반     54.2
2반     77.6
3반     59.0
4반     48.6
합계    478.8
dtype: float64

#### Pandas 연습 03-1

과목별 평균을 계산하여 column 추가하기
```

        1반  2반	3반	4반	합계	평균
과목						
수학	45	44	73	39	201	50.25
영어	76	92	45	69	282	70.50
국어	47	92	45	69	253	63.25
사회	92	81	85	40	298	74.50
과학	11	79	47	26	163	40.75
```


In [276]:
score = pd.read_csv(drive_path + "score.csv", index_col="과목", encoding="euc-kr")
score['합계'] = score.sum(axis=1)
score['평균'] = score.iloc[:,0:4].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


#### Pandas 연습 03-2

반평균을 계산 하여 row 추가 하기
```
	      1반	2반	 3반 	4반 	합계	평균
과목						
수학	45.0	44.0	73.0	39.0	201.0	50.25
영어	76.0	92.0	45.0	69.0	282.0	70.50
국어	47.0	92.0	45.0	69.0	253.0	63.25
사회	92.0	81.0	85.0	40.0	298.0	74.50
과학	11.0	79.0	47.0	26.0	163.0	40.75
반평균  54.2	77.6	59.0	48.6	239.4	59.85
```


In [181]:
score.loc['반평균',:] = score.mean(axis=0)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


#### Pandas 연습 03-3

반 평균, 합계, 평균을 제외한 데이터 중 과목별 가장 큰 값, 작은 값을 구하시오.

```
과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64
```
```
과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64
```


In [182]:
score.iloc[0:5,0:4].max(axis=1)

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

In [183]:
score.iloc[0:5,0:4].min(axis=1)

과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64

#### Pandas 연습 03-4

과목별 가장 큰 값과 작은 값의 차를 구하시오.
```
과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64
```


In [184]:
score.iloc[0:5,0:4].max(axis=1) - score.iloc[0:5,0:4].min(axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

#### apply 변환

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때 사용
```
DataFrame.apply( func, axis = 0)
```

In [185]:
# 과목별 가장 큰 값과 작은 값의 차
def max_min(x):
  return x.max() - x.min()

score.iloc[0:5,0:4].apply(max_min,axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [186]:
score.iloc[0:5,0:4].apply(lambda x: x.max() - x.min(),axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [191]:
data_dic = {'A':[1,3,3,4,4],'B':[1,2,2,3,3],'C':[1,2,4,4,5]}
df3 = pd.DataFrame(data_dic)
df3

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [193]:
# apply를 사용하여 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면
# value_counts 함수 사용 가능
df4 = df3.apply(pd.value_counts)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [194]:
# fillna 함수
# 결측치(NaN)를 원하는 값으로 바꿀 수 있다.
df4.fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


#### 카테고리

In [195]:
# 기본적으로 설정은 왼쪽은 초과 오른쪽은 이하 임
ages = [0,2,10,21,23,37,61,20,41,32,100]
bins = [0,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년']
cats = pd.cut(ages,bins,labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 11
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [196]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [198]:
# DataFrame 으로
age_arr=pd.DataFrame(ages, columns = ['ages'])
age_arr

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,61
7,20
8,41
9,32


In [199]:
# 카테고리 추가
age_arr['age_cat'] = pd.cut(ages,bins,labels=labels)
age_arr

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,61,노년
7,20,청년
8,41,장년
9,32,중년


In [201]:
# 카테고리별 나이 개수
age_arr['age_cat'].value_counts()

청년      3
장년      2
미성년자    2
노년      1
중년      1
Name: age_cat, dtype: int64

#### Pandas 연습 04-1

1. 타이타닉호 승객 데이터(train.csv)를 데이터프레임으로 읽어 온다.

2. 타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

```
Survived    891
Pclass      891
Name        891
Sex         891
Age         714
SibSp       891
Parch       891
Ticket      891
Fare        891
Cabin       204
Embarked    889
dtype: int64
```


In [218]:
train = pd.read_csv(drive_path + "train.csv",index_col = 'PassengerId')
display(train.info()) # oject로 들어가는 데이터는 추후에 숫자로 바꿔서 머신러닝에 사용해야 함
display(titan.count())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


None

Survived    891
Pclass      891
Name        891
Sex         891
Age         714
SibSp       891
Parch       891
Ticket      891
Fare        891
Cabin       204
Embarked    889
dtype: int64

#### Pandas 연습 04-2

1. 타이타닉호 승객 중 성별(Sex) 인원수, 나이별(Age) 인원수, 선실별(Pclass) 인원수, 사망/생존(Survived) 인원수를 구하라.






In [214]:
train['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [215]:
train['Age'].value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: Age, Length: 88, dtype: int64

In [216]:
train['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [217]:
train['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

#### Pandas 연습 04-3

1. 타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해  ‘미성년자‘, ‘청년‘, ‘중년‘, ‘장년‘, ‘노년’ 승객의 비율을 구하라.

(단, 그룹별 비율의 전체 합은 1이 되어야 한다.)
```
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
```








In [227]:
# 생존자 그룹
train1 = train[train['Survived'] == 1]

In [228]:
# 생존자 그룹 카테고리화
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
train1['age_cut'] = pd.cut(train1['Age'],bins,labels=labels)
train1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_cut
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,장년
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,중년
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,중년
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,중년
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,미성년자
...,...,...,...,...,...,...,...,...,...,...,...,...
876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C,미성년자
880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C,장년
881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S,청년
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,청년


In [232]:
# 비율
trate = train1['age_cut'].value_counts()/ sum(train1['age_cut'].value_counts())

중년      0.286207
장년      0.268966
청년      0.258621
미성년자    0.168966
노년      0.017241
Name: age_cut, dtype: float64

In [236]:
# 사망자 그룹
train2 = train[train['Survived'] == 0]

In [237]:
# 사망자 그룹 카테고리화
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
train2['age_cut'] = pd.cut(train2['Age'],bins,labels=labels)
train2.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_cut
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,청년
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,중년
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,장년
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,미성년자


In [238]:
# 비율
rate = train2['age_cut'].value_counts()/ train2['age_cut'].count()
rate

청년      0.337264
장년      0.275943
중년      0.266509
미성년자    0.080189
노년      0.040094
Name: age_cut, dtype: float64

#### groupby

In [56]:
df5 = pd.DataFrame({
    'key1':['A','A', 'B', 'B', 'A'],
    'key2':['one','two','one','two','one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df5

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [240]:
g = df5[['key1','data2']].groupby('key1')
for x, y in g:
  print(x)
  print(y)
g.sum()

A
  key1  data2
0    A     10
1    A     20
4    A     50
B
  key1  data2
2    B     30
3    B     40


Unnamed: 0_level_0,data2
key1,Unnamed: 1_level_1
A,80
B,70


#### Pandas 연습 04-4

1. 선실(Pclass), 성별(Sex)로 생존자 수를 구하라.


In [255]:
train1.value_counts('Sex')
train1.value_counts

Sex
female    233
male      109
dtype: int64

In [256]:
g1 = train[['Survived','Sex','Pclass']][train['Survived'] == 1].groupby(['Sex','Pclass'])
g1.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Sex,Pclass,Unnamed: 2_level_1
female,1,91
female,2,70
female,3,72
male,1,45
male,2,17
male,3,47


## Pandas 요약


### 데이터프레임(Dataframe)과 시리즈(Series)

In [257]:
# 시리즈와 데이터프레임 두가지가 기본이다
# 자동으로 인덱스가 만들어진다

import numpy as np
import pandas as pd

In [258]:
dic = {'city': ['서울', '부산', '대전', '대구', '광주'],
        'year': [2017, 2017, 2018, 2018, 2018],
        'temp': [18, 20, 19, 21, 20]}
data = pd.DataFrame(dic) ; data

Unnamed: 0,city,year,temp
0,서울,2017,18
1,부산,2017,20
2,대전,2018,19
3,대구,2018,21
4,광주,2018,20


In [59]:
#'year', 'city', 'temp'
data[ ['year', 'city', 'temp'] ]

In [259]:
# index -> 'a','b','c','d','e'
data.index=['a','b','c','d','e']

In [260]:
# columns -> '도시','연도','날씨'
data.columns = ['도시','연도','날씨']

In [261]:
# index -> '도시'
data.set_index('도시')

Unnamed: 0_level_0,연도,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,2017,18
부산,2017,20
대전,2018,19
대구,2018,21
광주,2018,20


In [262]:
# '연도'
data['연도']

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

In [263]:
data.연도

a    2017
b    2017
c    2018
d    2018
e    2018
Name: 연도, dtype: int64

### 람다 함수

In [264]:
f = lambda x: x.max() - x.min()

df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['A', 'B', 'C'], index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [265]:
df.apply(f)

A    9
B    9
C    9
dtype: int64

### Series

In [267]:
# 파이썬 기본 타입인  딕셔너리로부터 시리즈를 만들 수 있다
dic = {'서울':800, '부산':150, '대구': 100}
dic

{'대구': 100, '부산': 150, '서울': 800}

In [268]:
s= pd.Series(dic)
s

서울    800
부산    150
대구    100
dtype: int64

## 퀴즈 1

In [269]:
import numpy as np
import pandas as pd
import os

In [273]:
df = pd.read_csv(drive_path + 'data_studentlist_en.csv', header='infer',encoding = 'latin1')
df.head()

Unnamed: 0,name,gender,age,grade,absence,bloodtype,height,weight
0,Jared Diamond,M,23,3,Y,O,165.3,68.2
1,Sarah O'Donnel,F,22,2,N,AB,170.1,53.0
2,Brian Martin,M,24,4,N,B,175.0,80.1
3,David Hassel,M,23,3,N,AB,182.1,85.7
4,Clara Rodriquez,F,20,1,Y,A,168.0,49.5


다음 통계치를 계산하시오:

1). 남학생 만의 신장 평균:

In [279]:
df['height'][df['gender']=='M'].mean()

172.41

2). 여학생 만의 신장 평균:

In [280]:
df['height'][df['gender']=='F'].mean()


166.64285714285714

3). 남학생 만의 체중 평균:

In [281]:
df['weight'][df['gender']=='M'].mean()


68.50000000000001

4). 여학생 만의 체중 평균:

In [282]:
df['weight'][df['gender']=='F'].mean()


50.44285714285714

5). 남학생중 제일 가장 큰 키 (max() 메서드 사용):

In [283]:
df['height'][df['gender']=='M'].max()


182.1

6). 여학생중 제일 가장 작은 키 (min() 메서드 사용):

In [284]:
df['height'][df['gender']=='F'].min()


155.2

7). 신장이 175cm 이상인 남학생중 최저 체중을 찾아라: 

In [287]:
df['weight'][df['height'] >= 175][df['gender'] ==  'M'].min()

61.3

8). 신장이 160cm 이하인 여학생중 최고 체중을 찾아라: 

In [288]:
df['weight'][df['height'] <= 160][df['gender'] ==  'F'].max()


45.3

9). 결석 (absence)가 없는 (N) 학생만의 성적 (grade) 평균은?

In [289]:
df['grade'][df['absence']=='N'].mean()

2.076923076923077

10). 결석 (absence)가 있는 (Y) 학생만의 성적 (grade) 평균은?

In [291]:
df['grade'][df['absence']=='Y'].mean()

3.0

11). 혈액형이 A형 이거나 AB형인 학생들의 신장 평균은?

In [305]:
a_condition = df['bloodtype']=='A'
ab_condition = df['bloodtype']=='AB'
df['height'][a_condition | ab_condition].mean()

172.64285714285714

12). 혈액형이 A형 이거나 AB형인 남학생들의 신장 평균은?

In [306]:
a_condition = df['bloodtype']=='A'
ab_condition = df['bloodtype']=='AB'
df['height'][a_condition | ab_condition][df['gender']=="M"].mean()

173.375

13. 결석 (absence)가 있으며 (Y) 성적 (grade)이 3이상인 학생들의 평균 연령은?

In [308]:
df['age'][ (df['absence'] == 'Y') & (df['grade'] >= 3)].mean()

23.666666666666668

## 퀴즈 2

In [312]:
import pandas as pd
import numpy as np
import os

In [313]:
df = pd.read_csv(drive_path + 'data_population.csv', header='infer',encoding = 'ms949')

In [315]:
display(df.shape)
display(df.head())

(281, 9)

Unnamed: 0.1,Unnamed: 0,Province,City,Population,Households,PersInHou,Male,Female,GenderRatio
0,1,서울특별시,,10078850,4197478,2.4,4962774,5116076,0.97
1,2,서울특별시,종로구,155695,72882,2.14,76962,78733,0.98
2,3,서울특별시,중구,126817,59614,2.13,63292,63525,1.0
3,4,서울특별시,용산구,235186,108138,2.17,114119,121067,0.94
4,5,서울특별시,성동구,298145,126915,2.35,148265,149880,0.99


다음 통계치를 구하시오:

1). 경상남도의 인구를 집계 하시오:

In [328]:
df['Population'][df['Province']=='경상남도'].sum()

7785302

2). 경상북도의 인구를 집계 하시오:

In [331]:
df['Population'][df['Province']=='경상북도'].sum()

5913486

3). 경상남도와 경상북도의 인구를 동시에 집계 하시오:

In [333]:
df['Population'][(df['Province']=='경상북도')|(df['Province']=='경상남도')].sum()

13698788

4). 성비 기준으로 남자가 상대적으로 많은 도시 (GenderRatio >1)의 평균 인구를 구하시오:

In [334]:
df['Population'][df['GenderRatio']>1].mean()

419221.2076923077

5). 성비 기준으로 남자가 상대적으로 적은 도시 (GenderRatio <1)의 평균 인구를 구하시오:

In [335]:
df['Population'][df['GenderRatio'] < 1].mean()

394085.1074380165

6). 성비 기준으로 남자가 적고 **(GenderRatio < 1)** 가족인원수가 2인 이상 **(PersInHou >= 2)** 도시를 찾으시오:

In [349]:
len(list(df['City'][(df['GenderRatio'] < 1) & (df['PersInHou'] >= 2)]))

116

7). 가구수 (Households) 적은 순서대로 정렬하여 10개의 도시를 보여주어라:

In [356]:
df.sort_values(by ='Households',ascending=True).head(10)

Unnamed: 0.1,Unnamed: 0,Province,City,Population,Households,PersInHou,Male,Female,GenderRatio
253,254,경상북도,울릉군,10304,5365,1.92,5518,4786,1.15
244,245,경상북도,영양군,17984,8769,2.05,8854,9130,0.97
200,201,전라북도,장수군,23308,10877,2.14,11557,11751,0.98
150,151,강원도,양구군,24283,11162,2.18,13069,11214,1.17
62,63,인천광역시,옹진군,20825,11172,1.86,11715,9110,1.29
199,200,전라북도,무주군,25181,11723,2.15,12451,12730,0.98
241,242,경상북도,군위군,24096,12091,1.99,12054,12042,1.0
213,214,전라남도,구례군,27115,12465,2.18,13181,13934,0.95
198,199,전라북도,진안군,26325,12531,2.1,13168,13157,1.0
243,244,경상북도,청송군,26353,13233,1.99,13063,13290,0.98
