# Pandas

In [1]:
import pandas as pd

## DataFrame

In [2]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 1490158]
}

df = pd.DataFrame(data)
df.index = ['서울', '부산', '인천', '대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,1490158


In [3]:
data = [
    [9904312, 3448737, 2890451, 2466052],
    [9631482, 3393191, 2632035, 1490158]
]
idx = ['2015', '2010']
col = ['서울', '부산', '인천', '대구']

df2 = pd.DataFrame(data, index=idx, columns=col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,1490158


In [4]:
# 전치행렬
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,1490158


### 연습

In [5]:
name = ['홍길동', '김사또', '임꺽정']
h = [175.3, 180.2, 178.6]
w = [66.2, 78.9, 55.1]
age = [27.0, 49.0, 35.0]

idx = ['키', '몸무게', '나이']
data = [h, w, age]

df3 = pd.DataFrame(data, columns=name, index=idx)
df3

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [6]:
df3.values

array([[175.3, 180.2, 178.6],
       [ 66.2,  78.9,  55.1],
       [ 27. ,  49. ,  35. ]])

In [7]:
df3.index

Index(['키', '몸무게', '나이'], dtype='object')

In [8]:
df3.columns

Index(['홍길동', '김사또', '임꺽정'], dtype='object')

In [9]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,1490158


In [18]:
df['2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [22]:
df['2005'] = [9762546, 3512547, 2517680, 2456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,1490158,2456016


In [27]:
df[0:1]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546


In [34]:
df[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [37]:
df[df['2010'] >= 2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [53]:
df.loc[['서울', '부산']][['2015', '2010']]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [60]:
df.loc['서울':'부산', '2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [63]:
df.iloc[:2, :2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


## CSV 파일 1

- 파일을 읽어서 pandas 사용하기

- pd.read_csv()

In [66]:
drive_path = r"c:/Apps/temp/"

In [70]:
p_number = pd.read_csv(drive_path + "population_number.csv", index_col="도시", encoding="euc-kr")

p_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [78]:
# 특성별 특성의 개수
# null은 제외
p_number.count()

지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64

In [84]:
# value_counts() 사용
import numpy as np

s2 = pd.Series(np.random.randint(6, size=100))
s2.value_counts()

3    19
4    18
2    18
5    17
1    14
0    14
dtype: int64

In [86]:
p_number['2015'].value_counts()

2466052    1
2890451    1
3448737    1
9904312    1
Name: 2015, dtype: int64

In [90]:
p_number['2010'].sort_values()

p_number['2010'].sort_values(ascending=False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [93]:
# 2010년을 기준으로 정렬
p_number.sort_values(by='2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


## CSV 파일 2

In [187]:
drive_path = r"c:/Apps/temp/"

score = pd.read_csv(drive_path + "score.csv", index_col="과목" , encoding="euc-kr")
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [188]:
# 반별 합계(내림차순 정렬)
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [189]:
# 수학 점수가 가장 높은 반
max_score = score.loc['수학'].max()

score.loc['수학'] == max_score

score.columns[score.loc['수학'] == max_score][0]

'3반'

In [190]:
# 과목별 총점(내림차순 정렬)
score.sum(axis=1).sort_values(ascending=False)

과목
사회    298
영어    282
국어    253
수학    201
과학    163
dtype: int64

In [191]:
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [192]:
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [193]:
score.iloc[:, :4]

score.loc[:, '1반':'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [194]:
# 과목별 평균
score_mean = score.loc[:, '1반':'4반'].mean(axis=1)
score_mean

과목
수학    50.25
영어    70.50
국어    63.25
사회    74.50
과학    40.75
dtype: float64

In [195]:
score['평균'] = score_mean
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [198]:
score.mean()

1반     54.20
2반     77.60
3반     59.00
4반     48.60
합계    239.40
평균     59.85
dtype: float64

In [197]:
score.loc['평균'] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
평균,54.2,77.6,59.0,48.6,239.4,59.85


In [225]:
arr = score.iloc[:5, :4]

max_arr = arr.max(axis=1)
min_arr = arr.min(axis=1)
print(max_arr)

score.loc[:'과학', :'4반'].max(axis=1)

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64


과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

In [228]:
# 과목별 가장 큰 값과 가장 작은 값의 차이
max_arr - min_arr

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

## apply 변환

- DataFrame.apply(func, axis=0)

In [229]:
def max_min(x):
    
    return x.max() - x.min()

In [234]:
score.loc[:'과학', :'4반'].apply(max_min, axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [236]:
# 함수 대신 lambda 사용
score.loc[:'과학', :'4반'].apply(lambda x: x.max()-x.min(), axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [237]:
data_dic = {"A":[1,3,3,4,4], "B":[1,2,2,3,3], "C":[1,2,4,4,5]}
df3 = pd.DataFrame(data_dic)
df3

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [239]:
df4 = df3.apply(pd.value_counts)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [240]:
# NaN에 임의의 값 채우기
df4.fillna(value=0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [243]:
score.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 수학 to 평균
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1반      6 non-null      float64
 1   2반      6 non-null      float64
 2   3반      6 non-null      float64
 3   4반      6 non-null      float64
 4   합계      6 non-null      float64
 5   평균      6 non-null      float64
dtypes: float64(6)
memory usage: 496.0+ bytes


In [245]:
# 상위 몇개만 출력(default=5)
score.head()

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75


In [248]:
# 하위 몇개만 출력(default=5)
score.tail(3)

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
평균,54.2,77.6,59.0,48.6,239.4,59.85


## 카테고리

In [249]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [251]:
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [252]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [253]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [256]:
age_arr = pd.DataFrame(ages, columns=['ages'])
age_arr

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [258]:
age_arr['age_cat'] = cats
age_arr

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [262]:
age_arr['age_cat'].value_counts()

청년      3
장년      2
중년      2
미성년자    2
노년      1
Name: age_cat, dtype: int64

### 연습 03

타이타닉 데이터 이용하기

In [266]:
drive_path = r"c:/Apps/temp/"

train = pd.read_csv(drive_path + 'train.csv', index_col="PassengerId")
train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [268]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [271]:
train.count()

Survived    891
Pclass      891
Name        891
Sex         891
Age         714
SibSp       891
Parch       891
Ticket      891
Fare        891
Cabin       204
Embarked    889
dtype: int64

In [273]:
train.isnull().sum()

Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       687
Embarked      2
dtype: int64

In [None]:
# 승객 중 성별(Sex), 나이별(Age), 선실별(Pclass), 생존(Survived) 인원수
sex_cnt = train.Sex.value_counts()
age_cnt = train.Age.value_counts()
pclass_cnt = train.Pclass.value_counts()
survived_cnt = train.Survived.value_counts()

print(sex_cnt)
print(age_cnt)
print(pclass_cnt)
print(survived_cnt)

- Age에 카테고리 적용하기

In [301]:
train.Age.min(), train.Age.max(), train.Age.mean()

(0.42, 80.0, 29.69911764705882)

In [303]:
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats = pd.cut(train.Age, bins, labels=labels)
cats

PassengerId
1       청년
2       장년
3       중년
4       중년
5       중년
      ... 
887     중년
888     청년
889    NaN
890     중년
891     중년
Name: Age, Length: 891, dtype: category
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [312]:
train['Cat'] = cats
train['Cat']

PassengerId
1       청년
2       장년
3       중년
4       중년
5       중년
      ... 
887     중년
888     청년
889    NaN
890     중년
891     중년
Name: Cat, Length: 891, dtype: category
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [313]:
train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Cat
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,청년
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,장년
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,중년
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,중년
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,중년


In [314]:
train.Cat.value_counts()

청년      218
중년      196
장년      195
미성년자     83
노년       22
Name: Age, dtype: int64

In [315]:
train.Cat.isnull().sum()

177

In [319]:
# 생존자 중 나이대
train.Cat[train.Survived == 1].value_counts()

중년      83
장년      78
청년      75
미성년자    49
노년       5
Name: Age, dtype: int64

In [320]:
# 사망자 중 나이대
train.Cat[train.Survived == 0].value_counts()

청년      143
장년      117
중년      113
미성년자     34
노년       17
Name: Age, dtype: int64

In [321]:
survived_1 = train[train['Survived'] == 1]

In [322]:
survived_1['Age']

PassengerId
2      38.0
3      26.0
4      35.0
9      27.0
10     14.0
       ... 
876    15.0
880    56.0
881    25.0
888    19.0
890    26.0
Name: Age, Length: 342, dtype: float64

In [323]:
bins = [0, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats2 = pd.cut(survived_1['Age'], bins, labels=labels)
cats2

PassengerId
2        장년
3        중년
4        중년
9        중년
10     미성년자
       ... 
876    미성년자
880      장년
881      청년
888      청년
890      중년
Name: Age, Length: 342, dtype: category
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [324]:
cats2.value_counts()

중년      83
장년      78
청년      75
미성년자    49
노년       5
Name: Age, dtype: int64

## 그룹

- groupby

In [326]:
df5 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})

df5

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [334]:
# key1로 그룹
g = df5[['key1', 'data2']].groupby('key1')
for x, y in g:
    print(x, y)

A   key1  data2
0    A     10
1    A     20
4    A     50
B   key1  data2
2    B     30
3    B     40


In [343]:
g.sum()

Unnamed: 0_level_0,data2
key1,Unnamed: 1_level_1
A,80
B,70


In [344]:
g.mean()

Unnamed: 0_level_0,data2
key1,Unnamed: 1_level_1
A,26.666667
B,35.0


### 타이타닉 데이터 이용

- 선실(Pclass), 성별(Sex)로 생존자 수를 구하시오.

In [354]:
train[['Survived', 'Pclass', 'Sex']].head()

Unnamed: 0_level_0,Survived,Pclass,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,male
2,1,1,female
3,1,3,female
4,1,1,female
5,0,3,male


In [355]:
train[['Survived', 'Pclass', 'Sex']].groupby(['Pclass', 'Sex']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived
Pclass,Sex,Unnamed: 2_level_1
1,female,91
1,male,45
2,female,70
2,male,17
3,female,72
3,male,47


In [352]:
train[['Survived', 'Pclass']].groupby("Pclass").sum()

Unnamed: 0_level_0,Survived
Pclass,Unnamed: 1_level_1
1,136
2,87
3,119


In [353]:
train[['Survived', 'Sex']].groupby("Sex").sum()

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,233
male,109
