# 판다스(Pandas)

# 1. 시리즈(Series)

In [2]:
import pandas as pd

In [3]:
# 하루 방문자 수 데이터
visitors = pd.Series(
    data = [120,150,130,170,160],
    name = "방문자 수" # 옵션
)

print(visitors)

0    120
1    150
2    130
3    170
4    160
Name: 방문자 수, dtype: int64


In [7]:
print(visitors.index)
print(visitors.values)
print(visitors.dtype)
print(visitors.name)
print(visitors.size)

RangeIndex(start=0, stop=5, step=1)
[120 150 130 170 160]
int64
방문자 수
5


## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [16]:
# 위의 표를 리스트 / 딕셔너리로 바꿔보세요

### (1) 데이터만 생성

In [17]:
# 이름 열을 시리즈로 만들기
name_data = pd.Series(
    data = ["김영철","송윤지","임수현"],
    name = "이름"
)

### (2) 인덱스와 함께 생성

In [21]:
# 나이 열을 시리즈로 만들기
age_data = pd.Series(
    data = [24,31,26],
    name = "나이",
    index = ["김영철","송윤지","임수현"]
)

age_data2 = pd.Series(
    data = {"김영철":24,"송윤지":31,"임수현":26}
)

print(age_data)
print(age_data2)

김영철    24
송윤지    31
임수현    26
Name: 나이, dtype: int64
김영철    24
송윤지    31
임수현    26
dtype: int64


In [23]:
height_data = pd.Series(
    data = [179.4,161.0,174],
    name = "키"
)
print(height_data)

height_data.index = ["김영철","송윤지","임수현"]
print(height_data)

0    179.4
1    161.0
2    174.0
Name: 키, dtype: float64
김영철    179.4
송윤지    161.0
임수현    174.0
Name: 키, dtype: float64


## 2) 연산

In [3]:
import pandas as pd
# 데이터가 1,2,3인 시리즈 생성
data1 = pd.Series([1,2,3])
print(data1)

# 데이터가 10,20,30인 시리즈 생성
data2 = pd.Series([10,20,30])
print(data2)

# 데이터가 
data3 = pd.Series([10,20,30])
data3.index=[1,2,0]
print("data3 : ",data3)
print("-"*20)

0    1
1    2
2    3
dtype: int64
0    10
1    20
2    30
dtype: int64
data3 :  1    10
2    20
0    30
dtype: int64
--------------------


In [5]:
print(data1 + data2)
print("-"*20)
print(data3)
print(data1 + data3)

0    11
1    22
2    33
dtype: int64
--------------------
1    10
2    20
0    30
dtype: int64
0    31
1    12
2    23
dtype: int64


In [6]:
# 데이터가 서울,부산,대구인 시리즈 생성
data1 = pd.Series(["서울","대구","부산"])

# 데이터가 관악구,수영구,달서구인 시리즈 생성
data2 = pd.Series(["관악구","수영구","달서구"])
print(data1+data2)

0    서울관악구
1    대구수영구
2    부산달서구
dtype: object


In [23]:
# int 시리즈 , str 시리즈
# 서울1, 부산2,대구3 되는지

tdata1 = pd.Series(["부산","서울","대구"])
tdata2 = pd.Series([1,2,3])
tdate3 = tdata2.astype("str")
print(tdate3)
print(tdata1 + tdate3)

0    1
1    2
2    3
dtype: object
0    부산1
1    서울2
2    대구3
dtype: object


## 3) 결측치

### (1) 결측치 발생

In [16]:
import numpy as np
import pandas as pd
data = pd.Series([1,2,np.nan,4])
print(data)

0    1.0
1    2.0
2    NaN
3    4.0
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [13]:
import pandas as pd
data1 = pd.Series(
    data =[10,20,30],
    index = ["부산","울산","대구"]
)

data_1 = pd.Series([10,20,30],index=["부산","울산","대구"])
print(data1)

data2 = pd.Series(
    data = [1,2,3,4],
    index = ["광주","부산","울산","대구"]
)
print(data2)

# 매칭이 되지않는 인덱스 데이터는 결측값이 된다.
print(data_1 + data2)

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64
광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [31]:
# 광주는 매칭되지 않아 결측
total = data1 + data2
print(total)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [19]:
# 데이터 정보 확인하기
total.info()

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 236.0+ bytes


In [20]:
# 각 셀마다 결측치 인지 아닌지 판단하기
total.isna()

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [21]:
# 결측치가 몇개인가요?
print(total.isna().sum())

1


### (3) 결측치 채우기

In [22]:
print(total)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [32]:
# 결측치를 0으로 채워주세요
total.fillna(0)
total = total.fillna(0)

In [33]:
print(total)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (4) 결측치 삭제

In [34]:
# 결측치 제거
print(total.dropna())
total = total.dropna()

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [36]:
print(total)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

In [37]:
data = pd.Series(
    data = [17,25,33],
    index = ["부산","울산","대구"]
)

print(data)

부산    17
울산    25
대구    33
dtype: int64


In [40]:
print(data.sum()) # 합
print(data.mean()) # 평균
print(data.min()) # 작은수
print(data.max()) # 큰수
print(data.std()) # 편차
print(data.var()) # 분산

75
25.0
17
33
8.0
64.0


In [41]:
print(data.describe())

count     3.0
mean     25.0
std       8.0
min      17.0
25%      21.0
50%      25.0
75%      29.0
max      33.0
dtype: float64


예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [43]:
data_list = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
data = pd.Series(
    data = data_list
)

print(data)
print(data.describe())

0             HR
1    Engineering
2             HR
3    Engineering
4             HR
5      Marketing
6    Engineering
7      Marketing
8             HR
dtype: object
count      9
unique     3
top       HR
freq       4
dtype: object


# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [45]:
# 데이터를 리스트로 표현
data_list = [
    ["김영철","M",24,179.4],
    ["송윤지","F",31,161.0],
    ["임수현","F",26,174],
]

In [54]:
import pandas as pd

df = pd.DataFrame(data_list)
df.columns=["이름","성별","나이","키"]
# df = pd.DataFrame(
#     data_list,
#     columns=["이름","성별","나이","키"]
# )
print(df)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [50]:
# 데이터의 열을 딕셔너리로 표현
data_dic = {
    "이름" : ["김영철","송윤지","임수현"],
    "성별" : ["M","F","F"],
    "나이" : [24,31,26],
    "키" : [179.4,161.0,174]
}

In [52]:
df = pd.DataFrame(data=data_dic)
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [57]:
# 데이터의 행을 딕셔너리로 표현 (JSON)
data_dic_row = [
    {"이름":"김영철","성별":"M","나이":24,"키":179.4},
    {"이름":"송윤지","성별":"F","나이":31,"키":161.0},
    {"이름":"임수현","성별":"F","나이":26,"키":174}
]

In [62]:
df = pd.DataFrame(data=data_dic_row)
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [64]:
print(df.columns)
print(df.values)

Index(['이름', '성별', '나이', '키'], dtype='object')
[['김영철' 'M' 24 179.4]
 ['송윤지' 'F' 31 161.0]
 ['임수현' 'F' 26 174.0]]


In [75]:
# 이름을 인덱스로 하고 싶어요
df_name_index = df.set_index("이름")

# 인덱스를 초기화 할경우
#df_name_index = df_name_index.reset_index()

In [76]:
print(df_name_index.index)

Index(['김영철', '송윤지', '임수현'], dtype='object', name='이름')


## 2) 조회

In [116]:
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [117]:
df_name_index

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


### (1) 이름으로 조회

In [113]:
print(df_name_index.loc["송윤지",:])
print("-"*20)
print(df.iloc[-1,:])
print("-"*20)
print(df.head(2))
print("-"*20)
print(df.tail(2))

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object
--------------------
이름      임수현
성별        F
나이       26
키     174.0
Name: 2, dtype: object
--------------------
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
--------------------
    이름 성별  나이      키
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


#### 열 조회(df[열이름],df.loc[열이름])

In [118]:
# df에서 "나이"열만 가져오고싶다
df["나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [121]:
df.loc[:,"나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [122]:
# df에서 나이,키
df.loc[:,["나이","키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


In [158]:
print(df_name_index.loc["송윤지",:])
print(df[["이름","키"]])

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object
    이름      키
0  김영철  179.4
1  송윤지  161.0
2  임수현  174.0


#### 행 조회

In [124]:
#df에서 송윤지 데이터를 가져오고 싶어요
df.loc[1,:]

이름      송윤지
성별        F
나이       31
키     161.0
Name: 1, dtype: object

In [126]:
df_name_index.loc["송윤지",:]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [129]:
df_name_index.iloc[[0,2],:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
임수현,F,26,174.0


In [128]:
df_name_index.loc[["김영철","임수현"],:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
임수현,F,26,174.0


#### 셀 조회

In [25]:
import pandas as pd

data = {
    "이름":["김영철","송윤지","임수현"],
    "성별":["M","F","F"],
    "나이":[24,31,26],
    "키" : [179.4,161.0,174.0]
}

data_frame = pd.DataFrame(data)
data_frame

# df애서 임수현의 나이
print(data_frame.loc[data_frame["이름"]=="임수현","나이"])
print("-"*20)

# df에서 송윤지의 이름,나이,성별
print(data_frame.loc[data_frame["이름"]=="송윤지",["이름","나이","성별"]])
print("-"*20)

# df에서 김영철,송윤지의 이름,나이
print(data_frame.iloc[0:2,[0,2]])
print("-"*20)

print(data_frame.loc[data_frame["성별"]=="M",:])

2    26
Name: 나이, dtype: int64
--------------------
    이름  나이 성별
1  송윤지  31  F
--------------------
    이름  나이
0  김영철  24
1  송윤지  31
--------------------
    이름 성별  나이      키
0  김영철  M  24  179.4


In [26]:
# 성별이 M인 데이터
data_frame.loc[ data_frame["성별"]=="M" , :]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [27]:
# 키가 170 넘는사람
data_frame.loc[ data_frame["키"] >= 170 , :]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [46]:
# startswith() / endswitch()
text = "송윤지"

# 첫글자가 송인가
print(text.startswith("송"))

# 맨뒷글자가 송인가
print(text.endswith("송"))

# 이름에 수가 있는사람만 조회
print(text.__contains__("수"))

True
False
False


In [48]:
# 이름이 송 씨인 데이터
print(data_frame.loc[ data_frame["이름"].str[0]=="송" , :])
print("-"*20)
print(data_frame.loc[ data_frame["이름"].str.slice(0,1)=="송", :])
print("-"*20)
print(data_frame.loc[ data_frame["이름"].str.startswith("송") , :])
print("-"*20)
data_frame.loc[ data_frame["이름"].str.contains("수") , :] #이름에 수가 포함되어 있는가

    이름 성별  나이      키
1  송윤지  F  31  161.0
--------------------
    이름 성별  나이      키
1  송윤지  F  31  161.0
--------------------
    이름 성별  나이      키
1  송윤지  F  31  161.0
--------------------


Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [43]:
#20대인 사람만 조회

print(data_frame.loc[ (data_frame["나이"] >= 20)&(data_frame["나이"]<30) , :])
print("-"*20)
data_frame.loc[ data_frame["나이"].astype("str").str.startswith("2") , :]

    이름 성별  나이      키
0  김영철  M  24  179.4
2  임수현  F  26  174.0
--------------------


Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [56]:
# 여자이거나 키가 170이상
print(data_frame.loc[(data_frame["성별"]=="F")|(data_frame["키"]>=170) , :])
print("-"*30)

# 여자이고 키가 170이상, 이름에 경 이 포함된 경우
print(data_frame.loc[((data_frame["성별"]=="F")&(data_frame["키"]>=170))&(data_frame["이름"].str.contains("경")) , :])

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
------------------------------
Empty DataFrame
Columns: [이름, 성별, 나이, 키]
Index: []


### (2) 인덱스로 조회

In [176]:
df.index = [2,1,0]
df

Unnamed: 0,이름,성별,나이,키
2,김영철,M,24,179.4
1,송윤지,F,31,161.0
0,임수현,F,26,174.0


In [115]:
print(df_name_index.loc["김영철"])

성별        M
나이       24
키     179.4
Name: 김영철, dtype: object


#### 열 조회

In [179]:
#나이열을 출력
print(df.iloc[:,[2]])

   나이
2  24
1  31
0  26


In [182]:
#키열
print(df.iloc[:,[0,-1]])

    이름      키
2  김영철  179.4
1  송윤지  161.0
0  임수현  174.0


In [185]:
# 이름,성별,나이
print(df.iloc[:,0:3])

    이름 성별  나이
2  김영철  M  24
1  송윤지  F  31
0  임수현  F  26


In [192]:
df_name_index["나이"] = df_name_index["나이"] .apply(lambda x : "adult" if x >= 20 else "yung")

print(df_name_index["나이"])

TypeError: '>=' not supported between instances of 'str' and 'int'

#### 행 조회

In [187]:
# df에서 김영철,임수현 데이터
print(df.iloc[[0,-1],:])

print(df.iloc[[-1],:])

    이름 성별  나이      키
2  김영철  M  24  179.4
0  임수현  F  26  174.0
    이름 성별  나이      키
0  임수현  F  26  174.0


In [188]:
# 김영철, 송윤지
print(df.iloc[:2,:])

    이름 성별  나이      키
2  김영철  M  24  179.4
1  송윤지  F  31  161.0


In [163]:
df.loc[[1],:]

Unnamed: 0,이름,성별,나이,키
1,송윤지,F,31,161.0


In [164]:
df_name_index.loc[["송윤지"],:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0


In [165]:
df.loc[[0,2],:]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


#### 셀 조회 (df.loc[인덱스이름,열이름])

In [175]:
# df에서 김영철 학생의 키를 출력하고 싶어요
print(df.iloc[0,[3]])
print("-"*20)

#df에서 송윤지, 임수현의 성별을 출력하고 싶어요
print(df.iloc[1:,[1]])
print("-"*20)

# df_name_index에서 임수현 의 나이
print(df_name_index.loc[["임수현"],["나이"]])
print("-"*20)

# df_name_idx에서 송윤지의 성별, 키
print(df_name_index.loc[["송윤지"],["성별","키"]])
print("-"*20)

# df에서 김영철, 송윤지의 이름, 나이를 출력하고싶어요
print(df.loc[[0,1],["이름","나이"]])


키    179.4
Name: 0, dtype: object
--------------------
  성별
1  F
2  F
--------------------
     나이
이름     
임수현  26
--------------------
    성별      키
이름           
송윤지  F  161.0
--------------------
    이름  나이
0  김영철  24
1  송윤지  31


### (3) 조건부 조회

## 3) 편집

### (1) 인덱스 제거

In [58]:
# 인덱스를 현재 데이터프레임에 맞춰서 위치로 이름짓고 싶다
data_frame.reset_index(drop=True) 

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


### (2) 데이터 병합

In [72]:
data1 = pd.DataFrame(
    data = [
        ["강남",1,2],
        ["서초",4,5],
        ["노원",5,6]
    ],
    columns=["지역","지점수","매출"]
)

data1

data1_loc_idx = data1.set_index("지역")

In [73]:
data2 = pd.DataFrame(
    data = [
        ["강남",10,20],
        ["도봉",30,40],
        ["노원",50,60]
    ],
    columns=["지역","지점수","매출"]
)
data2
data2_loc_lndex = data2.set_index("지역")

In [77]:
data3 = pd.DataFrame(
    data=[
        ["강남",10,20],
        ["도봉",30,40],
        ["노원",50,60]
    ],
    columns=["지역","방문자수","직원수"]
)
data3_loc_index = data3.set_index("지역")

In [76]:
data1_loc_idx + data2_loc_lndex

Unnamed: 0_level_0,지점수,매출
지역,Unnamed: 1_level_1,Unnamed: 2_level_1
강남,11.0,22.0
노원,55.0,66.0
도봉,,
서초,,


In [79]:
# pd.merge()
pd.merge(
    left = data1_loc_idx,
    right= data2_loc_lndex,
    how = "inner",
    on="지역" # 어떤컬럼을 기준으로?
)

Unnamed: 0_level_0,지점수_x,매출_x,지점수_y,매출_y
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남,1,2,10,20
노원,5,6,50,60


In [89]:
# 문제 : 똑같은 테이블이 2개 작성되어있다
# 의도 : 지역별 지점수, 매출을 합산
# 인덱스를 지역명을오 변경
data1_loc_idx + data2_loc_lndex

Unnamed: 0_level_0,지점수,매출
지역,Unnamed: 1_level_1,Unnamed: 2_level_1
강남,11.0,22.0
노원,55.0,66.0
도봉,,
서초,,


In [92]:
# 문제 : 지역별 새로운 열이 추가
# 의도 : 지역별 지점수, 매출,방문자수,직원수
total_data = pd.merge(
    left = data1_loc_idx,
    right= data3_loc_index,
    how = "outer",
    on = "지역"
)

print(total_data)

    지점수   매출  방문자수   직원수
지역                      
강남  1.0  2.0  10.0  20.0
노원  5.0  6.0  50.0  60.0
도봉  NaN  NaN  30.0  40.0
서초  4.0  5.0   NaN   NaN


### (3) 결측치 처리

In [91]:
# 결측치 정보를 확인
total_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 강남 to 서초
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지점수     3 non-null      float64
 1   매출      3 non-null      float64
 2   방문자수    3 non-null      float64
 3   직원수     3 non-null      float64
dtypes: float64(4)
memory usage: 160.0+ bytes


In [94]:
# 결측치 갯수 구하기
total_data.isna() # 결측치 셀마다 True/False 판단

Unnamed: 0_level_0,지점수,매출,방문자수,직원수
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남,False,False,False,False
노원,False,False,False,False
도봉,True,True,False,False
서초,False,False,True,True


In [95]:
total_data.isna().sum(axis=0)

지점수     1
매출      1
방문자수    1
직원수     1
dtype: int64

In [96]:
total_data.isna().sum(axis=1)

지역
강남    0
노원    0
도봉    2
서초    2
dtype: int64

In [99]:
# 결측치 처리
total_data.fillna(999)

Unnamed: 0_level_0,지점수,매출,방문자수,직원수
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남,1.0,2.0,10.0,20.0
노원,5.0,6.0,50.0,60.0
도봉,999.0,999.0,30.0,40.0
서초,4.0,5.0,999.0,999.0


In [100]:
## 결측치 제거
total_data.dropna()

Unnamed: 0_level_0,지점수,매출,방문자수,직원수
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남,1.0,2.0,10.0,20.0
노원,5.0,6.0,50.0,60.0


## 4) 통계

In [101]:
total_data.describe()

Unnamed: 0,지점수,매출,방문자수,직원수
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,30.0,40.0
std,2.081666,2.081666,20.0,20.0
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,20.0,30.0
50%,4.0,5.0,30.0,40.0
75%,4.5,5.5,40.0,50.0
max,5.0,6.0,50.0,60.0


In [102]:
total_data.mean()

지점수      3.333333
매출       4.333333
방문자수    30.000000
직원수     40.000000
dtype: float64

# 3. 실습

## 예제 1.

In [None]:
# cdata.csv
df = pd.read_csv(
    "./data/cdata.csv",
    encoding="CP949", # 한글 utf-8 또는 CP949로 사용
    index_col=0
)
df

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 2.

In [126]:
df2 = pd.read_csv(
    "./data/cdata_nohead.csv",
    header=None,
    names=["index","name","age","city"]
)
df2.set_index("index")

Unnamed: 0_level_0,name,age,city
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,홍길동,25,서울
2,김준기,21,서울
9,이명식,22,부산
32,방준혁,24,광주
47,최명기,31,부산


In [None]:
# k3.raw.tsv
pd4 = pd.read_csv(
    "./data/kr3_raw.tsv", # 탭으로 구분
    sep="\t"
)
pd4.head() # 위에서 다섯개만

Unnamed: 0,Region,Rating,Category,Review
0,인덕원,1,삼겹살 고기집,숙성 돼지고기 전문점입니다. 건물 모양 때문에 매장 모양도 좀 특이하지만 쾌적한 편...
1,인덕원,1,삼겹살 고기집,고기가 정말 맛있었어요! 육즙이 가득있어서 너무 좋았아요\n일하시는분들 너무 친절하...
2,인덕원,1,순대국 찹쌀순대,"잡내없고 깔끔, 담백한 맛의 순대국이 순대국을 안 좋아하는 사람들에게도 술술 넘어갈..."
3,인덕원,1,순대국 찹쌀순대,고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니다~~ 맛도 좋습니다\n다만 양념...
4,인덕원,1,순대국 찹쌀순대,순대국 자체는 제가 먹어본 순대국밥집 중에서 Top5 안에는 들어요.\n\n그러나 ...


In [None]:
pd4.tail() # 아래에서 5개만

Unnamed: 0,Region,Rating,Category,Review
642408,평택,2,일식/중식/세계음식,"요즘, 핫하게,,,떠오르구 있는 중국집. ㅋ, 맥주의 여파루 속이 안좋지만 와봄. ..."
642409,평택,0,한식,원래 글 안쓰는데 이거는 정말 다른분들 위해서 써야할것같네요 방금 포장주문 해서 왔...
642410,평택,1,한식,"우리팀 단골집, 술먹고 다음 날 가면 푸짐하게 배불리 해장 할 수 있는곳, 주말도 ..."
642411,평택,2,카페/디저트,"원래는 평택에 있었는데, 연남동에도 최근에 생겨서 방문 했는데..진짜 줄이 어마어마..."
642412,평택,2,한식,친구들의 추천으로 가보게 된 곳. 안성과 평택 몇군데 위주로 체인점이 있는 소규모 ...


## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [129]:
# mpg.csv
df = pd.read_csv(
    "./data/mpg.csv"
)
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


## 데이터 파악하기

In [130]:
# 데이터 정보 확인하기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [135]:
df.isna().sum()

manufacturer    0
model           0
displ           0
year            0
cyl             0
trans           0
drv             0
cty             0
hwy             0
fl              0
category        0
dtype: int64

In [136]:
# 데이터의 통계
df.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


## Q1. 몇 개의 회사 데이터가 있나요?

In [137]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [139]:
print(f"{df.shape[0]}개의 데이터가 있습니다")

234개의 데이터가 있습니다


In [142]:
print(f"{len(df)}개의 데이터가 있습니다.")

234개의 데이터가 있습니다.


In [143]:
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [147]:
df.groupby("manufacturer").count()

Unnamed: 0_level_0,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
manufacturer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
audi,18,18,18,18,18,18,18,18,18,18
chevrolet,19,19,19,19,19,19,19,19,19,19
dodge,37,37,37,37,37,37,37,37,37,37
ford,25,25,25,25,25,25,25,25,25,25
honda,9,9,9,9,9,9,9,9,9,9
hyundai,14,14,14,14,14,14,14,14,14,14
jeep,8,8,8,8,8,8,8,8,8,8
land rover,4,4,4,4,4,4,4,4,4,4
lincoln,3,3,3,3,3,3,3,3,3,3
mercury,4,4,4,4,4,4,4,4,4,4


In [None]:
# 제조사 목록
df["manufacturer"].unique() # 범주형(카테고리 종류)

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

In [176]:
df["manufacturer"].nunique() # 범주형(카테고리 수)

15

In [None]:
# 각 제조사별 데이터 갯수
# 카테고리 종류 / 갯수 
df["manufacturer"].value_counts()

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [None]:
df.value_counts(subset="manufacturer") # = df["manufacturer"].value_counts()

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [151]:
# honda 의 데이터는 몇개?
df["manufacturer"].value_counts()["honda"]

np.int64(9)

In [None]:
# 수치형
# 열 연산 : 시리즈들끼리 연산자료 표현

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [154]:
# manufaturer : 회사명
# ctdy : 도심비
# hwy : 고독도록 연비
# 세로운 열 'total' = (cty + hwy) /2

df["total"] = (df["cty"] + df["hwy"]) /2
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [158]:
#정렬 : sort_values()
df_total_top10 = df.sort_values(by = ["total"],ascending=False).iloc[0:10,:]
df_total_top10

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,35.0
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,32.5
197,toyota,corolla,1.8,2008,4,auto(l4),f,26,35,r,compact,30.5
195,toyota,corolla,1.8,1999,4,manual(m5),f,26,35,r,compact,30.5
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,30.5
105,honda,civic,1.8,2008,4,auto(l5),f,25,36,r,subcompact,30.5
104,honda,civic,1.8,2008,4,manual(m5),f,26,34,r,subcompact,30.0
106,honda,civic,1.8,2008,4,auto(l5),f,24,36,c,subcompact,30.0


In [160]:
df_total_top10["manufacturer"].value_counts()

manufacturer
honda         4
volkswagen    3
toyota        3
Name: count, dtype: int64

## +Quiz. 현대자동차의 total 연비에 대한 평균값은?

In [None]:
# 현대 자동차만 추출
df["manufacturer"].unique() #hyundai

df_hd = df.loc[df["manufacturer"]=="hyundai",:]
df_hd["total"].mean() # 평균값

np.float64(22.75)

In [None]:

df["manufacturer"].nunique() #  제조사 갯수

15

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [178]:
per_mean = df["total"].mean() # 평균연비
per_mean

np.float64(20.14957264957265)

In [189]:
df["result"] = (df["total"] >= per_mean)
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,pass,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5,PASS,True
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0,PASS,True
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5,PASS,True
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5,PASS,True
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0,PASS,True


In [182]:
df.loc[df["result"],:]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,pass,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5,PASS,True
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0,PASS,True
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5,PASS,True
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5,PASS,True
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0,PASS,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,23.5,PASS,True
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,25.0,PASS,True
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,21.0,PASS,True
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,22.0,PASS,True


In [185]:
df["result"]=df["result"].replace({True:"PASS",False:"FALSE"})
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,pass,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5,PASS,PASS
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0,PASS,PASS
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5,PASS,PASS
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5,PASS,PASS
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0,PASS,PASS


In [188]:
import numpy as np

df["result"] = np.where(df["total"]>=per_mean,"PASS","FAIL")
df

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,pass,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5,PASS,PASS
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0,PASS,PASS
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5,PASS,PASS
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5,PASS,PASS
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0,PASS,PASS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,23.5,PASS,PASS
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,25.0,PASS,PASS
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,21.0,PASS,PASS
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,22.0,PASS,PASS


In [190]:
# apply() : 시리즈의 하나 하나 데이터마다 함수를 적용시켜준다
#list comprehension : 한줄코드
# df["total"] 데이터 요소 하나하나를 x라는 변수라고 하자
# 만약 x > = 평균 ,pass 아니면 fail

df["result"] = df["total"].apply(lambda x:"PASS" if x>=per_mean else "FAIL")
df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,pass,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5,PASS,PASS
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0,PASS,PASS
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5,PASS,PASS
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5,PASS,PASS
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0,PASS,PASS


## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [227]:
df.groupby(["manufacturer","result"]).agg(["count"])

# df에서 result가 pass인데이터 추출
df_pass = df.loc[df["result"]=="PASS",:]
df_pass["manufacturer"].value_counts(ascending=False).head(1).iloc[0]

np.int64(26)

In [207]:
df_group = df.groupby(["manufacturer","result"]).value_counts()
df_group

manufacturer  result  model       displ  year  cyl  trans       drv  cty  hwy  fl  category  total  pass
audi          FAIL    a4 quattro  2.8    1999  6    auto(l5)    4    15   25   p   compact   20.0   FAIL    1
                                  3.1    2008  6    manual(m6)  4    15   25   p   compact   20.0   FAIL    1
                      a6 quattro  2.8    1999  6    auto(l5)    4    15   24   p   midsize   19.5   FAIL    1
                                  4.2    2008  8    auto(s6)    4    16   23   p   midsize   19.5   FAIL    1
              PASS    a4          1.8    1999  4    auto(l5)    f    18   29   p   compact   23.5   PASS    1
                                                                                                           ..
volkswagen    PASS    passat      2.0    2008  4    auto(s6)    f    19   28   p   midsize   23.5   PASS    1
                                                    manual(m6)  f    21   29   p   midsize   25.0   PASS    1
               