# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [2264]:
import pandas as pd

In [2265]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (1) 데이터만 생성

In [2266]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (2) 인덱스와 함께 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [2267]:
age_data = pd.Series(
    data = [24, 31, 26],
    index = ["김영철", "송윤지", "임수현"]
)
print(age_data)

print(age_data.index)
print(age_data.values)
print(type(age_data.values))

김영철    24
송윤지    31
임수현    26
dtype: int64
Index(['김영철', '송윤지', '임수현'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [2268]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data3 = data1 ** data2
print(data3)

0       10
1      400
2    27000
dtype: int64


## 3) 결측치

### (1) 결측치 발생

In [2269]:
import pandas as pd
import numpy as np

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


In [2270]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3, 4])

data3 =data1 + data2
print(data3)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [2271]:
import pandas as pd
import numpy as np

local_data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
local_data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)

print(local_data)
print("="*50)
print(local_data2)
print("="*50)
local_data3 = local_data + local_data2
print(local_data3)

# 연산은 인덱스 기준으로 이루어진다

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64
광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [2272]:
local_data3.info()  # 결측치 파악

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [2273]:
local_data3.isna() # 결측치 판단하기

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [2274]:
local_data3.isna().sum() # 총 결측치의 갯수

np.int64(1)

### (3) 결측치 채우기

In [2275]:
local_data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [2276]:
# 결측치 채우기 -> 덮어씌워줘야 해요
local_data3.fillna(0)
print(local_data3)
local_data3 = local_data3.fillna(0)
print(local_data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64
광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [2277]:
local_data3

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [2278]:
# 결측치 삭제 
local_data3.dropna(inplace=True)

In [2279]:
# 결측치 삭제 
local_data3 = local_data3.dropna()
print(local_data3)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [2280]:
data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data

부산    10
울산    20
대구    30
dtype: int64

In [2281]:
print(data.min())
print(data.mean())
print(data.var())
print(data.std())
print(data.max())

10
20.0
100.0
10.0
30


In [2282]:
data.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

In [2283]:
dep_data = pd.Series(
    data = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

dep_data.describe()

# 범주형 데이터

count      9
unique     3
top       HR
freq       4
dtype: object

# 2. 데이터프레임(DataFrame)

## 1) 생성

In [2284]:
# 2차원 리스트를 이용
import pandas as pd

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]

data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2285]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2286]:
# 행 딕셔너리 이용
data_row_dict = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키":179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키":161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키":174},
]

data3 = pd.DataFrame(data_row_dict)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2287]:
# 이름 열을 인덱스로 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data4 = data1.set_index("이름")
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2288]:
# 이름 열을 다시 되돌아오도록 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data5 = data4.reset_index()
data5

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

## 2) 조회

### (1) 이름으로 조회

In [2289]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [2290]:
# 나이 열을 조회
data1["나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [2291]:
# 나이, 키 열을 조회 (리스트처리! : 셀을 조회하기 위해 (excel)) 
data1[["나이", "키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [2292]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2293]:
# 송윤지 행 데이터 조회
data4.loc["송윤지"]
data4.loc[["송윤지", "임수현"]]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

### (2) 인덱스로 조회

In [2294]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [2295]:
# 나이 열을 인덱스로 조회
data1.iloc[:,2]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [2296]:
# 성별, 키 열을 인덱스로 조회
data1.iloc[:,[1,3]]

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [2297]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2298]:
# 송윤지 학생의 데이터를 인덱스로 조회
data4.iloc[1,:]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [2299]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회
data4.iloc[1:,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [2300]:
data4 # 1개의 열 추출 시, 시리즈로 나옴. / 2개 이상의 열 추출 시 데이터프레임으로 나옴.

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2301]:
# 임수현 학생의 성별을 인덱스로 조회
data4.iloc[2, 0]

'F'

In [2302]:
# 김영철 학생의 키를 인덱스로 조회
data4.iloc[0, 2]

np.float64(179.4)

### (3) 조건부 조회

In [2303]:
# 행으로 조회 : loc
# 열로 조회 : [["나이", "성별"]]
# 인덱스로 조회 : [행 인덱스, 열 인덱스]

In [2304]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2305]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2306]:
# 성별이 M인 데이터 조회

data1[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [2307]:
# 성별이 M인 데이터 조회

data1.loc[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [2308]:
# 키가 170이 넘는 사람들 조회

data1[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [2309]:
# 키가 170이 넘는 사람들 조회

data1.loc[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [2310]:
# 성별이 F이면서 키가 170이상인 사람 조회 (if "성별" == "F" & "키" >= 170)

data1.loc[(data1["성별"] == "F")&(data1["키"] >= 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [2311]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
# 나이가 30이상인 데이터를 조회해주세요
# '이'씨 성을 가진 데이터를 조회해주세요
# 지역이 서울인 데이터를 조회해주세요
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요

In [2312]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
solve_data_list = {
    "이름" : ["홍길동", "김준기", "이명식", "이준혁", "최명기"],
    "나이" : [25, 21, 22, 24, 31],
    "지역" : ["서울", "서울", "부산", "광주", "부산"]
}

data11 = pd.DataFrame(solve_data_list)
data11

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [2313]:
# 나이가 30이상인 데이터를 조회해주세요
data11[data11["나이"] >= 30]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


In [2314]:
# '이'씨 성을 가진 데이터를 조회해주세요
data11[data11["이름"].str.contains("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [2315]:
data11[data11["이름"].str.startswith("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [2316]:
# 지역이 서울인 데이터를 조회해주세요
data11[data11["지역"] == "서울"]

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울


In [2317]:
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
data11[(data11["지역"] == "부산") & (data11["이름"].str.contains("이"))]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산


In [2318]:
data11[(data11["지역"] == "부산") & (data11["이름"].str.startswith("최"))]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


## 3) 편집

### (1) 인덱스 제거

In [2319]:
data4.reset_index()

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2320]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2321]:
data12345 = data4.reset_index()

In [2322]:
data12345

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


### (2) 데이터 병합

In [2323]:
data1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [2324]:
data2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)
data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [2325]:
data1 + data2 # Numpy 와 같이 이루어짐 -> 그래서 원하는 데이터로 가공하려면 데이터 병합을 해야됨.

Unnamed: 0,지역명,지점수,매출
0,강남강남,11,22
1,서초도봉,44,55
2,노원노원,55,66


In [2326]:
# 병합
total_data = pd.merge(
    left=data1,
    right=data2,
    how="outer", #right, inner, outer # like 집합
    on="지역명"
)

total_data

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


### (3) 결측치 처리

In [2327]:
total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


In [2328]:
# 결측치가 있는지 확인
total_data.isna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,True,False,False
3,False,False,False,True,True


In [2329]:
# 각 열마다 결측치가 몇개 있는지 확인
total_data.isna().sum(axis=1)

0    0
1    0
2    2
3    2
dtype: int64

In [2330]:
# 결측치 채우기
total_data.fillna(999)

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,999.0,999.0,40.0,50.0
3,서초,4.0,5.0,999.0,999.0


In [2331]:
# 결측치 삭제 (결측치가 하나라도 발생한 행은 삭제)
total_data.dropna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0


In [2332]:
# # 특정 열의 결측치 발생한 데이터 삭제
# total_data.dropna(by=["지점수_x"])

## 4) 통계

In [2333]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기

## 예제 1. cdata.csv 불러오기

In [2334]:
import pandas as pd
csv_test = pd.read_csv("data\cdata.csv", encoding="CP949", index_col=0) # encoding="utf=8"
csv_test

  csv_test = pd.read_csv("data\cdata.csv", encoding="CP949", index_col=0) # encoding="utf=8"


Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 2. cdata_nohead.csv 불러오기

In [2335]:
import pandas as pd
csv_test = pd.read_csv("data\cdata_nohead.csv", encoding="utf=8", index_col=0) # encoding="utf=8" #encoding="CP949"
csv_test

  csv_test = pd.read_csv("data\cdata_nohead.csv", encoding="utf=8", index_col=0) # encoding="utf=8" #encoding="CP949"


Unnamed: 0_level_0,1,홍길동,25,서울
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [2336]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   header=None,
                   index_col=0, 
                   names=["Index", "No", "Age", "City"])
data

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [2337]:
# data/mpg.csv
import pandas as pd
mpg = pd.read_csv("data\mpg.csv")
mpg

  mpg = pd.read_csv("data\mpg.csv")


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [2338]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [2339]:
mpg.tail()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


In [2340]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [2341]:
# 데이터가 몇 개이고, 열이 몇 개인가요?
nrow, ncol = mpg.shape
print(f"mpg 데이터셋은 {nrow}개의 데이터와 {ncol}개의 열을 가지고 있습니다.")

mpg 데이터셋은 234개의 데이터와 11개의 열을 가지고 있습니다.


In [2342]:
mpg.describe() # 숫자형 데이터들로만 표현을 해줌 -> 이게 default

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [2343]:
mpg.describe(include="all")
# unique = 고유 개수

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


In [2344]:
mpg.describe(include="object")

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

In [2345]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [2346]:
mpg["manufacturer"].unique()

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

In [2347]:
companies_count = mpg["manufacturer"].unique()
print(f"A. {len(companies_count)}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


In [2348]:
companies_counts = mpg["manufacturer"].nunique()
print(f"A. {companies_counts}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [2349]:
# 카테고리별 개수를 계산
mpg["manufacturer"].value_counts() # A가 몇개고, B가 몇개고, C가 몇개야? 의 함수

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [2350]:
# 미션1. 데이터에서 "honda"회사의 데이터는 몇 개입니까?
hondas_data = mpg["manufacturer"].value_counts()
hondas_count = hondas_data["honda"]
print(f"혼다는 {hondas_count}개 입니다.")

혼다는 9개 입니다.


## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [2351]:
# 도심연비: cty, 고속도로 연비: hwy
# 평균 : ( 도심연비 + 고속도로 연비 ) / 2
mpg["total_avg"] = (mpg["cty"] + mpg["hwy"]) / 2
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total_avg
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [2352]:
mpg["total_avg"] = (mpg["cty"] + mpg["hwy"]) / 2
temp_data123 = mpg.sort_values(by="total_avg", ascending=False)
temp_data123

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total_avg
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,35.0
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,32.5
197,toyota,corolla,1.8,2008,4,auto(l4),f,26,35,r,compact,30.5
...,...,...,...,...,...,...,...,...,...,...,...,...
69,dodge,ram 1500 pickup 4wd,4.7,2008,8,manual(m6),4,9,12,e,pickup,10.5
54,dodge,dakota pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,10.5
59,dodge,durango 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,10.5
65,dodge,ram 1500 pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,10.5


In [2353]:
# 미션, temp_data123에서 맨 처음부터 10개 데이터 가져오기.
temp_data456 = temp_data123.iloc[:10,:]
print(temp_data456)

    manufacturer       model  displ  year  cyl       trans drv  cty  hwy fl  \
221   volkswagen  new beetle    1.9  1999    4  manual(m5)   f   35   44  d   
212   volkswagen       jetta    1.9  1999    4  manual(m5)   f   33   44  d   
222   volkswagen  new beetle    1.9  1999    4    auto(l4)   f   29   41  d   
196       toyota     corolla    1.8  2008    4  manual(m5)   f   28   37  r   
197       toyota     corolla    1.8  2008    4    auto(l4)   f   26   35  r   
195       toyota     corolla    1.8  1999    4  manual(m5)   f   26   35  r   
99         honda       civic    1.6  1999    4  manual(m5)   f   28   33  r   
105        honda       civic    1.8  2008    4    auto(l5)   f   25   36  r   
104        honda       civic    1.8  2008    4  manual(m5)   f   26   34  r   
106        honda       civic    1.8  2008    4    auto(l5)   f   24   36  c   

       category  total_avg  
221  subcompact       39.5  
212     compact       38.5  
222  subcompact       35.0  
196     compac

In [2354]:
# 미션, temp_data123에서 manufacturer의 종류의 개수 구하기(value_counts)
# print(temp_data123)
temp_data789 = temp_data123["manufacturer"].value_counts()
print(temp_data789)

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
mercury        4
land rover     4
lincoln        3
Name: count, dtype: int64


## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [2355]:
hyundai_only = temp_data123[temp_data123["manufacturer"] == "hyundai"]
hyundai_only
hyundai_avg_total = hyundai_only["total_avg"].mean()
hyundai_avg_total

print("현대자동차의 평균 연비 (total):", hyundai_avg_total)

# 현대차 데이터만 추출
# 현대차 평균 연비 구하기
# 출력

현대자동차의 평균 연비 (total): 22.75


## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [None]:
# 1. total열의 평균값을 구한다. total_mean
# 2. total열과 total_mean을 비교한다.
# 3. PASS, FAIL을 판단한다.

temp_avg = temp_data123["total_avg"].mean()
print(temp_avg)

mpg["avg_test_result"] = np.where(temp_data123["total_avg"] >= temp_avg, "PASS", "FAIL")
mpg["avg_test_result"].value_counts()


# temp_data123["avg_test_result"] = temp_data123["total_avg"].apply(lambda x: "PASS" if x >= temp_avg else "FAIL")
# print(temp_data123["avg_test_result"].value_counts())

20.14957264957265


avg_test_result
PASS    123
FAIL    111
Name: count, dtype: int64

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [2372]:
# 1. Q5번의 결과를 새로운 열로 만든다. result
# 2. result값이 PASS인 데이터를 추출한다. pass_data
# 3. pass_data에서 manufacturer의 카테고리별 개수를 구한다.

mpg["avg_test_result"] = np.where(temp_data123["total_avg"] >= temp_avg, "PASS", "FAIL")
mpg["avg_test_result"].value_counts()

pass_data = mpg[mpg["avg_test_result"]=="PASS"]
pass_data["manufacturer"].value_counts()
print(pass_data["manufacturer"].value_counts())
print("="*70)
top_manufacturer = pass_data["manufacturer"].value_counts().idxmax()
print("PASS 중 가장 많은 제조사:", top_manufacturer)

manufacturer
dodge        37
ford         25
chevrolet    19
audi         18
hyundai      14
honda         9
jeep          1
Name: count, dtype: int64
PASS 중 가장 많은 제조사: dodge


# 4. 다양한 데이터 체험하기

In [None]:
# kr_raw.tsv
# 국민건강보험공단_.....xlsx
# koweps_c19_2024_beta1.sav
# tsv : csv를 불러오는데 옵션만 추가하면 돼요! pd.read_csv 이용
# xlsx : 도구 설치 필요 openpyxl / pd.read_excel
# sav : 사회조사 데이터에 많이 이용 (통계프로그램:r, spss, sas) 도구 설치 필요 / pyreadstat / pd.read_spss