# 판다스(Pandas)

```
uv add pandas
```

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [46]:
import pandas as pd

In [47]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
print(name_data)

0    김영철
1    송윤지
2    임수현
dtype: object


In [48]:
age_data = pd.Series(data=[24, 31, 26])
print(age_data)

0    24
1    31
2    26
dtype: int64


In [49]:
height_data = pd.Series(data=[179.4, 161.0, 174])
print(height_data)

0    179.4
1    161.0
2    174.0
dtype: float64


<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (2) 인덱스와 함께 생성

In [50]:
age_data = pd.Series(
    data=[24, 31, 26],
    index=["김영철", "송윤지", "임수현"]
)
print(age_data)

김영철    24
송윤지    31
임수현    26
dtype: int64


In [51]:
print(age_data.index)

Index(['김영철', '송윤지', '임수현'], dtype='object')


In [52]:
print(age_data.values)
print(type(age_data.values))

[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [53]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data3 = data1 ** data2
print(data3)

0       10
1      400
2    27000
dtype: int64


## 3) 결측치

### (1) 결측치 발생

In [54]:
import pandas as pd
import numpy as np

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


In [55]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3, 4])

data3 = data1 + data2
print(data3)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [56]:
data1 = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)
print(data1)
print("="*20)
print(data2)

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64


In [57]:
data3 = data1 + data2
print(data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [58]:
data3.info()

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [59]:
# 결측치 판단하기
data3.isna()

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [60]:
# 결측치 판단하기
data3.isna().sum()

np.int64(1)

### (3) 결측치 채우기

In [61]:
data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [62]:
# 결측치 채우기 - 반드시 덮어씌워줘야 반영된다.
data4 = data3.fillna(0)

In [63]:
data4

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [64]:
# 결측치 삭제 - 반드시 덮어씌워줘야 반영된다.
data5 = data3.dropna()

In [65]:
data5

대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [66]:
data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [67]:
data3.dropna(inplace=True)

In [68]:
data3

대구    34.0
부산    12.0
울산    23.0
dtype: float64

## 4) 통계

In [69]:
data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data

부산    10
울산    20
대구    30
dtype: int64

In [70]:
print(data.min())       # 최소
print(data.mean())      # 평균
print(data.var())       # 분산
print(data.std())       # 표준편차
print(data.max())       # 최대

10
20.0
100.0
10.0
30


In [71]:
data.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [72]:
data = pd.Series(
    data=['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)
data.describe()

count      9
unique     3
top       HR
freq       4
dtype: object

# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [73]:
# 2차원 리스트를 이용
import pandas as pd

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]
data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
# data1.columns = ["이름", "성별", "나이", "키"]
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [74]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [75]:
# 행 딕셔너리 이용
data_row_list = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키": 179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키": 161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키": 174},
]
data3 = pd.DataFrame(data_row_list)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [76]:
# 이름 열을 인덱스로 설정하기(덮어쓰기 해야 함)
data4 = data1.set_index("이름")
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [77]:
# 이름 인덱스를 다시 열로 바꾸기(덮어쓰기 해야 함)
data5 = data4.reset_index()
data5

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [78]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


## 2) 조회

### (1) 이름으로 조회

In [79]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [80]:
# 나이 열을 조회
data1["나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [81]:
# 나이, 키 열을 조회
data1[["나이", "키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [82]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [83]:
# 송윤지 행 조회
data4.loc["송윤지"]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [84]:
# 김영철, 임수현 행 조회
data4.loc[["김영철", "임수현"]]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
임수현,F,26,174.0


#### 셀 조회

In [85]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [86]:
# 임수현 학생의 키 조회
data4.loc["임수현", "키"]

np.float64(174.0)

In [87]:
# 송윤지 학생의 성별 조회
data4.loc["송윤지", "성별"]

'F'

### (2) 인덱스로 조회

In [88]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [89]:
데이터프레임.loc[행, 열]

NameError: name '데이터프레임' is not defined

In [None]:
# 나이 열을 인덱스로 조회
data1.iloc[:,2]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [None]:
# 성별, 키 열을 인덱스로 조회
data1.iloc[:,[1,3]]

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [None]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [None]:
# 송윤지 학생의 데이터를 인덱스로 조회
data4.iloc[1,:]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [None]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회
data4.iloc[1:,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [None]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [None]:
# 임수현 학생의 성별을 인덱스로 조회
data4.iloc[2, 0]

'F'

In [None]:
# 김영철 학생의 키를 인덱스로 조회
data4.iloc[0, 2]

np.float64(179.4)

### (3) 조건부 조회

In [None]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [90]:
data1.index

RangeIndex(start=0, stop=3, step=1)

In [91]:
data1.columns

Index(['이름', '성별', '나이', '키'], dtype='object')

In [92]:
data1["키"].dtype

dtype('float64')

In [93]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [96]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [101]:
data4.iloc[1,1]

np.int64(31)

In [102]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [103]:
# 성별이 M인 데이터 조회: 조건식 data1["성별"] == "M"
data1[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [106]:
# 성별이 M인 데이터들을 조회하세요
data1.loc[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [107]:
# 성별이 M인 데이터들의 "키"를 조회하세요
data1.loc[data1["성별"] == "M", "키"]

0    179.4
Name: 키, dtype: float64

In [109]:
# 키가 170이 넘는 사람들 조회: 조건식 data["키"] > 170
data1.loc[data1["키"] > 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [111]:
# 성별이 F이면서 키가 170 이상인 사람 조회(and, &)
# 조건문을 만들 때 if 성별 == "F" and 키 >= 170:
data1[(data1["성별"] == "F") & (data1["키"] >=170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [122]:
data = pd.read_csv("data/cdata_nohead.csv", header=None,
                   names=['index', 'no', '이름', '나이', '지역'])
data = data[["이름", "나이", "지역"]]
data.iloc[3,0] = "이준혁"
data

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [None]:
# Hint: pandas 문자열 관련 함수를 검색해보세요
# 위에 있는 데이터프레임을 직접 써서 생성해주세요

In [123]:
# 나이가 30이상인 데이터를 조회해주세요
data[data["나이"] >= 30]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


In [126]:
# '이'씨 성을 가진 데이터를 조회해주세요
data[data["이름"].str.startswith("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [127]:
# 지역이 서울인 데이터를 조회해주세요
data[data["지역"] == "서울"]

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울


In [129]:
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
data.loc[(data["지역"] == "부산") & (data["이름"].str.startswith("최")), "나이"]

4    31
Name: 나이, dtype: int64

## 3) 편집

### (1) 인덱스 제거

In [131]:
data4.reset_index()

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [133]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


### (2) 데이터 병합

In [137]:
data1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [138]:
data2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)
data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [139]:
data1 + data2

Unnamed: 0,지역명,지점수,매출
0,강남강남,11,22
1,서초도봉,44,55
2,노원노원,55,66


In [142]:
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [145]:
# 병합
total_data = pd.merge(
    left=data1,
    right=data2,
    how="outer", # right, inner, outer
    on="지역명"
)
total_data

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


### (3) 결측치 처리

In [146]:
total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 288.0+ bytes


In [147]:
# 결측치가 있는지 확인
total_data.isna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,True,False,False
3,False,False,False,True,True


In [152]:
# 각 열마다 결측치가 몇개 있는지 확인
total_data.isna().sum(axis=0)

지역명      0
지점수_x    1
매출_x     1
지점수_y    1
매출_y     1
dtype: int64

In [153]:
# 결측치 채우기
total_data.fillna(999)

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,999.0,999.0,40.0,50.0
3,서초,4.0,5.0,999.0,999.0


In [154]:
# 결측치 삭제 - 결측치가 하나라도 발생한 행은 삭제
total_data.dropna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0


In [162]:
total_data

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


In [163]:
# 특정 열의 결측치 발생한 데이터 삭제
total_data.dropna(subset=["지점수_x"])

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
3,서초,4.0,5.0,,


## 4) 통계

In [161]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기

## 예제 1. cdata.csv 불러오기

In [167]:
data = pd.read_csv("data/cdata.csv", encoding="CP949", index_col=0)
data

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 2. cdata_nohead.csv 불러오기

In [15]:
data = pd.read_csv("data/cdata_nohead.csv", header=None)
data

Unnamed: 0,0,1,2,3,4
0,0,1,홍길동,25,서울
1,1,2,김준기,21,서울
2,2,9,이명식,22,부산
3,3,32,방준혁,24,광주
4,4,47,최명기,31,부산


In [17]:
data.set_index(0)

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [173]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   header=None,
                   index_col=0, 
                   names=["Index", "No", "Age", "City"])
data

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 3. 자동차 회사의 연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [177]:
# data/mpg.csv
import pandas as pd
mpg = pd.read_csv("data/mpg.csv")
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [178]:
mpg.tail()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


## 데이터 파악하기

In [179]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [182]:
# 데이터가 몇 개이고, 열이 몇 개인가요?
nrow, ncol = mpg.shape
print(f"mpg 데이터셋은 {nrow}개의 데이터와 {ncol}개의 열을 가지고 있습니다.")

mpg 데이터셋은 234개의 데이터와 11개의 열을 가지고 있습니다.


In [183]:
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [184]:
# 다른 유형의 데이터타입을 describe로 정리하고 싶을 때에는 어떻게 할까?
mpg.describe(include="object")

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


## Q1. 몇 개의 회사 데이터가 있나요?

In [185]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [187]:
mpg["manufacturer"].unique()

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

In [190]:
manufacturer_list = mpg["manufacturer"].unique()
print(f"A. {len(manufacturer_list)}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


In [189]:
n_manufacturer = mpg["manufacturer"].nunique()
print(f"A. {n_manufacturer}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [None]:
# a = ["A", "A", "B", "C", "C", "C", "C"]
# A가 몇개이고 B가 몇개이고 C가 몇개야?

In [193]:
# 카테고리별 개수를 계산
mpg["manufacturer"].value_counts()

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [195]:
# 미션. 데이터에서 "honda"회사의 데이터는 몇 개입니까?
manufacturers = mpg["manufacturer"].value_counts()
honda_count = manufacturers["honda"]
print(f"honda 회사의 데이터는 {honda_count}개 있습니다.")

honda 회사의 데이터는 9개 있습니다.


## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [196]:
# 도심연비: cty, 고속도로 연비: hwy
# 평균:( 도심연비 + 고속도로 ) / 2
mpg["total"] = (mpg["cty"] + mpg["hwy"]) / 2
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0


## Q4. total 연비 상위 10개 자동차의 회사별 개수를 구하세요

In [205]:
# 1. total열의 상위 10개 회사 추출 - 정렬
temp_data = mpg.sort_values(by=["total"], ascending=False)
temp_data

# 미션1. temp_data에서 맨 처음부터 10개의 데이터 가져오기
# temp_data2 = temp_data.head(10)
temp_data2 = temp_data.iloc[:10,:]
temp_data2
# 미션2. temp_data2의 manufacturer의 종류와 개수 구하기(value_counts)
temp_data3 = temp_data2["manufacturer"].value_counts()
temp_data3

manufacturer
honda         4
volkswagen    3
toyota        3
Name: count, dtype: int64

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [212]:
# 1. 현대자동차(hyundai)의 데이터를 추출한다. hyundai_data 조건식 mpg["manufacturer"] == "hyundai"
hyundai_data = mpg[mpg["manufacturer"] == "hyundai"]
# 2. temp_data에서 total 열의 평균값을 계산한다.
hyundai_data_total_mean = hyundai_data["total"].mean()
print(f"현대자동차의 total열에 대한 평균값은 {hyundai_data_total_mean}입니다.")

현대자동차의 total열에 대한 평균값은 22.75입니다.


In [214]:
print(hyundai_data_total_mean)

22.75


## Q5. total열의 값이 total열의 평균보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [220]:
# 1. total열의 평균값을 구한다. total_mean
total_mean = mpg["total"].mean()
print(total_mean)
# 2. total열과 total_mean을 비교한다.
# 3. PASS, FAIL을 판단한다.
mpg["result"] = np.where(mpg["total"] >= total_mean, "PASS", "FAIL")
mpg["result"].value_counts()

20.14957264957265


result
PASS    123
FAIL    111
Name: count, dtype: int64

In [222]:
mpg["result"] = mpg["total"].apply(lambda x: "PASS" if x >= total_mean else "FAIL")
mpg["result"].value_counts()

result
PASS    123
FAIL    111
Name: count, dtype: int64

## +Quiz. PASS인 자동차 중 가장 많은 비율을 차지하는 자동차 회사는?

In [226]:
# 1. result값이 PASS인 데이터를 추출한다. pass_data
pass_data = mpg[mpg["result"]=="PASS"]
# 2. pass_data에서 manufacturer의 카테고리별 개수를 구한다.
pass_data["manufacturer"].value_counts()

manufacturer
volkswagen    26
toyota        19
audi          14
subaru        14
hyundai       13
honda          9
nissan         9
chevrolet      7
pontiac        5
dodge          4
ford           3
Name: count, dtype: int64

# 4. 다양한 데이터 체험하기

In [None]:
# kr3_raw.tsv(sep="\t") pd.read_csv()
# 국민건강보험공단_.....xlsx 
   ## 도구 설치 필요 uv add openpyxl
   ## pd.read_excel()
# koweps_c19_2024_beta1.sav
   ## uv add pyreadstat
   ## pd.read_spss()

In [1]:
import pandas as pd 

data1 = pd.read_csv("data/kr3_raw.tsv", sep="\t")
data1

Unnamed: 0,Region,Rating,Category,Review
0,인덕원,1,삼겹살 고기집,숙성 돼지고기 전문점입니다. 건물 모양 때문에 매장 모양도 좀 특이하지만 쾌적한 편...
1,인덕원,1,삼겹살 고기집,고기가 정말 맛있었어요! 육즙이 가득있어서 너무 좋았아요\n일하시는분들 너무 친절하...
2,인덕원,1,순대국 찹쌀순대,"잡내없고 깔끔, 담백한 맛의 순대국이 순대국을 안 좋아하는 사람들에게도 술술 넘어갈..."
3,인덕원,1,순대국 찹쌀순대,고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니다~~ 맛도 좋습니다\n다만 양념...
4,인덕원,1,순대국 찹쌀순대,순대국 자체는 제가 먹어본 순대국밥집 중에서 Top5 안에는 들어요.\n\n그러나 ...
...,...,...,...,...
642408,평택,2,일식/중식/세계음식,"요즘, 핫하게,,,떠오르구 있는 중국집. ㅋ, 맥주의 여파루 속이 안좋지만 와봄. ..."
642409,평택,0,한식,원래 글 안쓰는데 이거는 정말 다른분들 위해서 써야할것같네요 방금 포장주문 해서 왔...
642410,평택,1,한식,"우리팀 단골집, 술먹고 다음 날 가면 푸짐하게 배불리 해장 할 수 있는곳, 주말도 ..."
642411,평택,2,카페/디저트,"원래는 평택에 있었는데, 연남동에도 최근에 생겨서 방문 했는데..진짜 줄이 어마어마..."


In [6]:
data2 = pd.read_excel("data/국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx",
                      sheet_name="Sheet5")
data2

Unnamed: 0,진료연도,진료월,주상병코드,연령,요양기관 시도,요양기관 시군구,요양기관종별,진료인원(명)
0,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,상급종합병원,140
1,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,의원,*
2,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,치과병원,*
3,2020,전체,"K50, K51",18세 미만,서울특별시,중구,종합병원,*
4,2020,전체,"K50, K51",18세 미만,서울특별시,중구,병원,30
...,...,...,...,...,...,...,...,...
39971,2023,12,"K50, K51",18세 이상,전북특별자치도,고창군,병원,*
39972,2023,12,"K50, K51",18세 이상,전북특별자치도,고창군,의원,*
39973,2023,12,"K50, K51",18세 이상,전북특별자치도,부안군,병원,*
39974,2023,12,"K50, K51",18세 이상,전북특별자치도,부안군,의원,*


In [8]:
data3 = pd.read_spss("data/koweps_c19_2024_beta1.sav")
data3

Unnamed: 0,h19_id,h19_ind,h19_sn,h19_merkey,h_new,h_new1,h19_pind,h19_pid,c19_fnum,c19_ws_c,...,c1907_4aq14,c1907_4aq15,c1907_4aq16,c1907_4aq17,c1907_4aq18,c1907_4aq19,c1907_4aq20,c1907_4aq21,c1907_4aq22,c1907_4aq23
0,48.0,1.0,1.0,480101.0,0.0,0.0,9.0,4807.0,4.0,1.324813,...,1.0,3.0,3.0,3.0,1.0,3.0,1.0,2.0,2.0,3.0
1,86.0,10.0,1.0,861001.0,0.0,0.0,10.0,8652.0,3.0,1.396315,...,2.0,3.0,3.0,3.0,2.0,3.0,2.0,2.0,2.0,3.0
2,102.0,1.0,1.0,1020101.0,0.0,0.0,11.0,10206.0,6.0,1.255147,...,2.0,3.0,3.0,3.0,1.0,3.0,2.0,1.0,1.0,2.0
3,105.0,9.0,1.0,1050901.0,0.0,0.0,12.0,10553.0,4.0,1.419771,...,1.0,3.0,2.0,3.0,1.0,3.0,2.0,1.0,1.0,3.0
4,139.0,2.0,1.0,1390201.0,0.0,0.0,8.0,13952.0,3.0,1.396315,...,2.0,2.0,4.0,3.0,3.0,2.0,1.0,1.0,1.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
336,11907.0,17.0,1.0,119071701.0,0.0,1.0,17.0,1190704.0,4.0,,...,2.0,2.0,3.0,3.0,3.0,2.0,2.0,3.0,2.0,3.0
337,11908.0,17.0,1.0,119081701.0,0.0,1.0,17.0,1190803.0,3.0,,...,1.0,3.0,2.0,4.0,1.0,4.0,1.0,1.0,1.0,3.0
338,11970.0,17.0,1.0,119701701.0,0.0,1.0,17.0,1197004.0,4.0,,...,2.0,2.0,3.0,2.0,1.0,2.0,2.0,2.0,2.0,3.0
339,11975.0,17.0,1.0,119751701.0,0.0,1.0,17.0,1197503.0,3.0,,...,3.0,3.0,3.0,3.0,2.0,3.0,2.0,2.0,2.0,3.0


In [9]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Columns: 291 entries, h19_id to c1907_4aq23
dtypes: float64(291)
memory usage: 775.4 KB
