# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [2380]:
import pandas as pd

In [2381]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (1) 데이터만 생성

In [2382]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (2) 인덱스와 함께 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [2383]:
age_data = pd.Series(
    data = [24, 31, 26],
    index = ["김영철", "송윤지", "임수현"]
)
print(age_data)

print(age_data.index)
print(age_data.values)
print(type(age_data.values))

김영철    24
송윤지    31
임수현    26
dtype: int64
Index(['김영철', '송윤지', '임수현'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [2384]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data3 = data1 ** data2
print(data3)

0       10
1      400
2    27000
dtype: int64


## 3) 결측치

### (1) 결측치 발생

In [2385]:
import pandas as pd
import numpy as np

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


In [2386]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3, 4])

data3 =data1 + data2
print(data3)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [2387]:
import pandas as pd
import numpy as np

local_data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
local_data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)

print(local_data)
print("="*50)
print(local_data2)
print("="*50)
local_data3 = local_data + local_data2
print(local_data3)

# 연산은 인덱스 기준으로 이루어진다

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64
광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [2388]:
local_data3.info()  # 결측치 파악

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [2389]:
local_data3.isna() # 결측치 판단하기

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [2390]:
local_data3.isna().sum() # 총 결측치의 갯수

np.int64(1)

### (3) 결측치 채우기

In [2391]:
local_data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [2392]:
# 결측치 채우기 -> 덮어씌워줘야 해요
local_data3.fillna(0)
print(local_data3)
local_data3 = local_data3.fillna(0)
print(local_data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64
광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [2393]:
local_data3

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [2394]:
# 결측치 삭제 
local_data3.dropna(inplace=True)

In [2395]:
# 결측치 삭제 
local_data3 = local_data3.dropna()
print(local_data3)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [2396]:
data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data

부산    10
울산    20
대구    30
dtype: int64

In [2397]:
print(data.min())
print(data.mean())
print(data.var())
print(data.std())
print(data.max())

10
20.0
100.0
10.0
30


In [2398]:
data.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

In [2399]:
dep_data = pd.Series(
    data = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

dep_data.describe()

# 범주형 데이터

count      9
unique     3
top       HR
freq       4
dtype: object

# 2. 데이터프레임(DataFrame)

## 1) 생성

In [2400]:
# 2차원 리스트를 이용
import pandas as pd

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]

data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2401]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2402]:
# 행 딕셔너리 이용
data_row_dict = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키":179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키":161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키":174},
]

data3 = pd.DataFrame(data_row_dict)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2403]:
# 이름 열을 인덱스로 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data4 = data1.set_index("이름")
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2404]:
# 이름 열을 다시 되돌아오도록 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data5 = data4.reset_index()
data5

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

## 2) 조회

### (1) 이름으로 조회

In [2405]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [2406]:
# 나이 열을 조회
data1["나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [2407]:
# 나이, 키 열을 조회 (리스트처리! : 셀을 조회하기 위해 (excel)) 
data1[["나이", "키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [2408]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2409]:
# 송윤지 행 데이터 조회
data4.loc["송윤지"]
data4.loc[["송윤지", "임수현"]]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

### (2) 인덱스로 조회

In [2410]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [2411]:
# 나이 열을 인덱스로 조회
data1.iloc[:,2]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [2412]:
# 성별, 키 열을 인덱스로 조회
data1.iloc[:,[1,3]]

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [2413]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2414]:
# 송윤지 학생의 데이터를 인덱스로 조회
data4.iloc[1,:]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [2415]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회
data4.iloc[1:,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [2416]:
data4 # 1개의 열 추출 시, 시리즈로 나옴. / 2개 이상의 열 추출 시 데이터프레임으로 나옴.

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2417]:
# 임수현 학생의 성별을 인덱스로 조회
data4.iloc[2, 0]

'F'

In [2418]:
# 김영철 학생의 키를 인덱스로 조회
data4.iloc[0, 2]

np.float64(179.4)

### (3) 조건부 조회

In [2419]:
# 행으로 조회 : loc
# 열로 조회 : [["나이", "성별"]]
# 인덱스로 조회 : [행 인덱스, 열 인덱스]

In [2420]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2421]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2422]:
# 성별이 M인 데이터 조회

data1[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [2423]:
# 성별이 M인 데이터 조회

data1.loc[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [2424]:
# 키가 170이 넘는 사람들 조회

data1[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [2425]:
# 키가 170이 넘는 사람들 조회

data1.loc[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [2426]:
# 성별이 F이면서 키가 170이상인 사람 조회 (if "성별" == "F" & "키" >= 170)

data1.loc[(data1["성별"] == "F")&(data1["키"] >= 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [2427]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
# 나이가 30이상인 데이터를 조회해주세요
# '이'씨 성을 가진 데이터를 조회해주세요
# 지역이 서울인 데이터를 조회해주세요
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요

In [2428]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
solve_data_list = {
    "이름" : ["홍길동", "김준기", "이명식", "이준혁", "최명기"],
    "나이" : [25, 21, 22, 24, 31],
    "지역" : ["서울", "서울", "부산", "광주", "부산"]
}

data11 = pd.DataFrame(solve_data_list)
data11

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [2429]:
# 나이가 30이상인 데이터를 조회해주세요
data11[data11["나이"] >= 30]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


In [2430]:
# '이'씨 성을 가진 데이터를 조회해주세요
data11[data11["이름"].str.contains("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [2431]:
data11[data11["이름"].str.startswith("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [2432]:
# 지역이 서울인 데이터를 조회해주세요
data11[data11["지역"] == "서울"]

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울


In [2433]:
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
data11[(data11["지역"] == "부산") & (data11["이름"].str.contains("이"))]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산


In [2434]:
data11[(data11["지역"] == "부산") & (data11["이름"].str.startswith("최"))]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


## 3) 편집

### (1) 인덱스 제거

In [2435]:
data4.reset_index()

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [2436]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [2437]:
data12345 = data4.reset_index()

In [2438]:
data12345

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


### (2) 데이터 병합

In [2439]:
data1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [2440]:
data2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)
data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [2441]:
data1 + data2 # Numpy 와 같이 이루어짐 -> 그래서 원하는 데이터로 가공하려면 데이터 병합을 해야됨.

Unnamed: 0,지역명,지점수,매출
0,강남강남,11,22
1,서초도봉,44,55
2,노원노원,55,66


In [2442]:
# 병합
total_data = pd.merge(
    left=data1,
    right=data2,
    how="outer", #right, inner, outer # like 집합
    on="지역명"
)

total_data

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


### (3) 결측치 처리

In [2443]:
total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


In [2444]:
# 결측치가 있는지 확인
total_data.isna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,True,False,False
3,False,False,False,True,True


In [2445]:
# 각 열마다 결측치가 몇개 있는지 확인
total_data.isna().sum(axis=1)

0    0
1    0
2    2
3    2
dtype: int64

In [2446]:
# 결측치 채우기
total_data.fillna(999)

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,999.0,999.0,40.0,50.0
3,서초,4.0,5.0,999.0,999.0


In [2447]:
# 결측치 삭제 (결측치가 하나라도 발생한 행은 삭제)
total_data.dropna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0


In [2448]:
# # 특정 열의 결측치 발생한 데이터 삭제
# total_data.dropna(by=["지점수_x"])

## 4) 통계

In [2449]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기

## 예제 1. cdata.csv 불러오기

In [2450]:
import pandas as pd
csv_test = pd.read_csv("data\cdata.csv", encoding="CP949", index_col=0) # encoding="utf=8"
csv_test

  csv_test = pd.read_csv("data\cdata.csv", encoding="CP949", index_col=0) # encoding="utf=8"


Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 2. cdata_nohead.csv 불러오기

In [2451]:
import pandas as pd
csv_test = pd.read_csv("data\cdata_nohead.csv", encoding="utf=8", index_col=0) # encoding="utf=8" #encoding="CP949"
csv_test

  csv_test = pd.read_csv("data\cdata_nohead.csv", encoding="utf=8", index_col=0) # encoding="utf=8" #encoding="CP949"


Unnamed: 0_level_0,1,홍길동,25,서울
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [2452]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   header=None,
                   index_col=0, 
                   names=["Index", "No", "Age", "City"])
data

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [2453]:
# data/mpg.csv
import pandas as pd
mpg = pd.read_csv("data\mpg.csv")
mpg

  mpg = pd.read_csv("data\mpg.csv")


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [2454]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [2455]:
mpg.tail()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


In [2456]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [2457]:
# 데이터가 몇 개이고, 열이 몇 개인가요?
nrow, ncol = mpg.shape
print(f"mpg 데이터셋은 {nrow}개의 데이터와 {ncol}개의 열을 가지고 있습니다.")

mpg 데이터셋은 234개의 데이터와 11개의 열을 가지고 있습니다.


In [2458]:
mpg.describe() # 숫자형 데이터들로만 표현을 해줌 -> 이게 default

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [2459]:
mpg.describe(include="all")
# unique = 고유 개수

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


In [2460]:
mpg.describe(include="object")

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

In [2461]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [2462]:
mpg["manufacturer"].unique()

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

In [2463]:
companies_count = mpg["manufacturer"].unique()
print(f"A. {len(companies_count)}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


In [2464]:
companies_counts = mpg["manufacturer"].nunique()
print(f"A. {companies_counts}개의 회사가 있습니다.")

A. 15개의 회사가 있습니다.


## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [2465]:
# 카테고리별 개수를 계산
mpg["manufacturer"].value_counts() # A가 몇개고, B가 몇개고, C가 몇개야? 의 함수

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [2466]:
# 미션1. 데이터에서 "honda"회사의 데이터는 몇 개입니까?
hondas_data = mpg["manufacturer"].value_counts()
hondas_count = hondas_data["honda"]
print(f"혼다는 {hondas_count}개 입니다.")

혼다는 9개 입니다.


## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [2467]:
# 도심연비: cty, 고속도로 연비: hwy
# 평균 : ( 도심연비 + 고속도로 연비 ) / 2
mpg["total_avg"] = (mpg["cty"] + mpg["hwy"]) / 2
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total_avg
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [2468]:
mpg["total_avg"] = (mpg["cty"] + mpg["hwy"]) / 2
temp_data123 = mpg.sort_values(by="total_avg", ascending=False)
temp_data123

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total_avg
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,35.0
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,32.5
197,toyota,corolla,1.8,2008,4,auto(l4),f,26,35,r,compact,30.5
...,...,...,...,...,...,...,...,...,...,...,...,...
69,dodge,ram 1500 pickup 4wd,4.7,2008,8,manual(m6),4,9,12,e,pickup,10.5
54,dodge,dakota pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,10.5
59,dodge,durango 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,10.5
65,dodge,ram 1500 pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,10.5


In [2469]:
# 미션, temp_data123에서 맨 처음부터 10개 데이터 가져오기.
temp_data456 = temp_data123.iloc[:10,:]
print(temp_data456)

    manufacturer       model  displ  year  cyl       trans drv  cty  hwy fl  \
221   volkswagen  new beetle    1.9  1999    4  manual(m5)   f   35   44  d   
212   volkswagen       jetta    1.9  1999    4  manual(m5)   f   33   44  d   
222   volkswagen  new beetle    1.9  1999    4    auto(l4)   f   29   41  d   
196       toyota     corolla    1.8  2008    4  manual(m5)   f   28   37  r   
197       toyota     corolla    1.8  2008    4    auto(l4)   f   26   35  r   
195       toyota     corolla    1.8  1999    4  manual(m5)   f   26   35  r   
99         honda       civic    1.6  1999    4  manual(m5)   f   28   33  r   
105        honda       civic    1.8  2008    4    auto(l5)   f   25   36  r   
104        honda       civic    1.8  2008    4  manual(m5)   f   26   34  r   
106        honda       civic    1.8  2008    4    auto(l5)   f   24   36  c   

       category  total_avg  
221  subcompact       39.5  
212     compact       38.5  
222  subcompact       35.0  
196     compac

In [2470]:
# 미션, temp_data123에서 manufacturer의 종류의 개수 구하기(value_counts)
# print(temp_data123)
temp_data789 = temp_data123["manufacturer"].value_counts()
print(temp_data789)

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
mercury        4
land rover     4
lincoln        3
Name: count, dtype: int64


## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [2471]:
hyundai_only = temp_data123[temp_data123["manufacturer"] == "hyundai"]
hyundai_only
hyundai_avg_total = hyundai_only["total_avg"].mean()
hyundai_avg_total

print("현대자동차의 평균 연비 (total):", hyundai_avg_total)

# 현대차 데이터만 추출
# 현대차 평균 연비 구하기
# 출력

현대자동차의 평균 연비 (total): 22.75


## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [2472]:
# 1. total열의 평균값을 구한다. total_mean
# 2. total열과 total_mean을 비교한다.
# 3. PASS, FAIL을 판단한다.

temp_avg = temp_data123["total_avg"].mean()
print(temp_avg)

mpg["avg_test_result"] = np.where(temp_data123["total_avg"] >= temp_avg, "PASS", "FAIL")
mpg["avg_test_result"].value_counts()


# temp_data123["avg_test_result"] = temp_data123["total_avg"].apply(lambda x: "PASS" if x >= temp_avg else "FAIL")
# print(temp_data123["avg_test_result"].value_counts())

20.14957264957265


avg_test_result
PASS    123
FAIL    111
Name: count, dtype: int64

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [2473]:
# 1. Q5번의 결과를 새로운 열로 만든다. result
# 2. result값이 PASS인 데이터를 추출한다. pass_data
# 3. pass_data에서 manufacturer의 카테고리별 개수를 구한다.

mpg["avg_test_result"] = np.where(temp_data123["total_avg"] >= temp_avg, "PASS", "FAIL")
mpg["avg_test_result"].value_counts()

pass_data = mpg[mpg["avg_test_result"]=="PASS"]
pass_data["manufacturer"].value_counts()
print(pass_data["manufacturer"].value_counts())
print("="*70)
top_manufacturer = pass_data["manufacturer"].value_counts().idxmax()
print("PASS 중 가장 많은 제조사:", top_manufacturer)

manufacturer
dodge        37
ford         25
chevrolet    19
audi         18
hyundai      14
honda         9
jeep          1
Name: count, dtype: int64
PASS 중 가장 많은 제조사: dodge


# 4. 다양한 데이터 체험하기

In [2474]:
# kr_raw.tsv
# 국민건강보험공단_.....xlsx
# koweps_c19_2024_beta1.sav
# tsv : csv를 불러오는데 옵션만 추가하면 돼요! pd.read_csv 이용
# xlsx : 도구 설치 필요 openpyxl / pd.read_excel
# sav : 사회조사 데이터에 많이 이용 (통계프로그램:r, spss, sas) 도구 설치 필요 / pyreadstat / pd.read_spss

In [2478]:
import pandas as pd
yummy_list = pd.read_csv("data/kr3_raw.tsv", delimiter="\t")
yummy_list

Unnamed: 0,Region,Rating,Category,Review
0,인덕원,1,삼겹살 고기집,숙성 돼지고기 전문점입니다. 건물 모양 때문에 매장 모양도 좀 특이하지만 쾌적한 편...
1,인덕원,1,삼겹살 고기집,고기가 정말 맛있었어요! 육즙이 가득있어서 너무 좋았아요\n일하시는분들 너무 친절하...
2,인덕원,1,순대국 찹쌀순대,"잡내없고 깔끔, 담백한 맛의 순대국이 순대국을 안 좋아하는 사람들에게도 술술 넘어갈..."
3,인덕원,1,순대국 찹쌀순대,고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니다~~ 맛도 좋습니다\n다만 양념...
4,인덕원,1,순대국 찹쌀순대,순대국 자체는 제가 먹어본 순대국밥집 중에서 Top5 안에는 들어요.\n\n그러나 ...
...,...,...,...,...
642408,평택,2,일식/중식/세계음식,"요즘, 핫하게,,,떠오르구 있는 중국집. ㅋ, 맥주의 여파루 속이 안좋지만 와봄. ..."
642409,평택,0,한식,원래 글 안쓰는데 이거는 정말 다른분들 위해서 써야할것같네요 방금 포장주문 해서 왔...
642410,평택,1,한식,"우리팀 단골집, 술먹고 다음 날 가면 푸짐하게 배불리 해장 할 수 있는곳, 주말도 ..."
642411,평택,2,카페/디저트,"원래는 평택에 있었는데, 연남동에도 최근에 생겨서 방문 했는데..진짜 줄이 어마어마..."


In [None]:
import pandas as pd
shiiiiiit_man = pd.read_excel("data/국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx")
shiiiiiit_man

Unnamed: 0,진료연도,진료월,주상병코드,주상병명,연령,진료인원(명)
0,2020,전체,K50,크론병[국소성장염],18세 미만,1735
1,2020,전체,K50,크론병[국소성장염],18세 이상,23822
2,2020,전체,K51,궤양성대장염,18세 미만,603
3,2020,전체,K51,궤양성대장염,18세 이상,47932
4,2021,전체,K50,크론병[국소성장염],18세 미만,2505
...,...,...,...,...,...,...
203,2023,11,K51,궤양성대장염,18세 이상,19985
204,2023,12,K50,크론병[국소성장염],18세 미만,1528
205,2023,12,K50,크론병[국소성장염],18세 이상,11137
206,2023,12,K51,궤양성대장염,18세 미만,374


In [2483]:
import pandas as pd
shiiiiiit_man = pd.read_excel("data/국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx", sheet_name="Sheet5")
shiiiiiit_man

Unnamed: 0,진료연도,진료월,주상병코드,연령,요양기관 시도,요양기관 시군구,요양기관종별,진료인원(명)
0,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,상급종합병원,140
1,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,의원,*
2,2020,전체,"K50, K51",18세 미만,서울특별시,종로구,치과병원,*
3,2020,전체,"K50, K51",18세 미만,서울특별시,중구,종합병원,*
4,2020,전체,"K50, K51",18세 미만,서울특별시,중구,병원,30
...,...,...,...,...,...,...,...,...
39971,2023,12,"K50, K51",18세 이상,전북특별자치도,고창군,병원,*
39972,2023,12,"K50, K51",18세 이상,전북특별자치도,고창군,의원,*
39973,2023,12,"K50, K51",18세 이상,전북특별자치도,부안군,병원,*
39974,2023,12,"K50, K51",18세 이상,전북특별자치도,부안군,의원,*


In [2480]:
import pandas as pd
social_statistics = pd.read_spss("data/koweps_c19_2024_beta1.sav")
social_statistics

Unnamed: 0,h19_id,h19_ind,h19_sn,h19_merkey,h_new,h_new1,h19_pind,h19_pid,c19_fnum,c19_ws_c,...,c1907_4aq14,c1907_4aq15,c1907_4aq16,c1907_4aq17,c1907_4aq18,c1907_4aq19,c1907_4aq20,c1907_4aq21,c1907_4aq22,c1907_4aq23
0,48.0,1.0,1.0,480101.0,0.0,0.0,9.0,4807.0,4.0,1.324813,...,1.0,3.0,3.0,3.0,1.0,3.0,1.0,2.0,2.0,3.0
1,86.0,10.0,1.0,861001.0,0.0,0.0,10.0,8652.0,3.0,1.396315,...,2.0,3.0,3.0,3.0,2.0,3.0,2.0,2.0,2.0,3.0
2,102.0,1.0,1.0,1020101.0,0.0,0.0,11.0,10206.0,6.0,1.255147,...,2.0,3.0,3.0,3.0,1.0,3.0,2.0,1.0,1.0,2.0
3,105.0,9.0,1.0,1050901.0,0.0,0.0,12.0,10553.0,4.0,1.419771,...,1.0,3.0,2.0,3.0,1.0,3.0,2.0,1.0,1.0,3.0
4,139.0,2.0,1.0,1390201.0,0.0,0.0,8.0,13952.0,3.0,1.396315,...,2.0,2.0,4.0,3.0,3.0,2.0,1.0,1.0,1.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
336,11907.0,17.0,1.0,119071701.0,0.0,1.0,17.0,1190704.0,4.0,,...,2.0,2.0,3.0,3.0,3.0,2.0,2.0,3.0,2.0,3.0
337,11908.0,17.0,1.0,119081701.0,0.0,1.0,17.0,1190803.0,3.0,,...,1.0,3.0,2.0,4.0,1.0,4.0,1.0,1.0,1.0,3.0
338,11970.0,17.0,1.0,119701701.0,0.0,1.0,17.0,1197004.0,4.0,,...,2.0,2.0,3.0,2.0,1.0,2.0,2.0,2.0,2.0,3.0
339,11975.0,17.0,1.0,119751701.0,0.0,1.0,17.0,1197503.0,3.0,,...,3.0,3.0,3.0,3.0,2.0,3.0,2.0,2.0,2.0,3.0


In [2484]:
social_statistics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Columns: 291 entries, h19_id to c1907_4aq23
dtypes: float64(291)
memory usage: 775.4 KB
