# 판다스(Pandas)

`uv add pandas`

In [2]:
import pandas as pd

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [3]:
name_data = pd.Series(data = ["김영철", "송윤지", "임수형"])
age_data = pd.Series(data = [24, 31, 26])
height_data = pd.Series(data = [179.4, 161.0, 174])
print(name_data)
print(age_data)
print(height_data)

0    김영철
1    송윤지
2    임수형
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (2) 인덱스와 함께 생성

In [4]:
age_data = pd.Series(
    data=[24, 31, 26],
    index=["김영철", "송윤지", "임수형"]
)
print(age_data)

김영철    24
송윤지    31
임수형    26
dtype: int64


In [5]:
age_data.index

Index(['김영철', '송윤지', '임수형'], dtype='object')

In [6]:
print(age_data.values)
print(type(age_data.values))

[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [7]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data3 = data1 ** data2
print(data3)

0       10
1      400
2    27000
dtype: int64


## 3) 결측치

In [8]:
import pandas as pd
import numpy as np

data1 = pd.Series([10, 20, 30])
data2 = pd.Series([1, 2, 3, 4])
print(data1 + data2)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


### (1) 결측치 발생

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [9]:
data1 = pd.Series([10, 20, 30], index = ["부산", "울산", "대구"])
data2 = pd.Series([1, 2, 3, 4], index = ["광주", "부산", "울산", "대구"])
data3 = data1 + data2
print(data3)
# 인덱스 기준으로 연산이 된다.
# =교집합에 포함되지 않는 인덱스는 결측치(NaN) 이 된다.

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [10]:
data3.info()

# Index: 4 entries
# Non-Null Count : 3 non-null 
# 결측치가 한개 있음을 알 수 있다.

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [11]:
data3.isna()

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [12]:
# 결측치 갯수 구하기
# True : 1, False : 0 로 연산된다
data3.isna().sum()

np.int64(1)

### (3) 결측치 채우기

In [13]:
# 원본데이터를 변경하지 않으므로, 덮어쓰기가 필요하다
data4 = data3.fillna(0)
data4

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [14]:
data4 = data3.dropna()
data4

대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [15]:
# 일관성 있는 코드 작성을 하는게 좋다
# 메모리 관점에서 inplace 를 사용하는게 좋을 듯
data3.dropna(inplace=True)
data3

대구    34.0
부산    12.0
울산    23.0
dtype: float64

## 4) 통계

In [16]:
print(data3.mean()) # 최소
print(data3.min())  # 평균
print(data3.var())  # 분산
print(data3.std())  # 표준편차
print(data3.max())  # 최대

23.0
12.0
121.0
11.0
34.0


In [17]:
data3.describe()

count     3.0
mean     23.0
std      11.0
min      12.0
25%      17.5
50%      23.0
75%      28.5
max      34.0
dtype: float64

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [18]:
wordData = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
data = pd.Series(wordData)
data.describe()

# top : the most common value, 가장 많이 등장한 데이터
# freq : the most common value’s frequency, 가장 많이 등장한 데이터의 빈도수

count      9
unique     3
top       HR
freq       4
dtype: object

In [19]:
# 각 문자의 빈도 수를 구하여 시리즈를 만드시오
wordData = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
indexData = set(wordData)
frequencyData = [ wordData.count(index) for index in indexData]

pd.Series(data = frequencyData, index = indexData)

Marketing      2
Engineering    3
HR             4
dtype: int64

# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [20]:
# 2차원 리스트를 이용
import pandas as pd 

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]
data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
# data1.columns = ["이름", "성별", "나이", "키"]
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [21]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [22]:
# 행 딕셔너리 이용
data_row_list = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키": 179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키": 161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키": 174},
]
data3 = pd.DataFrame(data_row_list)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [23]:
# 이름 열을 인덱스로 설정하기
data4 = data1.set_index("이름")
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [24]:
# 이름 인덴스를 다시 열로 바꾸기
data5 = data4.reset_index()
data5

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [25]:
print(name_data.dtypes)

object


## 2) 조회

In [26]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


### (1) 이름으로 조회

#### 열 조회

In [27]:
data1["이름"]

0    김영철
1    송윤지
2    임수현
Name: 이름, dtype: object

In [28]:
data1[["나이", "키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [29]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [30]:
print(data4.loc["송윤지"])

print(type(data4.loc["송윤지"]))

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object
<class 'pandas.core.series.Series'>


In [31]:
data4.loc[["송윤지", "김영철"]]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
김영철,M,24,179.4


#### 셀 조회

In [32]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [33]:
data4.loc["임수현", "키"]

np.float64(174.0)

In [34]:
data4.loc["송윤지", "성별"]

'F'

### (2) 인덱스로 조회

#### 열 조회

In [35]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [36]:
# 나이 열 조회
data1.iloc[:,2]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [37]:
# 성별, 키 열 조회
data1.iloc[:,[1,3]]

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [38]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [39]:
# 송윤지 학생의 데이터를 인덱스로 조회
print(data1.iloc[1,:]) # > series
print("==============")
data1.iloc[1:2,:] # > dataframe

이름      송윤지
성별        F
나이       31
키     161.0
Name: 1, dtype: object


Unnamed: 0,이름,성별,나이,키
1,송윤지,F,31,161.0


In [40]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회
data1.iloc[1:3,:]

Unnamed: 0,이름,성별,나이,키
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 셀 조회

In [41]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [42]:
# 임수현 학생의 성별을 인덱스로 조회
data4.iloc[2,0]

'F'

In [43]:
# 김영철 학생의 키를 인덱스로 조회
data4.iloc[0,2]

np.float64(179.4)

### (3) 조건부 조회

In [44]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [45]:
# 성별이 M인 데이터 조회

data1[data1['성별'] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [46]:
data1.loc[data1['성별'] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [47]:
# 키가 170이 넘는 사람들 조회

data1[data1['키'] > 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [48]:
# 성별이 F이면서 키가 170 이상인 사람 조회

data1[(data1['성별'] == "F") & (data1['키'] > 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [49]:
# python에서 and 사용 가능하지만 pandas 에서는 & 사용
# and 사용시 에러 발생
data1.loc[(data1['성별'] == "F") & (data1['키'] > 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [50]:
data = pd.read_csv("data/cdata_nohead.csv", header=None,
                   names=['index', 'no', '이름', '나이', '지역'])
data = data[["이름", "나이", "지역"]]
data.iloc[3,0] = "이준혁"
data

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [51]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요

In [52]:
data = pd.DataFrame({
    "이름" : ["홍길동", "김준기", "이명식", "이준혁", "최명기"],
    "나이" : [25, 21, 22, 24, 31],
    "지역": ["서울", "서울", "부산","광주", '부산']
})
data

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [53]:
# 나이가 30이상인 데이터를 조회해주세요
data[data["나이"] >= 30]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


In [54]:
# '이'씨 성을 가진 데이터를 조회해주세요
data[data["이름"].str.startswith("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [55]:
# 지역이 서울인 데이터를 조회해주세요
data[data["지역"] == "서울"]

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울


In [56]:
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
data[(data["지역"] == "부산") & (data["이름"].str.startswith("최"))]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


## 3) 편집

### (1) 인덱스 제거

In [57]:
data4.reset_index()

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [58]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


### (2) 데이터 병합

In [59]:
data1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [60]:
data2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)
data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [61]:
data1 + data2
# 동일한 위치에 있는 값끼리 더해짐
# 문자열도 그대로 합쳐진다

Unnamed: 0,지역명,지점수,매출
0,강남강남,11,22
1,서초도봉,44,55
2,노원노원,55,66


In [62]:
total_data1 = pd.merge(
    left = data1, 
    right = data2, 
    how="left", # right, inner, outer
    on = "지역명"
    )
total_data1

# left, right : 각 테이블을 기준으로 해당 테이블에 있는 on 을 기준으로 merge

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1,2,10.0,20.0
1,서초,4,5,,
2,노원,5,6,50.0,60.0


In [63]:
total_data2 = pd.merge(
    left = data1, 
    right = data2, 
    how="right", # right, inner, outer
    on = "지역명"
    )
total_data2

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10,20
1,도봉,,,40,50
2,노원,5.0,6.0,50,60


In [64]:
total_data3 = pd.merge(
    left = data1, 
    right = data2, 
    how="inner", # right, inner, outer
    on = "지역명"
    )
total_data3

# inner : 두 테이블에서 on 에 대해서 공통되는 행만 머지

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1,2,10,20
1,노원,5,6,50,60


In [65]:
total_data4 = pd.merge(
    left = data1, 
    right = data2, 
    how="outer", # right, inner, outer
    on = "지역명"
    )
total_data4

# outer : 두 테이블에서 on에 대해서 공통되는 행을 머지하고, 
# 공통되지 않는 경우 Nan 으로 처리

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


### (3) 결측치 처리

In [66]:
total_data4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


In [67]:
total_data4.isna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,True,False,False
3,False,False,False,True,True


In [68]:
total_data4.isna().sum(axis=0)

지역명      0
지점수_x    1
매출_x     1
지점수_y    1
매출_y     1
dtype: int64

In [69]:
total_data4.isna().sum(axis=1)

0    0
1    0
2    2
3    2
dtype: int64

In [70]:
# 결측치 삭제 - 결측치가 하나라도 발생한 행은 삭제
total_data4.dropna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0


In [71]:
# 특정 열의 결측치 발생한 데이터 삭제

In [72]:
total_data4.dropna(how="all") # any

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


In [73]:
total_data4.dropna(subset=["지점수_x"])

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
3,서초,4.0,5.0,,


## 4) 통계

In [74]:
total_data4.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 실습

## 예제 1. cdata.csv 불러오기

In [75]:
data = pd.read_csv("data/cdata.csv", encoding="cp949", index_col=0)
data.head()

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 2. cdata_nohead.csv 불러오기

In [76]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   index_col=0, 
                   encoding="utf-8", 
                   header=None
                   )
data.head()

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [77]:
data = pd.read_csv("data/cdata_nohead.csv",
                   index_col=0,
                   encoding="utf-8"
                   )
data

Unnamed: 0_level_0,1,홍길동,25,서울
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [78]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   index_col=0,
                   encoding="utf-8",
                   header = None
                   )
data

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [79]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   index_col=0, 
                   encoding="utf-8", 
                   header = [0, 1, 3]
                   )
data

0,1,홍길동,25,서울
1,2,김준기,21,서울
3,32,방준혁,24,광주
4,47,최명기,31,부산


In [80]:
data = pd.read_csv("data/cdata_nohead.csv", 
                   index_col=0,
                   header=None,
                   encoding="utf-8",
                   names =["index", "name", "age", "city"]
                   )
data.head()

Unnamed: 0,index,name,age,city
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [81]:
import pandas as pd
mpg = pd.read_csv("data/mpg.csv")
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


## 데이터 파악하기

In [82]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [83]:
nrow, ncol = mpg.shape
print(f'mpg 데이터셋은 {nrow}개의 데이터와 {ncol}개의 열을 가지고 있음')

mpg 데이터셋은 234개의 데이터와 11개의 열을 가지고 있음


In [84]:
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [85]:
mpg.describe(include="all") # exclude

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


In [86]:
mpg.describe(include="object")

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


In [87]:
mpg.describe(exclude=['int', 'float'])

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


In [88]:
mpg["manufacturer"].unique()

array(['audi', 'chevrolet', 'dodge', 'ford', 'honda', 'hyundai', 'jeep',
       'land rover', 'lincoln', 'mercury', 'nissan', 'pontiac', 'subaru',
       'toyota', 'volkswagen'], dtype=object)

## Q1. 몇 개의 회사 데이터가 있나요?

In [89]:
n_manufacturer = mpg["manufacturer"].nunique()
print(f"A. {n_manufacturer}개의 회사가 있음")

A. 15개의 회사가 있음


## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [90]:
count_by_manufacturer = mpg["manufacturer"].value_counts()
count_by_manufacturer

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

In [91]:
# 데이터에서 "honda"회사의 데이터는 몇 개 입니까?
print(f"honda회사의 데이터는 {count_by_manufacturer["honda"]}개")

honda회사의 데이터는 9개


## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [92]:
mpg["total"] = mpg["cty"] + mpg["hwy"] / 2
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,32.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,35.5
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,35.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,36.0
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,29.0
...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,33.0
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,35.5
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,29.0
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,31.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [93]:
# total 열을 기준으로 상위 10개 추출 - 정렬
temp_data = mpg.sort_values(by="total", ascending=False)

# 상위 10개 가져오기
total_top_ten = temp_data.head(10)

total_top_ten.value_counts(subset="manufacturer")

manufacturer
honda         4
toyota        3
volkswagen    3
Name: count, dtype: int64

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [94]:
mpg[mpg["manufacturer"] == "hyundai"]["total"].mean()

np.float64(32.07142857142857)

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [95]:
all_total_mean = mpg["total"].mean()
print(all_total_mean)
mpg['result'] = mpg.apply(lambda x: "Pass" if x['total'] > all_total_mean else "Fail", axis=1)

mpg

28.57905982905983


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,32.5,Pass
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,35.5,Pass
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,35.5,Pass
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,36.0,Pass
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,29.0,Pass
...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,33.0,Pass
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,35.5,Pass
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,29.0,Pass
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,31.0,Pass


In [96]:
mpg["Result"] = mpg["total"].apply(lambda x: "PASS" if x >= all_total_mean else "FAIL")
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,result,Result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,32.5,Pass,PASS
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,35.5,Pass,PASS
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,35.5,Pass,PASS
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,36.0,Pass,PASS
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,29.0,Pass,PASS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,33.0,Pass,PASS
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,35.5,Pass,PASS
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,29.0,Pass,PASS
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,31.0,Pass,PASS


In [97]:
mpg['result'] = np.where(mpg['total'] > all_total_mean, "Pass", "Fail")
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total,result,Result
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,32.5,Pass,PASS
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,35.5,Pass,PASS
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,35.5,Pass,PASS
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,36.0,Pass,PASS
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,29.0,Pass,PASS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,33.0,Pass,PASS
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,35.5,Pass,PASS
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,29.0,Pass,PASS
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,31.0,Pass,PASS


In [98]:
mpg[mpg["result"] != mpg["Result"]].value_counts() 

manufacturer  model                displ  year  cyl  trans       drv  cty  hwy  fl  category    total  result  Result
chevrolet     c1500 suburban 2wd   5.3    2008  8    auto(l4)    r    14   20   r   suv         24.0   Fail    FAIL      2
ford          explorer 4wd         4.0    1999  6    auto(l5)    4    14   17   r   suv         22.5   Fail    FAIL      2
honda         civic                1.6    1999  4    auto(l4)    f    24   32   r   subcompact  40.0   Pass    PASS      2
dodge         ram 1500 pickup 4wd  4.7    2008  8    manual(m6)  4    12   16   r   pickup      20.0   Fail    FAIL      2
                                                     auto(l5)    4    13   17   r   pickup      21.5   Fail    FAIL      2
                                                                                                                        ..
volkswagen    passat               2.0    2008  4    auto(s6)    f    19   28   p   midsize     33.0   Pass    PASS      1
                     

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [99]:
n_pass_by_manufacturer = mpg[mpg['result'] == "Pass"].value_counts(subset="manufacturer").sort_values(ascending=False).head(1)
top_n_pass_manufacturer = n_pass_by_manufacturer.keys()[0]
print(top_n_pass_manufacturer)

volkswagen


# 4. 다양한 데이터 체험

In [100]:
# kr_raw.tsv 확장자
data = pd.read_csv("data\\kr3_raw.tsv", sep="\t")

top_ten = data.sort_values(by="Rating", ascending=False).head(10)
data[data["Region"] == "인덕원"].sort_values(by="Rating", ascending=False)

Unnamed: 0,Region,Rating,Category,Review
25904,인덕원,2,파스타 리조또,맛은 평범했지만\n좋은 가성비에 조용히 오손도손 친구나 연인과 오기 좋은 이탈리안 ...
5396,인덕원,2,해장국 갈비해장국,오래 장사한 집\n가격저렴하고 맛괜찮아서\n택시기사님들도 많이 찾는다\n그렇기 때문...
10,인덕원,2,순대국 찹쌀순대,주차된 차도 많고 줄 서서 먹음. 순대는 맛있으나 순대국에 들어간 고기에서 잡내가 ...
27848,인덕원,2,돼지갈비 냉면,의외의 양념게장 맛집! 양념돼지갈비는 양념 맛있으나\n\n퍽퍽살을 좋아하는분들께 추...
21264,인덕원,2,국수 잔치국수,싸고 양이 많아서 점심시간에도 자전거동호회 아저씨들로 붐빕니다. 잔치국수는 맛있는데...
...,...,...,...,...
65534,인덕원,0,우니파스타 라구파스타,두번째 방문인데 맛이 이렇게 없었나 싶을 정도로 파스타들이 너무 짜고 느끼했어요.....
65576,인덕원,0,쌀국수 볶음밥,전체적으로 별로입니다
65608,인덕원,0,족발 순대국,맛과 가격은 좋은데..\n갈수록 직원들의 서비스 태도가 나빠지는것 같아서..가끔은 ...
65625,인덕원,0,함흥냉면 주먹고기,연말모임이 있어 지인 추천으로 방문했습니다.\n\n앞에 23테이블이나 대기표를 뽑은...


In [None]:
# sav 확장자 
# sass spss 통계 프로그램 결과물에서 나오는 데이터에서 보임
# 01_Python\data\koweps_c19_2024_beta1.sav :  한국 복지 패널 데이터
# uv add pyreadstata
data = pd.read_spss("data\\koweps_c19_2024_beta1.sav")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 341 entries, 0 to 340
Columns: 291 entries, h19_id to c1907_4aq23
dtypes: float64(291)
memory usage: 775.4 KB


In [None]:
# uv add openpyxl

pd.read_excel("data\국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx"
              ).head()

Unnamed: 0,진료연도,진료월,주상병코드,주상병명,연령,진료인원(명)
0,2020,전체,K50,크론병[국소성장염],18세 미만,1735
1,2020,전체,K50,크론병[국소성장염],18세 이상,23822
2,2020,전체,K51,궤양성대장염,18세 미만,603
3,2020,전체,K51,궤양성대장염,18세 이상,47932
4,2021,전체,K50,크론병[국소성장염],18세 미만,2505


In [104]:
excel_file = pd.ExcelFile("data\국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx")
excel_file.sheet_names

['Sheet1', 'Sheet2', 'Sheet3', 'Sheet4', 'Sheet5']

# 추가 실습

In [None]:
import pandas as pd
bcd = pd.read_csv("data\서울특별시 공공자전거 이용정보(월별)_24.7-12.csv", encoding="cp949")
bcd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 619664 entries, 0 to 619663
Data columns (total 11 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   대여일자     619664 non-null  int64  
 1   대여소번호    619664 non-null  int64  
 2   대여소명     619664 non-null  object 
 3   대여구분코드   619664 non-null  object 
 4   성별       424280 non-null  object 
 5   연령대코드    619664 non-null  object 
 6   이용건수     619664 non-null  int64  
 7   운동량      619269 non-null  float64
 8   탄소량      619269 non-null  float64
 9   이동거리(M)  619664 non-null  float64
 10  이용시간(분)  619664 non-null  int64  
dtypes: float64(3), int64(4), object(4)
memory usage: 52.0+ MB


In [None]:
bcd.head()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리(M),이용시간(분)
0,202407,102,102. 망원역 1번출구 앞,일일권,,20대,67,4304.28,40.87,176252.62,1895
1,202407,102,102. 망원역 1번출구 앞,일일권,,30대,64,4142.09,38.92,167774.15,1498
2,202407,102,102. 망원역 1번출구 앞,일일권,,40대,2,265.91,2.11,9098.64,64
3,202407,102,102. 망원역 1번출구 앞,일일권,,50대,6,648.52,5.11,22048.26,149
4,202407,102,102. 망원역 1번출구 앞,일일권,,60대,1,35.37,0.31,1333.18,6


In [None]:
bcd.tail()

Unnamed: 0,대여일자,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리(M),이용시간(분)
619659,202412,6178,6178. 마스터밸류에이스 지식산업센터,정기권,M,40대,55,2964.38,23.14,99803.49,1050
619660,202412,6178,6178. 마스터밸류에이스 지식산업센터,정기권,M,50대,10,327.38,2.57,11073.52,183
619661,202412,6178,6178. 마스터밸류에이스 지식산업센터,정기권,M,60대,1,14.37,0.13,558.26,3
619662,202412,6178,6178. 마스터밸류에이스 지식산업센터,정기권,M,~10대,7,249.95,2.35,10151.09,80
619663,202412,6178,6178. 마스터밸류에이스 지식산업센터,정기권,M,기타,6,135.89,1.16,5060.24,53


In [None]:
bcd["대여소명"].nunique()

2785

In [None]:
group_loc = bcd.groupby("대여소명")

In [None]:
bcd.value_counts("대여소명").sort_values().head(20)

대여소명
3538. 서울숲 IT캐슬                2
3306.서울신우초등학교                 6
4314. 탑성마을 버스정거장 옆            8
2393. 구룡사 앞 교차로 (보도육교)        8
2201. 본마을 정류소 앞              10
812. 용산전쟁기념관                 15
2343. 세곡사거리 대왕파출소 앞          15
2061. 한강 현대아파트 건너편           18
4265. 안산초등학교 앞               21
803. 한남초교 앞 보도육교             23
3423.현대그룹(본사)                24
1511. 번동 금호어울림아파트102동앞       25
1968. 동인오피스텔 건너편 소공원         29
462. 신영동삼거리(북악터널방향)          30
4388. 하우스디세종타워 앞             31
4901.KT&G타워 옆(상상마당 대치아트홀)    31
2421. 신논현역 4번출구              32
5855. 하이투자증권 앞               34
4936. SK텔레콤(T1) 인근           36
4348. 사당역 1번출구               40
Name: count, dtype: int64

In [None]:
group_loc["연령대코드"].value_counts()

대여소명                       연령대코드
1001. 광진교 남단 사거리(천호공원 방면)  기타       42
                           20대      36
                           30대      36
                           40대      36
                           50대      33
                                    ..
996.응암역2번출구 국민은행 앞         40대      36
                           50대      35
                           60대      34
                           ~10대     32
                           70대이상    20
Name: count, Length: 22165, dtype: int64

In [None]:
bcd["대여구분코드"].unique()

array(['일일권', '일일권(비회원)', '정기권'], dtype=object)

In [None]:
bcd["연령대코드"].unique()

array(['20대', '30대', '40대', '50대', '60대', '기타', '~10대', '70대이상'],
      dtype=object)

In [None]:
age_group = bcd.groupby("연령대코드")

In [None]:
age_group["대여구분코드"].value_counts()

연령대코드  대여구분코드  
20대    정기권         48790
       일일권         47985
       일일권(비회원)      348
30대    정기권         48772
       일일권         46728
       일일권(비회원)      128
40대    정기권         48652
       일일권         42443
       일일권(비회원)       89
50대    정기권         48268
       일일권         34215
       일일권(비회원)       47
60대    정기권         43899
       일일권         15431
       일일권(비회원)        1
70대이상  정기권         22053
       일일권          3577
~10대   정기권         33508
       일일권         33183
       일일권(비회원)       65
기타     정기권         45660
       일일권         40014
       일일권(비회원)    15808
Name: count, dtype: int64

In [None]:
age_group["이용건수"].mean()

연령대코드
20대      67.152930
30대      60.521469
40대      39.234592
50대      30.077257
60대      14.054710
70대이상     5.279828
~10대     22.702274
기타       15.590706
Name: 이용건수, dtype: float64

In [None]:
age_group["이동거리(M)"].mean()

연령대코드
20대      142499.011865
30대      130952.576390
40대       94694.477750
50대       76180.055360
60대       36507.096717
70대이상     13337.460096
~10대      43806.666793
기타        37989.803873
Name: 이동거리(M), dtype: float64

In [None]:
age_group["이용시간(분)"].mean()

연령대코드
20대      1251.660678
30대      1187.715240
40대       870.983396
50대       693.547910
60대       366.507778
70대이상     146.494928
~10대      390.222317
기타        353.929741
Name: 이용시간(분), dtype: float64