# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [1]:
import pandas as pd

# Series : 열
data1 = pd.Series(data=['a', 'b', 'c'])
data2 = pd.Series(data=[10, 20, 30])
data3 = pd.Series(data=[10.1, 20.1, 30])

print(data1) # dtype이 object > int가 필요하면 변환 해줘야 함
print(data2)
print(data3)

0    a
1    b
2    c
dtype: object
0    10
1    20
2    30
dtype: int64
0    10.1
1    20.1
2    30.0
dtype: float64


### (2) 인덱스와 함께 생성

In [2]:
age_data = pd.Series(
    index=['kim', 'lee', 'park'], # 유니크한 값으로만 가능
    data=[24,31, 26]
)

print(age_data)
print(age_data.index) # object
print(age_data.values)
print(type(age_data.values)) # <class 'numpy.ndarray'>

kim     24
lee     31
park    26
dtype: int64
Index(['kim', 'lee', 'park'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [3]:
data1 = pd.Series(data=[10,20,30])
data1 = pd.Series(data=[1,2,3])

data3 = data1 * data2
print(data3)

0    10
1    40
2    90
dtype: int64


## 3) 결측치

In [4]:
import numpy as np
import pandas as pd

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


### (1) 결측치 발생

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [5]:
# '광주' 라는 index가 불일치하는 상황
# index 기준으로 data 연산(index가 없으면 순서대로 연산)

data1 = pd.Series([10,20,30], index=['부산','울산','대구'])
data2 = pd.Series([1,2,3,4], index=['광주','부산','울산','대구'])

data3 = data1+data2
print(data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [6]:
data3.info()

# 4 entries - 3 non-null = 1 null(결측치)

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [7]:
data3.isna() # 결측치에 True 표현

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [8]:
data3.isna().sum() # 결측치의 숫자 더하기

np.int64(1)

### (3) 결측치 채우기

In [9]:
# 뭘로 채우느냐는 주관적 판단(평균, 예측치)
data4 = data3.fillna(0) # 원본 data에 재할당 필요
print(data4)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (4) 결측치 삭제

In [10]:
#data5 = data3.dropna()
data3.dropna(inplace=True) #재할당 필요 없음(data3에)
print(data3)


대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [11]:
data = pd.Series(
    data=['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

data.describe() # 문자열과 숫자의 결과가 다름

count      9
unique     3
top       HR
freq       4
dtype: object

In [12]:
data = pd.Series(
    index=['부산', '울산', '대구'],
    data=[10, 20, 30]
)

print(data.min())
print(data.mean())
print(data.var()) # 분산
print(data.std()) # 표준편차 : root 분산() - 제곱수인 분산을 좀 더 줄임
print(data.max())

print(data.describe())


10
20.0
100.0
10.0
30
count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64


# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [13]:
data_list = [
    ['김영철', 'M', 24, 179.4],
    ['송윤지', 'F', 31, 161.0],
    ['임수현', 'F', 26, 174]
]

data1 = pd.DataFrame(data_list, columns=['이름', '성별', '나이', '키'])
#data1.columns = ['이름', '성별', '나이', '키']

print(data1)

data4 = data1.set_index('이름') # index 설정, 다른 table과 join할때 활용 
print(data4)

data5 = data4.reset_index()
print(data5)


    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [14]:
data4.loc[:, "성별"]

이름
김영철    M
송윤지    F
임수현    F
Name: 성별, dtype: object

In [15]:
data_col_dict = {
    '이름' : ['김영철','송윤지','임수현'],
    '성별' : ['M','F','F'],
    '나이' : [24,31,26],
    '키' : [179.4,161.0,174]
}

data2 = pd.DataFrame(data_col_dict)
print(data2)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [16]:
# api 형태가 많음(그대로 쓰면 됨)
data_row_list = [
    {'이름':'김영철', '성별':'M', '나이':24, '키':179.4},
    {'이름':'송윤지', '성별':'F', '나이':31, '키':161.0},
    {'이름':'임수현', '성별':'F', '나이':26, '키':174}
]

data3 = pd.DataFrame(data_row_list)
print(data3)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


## 2) 조회

### (1) 이름으로 조회

#### 열 조회

In [17]:
data1['나이']

0    24
1    31
2    26
Name: 나이, dtype: int64

In [18]:
data1[['나이', '키']]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [19]:
#data1.loc[1]
data4.loc['송윤지'] 
#data4.iloc[1, :]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [20]:
data4.loc[['김영철','송윤지']]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0


#### 셀 조회

In [21]:
data4.loc['김영철', '키']

np.float64(179.4)

### (2) 인덱스로 조회

In [22]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [23]:
# 나이 index로 조회

data1.iloc[:,2] #전체행(:), 열

0    24
1    31
2    26
Name: 나이, dtype: int64

In [24]:
# 성별, 키 index로 조회

data1.iloc[:,[1,3]] #전체행(:), 1,3열만

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [25]:
# 송윤지 학생의 데이터를 인덱스로 조회

data4.iloc[1,:]
#data4.loc['송윤지']

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [26]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회

data4.iloc[1:3,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [27]:
# 김영철 학생의 나이를 인덱스로 조회

data4.iloc[1, 1]

np.int64(31)

In [28]:
# 송윤지 학생의 성별을 인덱스로 조회

data4.iloc[1, 0]
#data4.loc['송윤지', '성별']

'F'

### (3) 조건부 조회

In [29]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [30]:
# 성별이 F인 사람들의 키 조회

data1.loc[data1["성별"] == 'F', '키'] # 성별이 F인 사람들 조회

1    161.0
2    174.0
Name: 키, dtype: float64

In [31]:
#키가 170이 넘는 사람들 조회

data1[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [32]:
data1[(data1["키"] >= 170) & (data1["성별"] == 'F')]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [33]:
data = {"이름" : ['홍길동', '김준기', '이명식', '이준혁', '최명기'],
        "나이" : [25, 21, 22, 24, 31],
        "지역" : ['서울', '서울', '부산', '광주', '부산']
        }

df = pd.DataFrame(data)
print(df)

    이름  나이  지역
0  홍길동  25  서울
1  김준기  21  서울
2  이명식  22  부산
3  이준혁  24  광주
4  최명기  31  부산


In [34]:
#위에 있는 데이터를 직접 써서 생성해주세요
#나이가 30 이상인 데이터를 조회해주세요
#'이'씨 성을 가진 데이터를 조회해주세요
#지역이 서울인 데이터를 조회해주세요
#지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요

print(df[df["나이"] > 30])
print()
print(df[df["이름"].str[0] == '이'])
print()
print(df[df["지역"] == '서울'])
print()
print(df[(df["지역"] == '부산') & (df["이름"].str[0] == '최')]['나이'])

    이름  나이  지역
4  최명기  31  부산

    이름  나이  지역
2  이명식  22  부산
3  이준혁  24  광주

    이름  나이  지역
0  홍길동  25  서울
1  김준기  21  서울

4    31
Name: 나이, dtype: int64


## 3) 편집

### (1) 인덱스 제거

In [35]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [36]:
data4.reset_index(inplace=True) # index 초기화
print(data4)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


### (2) 데이터 병합

In [37]:
data1 = pd.DataFrame(
    [['강남', 1, 2], ['서초', 4, 5], ['노원', 5, 6]],
    columns=['지역명', '지점수', '매출']
)

data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [38]:
data2 = pd.DataFrame(
    [['강남', 10, 20], ['도봉', 40, 50], ['노원', 50, 60]],
    columns=['지역명', '지점수', '매출']
)

data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [39]:
total_data = pd.merge(
    left=data1,
    right=data2,
    how='outer', #left, right, inner, outer
    on="지역명"
)
total_data 

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


In [40]:
total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


### (3) 결측치 처리

In [41]:
total_data.isna().sum()

지역명      0
지점수_x    1
매출_x     1
지점수_y    1
매출_y     1
dtype: int64

In [42]:
total_data["지점수_x"].fillna(0, inplace=True)

total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   4 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  total_data["지점수_x"].fillna(0, inplace=True)


In [43]:
total_data.dropna(subset=['지점수_y'], inplace=True) # 지점수_y에 결측치가 있는 행 삭제")
total_data.isna().sum()

지역명      0
지점수_x    0
매출_x     1
지점수_y    0
매출_y     0
dtype: int64

## 4) 통계

In [44]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,2.0,3.0,3.0
mean,2.0,4.0,33.333333,43.333333
std,2.645751,2.828427,20.81666,20.81666
min,0.0,2.0,10.0,20.0
25%,0.5,3.0,25.0,35.0
50%,1.0,4.0,40.0,50.0
75%,3.0,5.0,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기 실습

## cdata.csv

In [45]:
df = pd.read_csv("cdata.csv", encoding='cp949')
df

Unnamed: 0.1,Unnamed: 0,Index,No,Age,City
0,0,1,홍길동,25,서울
1,1,2,김준기,21,서울
2,2,9,이명식,22,부산
3,3,32,방준혁,24,광주
4,4,47,최명기,31,부산


In [46]:
df1 = pd.read_csv("../data_resources/cdata.csv", encoding='cp949', index_col=0) # 첫번째 열을 index로 사용
df1

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## cdata_nohead.csv

In [47]:
df2 = pd.read_csv("../data_resources/cdata_nohead.csv", header=None, index_col=0, names=['Index', 'Name', 'Age', 'City']) # 첫번째 열을 index로 사용
#df2.columns = ['Index', 'Name', 'Age', 'City']
df2

Unnamed: 0,Index,Name,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


## 예제 1.

## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

In [48]:
import pandas as pd
mpg = pd.read_csv("../data_resources/mpg.csv")
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [49]:
mpg.head(20)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact
8,audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [50]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [51]:
nrow, ncol =mpg.shape
print(nrow, ncol)

234 11


In [52]:
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [53]:
mpg.describe(include='object')  # 모든 데이터 타입에 대한 통계 정보 출력

Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


In [54]:
mpg.describe(include='all')  # 모든 데이터 타입에 대한 통계 정보 출력

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
count,234,234,234.0,234.0,234.0,234,234,234.0,234.0,234,234
unique,15,38,,,,10,3,,,5,7
top,dodge,caravan 2wd,,,,auto(l4),f,,,r,suv
freq,37,11,,,,83,106,,,168,62
mean,,,3.471795,2003.5,5.888889,,,16.858974,23.440171,,
std,,,1.291959,4.509646,1.611534,,,4.255946,5.954643,,
min,,,1.6,1999.0,4.0,,,9.0,12.0,,
25%,,,2.4,1999.0,4.0,,,14.0,18.0,,
50%,,,3.3,2003.5,6.0,,,17.0,24.0,,
75%,,,4.6,2008.0,8.0,,,19.0,27.0,,


## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

In [55]:
len(mpg.manufacturer.unique())

15

In [56]:
mpg.manufacturer.nunique()

15

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [57]:
mpg.groupby('manufacturer')['model'].nunique()

##카테고리별 개수를 계산
print(mpg.manufacturer.value_counts())

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64


In [58]:
#미션 데이터에서 'honda'회사의 데이터는 몇개?

print(mpg[mpg.manufacturer == 'honda'].shape[0])

9


## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [59]:
print("도심연비", mpg.cty.mean())
print("고속도로연비", mpg.hwy.mean())
print((mpg.cty.mean() + mpg.hwy.mean()) / 2)
print((mpg.cty + mpg.hwy).mean() / 2)
mpg["totaly"] = (mpg.cty + mpg.hwy) / 2

mpg

도심연비 16.858974358974358
고속도로연비 23.44017094017094
20.149572649572647
20.14957264957265


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,totaly
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0
...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,23.5
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,25.0
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,21.0
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,22.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [60]:
temp_data = mpg.sort_values(by='totaly', ascending=False)
temp_data2 = mpg.sort_values(by='totaly', ascending=False).head(10)
print(temp_data2)
temp_data3 = temp_data2.manufacturer.value_counts()
print(temp_data3)

    manufacturer       model  displ  year  cyl       trans drv  cty  hwy fl  \
221   volkswagen  new beetle    1.9  1999    4  manual(m5)   f   35   44  d   
212   volkswagen       jetta    1.9  1999    4  manual(m5)   f   33   44  d   
222   volkswagen  new beetle    1.9  1999    4    auto(l4)   f   29   41  d   
196       toyota     corolla    1.8  2008    4  manual(m5)   f   28   37  r   
197       toyota     corolla    1.8  2008    4    auto(l4)   f   26   35  r   
195       toyota     corolla    1.8  1999    4  manual(m5)   f   26   35  r   
99         honda       civic    1.6  1999    4  manual(m5)   f   28   33  r   
105        honda       civic    1.8  2008    4    auto(l5)   f   25   36  r   
104        honda       civic    1.8  2008    4  manual(m5)   f   26   34  r   
106        honda       civic    1.8  2008    4    auto(l5)   f   24   36  c   

       category  totaly  
221  subcompact    39.5  
212     compact    38.5  
222  subcompact    35.0  
196     compact    32.5  


In [61]:
temp_data.iloc[:10, :]


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,totaly
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,35.0
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,32.5
197,toyota,corolla,1.8,2008,4,auto(l4),f,26,35,r,compact,30.5
195,toyota,corolla,1.8,1999,4,manual(m5),f,26,35,r,compact,30.5
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,30.5
105,honda,civic,1.8,2008,4,auto(l5),f,25,36,r,subcompact,30.5
104,honda,civic,1.8,2008,4,manual(m5),f,26,34,r,subcompact,30.0
106,honda,civic,1.8,2008,4,auto(l5),f,24,36,c,subcompact,30.0


## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [62]:
print(mpg[mpg.manufacturer == 'hyundai'].totaly.mean())

22.75


## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [63]:
import numpy as np

mpg['result'] = np.where(mpg.totaly >= mpg.totaly.mean(), 'PASS', 'FAIL')

In [64]:
mpg['p/f'] = mpg['totaly'].apply(lambda x: 'PASS' if x >= mpg.totaly.mean() else 'FAIL')

mpg[mpg['p/f'] == 'FAIL']

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,totaly,result,p/f
11,audi,a4 quattro,2.8,1999,6,auto(l5),4,15,25,p,compact,20.0,FAIL,FAIL
14,audi,a4 quattro,3.1,2008,6,manual(m6),4,15,25,p,compact,20.0,FAIL,FAIL
15,audi,a6 quattro,2.8,1999,6,auto(l5),4,15,24,p,midsize,19.5,FAIL,FAIL
17,audi,a6 quattro,4.2,2008,8,auto(s6),4,16,23,p,midsize,19.5,FAIL,FAIL
18,chevrolet,c1500 suburban 2wd,5.3,2008,8,auto(l4),r,14,20,r,suv,17.0,FAIL,FAIL
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
203,toyota,toyota tacoma 4wd,3.4,1999,6,manual(m5),4,15,17,r,pickup,16.0,FAIL,FAIL
204,toyota,toyota tacoma 4wd,3.4,1999,6,auto(l4),4,15,19,r,pickup,17.0,FAIL,FAIL
205,toyota,toyota tacoma 4wd,4.0,2008,6,manual(m6),4,15,18,r,pickup,16.5,FAIL,FAIL
206,toyota,toyota tacoma 4wd,4.0,2008,6,auto(l5),4,16,20,r,pickup,18.0,FAIL,FAIL


## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [65]:
mpg[mpg['p/f'] == 'PASS']['manufacturer'].value_counts().head(1)

manufacturer
volkswagen    26
Name: count, dtype: int64

In [73]:
mpg.columns

Index(['manufacturer', 'model', 'displ', 'year', 'cyl', 'trans', 'drv', 'cty',
       'hwy', 'fl', 'category', 'totaly', 'result', 'p/f'],
      dtype='object')

In [74]:
mpg.index

RangeIndex(start=0, stop=234, step=1)

In [77]:
mpg.shape

(234, 14)

In [78]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
 11  totaly        234 non-null    float64
 12  result        234 non-null    object 
 13  p/f           234 non-null    object 
dtypes: float64(2), int64(4), object(8)
memory usage: 25.7+ KB


## 4. 다양한 데이터 체험하기

In [66]:
#kr3_raw.tsv -> sep="\t"
#국민건강보험공단...xlsx
## 도구 설치 필요 uv add openpyxl
##pd.read_excel()
#kowebs_c19_2024_beta.sav
##uv add pyreadstat
##pd.read_spss()




In [67]:
# #kr_raw.tsv -> sep="\t"
# import pandas as pd

# data = pd.read_csv("../data_resources/kr3_raw.tsv", sep='\t')
# data.head()

In [68]:
# data2 = pd.read_excel("../data_resources/국민건강보험공단_특정 상병별 요양기관종별 및 진료과목별 및 시군구별 진료인원_20231231.xlsx", sheet_name='Sheet5')
# data2.head()

In [69]:
# data3 = pd.read_spss("../data_resources/koweps_c19_2024_beta1.sav")
# data3.head()

In [70]:
# data3.describe()
# data3.info()