# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [536]:
import pandas as pd

### (1) 데이터만 생성

In [537]:
# 나이 데이터를 시리즈로 생성
age_list = [24, 31, 26]
age_series = pd.Series(age_list)
age_series

0    24
1    31
2    26
dtype: int64

In [538]:
age_series.dtype

dtype('int64')

### (2) 인덱스와 함께 생성

In [539]:
age_series.index = ["김영철", "송윤지", "임수현"]
age_series

김영철    24
송윤지    31
임수현    26
dtype: int64

In [540]:
# 송윤지의 나이는?
age_series["송윤지"]

np.int64(31)

## 2) 연산

In [541]:
data1 = pd.Series(data = [10, 20, 30])
data2 = pd.Series(data = [1, 2, 3])

print(data1 + data2)
print("="*35)
print(data1 - data2)
print("="*35)
print(data1 * data2)
print("="*35)
print(data1 / data2)
print("="*35)
print(data1 // data2)

0    11
1    22
2    33
dtype: int64
0     9
1    18
2    27
dtype: int64
0    10
1    40
2    90
dtype: int64
0    10.0
1    10.0
2    10.0
dtype: float64
0    10
1    10
2    10
dtype: int64


## 3) 결측치

### (1) 결측치 발생

In [542]:
import numpy as np
import pandas as pd

myseries = pd.Series([1, np.nan])
myseries 

0    1.0
1    NaN
dtype: float64

In [543]:
data1 = pd.Series(data = [10, 20, 30])
data2 = pd.Series(data = [1, 2, 3, 4])

data1 + data2

# 같은 위치에 있는 자리끼리 연산, 즉 같은 인덱스끼리 연산

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [544]:
data1 = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)
print(data1)
print("="*40)
print(data2)

data3 = data1 + data2
data3

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64


광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [545]:
data1 = pd.Series([10, 20, 30])
data1.index = ["부산", "울산", "대구"]
print(data1)
print("="*40)
data2 = pd.Series([1, 2, 3, 4])
data2.index = ["광주", "부산", "울산", "대구"]
print(data2)
print("="*40)
print(data1+data2)

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64
광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [546]:
data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [547]:
# 결측치인지 아닌지 확인
data3.isna()

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [548]:
# 결측치의 개수
data3.isna().sum()

np.int64(1)

### (3) 결측치 채우기

In [549]:
data3.fillna(999)

광주    999.0
대구     34.0
부산     12.0
울산     23.0
dtype: float64

### (4) 결측치 삭제

In [550]:
data3.dropna()

대구    34.0
부산    12.0
울산    23.0
dtype: float64

## 4) 통계

In [551]:
data = pd.Series(
    data=[10, 30, 20],
    index=["부산", "울산", "대구"]
)
data

부산    10
울산    30
대구    20
dtype: int64

In [552]:
print(data.sum())
print(data.min())
print(data.max())
print(data.mean())
print(data.var()) #분산 : (데이터 - 평균)^2 / 전체 데이터 개수
print(data.std()) #표준편차 : 루트(분산)

60
10
30
20.0
100.0
10.0


In [553]:
data.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [554]:
dep_data = pd.Series(
    data = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

print(dep_data)

dep_data.describe()

# 범주형 데이터 : 

0             HR
1    Engineering
2             HR
3    Engineering
4             HR
5      Marketing
6    Engineering
7      Marketing
8             HR
dtype: object


count      9
unique     3
top       HR
freq       4
dtype: object

# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [555]:
# 2차원 리스트를 이용
import pandas as pd

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]

data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [556]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [557]:
# 행 딕셔너리 이용
data_row_dict = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키":179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키":161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키":174},
]

data3 = pd.DataFrame(data_row_dict)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


## 2) 조회

In [558]:
data_list = [
  {
    "이름": "민지",
    "나이": 24,
    "성별": "F",
    "지역": "서울",
    "전공": "심리학",
    "키(cm)": 163,
    "몸무게(kg)": 54,
    "운동횟수": 3,
    "음주 여부": "아니오",
    "출석률(%)": 96.5
  },
  {
    "이름": "지훈",
    "나이": 27,
    "성별": "M",
    "지역": "부산",
    "전공": "컴퓨터공학",
    "키(cm)": 175,
    "몸무게(kg)": 68,
    "운동횟수": 1,
    "음주 여부": "예",
    "출석률(%)": 89.2
  },
  {
    "이름": "유진",
    "나이": 22,
    "성별": "F",
    "지역": "대전",
    "전공": "디자인",
    "키(cm)": 160,
    "몸무게(kg)": 48,
    "운동횟수": 4,
    "음주 여부": "아니오",
    "출석률(%)": 98.7
  },
  {
    "이름": "수아",
    "나이": 26,
    "성별": "F",
    "지역": "광주",
    "전공": "경영학",
    "키(cm)": 167,
    "몸무게(kg)": 56,
    "운동횟수": 2,
    "음주 여부": "예",
    "출석률(%)": 92.0
  },
  {
    "이름": "현우",
    "나이": 25,
    "성별": "M",
    "지역": "인천",
    "전공": "통계학",
    "키(cm)": 178,
    "몸무게(kg)": 73,
    "운동횟수": 5,
    "음주 여부": "예",
    "출석률(%)": 94.8
  }
]

data = pd.DataFrame(data_list)
data

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
1,지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
3,수아,26,F,광주,경영학,167,56,2,예,92.0
4,현우,25,M,인천,통계학,178,73,5,예,94.8


In [559]:
# 이름을 인덱스로 설정해주세요. set_index() data2에 저장
# data2에서 인덱스를 열로 바꿔주세요.
# data에서 이름, 전공 열을 조회해주세요.
# data2에서 수아 학생의 데이터를 조회해주세요.
# data2에서 지훈, 현우 학생의 데이터를 조회해주세요.
# data2에서 유진 학생의 음주 여부를 조회해주세요.
# data2에서 민지 학생의 키, 몸무게를 조회해주세요.
# data에서 성별이 F인 데이터민 조회해주세요.
# data에서 키가 170미만이고 출석률이 90% 이상인 데이터를 조회해주세요.
# data에서 나이가 25미만이거나 지역이 부산인 데이터를 조회해주세요.
# data에서 출석률을 기준으로 내립차순 정렬해주세요.

In [560]:
# 이름을 인덱스로 설정해주세요 set_index() data2에 저장
data2 = data.set_index("이름")
data2

Unnamed: 0_level_0,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
민지,24,F,서울,심리학,163,54,3,아니오,96.5
지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
유진,22,F,대전,디자인,160,48,4,아니오,98.7
수아,26,F,광주,경영학,167,56,2,예,92.0
현우,25,M,인천,통계학,178,73,5,예,94.8


In [561]:
# data2에서 인덱스를 열로 바꿔주세요.
data2.reset_index()

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
1,지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
3,수아,26,F,광주,경영학,167,56,2,예,92.0
4,현우,25,M,인천,통계학,178,73,5,예,94.8


In [562]:
# data에서 이름, 전공 열을 조회해주세요.
data[["이름", "전공"]]

Unnamed: 0,이름,전공
0,민지,심리학
1,지훈,컴퓨터공학
2,유진,디자인
3,수아,경영학
4,현우,통계학


In [563]:
# data2에서 수아 학생의 데이터를 조회해주세요.
data2.loc["수아",:]
data2.loc[["수아"],:]

Unnamed: 0_level_0,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
수아,26,F,광주,경영학,167,56,2,예,92.0


In [564]:
# data2에서 지훈, 현우 학생의 데이터를 조회해주세요
data2.loc[["지훈", "현우"], :]

Unnamed: 0_level_0,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
현우,25,M,인천,통계학,178,73,5,예,94.8


In [565]:
# data2에서 유진 학생의 음주 여부를 조회해주세요.
data2.loc["유진", "음주 여부"]
data2.iloc[2, -2]

'아니오'

In [566]:
data

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
1,지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
3,수아,26,F,광주,경영학,167,56,2,예,92.0
4,현우,25,M,인천,통계학,178,73,5,예,94.8


In [567]:
data2

Unnamed: 0_level_0,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
민지,24,F,서울,심리학,163,54,3,아니오,96.5
지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
유진,22,F,대전,디자인,160,48,4,아니오,98.7
수아,26,F,광주,경영학,167,56,2,예,92.0
현우,25,M,인천,통계학,178,73,5,예,94.8


In [568]:
# data2에서 민지 학생의 키, 몸무게를 조회해주세요.
data2.loc["민지", ["키(cm)", "몸무게(kg)"]]
data2.iloc[0, 5:7]

몸무게(kg)    54
운동횟수        3
Name: 민지, dtype: object

In [569]:
# data에서 성별이 F인 데이터민 조회해주세요.
data.loc[data["성별"] == "F",:]

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
3,수아,26,F,광주,경영학,167,56,2,예,92.0


In [570]:
# data에서 키가 170미만이고 출석률이 90% 이상인 데이터를 조회해주세요.
# and
data.loc[(data["키(cm)"] < 170) & (data["출석률(%)"] >= 90), :]

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
3,수아,26,F,광주,경영학,167,56,2,예,92.0


In [571]:
# data에서 나이가 25미만이거나 지역이 부산인 데이터를 조회해주세요.
# or
data.loc[(data["나이"] < 25) | (data["지역"] == "부산"), :]

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
1,지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7


In [572]:
# data에서 출석률을 기준으로 내립차순 정렬해주세요.
# ascending
data.sort_values(by="출석률(%)", ascending=False)

Unnamed: 0,이름,나이,성별,지역,전공,키(cm),몸무게(kg),운동횟수,음주 여부,출석률(%)
2,유진,22,F,대전,디자인,160,48,4,아니오,98.7
0,민지,24,F,서울,심리학,163,54,3,아니오,96.5
4,현우,25,M,인천,통계학,178,73,5,예,94.8
3,수아,26,F,광주,경영학,167,56,2,예,92.0
1,지훈,27,M,부산,컴퓨터공학,175,68,1,예,89.2


### (1) 이름으로 조회

#### 열 조회

#### 행 조회

#### 셀 조회

### (2) 인덱스로 조회

#### 열 조회

#### 행 조회

#### 셀 조회

### (3) 조건부 조회

## 3) 편집

### (1) 인덱스 제거

### (2) 데이터 병합

### (3) 결측치 처리

## 4) 통계

# 3. 실습

## 예제 1.

## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?