# 판다스(Pandas)

# 1. 시리즈(Series)

In [14]:
import pandas as pd

# 하루 방문자 수 데이터
visiters = pd.Series(
    data = [120, 150, 130, 170, 160],
    name = "방문자 수" # 옵션
)

print(visiters)

0    120
1    150
2    130
3    170
4    160
Name: 방문자 수, dtype: int64


In [15]:
print(visiters.index) # 인덱스 추출
print(visiters.values) # 값 추출
print(visiters.dtype) # 데이터 타입
print(visiters.name) # 시리즈 이름
print(visiters.size) # 데이터 갯수



RangeIndex(start=0, stop=5, step=1)
[120 150 130 170 160]
int64
방문자 수
5


## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [16]:
# 위에 표를 리스트/딕셔너리로 바꿔보세요.

data_4 = [
    ["이름", "나이", "키"], 
    ["김영철", 24, 179.4],
    ["송윤지", 31, 161.0],
    ["임수현", 26, 174],
]

data_5 = [
    {
        "이름": "김영철",
        "나이": 24,
        "키": 179.4,
    },
    {
        "이름": "송윤지",
        "나이": 31,
        "키": 161.0,
    },
    {
        "이름": "임수현",
        "나이": 26,
        "키": 174,
    },
]

In [17]:
# 이름 열을 시리즈로 만들기
name_data = pd.Series(
    data = ["김영철", "송윤지", "임수현"],
    name = "이름"
)

print(name_data)

0    김영철
1    송윤지
2    임수현
Name: 이름, dtype: object


In [18]:
# 나이 열을 시리즈로 만들기
age_data = pd.Series(
    data = [24, 31, 26],
    name = "나이"
)

print(age_data)

0    24
1    31
2    26
Name: 나이, dtype: int64


In [19]:
age_data_2 = pd.Series(
    data = [24, 31, 26],
    name = "나이",
    index = ["김영철", "송윤지", "임수현"]
)

print(age_data_2)

김영철    24
송윤지    31
임수현    26
Name: 나이, dtype: int64


In [20]:
age_data_3 = pd.Series(
    data = {"김영철": 24, "송윤지": 31, "임수현": 26},
    name = "나이"
)
print(age_data_3)

김영철    24
송윤지    31
임수현    26
Name: 나이, dtype: int64


### (2) 인덱스와 함께 생성

In [21]:
print(age_data)
age_data.index = ["김영철", "송윤지", "임수현"]
print(age_data)

0    24
1    31
2    26
Name: 나이, dtype: int64
김영철    24
송윤지    31
임수현    26
Name: 나이, dtype: int64


## 2) 연산

In [22]:
# 데이터가 1, 2, 3인 시리즈 생성
data_1 = pd.Series([1,2,3])
print(data_1)

# 데이터가 10, 20, 30인 시리즈 생성
data_2 = pd.Series([10, 20, 30])
print(data_2)

data_3 = pd.Series([10, 20, 30], index=[2, 1, 0])

0    1
1    2
2    3
dtype: int64
0    10
1    20
2    30
dtype: int64


In [23]:
print(data_4 + data_5)
print("="*30)
#print(data_4 + data_3)

[['이름', '나이', '키'], ['김영철', 24, 179.4], ['송윤지', 31, 161.0], ['임수현', 26, 174], {'이름': '김영철', '나이': 24, '키': 179.4}, {'이름': '송윤지', '나이': 31, '키': 161.0}, {'이름': '임수현', '나이': 26, '키': 174}]


In [24]:
# 데이터가 서울, 부산, 대구인 시리즈 생성
data_4 = pd.Series(["서울", "부산", "대구"])
# 데이터가 관악구, 수영구, 달성구인 시리즈 생성
data_5 = pd.Series(["관악구", "수영구", "달성구"])

print(data_4 + data_5)


0    서울관악구
1    부산수영구
2    대구달성구
dtype: object


In [25]:
# int 시리즈, str 시리즈
# 서울1, 부천1, 대구1 이렇게 할 수 있을까?
data_4 = pd.Series(["서울", "부산", "대구"])
data_1 = pd.Series([1,2,3])
print(data_4.dtype)
print(data_1.dtype)

object
int64


In [26]:
data_obj = data_1.astype("string")
print(data_obj)
print(data_4)

print(data_obj + data_4)
print(data_4 + data_obj)

0    1
1    2
2    3
dtype: string
0    서울
1    부산
2    대구
dtype: object
0    1서울
1    2부산
2    3대구
dtype: string
0    서울1
1    부산2
2    대구3
dtype: string


## 3) 결측치

### (1) 결측치 발생

In [27]:
import numpy as np
import pandas as pd

data = pd.Series([1, 2, np.nan, 5])
print(data)

0    1.0
1    2.0
2    NaN
3    5.0
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [28]:
data_1 = pd.Series(
    data = [10, 20 ,30],
    index = ["부산", "울산", "광주"]
)
print(data_1)

data_2 = pd.Series(
    data = [1, 2, 3, 4],
    index = ["광주", "부산", "울산", "대구"]
)
print(data_2)

부산    10
울산    20
광주    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64


In [29]:
# 매칭이 되지 않는 인덱스 데이터는 결측값이 된다.
print(data_1 + data_2)

광주    31.0
대구     NaN
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [30]:
total = data_1 + data_2
print(total)

광주    31.0
대구     NaN
부산    12.0
울산    23.0
dtype: float64


In [31]:
# 데이터 정보 확인하기
total.info()

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [32]:
# 각 줄마다 결측치인지 아닌지 판단하기
total.isna()

광주    False
대구     True
부산    False
울산    False
dtype: bool

In [33]:
# 결측치가 몇 개인가요?(bool - True(1), False(0))
print(total.isna().sum())

1


### (3) 결측치 채우기

In [34]:
print(total)

광주    31.0
대구     NaN
부산    12.0
울산    23.0
dtype: float64


In [35]:
# 결측치를 0으로 채워주세요.
total.fillna(0)

광주    31.0
대구     0.0
부산    12.0
울산    23.0
dtype: float64

In [36]:
print(total)

광주    31.0
대구     NaN
부산    12.0
울산    23.0
dtype: float64


### (4) 결측치 삭제

In [37]:
print(total.dropna()) # total 덮어씌워지지 않는다.

광주    31.0
부산    12.0
울산    23.0
dtype: float64


In [38]:
print(total)


광주    31.0
대구     NaN
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

In [39]:
data = pd.Series(
    data=[17, 25, 33],
    index=["부산", "울산", "대구"]
)
print(data)

부산    17
울산    25
대구    33
dtype: int64


In [40]:
print(data.sum())   # 열의 합
print(data.mean())  # 열 평균
print(data.min())   # 초소값
print(data.max())   # 최대값
print(data.std())   # 표준편차
print(data.var())   # 분산


75
25.0
17
33
8.0
64.0


In [41]:
print(data.describe())

count     3.0
mean     25.0
std       8.0
min      17.0
25%      21.0
50%      25.0
75%      29.0
max      33.0
dtype: float64


예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [42]:
data_list = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']

data = pd.Series(data=data_list)
print(data)

0             HR
1    Engineering
2             HR
3    Engineering
4             HR
5      Marketing
6    Engineering
7      Marketing
8             HR
dtype: object


In [43]:
print(data.describe())

count      9
unique     3
top       HR
freq       4
dtype: object


# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [44]:
# 데이터를 리스트로 표현
data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174],
]

In [45]:
import pandas as pd

df = pd.DataFrame(
    data=data_list,
    columns=["이름", "성별", "나이", "키"]
)
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [46]:
df = pd.DataFrame(data=data_list)
df.columns = ["이름", "성별", "나이", "키"]
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [47]:
# 데이터의 열을 딕셔너리로 표현
data_col_dic = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}

In [48]:
df = pd.DataFrame(data=data_col_dic)
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [49]:
# 데이터의 행을 딕셔너리로/리스트 표현 (JSON) 
data_row_list = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키": 179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키": 161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키": 174},
]

In [50]:
df = pd.DataFrame(data=data_row_list)
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [51]:
# 이름을 인덱스로 하고 싶어요.
df_name_idx = df.set_index("이름") # df에 덮어씌워지지 않는다.
df_name_idx

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [52]:
df_name_idx.reindex() # df_name_idx에 덮어씌워지지 않는다.

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


## 2) 조회

In [53]:
df

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [54]:
df_name_idx

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


### (1) 이름으로 조회

#### 열 조회(df[열이름] df.loc[:, 열이름])

In [55]:
# df에서 "나이"열만 가져오고 싶어요.
df["나이"]
df.loc[:,"나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [56]:
df.loc[:, ["나이"]]

Unnamed: 0,나이
0,24
1,31
2,26


In [57]:
df.loc[:, ["이름", "키"]]

Unnamed: 0,이름,키
0,김영철,179.4
1,송윤지,161.0
2,임수현,174.0


In [58]:
# df에서 이름, 키 열만 가져오고 싶어요.
df[["이름", "키"]]

Unnamed: 0,이름,키
0,김영철,179.4
1,송윤지,161.0
2,임수현,174.0


In [59]:
df.loc[:, ["이름", "키"]]

Unnamed: 0,이름,키
0,김영철,179.4
1,송윤지,161.0
2,임수현,174.0


#### 행 조회(df.loc[인덱스이름])

In [60]:
# df에서 송윤지 데이터를 가져오고 싶어요.
df.loc[1,:]

이름      송윤지
성별        F
나이       31
키     161.0
Name: 1, dtype: object

In [61]:
df.loc[[1],:]

Unnamed: 0,이름,성별,나이,키
1,송윤지,F,31,161.0


In [62]:
# df_name_idx 에서 송윤지 데이터를 가져오고 싶어요.
df_name_idx.loc["송윤지",:]


성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [63]:
df_name_idx.loc[["송윤지"],:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0


In [64]:
# df에서 김영철, 임수현의 데이터를 가지고 오고 싶어요.
df.loc[[0, 2],:]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [71]:
# df_name_idx에서 김영철, 임수현의 데이터를 가지고 오고 싶어요.
df_name_idx.loc[ ["김영철", "임수현"],:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
임수현,F,26,174.0


#### 셀 조회

In [66]:
# df에서 김영철 학생의 키를 출력하고 싶어요.
df.loc[0, ["키"]]


키    179.4
Name: 0, dtype: object

In [67]:
# df에서 송윤지, 임수현의 성별을 출력하고 싶어요.
df.loc[[1, 2], ["성별"]]


Unnamed: 0,성별
1,F
2,F


In [68]:
# df_name_idx에서 임수현 학생의 나이를 출력하고 싶어요.
df_name_idx.loc[["임수현"], ["나이"]]


Unnamed: 0_level_0,나이
이름,Unnamed: 1_level_1
임수현,26


In [69]:
# df_name_idx에서 송윤지의 성별, 키를 출력하고 싶어요.
df_name_idx.loc[["송윤지"], ["성별", "키"]]


Unnamed: 0_level_0,성별,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
송윤지,F,161.0


In [70]:
# df에서 김영철, 송윤지의 이름, 나이를 출력하고 싶어요.
df.loc[[0, 1], ["이름", "나이"]]


Unnamed: 0,이름,나이
0,김영철,24
1,송윤지,31


### (2) 인덱스로 조회

#### 열 조회(df.iloc[:,열위치])

In [None]:
# 나이열을 출력
# [이름, 성별, 나이, 키]
# 나이 : 2번째 요소
df.iloc[:, 2] # 시리즈

In [72]:
df.iloc[:,[2]] # 데이터프레임

Unnamed: 0,나이
0,24
1,31
2,26


In [None]:
# 키 열을 출력
# [이름, 성별, 나이, 키]
# 나이 : 3번째 요소, -1번째 요소
df.iloc[:,-1]

0    179.4
1    161.0
2    174.0
Name: 키, dtype: float64

In [74]:
# 이름, 성별, 나이 열을 출력
# [이름, 성별, 나이, 키]
# [이름, 성별, 나이] -> 0:3 (0번째부터 3번째 앞까지)
df.iloc[:, 0:3]


Unnamed: 0,이름,성별,나이
0,김영철,M,24
1,송윤지,F,31
2,임수현,F,26


#### 행 조회(df.iloc[인덱스위치,:])

In [76]:
# df에서 임수현의 데이터를 출력
# [2, 1, 0]
# 임수현은 2번째 요소에 있음.
df.iloc[[2],:]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [77]:
# df에서 김영철, 송윤지 데이터 출력
# [2, 1, 0]
# [김영철, 송윤지] -> 0번째에서 3번째 앞까지
df.iloc[:2, :]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0


#### 셀 조회

### (3) 조건부 조회

## 3) 편집

### (1) 인덱스 제거

### (2) 데이터 병합

### (3) 결측치 처리

## 4) 통계

# 3. 실습

## 예제 1.

## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?