# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [1]:
import pandas as pd

### (1) 데이터만 생성

In [2]:
# 나이 데이터를 시리즈로 생성
age_list = [24, 31, 26]
age_series = pd.Series(age_list)
age_series

0    24
1    31
2    26
dtype: int64

In [3]:
age_series.dtype

dtype('int64')

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [6]:
age_series.index = ["김영철", "송윤지", "임수현"]
age_series

김영철    24
송윤지    31
임수현    26
dtype: int64

In [8]:
age_series2 = pd.Series(
    data=age_list,
    index=["김영철", "송윤지", "임수현"]
)
age_series2

김영철    24
송윤지    31
임수현    26
dtype: int64

In [7]:
# 송윤지의 나이는?
age_series["송윤지"]

np.int64(31)

### (2) 인덱스와 함께 생성

## 2) 연산

In [9]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data1 ** data2


0       10
1      400
2    27000
dtype: int64

## 3) 결측치

In [10]:
import pandas as pd 
import numpy as np

myseries = pd.Series([1, np.nan])
myseries

0    1.0
1    NaN
dtype: float64

In [11]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3, 4])

data1 + data2


0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64

In [13]:
data1

0    10
1    20
2    30
dtype: int64

In [12]:
data2

0    1
1    2
2    3
3    4
dtype: int64

### (1) 결측치 발생

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [17]:
data1 = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)

data3 = data1 + data2
data3


광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [20]:
data1

부산    10
울산    20
대구    30
dtype: int64

In [21]:
data2

광주    1
부산    2
울산    3
대구    4
dtype: int64

### (2) 결측치 파악

In [22]:
data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [23]:
# 결측치인지 아닌지 확인
data3.isna()

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [24]:
# 결측치의 개수
data3.isna().sum()

np.int64(1)

### (3) 결측치 채우기

In [25]:
data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [26]:
data3.fillna(999)

광주    999.0
대구     34.0
부산     12.0
울산     23.0
dtype: float64

In [19]:
data3.dropna()

대구    34.0
부산    12.0
울산    23.0
dtype: float64

## 4) 통계

In [None]:
data

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

## 2) 조회

### (1) 이름으로 조회

#### 열 조회

#### 행 조회

#### 셀 조회

### (2) 인덱스로 조회

#### 열 조회

#### 행 조회

#### 셀 조회

### (3) 조건부 조회

## 3) 편집

### (1) 인덱스 제거

### (2) 데이터 병합

### (3) 결측치 처리

## 4) 통계

# 3. 실습

## 예제 1.

## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?