# 판다스(Pandas)

# 1. 판다스 불러오기

In [27]:
import pandas as pd
import numpy as np

# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [2]:
# 표를 리스트로 만들기
data_list = [
    ['김영철', 'M', 24, 179.4],
    ['송윤지', 'F', 31, 161.0],
    ['임수현', 'F', 26, 174]
]
print(data_list)

[['김영철', 'M', 24, 179.4], ['송윤지', 'F', 31, 161.0], ['임수현', 'F', 26, 174]]


In [42]:
# 리스트로 데이터프레임 생성
data1 = pd.DataFrame(data_list)
print(data1)

     0  1   2      3
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [None]:
# 표를 딕셔너리로 만들기
data_dict = {
    '이름': ['김영철', '송윤지', '임수현'],
    '성별': ['M', 'F', 'F'],
    '나이': [24, 31, 26],
    '키': [179.4, 161.0, 174]
}


    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [None]:
# 딕셔너리로 데이터프레임 생성
data2 = pd.DataFrame(data_dict)
print(data2)

In [43]:
# 리스트로 만든 데이터프레임에 컬럼 명 추가하기
print(data1)
data1.columns = ['이름', '성별', '나이', '키']
print(data1)

     0  1   2      3
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [None]:
# 데이터프레임 모든 정보를 담아 한번에 생성하기

In [109]:
print(data_dict)
data0 = pd.DataFrame(data_dict)
print(data0)

# 이름을 인덱스로 바꾸기
data1 = data0
data1.reset_index(inplace=True)
print(data1)

data1.set_index('index', inplace=True)
print(data1)

data1.set_index('이름', inplace=True)
print(data1)


{'이름': ['김영철', '송윤지', '임수현'], '성별': ['M', 'F', 'F'], '나이': [24, 31, 26], '키': [179.4, 161.0, 174]}
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
   index   이름 성별  나이      키
0      0  김영철  M  24  179.4
1      1  송윤지  F  31  161.0
2      2  임수현  F  26  174.0
        이름 성별  나이      키
index                   
0      김영철  M  24  179.4
1      송윤지  F  31  161.0
2      임수현  F  26  174.0
    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0


In [108]:
data1 = data0.reset_index()
print(data1)

data1.reset_index(inplace=True)
print(data1)

data1.set_index('나이', inplace=True)
print(data1)

   나이   이름 성별      키
0  24  김영철  M  179.4
1  31  송윤지  F  161.0
2  26  임수현  F  174.0
   index  나이   이름 성별      키
0      0  24  김영철  M  179.4
1      1  31  송윤지  F  161.0
2      2  26  임수현  F  174.0
    index   이름 성별      키
나이                      
24      0  김영철  M  179.4
31      1  송윤지  F  161.0
26      2  임수현  F  174.0


In [96]:
data3 = pd.DataFrame([['홍길동', 'M', 177]])
print(data1.columns, data1.index)
data3.columns = data1.columns
data3.index = [31]
print(data3)

data4 = pd.concat([data1, data3])
print(data4)

data4.reset_index(inplace=True)
print(data4)

Index(['이름', '성별', '키'], dtype='object') Index([24, 31, 26], dtype='int64', name='나이')
     이름 성별    키
31  홍길동  M  177
     이름 성별      키
24  김영철  M  179.4
31  송윤지  F  161.0
26  임수현  F  174.0
31  홍길동  M  177.0
   index   이름 성별      키
0     24  김영철  M  179.4
1     31  송윤지  F  161.0
2     26  임수현  F  174.0
3     31  홍길동  M  177.0


## 2) 조회

### (1) 이름으로 조회

#### 열 조회

In [72]:
# 나이 열을 조회
print(data4)
print(data4['이름'])

     이름 성별      키
24  김영철  M  179.4
31  송윤지  F  161.0
26  임수현  F  174.0
31  홍길동  M  177.0
24    김영철
31    송윤지
26    임수현
31    홍길동
Name: 이름, dtype: object


In [77]:
# 성별, 키 열 조회
print(data4)
print(data4[['성별', '키']])

     이름 성별      키
24  김영철  M  179.4
31  송윤지  F  161.0
26  임수현  F  174.0
31  홍길동  M  177.0
   성별      키
24  M  179.4
31  F  161.0
26  F  174.0
31  M  177.0


#### 행 조회

In [81]:
# 데이터 출력
print(data4)
print(data4.iloc[1])

     이름 성별      키
24  김영철  M  179.4
31  송윤지  F  161.0
26  임수현  F  174.0
31  홍길동  M  177.0
이름      송윤지
성별        F
키     161.0
Name: 31, dtype: object


In [85]:
# 송윤지 행 조회
print(data4)
print(data4.loc[31])

data4.set_index('이름', inplace=True)
print(data4)
print(data4.loc['송윤지'])

     이름 성별      키
24  김영철  M  179.4
31  송윤지  F  161.0
26  임수현  F  174.0
31  홍길동  M  177.0
     이름 성별      키
31  송윤지  F  161.0
31  홍길동  M  177.0
    성별      키
이름           
김영철  M  179.4
송윤지  F  161.0
임수현  F  174.0
홍길동  M  177.0
성별        F
키     161.0
Name: 송윤지, dtype: object


In [None]:
# 김영철, 임수현 행 조회

#### 셀 조회

In [None]:
# 임수현 학생의 키 조회

In [None]:
# 송윤지 학생의 성별 조회

### (2) 인덱스로 조회

In [None]:
# 데이터 출력하기

#### 열 조회

In [None]:
# 나이 열을 조회

In [None]:
# 성별, 키 열 조회

#### 행 조회

In [None]:
# 데이터 출력

In [None]:
# 송윤지 행 조회

In [None]:
# 김영철, 임수현 행 조회

#### 셀 조회

In [None]:
# 임수현 학생의 키 조회

In [None]:
# 송윤지 학생의 성별 조회

### (3) 조건부 조회

In [21]:
# 성별이 M인 데이터 조회
print(data1['성별'] == 'M')
print(data1[data1['성별'] == 'M'])

나이
24     True
31    False
26    False
Name: 성별, dtype: bool
     이름  index 성별      키
나이                      
24  김영철      0  M  179.4


In [None]:
# 키가 170이 넘는 사람들 조회

## 3) 편집

### (1) 인덱스 제거

In [None]:
# 데이터 출력하기

In [None]:
# 인덱스 제거

### (2) 데이터 병합

In [None]:
# 연산으로 더해보기

In [None]:
# 병합

### (3) 결측치 처리

In [None]:
# 전체 정보 조회로 파악하기

In [None]:
# 조건문으로 판단하기

In [None]:
# 조건문으로 판단하기

In [None]:
# 결측치 채우기

In [None]:
# 결측치 삭제

## 4) 통계

# 4. 실습

## 예제 1. 'cdata.csv'

## 예제 2. 'cdata.csv'

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

### 데이터 불러오기

In [None]:
mpg = pd.read_csv('data/mpg.csv')

mpg.head()

In [None]:
mpg.tail()

### 데이터 파악하기

In [None]:
mpg.info()

In [None]:
# 결측치 확인
mpg.isnull().sum()

In [None]:
# 데이터 요약
mpg.describe()

### Q1. 몇 개의 회사 데이터가 있나요?

### Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

### Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

### Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

### +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

### Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

### +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?