# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [7]:
import pandas as pd

# Series : 열
data1 = pd.Series(data=['a', 'b', 'c'])
data2 = pd.Series(data=[10, 20, 30])
data3 = pd.Series(data=[10.1, 20.1, 30])

print(data1) # dtype이 object > int가 필요하면 변환 해줘야 함
print(data2)
print(data3)

0    a
1    b
2    c
dtype: object
0    10
1    20
2    30
dtype: int64
0    10.1
1    20.1
2    30.0
dtype: float64


### (2) 인덱스와 함께 생성

In [None]:
age_data = pd.Series(
    index=['kim', 'lee', 'park'], # 유니크한 값으로만 가능
    data=[24,31, 26]
)

print(age_data)
print(age_data.index) # object
print(age_data.values)
print(type(age_data.values)) # <class 'numpy.ndarray'>

kim     24
lee     31
park    26
dtype: int64
Index(['kim', 'lee', 'park'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [18]:
data1 = pd.Series(data=[10,20,30])
data1 = pd.Series(data=[1,2,3])

data3 = data1 * data2
print(data3)

0    10
1    40
2    90
dtype: int64


## 3) 결측치

In [20]:
import numpy as np
import pandas as pd

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


### (1) 결측치 발생

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [62]:
# '광주' 라는 index가 불일치하는 상황
# index 기준으로 data 연산(index가 없으면 순서대로 연산)

data1 = pd.Series([10,20,30], index=['부산','울산','대구'])
data2 = pd.Series([1,2,3,4], index=['광주','부산','울산','대구'])

data3 = data1+data2
print(data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [54]:
data3.info()

# 4 entries - 3 non-null = 1 null(결측치)

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [55]:
data3.isna() # 결측치에 True 표현

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [56]:
data3.isna().sum() # 결측치의 숫자 더하기

np.int64(1)

### (3) 결측치 채우기

In [68]:
# 뭘로 채우느냐는 주관적 판단(평균, 예측치)
data4 = data3.fillna(0) # 원본 data에 재할당 필요
print(data4)

대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (4) 결측치 삭제

In [None]:
#data5 = data3.dropna()
data3.dropna(inplace=True) #재할당 필요 없음(data3에)
print(data3)


대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [76]:
data = pd.Series(
    data=['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

data.describe() # 문자열과 숫자의 결과가 다름

count      9
unique     3
top       HR
freq       4
dtype: object

In [75]:
data = pd.Series(
    index=['부산', '울산', '대구'],
    data=[10, 20, 30]
)

print(data.min())
print(data.mean())
print(data.var()) # 분산
print(data.std()) # 표준편차 : root 분산() - 제곱수인 분산을 좀 더 줄임
print(data.max())

print(data.describe())


10
20.0
100.0
10.0
30
count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64


# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [8]:
data_list = [
    ['김영철', 'M', 24, 179.4],
    ['송윤지', 'F', 31, 161.0],
    ['임수현', 'F', 26, 174]
]

data1 = pd.DataFrame(data_list, columns=['이름', '성별', '나이', '키'])
#data1.columns = ['이름', '성별', '나이', '키']

print(data1)

data4 = data1.set_index('이름') # index 설정, 다른 table과 join할때 활용 
print(data4)

data5 = data4.reset_index()
print(data5)


    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [86]:
data_col_dict = {
    '이름' : ['김영철','송윤지','임수현'],
    '성별' : ['M','F','F'],
    '나이' : [24,31,26],
    '키' : [179.4,161.0,174]
}

data2 = pd.DataFrame(data_col_dict)
print(data2)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [None]:
# api 형태가 많음(그대로 쓰면 됨)
data_row_list = [
    {'이름':'김영철', '성별':'M', '나이':24, '키':179.4},
    {'이름':'송윤지', '성별':'F', '나이':31, '키':161.0},
    {'이름':'임수현', '성별':'F', '나이':26, '키':174}
]

data3 = pd.DataFrame(data_row_list)
print(data3)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


## 2) 조회

### (1) 이름으로 조회

#### 열 조회

In [95]:
data1['나이']

0    24
1    31
2    26
Name: 나이, dtype: int64

In [97]:
data1[['나이', '키']]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [226]:
#data1.loc[1]
data4.loc['송윤지'] 
#data4.iloc[1, :]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [102]:
data4.loc[['김영철','송윤지']]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0


#### 셀 조회

In [103]:
data4.loc['김영철', '키']

np.float64(179.4)

### (2) 인덱스로 조회

In [258]:
data1

Unnamed: 0,Index,No,Age,City
0,1,홍길동,25,서울
1,2,김준기,21,서울
2,9,이명식,22,부산
3,32,방준혁,24,광주
4,47,최명기,31,부산


#### 열 조회

In [259]:
# 나이 index로 조회

data1.iloc[:,2] #전체행(:), 열

0    25
1    21
2    22
3    24
4    31
Name: Age, dtype: int64

In [None]:
# 성별, 키 index로 조회

data1.iloc[:,[1,3]] #전체행(:), 1,3열만

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [None]:
# 송윤지 학생의 데이터를 인덱스로 조회

data4.iloc[1,:]
#data4.loc['송윤지']

    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0


성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [230]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회

data4.iloc[1:3,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [197]:
# 김영철 학생의 나이를 인덱스로 조회

data4.iloc[1, 1]

np.int64(31)

In [239]:
# 송윤지 학생의 성별을 인덱스로 조회

data4.iloc[1, 0]
#data4.loc['송윤지', '성별']

'F'

### (3) 조건부 조회

In [None]:
# 성별이 M인 데이터 조회

data1[data1['성별'] == 'M']

data1.loc[data1['성별'] == 'M']

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [15]:
# 키가 170이 넘는 사람들 조회

data1[data1['키'] > 170]

data1.loc[data1['키'] > 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [None]:
# 성별이 F이면서 키가 170 이상인 사람 조회
# and는 &로 표현해야 함

data1[(data1['성별'] == 'F') & (data1['키'] > 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [None]:
json_data = [
    {'이름' : '홍길동', '나이' : 25, '지역' : '서울'},
    {'이름' : '김준기', '나이' : 21, '지역' : '서울'},
    {'이름' : '이명식', '나이' : 22, '지역' : '부산'},
    {'이름' : '이준혁', '나이' : 24, '지역' : '광주'},
    {'이름' : '최명기', '나이' : 31, '지역' : '부산'}
]

df = pd.DataFrame(json_data)

# 나이가 30이상인 데이터를 조회해주세요
df[df['나이'] >= 30]
df.query('나이 >= 30')

# '이'씨 성을 가진 데이터를 조회해주세요
df[df['이름'].str.contains('이')]
df[df['이름'].str.startswith('이')]
df.query('지역 == "부산"')

# 지역이 서울인 데이터를 조회해주세요
df[df['지역'] == '서울']

# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
df.loc[(df['지역'] == '부산') & (df['이름'].str.contains('최')), '나이']

4    31
Name: 나이, dtype: int64

## 3) 편집

### (1) 인덱스 제거

In [None]:
data4.reset_index()

### (2) 데이터 병합

In [92]:
df1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)

df2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)

# merge

total_data = pd.merge(
    left=df1,
    right=df2,
    how='outer', # right, inner, outer
    on='지역명'
)

print(total_data)

  지역명  지점수_x  매출_x  지점수_y  매출_y
0  강남    1.0   2.0   10.0  20.0
1  노원    5.0   6.0   50.0  60.0
2  도봉    NaN   NaN   40.0  50.0
3  서초    4.0   5.0    NaN   NaN


### (3) 결측치 처리

In [114]:
total_data.info()

total_data.isna().sum() # 각 열(0)/행(1)마다 몇개의 결측치? axis=0 기본값

total_data.fillna(777)

total_data.dropna() # 결측치가 존재하면 해당 행 삭제

total_data.dropna(subset=['지점수_x'])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
3,서초,4.0,5.0,,


## 4) 통계

In [94]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기

## 예제 1. cdata.csv 불러오기

In [None]:
data1 = pd.read_csv('data/cdata.csv', encoding='CP949', index_col=0) # 한글의 경우 CP949, index

data2 = pd.read_csv('data/cdata_nohead.csv', 
                    header=None,  
                    index_col=0, 
                    names=['Index','No','Age','City'])
print(data2)


   Index   No  Age City
0      1  홍길동   25   서울
1      2  김준기   21   서울
2      9  이명식   22   부산
3     32  방준혁   24   광주
4     47  최명기   31   부산


## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

In [155]:
mpg = pd.read_csv('data/mpg.csv')

mpg.head() # top 5
mpg.tail() # bottom 5

mpg.info() 
row, col = mpg.shape
print(row, col)

mpg.describe(include='object') # all 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB
234 11


Unnamed: 0,manufacturer,model,trans,drv,fl,category
count,234,234,234,234,234,234
unique,15,38,10,3,5,7
top,dodge,caravan 2wd,auto(l4),f,r,suv
freq,37,11,83,106,168,62


## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

In [None]:
len(mpg['manufacturer'].unique())

mpg['manufacturer'].nunique()

15

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

In [196]:
mpg['manufacturer'].value_counts()
mpg['manufacturer'].groupby(mpg['manufacturer']).count()

# honda의 data수
mf = mpg['manufacturer'].value_counts()
mf['honda']

mpg['manufacturer'].value_counts()

manufacturer
dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
hyundai       14
subaru        14
nissan        13
honda          9
jeep           8
pontiac        5
land rover     4
mercury        4
lincoln        3
Name: count, dtype: int64

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

In [None]:
mpg['total'] = (mpg['cty'] + mpg['hwy']) / 2

# 상위 10개
mpg.iloc[:10, :]
temp2 = mpg.head(10)

# manufactuter의 종류와 개수
temp2['manufacturer'].value_counts()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,total
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact,22.0
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact,22.5
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact,22.0
8,audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact,20.5
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact,24.0


## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

In [212]:
sorted_mpg = mpg.sort_values(by='total', ascending=False)
head_10 = sorted_mpg.head(10)
head_10['manufacturer'].value_counts()

manufacturer
honda         4
volkswagen    3
toyota        3
Name: count, dtype: int64

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

In [219]:
hyundai_data = mpg[mpg['manufacturer'] == 'hyundai']
hyundai_data['total'].mean()

np.float64(22.75)

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

In [None]:
import numpy as np

total_mean = mpg['total'].mean()

mpg['total'] > total_mean

mpg['result'] = np.where(mpg['total'] > total_mean, 'PASS', 'FAIL')
mpg['result'].value_counts()

result
PASS    123
FAIL    111
Name: count, dtype: int64

In [226]:
mpg['result'] = mpg['total'].apply(lambda x : 'PASS' if x >=total_mean else 'FAIL') # 느림 where 추천
mpg['result'].value_counts()

result
PASS    123
FAIL    111
Name: count, dtype: int64

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?

In [228]:
pass_data = mpg[mpg['result'] == 'PASS']
pass_data['manufacturer'].value_counts()

manufacturer
volkswagen    26
toyota        19
audi          14
subaru        14
hyundai       13
honda          9
nissan         9
chevrolet      7
pontiac        5
dodge          4
ford           3
Name: count, dtype: int64

In [244]:
data = pd.read_csv('data/cycle_24.7-12.csv', encoding='CP949')

data.describe(include='all')

data.대여소명

#data.head(10)



0               102. 망원역 1번출구 앞
1               102. 망원역 1번출구 앞
2               102. 망원역 1번출구 앞
3               102. 망원역 1번출구 앞
4               102. 망원역 1번출구 앞
                  ...          
619659    6178. 마스터밸류에이스 지식산업센터
619660    6178. 마스터밸류에이스 지식산업센터
619661    6178. 마스터밸류에이스 지식산업센터
619662    6178. 마스터밸류에이스 지식산업센터
619663    6178. 마스터밸류에이스 지식산업센터
Name: 대여소명, Length: 619664, dtype: object

# 4. 다양한 데이터 체험하기
### csv
### tsv -> (sep='\t')
### sav -> 사회조사 파일 -> uv add pyreadstat -> pd.read_spss()
### xlsx -> 도구설치 필요 -> uv add openpyxl -> pd.read_excel()

In [None]:
csv_data = pd.read_csv('data/cdata.csv', encoding='CP949').head(10)
print(csv_data)

tsv_data = pd.read_csv('data/simplify.tsv', sep='\t').head(10)
print(tsv_data)

#tsv_data.to_csv('data/simplify.tsv')

sav_data = pd.read_spss('data/koweps_c19_2024_beta1.sav').head(10)
print(sav_data)

xlsx_data = pd.read_excel('data/국민건강보험공단.xlsx').head(10)
print(xlsx_data)

xlsx_data = pd.read_excel('data/국민건강보험공단.xlsx', sheet_name='Sheet5').head(10)
print(xlsx_data)



   Unnamed: 0  Index   No  Age City
0           0      1  홍길동   25   서울
1           1      2  김준기   21   서울
2           2      9  이명식   22   부산
3           3     32  방준혁   24   광주
4           4     47  최명기   31   부산
                  ,Region,Rating,Category   ,Review 
0  0,인덕원,1,삼겹살 고기집,"숙성 돼지고기 전문점입니다. 건물 모양 때문에 매장 ...
1   1,인덕원,1,삼겹살 고기집,"고기가 정말 맛있었어요! 육즙이 가득있어서 너무 좋았아요
2                                일하시는분들 너무 친절하고 좋습니당
3                       가격이 조금 있기는 하지만 그만한 맛이라고 생각!"
4  2,인덕원,1,순대국 찹쌀순대,"잡내없고 깔끔, 담백한 맛의 순대국이 순대국을 안 ...
5  3,인덕원,1,순대국 찹쌀순대,"고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니...
6                다만 양념장이 득뿍 있어서 간이 약간 짤 수도 있으니 참고하세요
7                                     기본적으로 웨이팅있습니다"
8  4,인덕원,1,순대국 찹쌀순대,"순대국 자체는 제가 먹어본 순대국밥집 중에서 Top...
9  그러나 밥 양이 적은 점, 공기밥 자체가 맛나지만은 않았던 점, 식당 주위에 흡연자...
   h19_id  h19_ind  h19_sn  h19_merkey  h_new  h_new1  h19_pind  h19_pid  \
0    48.0      1.0     1.0    480101.0    0.0     0.0       9.0   4807.0   
1    86.0     10.0     1.0    861001.0    0.0    