In [91]:
import pandas as pd

## 데이터프레임과 시리즈


### 시리즈(Series)
pd.Series로 만들수 있다.
시리즈의 괄호 안 데이터는 리스트를 활용해 만들 수 있다.
출력해보면 인덱스와 값이 출력되고, 자료형은 'object'이다. 판다스에서 object 형은 주로 문자열 데이터를 나타내는 데 사용된다.

In [92]:
menu = pd.Series(['비빔밥','김치찌개','된장찌개'])
menu

0     비빔밥
1    김치찌개
2    된장찌개
dtype: object

#### 숫자를 리스트 형태로 만들고, 이를 pd.Series()로 감싸게 되면 시리즈로 변경된다.
- 이 시리즈 값의 자료형(타입)은 int이다
- 판다스는 리스트에 포함된 데이터 타입을 기반으로 시리즈의 데이터 타입을 자동으로 결정한다.

In [93]:
price = pd.Series([10000,9000,8000])
price

0    10000
1     9000
2     8000
dtype: int64

#### int 뒤의 숫자는 비트수를 나타낸다
- int64는 2의 64승인 매우 큰 정수 범위를 표현할 수 있다.
- int32, int16, int8 등 다양한 크기를 표현할 수 있는 정수형이 있지만, int로만 알고있어도 충분.

### 데이터 프레임(DataFrame)
- 앞서 만든 2개의 시리즈를 합쳐 데이터프레임(표 형태)로 만들어보자.
- 데이터 프레임은 pd.DataFrame({"컬럼명":데이터})로 만든다


In [94]:
pd.DataFrame({
    "menu":menu,
    "price":price
})

Unnamed: 0,menu,price
0,비빔밥,10000
1,김치찌개,9000
2,된장찌개,8000


#### 데이터프레임을 만들 때 시리즈를 꼭 거쳐야 하는 것은 아니다
일반적으로 데이터프레임을 담는 변수명은 DataFrame의 약자인 df를 주로 사용한다.

In [95]:
df = pd.DataFrame({
    "메뉴":['비빔밥','김치찌개','된장찌개'],
    "가격":[10000,9000,8000],
    "원산지":['국내산','국내산','국내산']
})
df

Unnamed: 0,메뉴,가격,원산지
0,비빔밥,10000,국내산
1,김치찌개,9000,국내산
2,된장찌개,8000,국내산


### 컬럼 선택
- 데이터 프레임에서 특정 컬럼만 선택해 표시할 수 있다.
- df['컬럼명'] , df["컬럼명"]으로 컬럼명을 사용하면된다.
- 1개의 컬럼명만 선택하면 시리즈 형태로 출력한다.

In [96]:
df['메뉴']

0     비빔밥
1    김치찌개
2    된장찌개
Name: 메뉴, dtype: object

### 데이터프레임과 시리즈 자료형
- 데이터프레임에서 특정 컬럼 1개만 선택하면 시리즈 형태가 된다
- 시리즈 형태가 아닌 데이터프레임이 필요할 때가 있는데, 1개의 컬럼을 시리즈가 아닌 데이터프레임으로 만드는 간단한 방법은 한번더 대괄호로 묶어주는거

In [97]:
df[['메뉴']]

Unnamed: 0,메뉴
0,비빔밥
1,김치찌개
2,된장찌개


In [98]:
df[['메뉴','가격']]

Unnamed: 0,메뉴,가격
0,비빔밥,10000
1,김치찌개,9000
2,된장찌개,8000


#### 컬럼을 복수로 선택할 때는 주로 리스트를 활용한다
- cols 변수에 메뉴와 가격 컬럼명을 담고 df[cols] 를 실행하면
- cols 변수에 있는 컬럼이 선택되어 데이터프레임으로 출력된다.


In [99]:
cols =['메뉴','가격']
df[cols]


Unnamed: 0,메뉴,가격
0,비빔밥,10000
1,김치찌개,9000
2,된장찌개,8000


### 자료형 비교
- type()함수로 자료형을 확인해보면, 
- df['컬럼명']과 같은 컬럼명을 1개만 선택하면 시리즈 형태
- df[['컬럼명']]은 데이터프레임형태
- 컬럼이 1개일 때 시리즈가 아닌 데이터프레임으로 만들기 위해서 대괄호 2개가 종종 사용됨.

## 데이터 저장 및 불러오기

### 데이터 불러오기

In [100]:
df = pd.DataFrame({
    "메뉴":['아메리카노','카페라떼','카페모카','카페치노','에스프레소','밀크티','녹차'],
    "가격":[4500,5000,5500,5000,4000,5900,5300],
    '칼로리':[10,110,250,110,20,210,0],
})
df

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카페치노,5000,110
4,에스프레소,4000,20
5,밀크티,5900,210
6,녹차,5300,0


### csv파일로 저장
- 판다스를 학습하는 동안 데이터를 반복해 불러오기 위해 csvvkdlffh wjwkdgkwk
- 저장 명령어 df.to_csv("파일명")

In [101]:
df.to_csv('./test.csv')


### csv불러오기
- 저장된 데이터를 부를때는 
- pd.read_csv("파일명")


In [102]:
temp = pd.read_csv('./test.csv')
temp.head()

Unnamed: 0.1,Unnamed: 0,메뉴,가격,칼로리
0,0,아메리카노,4500,10
1,1,카페라떼,5000,110
2,2,카페모카,5500,250
3,3,카페치노,5000,110
4,4,에스프레소,4000,20


### csv 저장옵션
- 인덱스를 제외하고 저장하기 위해 index = false로 설정한다.
- 저장 후 데이터를 불러와 확인해보면 기존 인덱스를 제외하고 csv에 저장된 것을 확인할 수 있다.

In [103]:
df.to_csv("./noIndex.csv",index=False)
df = pd.read_csv("./noIndex.csv")

df.head()

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110
2,카페모카,5500,250
3,카페치노,5000,110
4,에스프레소,4000,20


### 데이터 불러오기 옵션
데이터를 불러올 때 사용하는 판다스의 read_csv() 함수는 주요 파라미터다.

1. index_col
- 인덱스로 사용할 컬럼명 또는 열의 번호를 지정한다.
- pd.read_csv("data.csv",index_col="컬럼명")
- pd.read_csv("data.csv",index_col=0)

2. usecols
- 불러올 컬럼명 또는 열의 번호를 지정한다.
- pd.read_csv('data.csv",usecolse=['컬럼명1','컬럼명2','컬럼명3',...])
- pd.read_csv('data.csv",usecolse=['열 번호1','열 번호2','열 번호3',...])

3. parse_dates
- 데이터를 불러올 때 parse_dates로 컬럼명을 지정하면 문자열로 된 컬럼을 날짜 datetime으로 변경할 수 있다.
- pd.read_csv('data.csv',parse_dates=['컬럼명'])

4. encoding
- 일반적으로 판다스는 'UTF-8'을 기본 인코딩 방식으로 사용한다.
- 데이터를 불러올 때 'cp949', 'euc-kr'로 설정한다.
- pd.read_csv('data.csv', encoding='cp949')
- pd.read_csv('data.csv', encoding='euc-kr')


## 탐색적 데이터 분석

### 1.탐색적 데이터 분석
- (Exploratory Data Analysis, EDA)은 데이터를 탐색하고 이해하기 위해 수행
- 앞서 만든 데이터는 매우 작은 데이터여서 한눈에 모든 데이터를 관찰가능,일반적으로 데이터는 한눈에 관찰할 수 없다.

### 2. 데이터 샘플 확인
- .head(N) : 데이터 프레임의 상위 N개의 행을 반환
- .tail(N) : 데이터 프레임의 하위 N개의 행을 반환
- .sample(N) : 데이터 프레임의 랜덤 N개의 행을 반환

In [104]:
df.head(2)

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
1,카페라떼,5000,110


In [105]:
df.tail(3)

Unnamed: 0,메뉴,가격,칼로리
4,에스프레소,4000,20
5,밀크티,5900,210
6,녹차,5300,0


In [106]:
df.sample(3)

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500,10
2,카페모카,5500,250
4,에스프레소,4000,20


### 3. 컬럼별 자료형
- 데이터프레임 안 컬럼의 자료형(type)은 info()를 통해 확인한다
- Dtype에서 문자는 object, 숫자는 int로 표시됨을 확인할 수 있다.

In [107]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      7 non-null      object
 1   가격      7 non-null      int64 
 2   칼로리     7 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 300.0+ bytes


### 4.상관관계
- 상관관계는 판다스의 corr()를 통해 확인한다.
- (+) 값은 양의 상관관계
- (-) 값은 음의 상관관계

In [108]:
df.corr(numeric_only=True)

Unnamed: 0,가격,칼로리
가격,1.0,0.713227
칼로리,0.713227,1.0


### 5. 범주형 데이터 탐색
- 자동차의 종류와 크기를 나타낸 중복값이 있는 데이터이다.   

In [109]:
df_car = pd.DataFrame({
    "car":['Sedan','SUV','Sedan','SUV','SUV','SUV','Sedan','Sedan','Sedan','Sedan','Sedan'],
    "size":['S','M','S','S','M','M','L','S','S','M','S']
})

df_car.head(3)


Unnamed: 0,car,size
0,Sedan,S
1,SUV,M
2,Sedan,S


### 6. 고유한 값의 개수
- 데이터프레임에서 컬럼별로 개수를 찾을 때는 nunique()를 활용한다 
- car 종류는 2개
- size의 종류는 3개가 있는 것으로 확인 가능

In [110]:
df_car.nunique()

car     2
size    3
dtype: int64

#### 6.1 고유한 값
- nunique()로는 종류의 수는 파악할 수 있지만, 어떤 데이터인지 알 수 ㅇ벗다.
- 구체적인 항목을 파악하기 위해서는 unique()를 활용한다
- car에는 Sedan, SUV가 있고
- size에는 S,M,L이 있다.

In [111]:
print(df_car['car'].unique())
print(df_car['size'].unique())

['Sedan' 'SUV']
['S' 'M' 'L']


#### 6.2 고유한 값과 개수
- 앞서 배운 nunique()와 nunique()의 결과 내용을 한번에 파악할 수 있다.
- value_counts()는 항목별로 개수를 출력해 데이터를 탐색하는 데 매우 우용하다.


In [112]:
print(df_car['car'].value_counts())
print(df_car['size'].value_counts())

car
Sedan    7
SUV      4
Name: count, dtype: int64
size
S    6
M    4
L    1
Name: count, dtype: int64


#### 6.3 기술통계
- 데이터의 기술 통계량은 describe()를 통해 확인할 수 있다.
- count : 값이 있는 데이터수
- mean : 평균
- std : 표준편차
- min : 최솟값
- 00% : 백분위수에서 00%
- max : 최댓값


In [113]:
df.describe()

Unnamed: 0,가격,칼로리
count,7.0,7.0
mean,5028.571429,101.428571
std,631.70216,99.40298
min,4000.0,0.0
25%,4750.0,15.0
50%,5000.0,110.0
75%,5400.0,160.0
max,5900.0,250.0


#### 6.4 기술통계(object 자료형)
- 데이터 타입이 object인 기술통계를 확인할 때는 include를 파라미터를 활용한다. "O", "object"를 입력한다.
- count : 값이 있는 데이터 수
- unique : 고유한 데이터 수 (종류)
- top : 가장 많이 나오는 값(최빈값)
- freq : 가장 많이 나오는 값의 빈도 수 


In [114]:
df.describe(include="O")

Unnamed: 0,메뉴
count,7
unique,7
top,아메리카노
freq,1


### 자료형 변환

- 판다스에서 주로 볼 수 있는 자료형은 int, float, object이다.
- 문제 상황에 따라 문자를 숫자로 변환하거나 실수형을 정수형으로 변환할 때가 있다.



In [115]:
# 데이터 
# 가격 : float형
# 칼로리 : object형

data = {
    "메뉴":['아메리카노','카페라떼','카페모카','카페치노','에스프레소','밀크티','녹차'],
    "가격":[4500.0, 5000.0, 5500.0,5000.0, 4000.0, 5900.0, 5300.0],
    "칼로리":['10','110','250','110','20','210','0'],
}

df = pd.DataFrame(data)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      7 non-null      object 
 1   가격      7 non-null      float64
 2   칼로리     7 non-null      object 
dtypes: float64(1), object(2)
memory usage: 300.0+ bytes


#### 1. int형 변환
- astype("변경할 자료형")의 괄호 안에 넣는다
- float 자료형을 -> int자료형으로 변경

In [116]:
df['가격'] = df['가격'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      7 non-null      object
 1   가격      7 non-null      int64 
 2   칼로리     7 non-null      object
dtypes: int64(1), object(2)
memory usage: 300.0+ bytes


#### 2. float형 변환
- Object 자료형인 칼로리 컬럼을 float형으로 변경
- 정수형으로 변경 가능한 데이터면 에러 없이 진행
- 문자 데이터가 있다면 에러가 발생함.

In [117]:
df['칼로리'] = df['칼로리'].astype('float')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      7 non-null      object 
 1   가격      7 non-null      int64  
 2   칼로리     7 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 300.0+ bytes


### 새로운 컬럼 추가

In [118]:
data = {
    "메뉴":['아메리카노','카페라떼'],
    "가격":[4500.0, 5000.0],
    "칼로리":['10','110'],
}

df = pd.DataFrame(data)
df

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500.0,10
1,카페라떼,5000.0,110


#### 새로운 컬럼 추가
- 새로운 컬럼을 추가할 때는 df['새 컬럼명']과 같이 새로운 컬럼명을 대괄호 안에 작성한다.

In [119]:
df['new'] = 0
df

Unnamed: 0,메뉴,가격,칼로리,new
0,아메리카노,4500.0,10,0
1,카페라떼,5000.0,110,0


#### 기존 컬럼을 사용한 계산
- 새로운 컬럼을 만들고 메뉴별 정상가에 20%를 할인한 금액을 새로운 컬럼에 대입

In [120]:
discount = 0.2
df['할인가'] = df['가격']* (1-discount)
df

Unnamed: 0,메뉴,가격,칼로리,new,할인가
0,아메리카노,4500.0,10,0,3600.0
1,카페라떼,5000.0,110,0,4000.0


### 데이터 삭제
- 판다스에서 데이터를 삭제하는 경우
    - 행(row)을 삭제하는 것
    - 열(column)을 삭제하는 것
- 이를 구분하기 위해서 축(axis)이라는 개념을 사용한다.
- 축은 데이터의 뱡항을 나타내며 0,1의 두가지 값을 사용한다.
    - 0 : 행 (row) : 특정 행을 삭제하고 싶을 때는 axis = 0 을 사용
    - 1 : 열 (column) : 특정 열을 삭제하고 싶을 때는 axis = 1 을 사용

In [121]:
data = {
    "메뉴":['아메리카노','카페라떼'],
    "가격":[4500.0, 5000.0],
    "칼로리":['10','110'],
}

df = pd.DataFrame(data)
df

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500.0,10
1,카페라떼,5000.0,110


#### 행 삭제
- DataFrame.drop("index 명",axis = 0)을 통해 삭제할 수 있다.
- 인덱스 명이 1인 행을 삭제하면 결과값이 자동으로 저장되지않으며
- drop에 있는 inplace 파라미터를 활용한다
- 기본값은 False이고, drop값을 저장하지 않는다.
- True로 설정하면 drop값이 저장된다.

In [122]:
df.drop(1, axis=0, inplace=True)
df.head(3)

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500.0,10


#### 열 삭제

- 컬럼은 DataFrame.drop("컬럼명", axis = 1)을 통해 삭제할 수 있다.


In [123]:
df = df.drop("칼로리", axis=1)
df.head(3)

Unnamed: 0,메뉴,가격
0,아메리카노,4500.0


#### 삭제 후 저장방법
- 결과를 저장할 경우 inplace 또는 대입 연산자 중 어떤 방법을 사용하더라도 같다.
- inplace를 사용하면 반환 값이 없고, 사용하지 않으면 반환 값으로 대입이 가능하다.
- 둘중 하나만 사용해야함.

### 인덱싱 / 슬라이싱(loc)
- 인덱스로 값을 찾거나 슬라이싱으로 특정영역을 추출할 수 있다.



In [124]:
data = {
    "메뉴":['아메리카노','카페라떼','카페모카','카페치노','에스프레소','밀크티','녹차'],
    "가격":[4500.0, 5000.0, 5500.0,5000.0, 4000.0, 5900.0, 5300.0],
    "칼로리":['10','110','250','110','20','210','0'],
}

df = pd.DataFrame(data)
df

Unnamed: 0,메뉴,가격,칼로리
0,아메리카노,4500.0,10
1,카페라떼,5000.0,110
2,카페모카,5500.0,250
3,카페치노,5000.0,110
4,에스프레소,4000.0,20
5,밀크티,5900.0,210
6,녹차,5300.0,0


#### 1. 인덱싱
- loc는 location의 약자로 인덱스명 또는 컬럼명을 통해 데이터에 접근한다.
- df.loc['인덱스명']을 통해 해당 인덱스 데이터에 접근할 수 있다.
- 인덱스가 0인 데이터를 loc를 활용해서 출력

In [125]:
# 인덱스명이 숫자인 경우 그대로 작성
# 문자열 
df.loc[0]

메뉴      아메리카노
가격     4500.0
칼로리        10
Name: 0, dtype: object

#### 2. 슬라이싱
- loc를 활용한 슬라이싱은 'loc[행 범위 또는 특정 행, 컬럼(열)의 범위 또는 특정 컬럼]' 을 활용한다.
- 범위는 '시작 인덱스:끝 인덱스'로 구간을 나타낸다
- 시작인덱스를 생략하면 처음부터, 끝 인덱스를 생략하면 마지막까지다.

In [126]:
df.loc[:,'가격']


0    4500.0
1    5000.0
2    5500.0
3    5000.0
4    4000.0
5    5900.0
6    5300.0
Name: 가격, dtype: float64

In [127]:
# 컬럼의 범위를 '메뉴'에서 '칼로리'까지 했을 때 메뉴 ~ 칼로리 사이에 있는 컬럼도 모두 포함된다

df.loc[2,'메뉴':'칼로리']

메뉴       카페모카
가격     5500.0
칼로리       250
Name: 2, dtype: object

In [128]:
# 만약 특정 컬럼을 선택해 슬라이싱하고 싶다면 컬럼을 리스트 형태로 해서 원하는 컬럼명을 넣으면 된다.
df.loc[2,['가격','칼로리']]

가격     5500.0
칼로리       250
Name: 2, dtype: object

In [129]:
# 인덱스 또한 구간으로 설정할 수 있는데 인덱스 명이 1인 데이터(행)부터 3인 데이터(행)를 출력한다.

df.loc[1:3,'메뉴':'가격']

Unnamed: 0,메뉴,가격
1,카페라떼,5000.0
2,카페모카,5500.0
3,카페치노,5000.0


### 인덱싱 / 슬라이싱(iloc)
- 인덱싱 및 슬라이싱을 하는 또 다른 방법은 iloc를 사용할 수 있다.
- 데이터 프레임의 행이나 열의 순서에 따른 인데스 번호 값을 슬라이싱 한다.
- 수험생은 인덱싱 및 슬라이싱이 필요할 때는 loc와 iloc 중 필요에 따라 선택해 활용하면 된다

In [130]:
data = {
    "메뉴":['아메리카노','카페라떼','카페모카','카페치노','에스프레소','밀크티','녹차'],
    "가격":[4500.0, 5000.0, 5500.0,5000.0, 4000.0, 5900.0, 5300.0],
    "칼로리":['10','110','250','110','20','210','0'],
}

df = pd.DataFrame(data)
df.drop(0, axis=0, inplace=True)

In [131]:
df.head(2)

Unnamed: 0,메뉴,가격,칼로리
1,카페라떼,5000.0,110
2,카페모카,5500.0,250


#### 1. 인덱싱
- loc에서 대괄호 안의 0은 인덱스명을 의미
- 0은 첫 번째 행(또는 컬럼), 1은 두 번째 행 (또는 컬럼)을 의미한다.


In [132]:
df.iloc[0]

메뉴       카페라떼
가격     5000.0
칼로리       110
Name: 1, dtype: object

#### 2. 슬라이싱
- iloc에서 특정 컬럼 값만 출력할 때도 인덱스 번호를 활용한다.
- 슬라이싱 하기 위해 행은 단계를 선택하고, 열은 인덱스 번호를 작성한다.

In [133]:
df.iloc[:,1]

1    5000.0
2    5500.0
3    5000.0
4    4000.0
5    5900.0
6    5300.0
Name: 가격, dtype: float64

In [134]:
# iloc를 활용해 인덱스 번호 2의 메뉴와 가격만 출력해보자

In [135]:
# iloc에서 0은 가장 첫번째 행, 열을 의미한다.
# iloc에서 슬라이싱 범위는 마지막 인덱스 번호 앞 까지 결과를 반환한다.
df.iloc[2,0:2]

메뉴      카페치노
가격    5000.0
Name: 3, dtype: object

In [136]:
# iloc 대괄호 안에 범위가 1개만 있다면 행 인덱스 범위다.
# 컬럼 범위는 전체를 의미하며, df.iloc[1:3,:]과 결과가 같다.
df.iloc[1:3]

Unnamed: 0,메뉴,가격,칼로리
2,카페모카,5500.0,250
3,카페치노,5000.0,110


### 데이터 추가 / 변경
- loc/iloc를 활용해 값을 추가 or 변경해보자.

#### 결측치 (NaN) 대입
- 결측치가 있는 데이터셋을 만들기 위해 넘파이로 라이브러리를 불러오고 컬럼에 np.nan을 대입한다

In [137]:
# 원산지라는 새로운 컬럼을 만들고 데이터는 '값 없음'을 의미하는 NaN(Not a Number)을 대입해보자.
import numpy as np
data = {
    "메뉴":['아메리카노','카페라떼','카페모카','카페치노','에스프레소','밀크티','녹차'],
    "가격":[4500.0, 5000.0, 5500.0,5000.0, 4000.0, 5900.0, 5300.0],
    "칼로리":['10','110','250','110','20','210','0'],
}

df = pd.DataFrame(data)
df['원산지'] = np.nan
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,
3,카페치노,5000.0,110,
4,에스프레소,4000.0,20,
5,밀크티,5900.0,210,
6,녹차,5300.0,0,


#### loc를 활용한 값 변경
- loc를 활용해 특정 위치에 값을 대입할 수 이싿
- loc[인덱스명(범위), 컬럼명(범위)]가 활용된다.

In [138]:
df.loc[0,"원산지"] = '콜롬비아'
df.loc[2:3,"원산지"] = '과테말라'
df

  df.loc[0,"원산지"] = '콜롬비아'


Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,
5,밀크티,5900.0,210,
6,녹차,5300.0,0,


#### loc를 활용한 값 추가
- loc를 활용해 새로운 데이터 행(row)를 추가할 수 있다.
- loc의 대괄호 안에 새 인덱스명을 넣고 값을 대입한다.

In [139]:
df.loc['시즌'] = ['크리스마스라떼',6000,300,'한국']
df.tail(3)

Unnamed: 0,메뉴,가격,칼로리,원산지
5,밀크티,5900.0,210,
6,녹차,5300.0,0,
시즌,크리스마스라떼,6000.0,300,한국


#### loc와 딕셔너리를 활용한 값 추가
- 리스트가 아닌 딕셔너리 형태로도 새로운 데이터 행을 추가할 수 있다.
- 차이점
    - 리스트의 경우 반드시 행의 컬럼 수와 리스트의 데이터 수가 일치해야하는데
    - 딕셔너리는 특정 컬럼이 없다면 결측치(NaN)로 입력된다.

In [140]:
# 원산지 값을 제외하고 새로운 컬럼을 추가
df.loc[7]={'메뉴':'딴짓커피','가격':2000,'칼로리':20}
df.tail(3)

Unnamed: 0,메뉴,가격,칼로리,원산지
6,녹차,5300.0,0,
시즌,크리스마스라떼,6000.0,300,한국
7,딴짓커피,2000.0,20,


In [141]:
df.drop("시즌", axis=0, inplace=True)
df.to_csv('./data/cafe2.csv', index=False)

### 정렬
- 데이터를 오름차순 또는 내림차순으로 정렬할 수 있다
- 오름차순 : 작은 -> 큰
- 내림 : 큰 -> 작은

In [142]:
df= pd.read_csv('./data/cafe2.csv')
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,
5,밀크티,5900.0,210,
6,녹차,5300.0,0,
7,딴짓커피,2000.0,20,


#### 정렬 방법
- 인덱스 기준과 데이터 값 기준이 있다.
    - 인덱스 기준 : sort_index()
    - 데이터 값 기준 : sort_values()
    - 기본 설정 : 오름차순(True)
    - ascending(False) => 내림차순 

In [143]:
# 인덱스 기준 정렬
# - 인덱스를 내림차순으로 정렬

df.sort_index(ascending=False)

Unnamed: 0,메뉴,가격,칼로리,원산지
7,딴짓커피,2000.0,20,
6,녹차,5300.0,0,
5,밀크티,5900.0,210,
4,에스프레소,4000.0,20,
3,카페치노,5000.0,110,과테말라
2,카페모카,5500.0,250,과테말라
1,카페라떼,5000.0,110,
0,아메리카노,4500.0,10,콜롬비아


In [144]:
# 데이터 값 기준 정렬

df.sort_values('메뉴', ascending=False)

Unnamed: 0,메뉴,가격,칼로리,원산지
3,카페치노,5000.0,110,과테말라
2,카페모카,5500.0,250,과테말라
1,카페라떼,5000.0,110,
4,에스프레소,4000.0,20,
0,아메리카노,4500.0,10,콜롬비아
5,밀크티,5900.0,210,
7,딴짓커피,2000.0,20,
6,녹차,5300.0,0,


In [145]:
# 2개 이상의 기준 정렬
# 정렬하고자 하는 컬럼이 2개 이상일때
# 각 컬럼마다 오름차순/내림차순이 다를 수 있다
# 순서에 맞게 리스트로 대입

df.sort_values(['가격','메뉴'], ascending=[False,True], inplace=True)
df

Unnamed: 0,메뉴,가격,칼로리,원산지
5,밀크티,5900.0,210,
2,카페모카,5500.0,250,과테말라
6,녹차,5300.0,0,
1,카페라떼,5000.0,110,
3,카페치노,5000.0,110,과테말라
0,아메리카노,4500.0,10,콜롬비아
4,에스프레소,4000.0,20,
7,딴짓커피,2000.0,20,


In [146]:
# 인덱스 초기화
# sort_values()로 정렬된(변경된) 상태에서 인덱스를 새로 만들고 싶을 때는 reset_index()를 활용한다.

df.reset_index(drop=True)

Unnamed: 0,메뉴,가격,칼로리,원산지
0,밀크티,5900.0,210,
1,카페모카,5500.0,250,과테말라
2,녹차,5300.0,0,
3,카페라떼,5000.0,110,
4,카페치노,5000.0,110,과테말라
5,아메리카노,4500.0,10,콜롬비아
6,에스프레소,4000.0,20,
7,딴짓커피,2000.0,20,


### 필터링
- 필터링을 통해 데이터 프레임에서 조건을 적용해 부합하는 데이터만 선택할 수 있다.

In [147]:
df= pd.read_csv('./data/cafe2.csv')
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,
5,밀크티,5900.0,210,
6,녹차,5300.0,0,
7,딴짓커피,2000.0,20,


#### 1개 조건 필터링
- 특정 컬럼에 조건식(<,>,==,!= 등을) 적용하면 True/False가 반환된다.


In [148]:
df['칼로리']<50

0     True
1    False
2    False
3    False
4     True
5    False
6     True
7     True
Name: 칼로리, dtype: bool

In [149]:
# 이 불리언 결과를 데이터프레임의 대괄호 안에 넣으면 True로 표시된 행들만 선택된다

cond = df['칼로리']<50
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
4,에스프레소,4000.0,20,
6,녹차,5300.0,0,
7,딴짓커피,2000.0,20,


In [150]:
df[df['칼로리']<50]

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
4,에스프레소,4000.0,20,
6,녹차,5300.0,0,
7,딴짓커피,2000.0,20,


#### NOT 연산자
- ~ 연산자는 조건의 반대를 필터링하는 데 사용한다.
- True -> False
- False -> True

In [151]:
cond = df['칼로리'] < 50

df[~cond]

Unnamed: 0,메뉴,가격,칼로리,원산지
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
5,밀크티,5900.0,210,


#### 복수 조건 필터링
- 조건이 2개 이상일 때는 합집합이거나 교집합인지를 구분해야한다
- 교집합 : &
- 합집합 : |


In [152]:
cond1 = df['가격'] >=5000
cond2 = df['칼로리'] > 100
df[cond1 & cond2]

Unnamed: 0,메뉴,가격,칼로리,원산지
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
5,밀크티,5900.0,210,


In [153]:
df[cond1 | cond2]

Unnamed: 0,메뉴,가격,칼로리,원산지
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
5,밀크티,5900.0,210,
6,녹차,5300.0,0,


In [154]:
cond = (df['원산지'] == '과테말라')
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라


In [155]:
cond1 = df['원산지'] == '과테말라'
cond2 = df['가격']<=5000
df[cond1 & cond2]

Unnamed: 0,메뉴,가격,칼로리,원산지
3,카페치노,5000.0,110,과테말라


#### isin()을 사용한 필터링
- isin()은 주어진 값이 있는지 확인한다.
- 데이터프레임이나 시리즈의 값 중에 포함되어 있는지를 체크해 포함되어 있으면 True를 없으면 False를 반환

In [156]:
df['메뉴'].isin(['녹차'])

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
Name: 메뉴, dtype: bool

In [157]:
cond = df['메뉴'].isin(['녹차'])
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지
6,녹차,5300.0,0,


In [158]:
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,
5,밀크티,5900.0,210,
6,녹차,5300.0,0,
7,딴짓커피,2000.0,20,


In [159]:
box = ['녹차','카푸치노','카페라떼']
cond = df['메뉴'].isin(box)
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지
1,카페라떼,5000.0,110,
6,녹차,5300.0,0,


### 결측치 처리
- 데이터에 결측치가 있다면 삭제하거나 특정 값으로 채울수 있다.


In [160]:
df = pd.read_csv('./data/cafe2.csv')
df.head(2)

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,


#### 결측치 탐색
- 결측치를 확인하는 함수 : df.isnull()을 사용한다.
- 결측치면 True / 아니면 False 반환

In [161]:
df.isnull()

Unnamed: 0,메뉴,가격,칼로리,원산지
0,False,False,False,False
1,False,False,False,True
2,False,False,False,False
3,False,False,False,False
4,False,False,False,True
5,False,False,False,True
6,False,False,False,True
7,False,False,False,True


In [162]:
# df.isnull()에 sum()을 붙이면 컬럼별로 모두 더할 수 있다.
df.isnull().sum()

메뉴     0
가격     0
칼로리    0
원산지    5
dtype: int64

In [163]:
# df.isnull() 외에 isna()를 활용해도 같은 결과를 얻을 수 있다.
df.isna().sum()

메뉴     0
가격     0
칼로리    0
원산지    5
dtype: int64

#### 결측치 채우기
- 결측치 채우는 함수 : fillna()

In [164]:
# 원산지 컬럼 결측치 fillna()를 활용해 임의값으로 채워보기

df['원산지'].fillna('코스타리카', inplace=True)
df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['원산지'].fillna('코스타리카', inplace=True)


Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,코스타리카
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,코스타리카
5,밀크티,5900.0,210,코스타리카
6,녹차,5300.0,0,코스타리카
7,딴짓커피,2000.0,20,코스타리카


In [165]:
# 결과값 저장
df.to_csv("./data/cafe3.csv", index=False)

### 값 변경
- 특정 값을 찾아 대체가 필요할 때가 있다.
- replace() 함수를 활용하면 쉽게 값을 찾고 변경할 수 있다.


In [166]:
df = pd.read_csv('./data/cafe3.csv')
df.head(3)

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,코스타리카
2,카페모카,5500.0,250,과테말라


#### replace() 활용
- replace는 변경 전 값과 변경 후 값 순서로 입력해 사용한다.
- 여러 개의 값을 변경하기 위해 여러번 사용해도 된다.

In [167]:
df.replace('아메리카노','룽고', inplace=True)
df.replace('녹차','그린티', inplace=True)
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,룽고,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,코스타리카
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,코스타리카
5,밀크티,5900.0,210,코스타리카
6,그린티,5300.0,0,코스타리카
7,딴짓커피,2000.0,20,코스타리카


In [168]:
# 여러 값을 변경할 때 replace()를 여러 번 사용하기도 하지만, 딕셔너리를 활용할 수도 있다.
change = {'룽고':'아메리카노','그린티':'녹차'}  
df.replace(change,inplace=True)
df

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500.0,10,콜롬비아
1,카페라떼,5000.0,110,코스타리카
2,카페모카,5500.0,250,과테말라
3,카페치노,5000.0,110,과테말라
4,에스프레소,4000.0,20,코스타리카
5,밀크티,5900.0,210,코스타리카
6,녹차,5300.0,0,코스타리카
7,딴짓커피,2000.0,20,코스타리카


#### loc/iloc 활용


In [169]:
# - loc를 활용해 '녹차'의 원산지를 '대한민국'으로 변경해보자.
# - loc는 인덱스명을 사용한다.

df.loc[6,'원산지'] = '대한민국'
df.tail(3)

Unnamed: 0,메뉴,가격,칼로리,원산지
5,밀크티,5900.0,210,코스타리카
6,녹차,5300.0,0,대한민국
7,딴짓커피,2000.0,20,코스타리카


In [170]:
# loc를 활용해 새로운 컬럼 '이벤트가'를 만들고 카페라떼와 카페모카에 1,000원을 대입해보자.
df.loc[1:2,'이벤트가'] = 1000
df.head()

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
0,아메리카노,4500.0,10,콜롬비아,
1,카페라떼,5000.0,110,코스타리카,1000.0
2,카페모카,5500.0,250,과테말라,1000.0
3,카페치노,5000.0,110,과테말라,
4,에스프레소,4000.0,20,코스타리카,


In [171]:
df.to_csv('./data/cafe4.csv', index=False)

### 문자열
- 문자열은 일련의 문자로 구성된 데이터 유형이다.
- 판다스에서는 str 접근자를 사용해 문자열 데이터를 효율적으로 다룰 수 있다

In [172]:
import pandas as pd

df = pd.DataFrame({'A':['데이터 분석','기본 학습서','퇴근 후 열공'],
                   'B':[10,20,30],
                   'C':['ab cd','AB CD','ab cd ']})

df

Unnamed: 0,A,B,C
0,데이터 분석,10,ab cd
1,기본 학습서,20,AB CD
2,퇴근 후 열공,30,ab cd


#### 1. 문자열 변경(치환)


In [173]:
# 문자 전체에 대해서 변경
df['A'] = df['A'].replace('분석','시각화')
df

Unnamed: 0,A,B,C
0,데이터 분석,10,ab cd
1,기본 학습서,20,AB CD
2,퇴근 후 열공,30,ab cd


In [174]:
#문자열 중에 일부만 변경
df['A'] = df['A'].str.replace('분석','시각화')
df

Unnamed: 0,A,B,C
0,데이터 시각화,10,ab cd
1,기본 학습서,20,AB CD
2,퇴근 후 열공,30,ab cd


In [175]:
# 숫자일때는 str을 붙히면 오류
# 숫자일때는 replace로 변경
df['B'] = df['B'].replace(10,100)
df

Unnamed: 0,A,B,C
0,데이터 시각화,100,ab cd
1,기본 학습서,20,AB CD
2,퇴근 후 열공,30,ab cd


#### 2. 문자열 분리
- split() 함수 사용


In [176]:
# 문자열 분리
# 기본적으로 띄어쓰기로 분리
df['A'].str.split()


0     [데이터, 시각화]
1      [기본, 학습서]
2    [퇴근, 후, 열공]
Name: A, dtype: object

In [177]:
# 인덱스 변호로 추출가능
df['A'].str.split()[0]

['데이터', '시각화']

In [178]:
# 제일 앞에 분리된 인덱스 활용
df['D'] = df['A'].str.split().str[0]
df

Unnamed: 0,A,B,C,D
0,데이터 시각화,100,ab cd,데이터
1,기본 학습서,20,AB CD,기본
2,퇴근 후 열공,30,ab cd,퇴근


In [179]:
# # 제일 뒤에 분리된 인덱스 활용
# df['D'] = df['A'].str.split().str[-1]
# df

In [180]:
# 문자 검색
df['A'].str.contains('기본')

0    False
1     True
2    False
Name: A, dtype: bool

In [181]:
df['기본 포함 유무'] = df['A'].str.contains('기본')
df

Unnamed: 0,A,B,C,D,기본 포함 유무
0,데이터 시각화,100,ab cd,데이터,False
1,기본 학습서,20,AB CD,기본,True
2,퇴근 후 열공,30,ab cd,퇴근,False


In [182]:
# isin은 단어의 전체로 찾음
menu = pd.Series(['맛난버거 세트','매운 치킨버거','더블 치즈버거'])
menu.isin(['맛난버거 세트','더블 치즈버거'])

0     True
1    False
2     True
dtype: bool

In [183]:
# 하나만 찾음
# 일부만 있을때 찾음
menu.str.contains('세트')

0     True
1    False
2    False
dtype: bool

In [184]:
df['문자길이'] =df['A'].str.len()
df

Unnamed: 0,A,B,C,D,기본 포함 유무,문자길이
0,데이터 시각화,100,ab cd,데이터,False,7
1,기본 학습서,20,AB CD,기본,True,6
2,퇴근 후 열공,30,ab cd,퇴근,False,7


In [185]:
'AB cd' == 'ab CD'

False

In [186]:
df['C'] = df['C'].str.lower()
df

Unnamed: 0,A,B,C,D,기본 포함 유무,문자길이
0,데이터 시각화,100,ab cd,데이터,False,7
1,기본 학습서,20,ab cd,기본,True,6
2,퇴근 후 열공,30,ab cd,퇴근,False,7


In [187]:
df['C'] = df['C'].str.upper()
df

Unnamed: 0,A,B,C,D,기본 포함 유무,문자길이
0,데이터 시각화,100,AB CD,데이터,False,7
1,기본 학습서,20,AB CD,기본,True,6
2,퇴근 후 열공,30,AB CD,퇴근,False,7


In [188]:
df['C'] == 'AB CD'

0     True
1     True
2    False
Name: C, dtype: bool

In [189]:
df['C'] = df['C'].str.lower()
df['C'] = df['C'].str.replace(" ","")
df['C']

0    abcd
1    abcd
2    abcd
Name: C, dtype: object

In [190]:
df['C'].str[1:3]

0    bc
1    bc
2    bc
Name: C, dtype: object

In [191]:
# 문자열을 사용해야함.
df['C'][1:3]

1    abcd
2    abcd
Name: C, dtype: object

### 내장함수


In [192]:
df = pd.read_csv("./data/cafe4.csv")

In [193]:
df.head(2)

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
0,아메리카노,4500.0,10,콜롬비아,
1,카페라떼,5000.0,110,코스타리카,1000.0


In [None]:
# 행의 수
print(len(df))

# 행과 열을 불러 0 : 행, 1: 열
print(df.shape[0])

8
8


In [195]:
df['가격']>5000

0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
Name: 가격, dtype: bool

In [None]:
cond = df['가격']>5000
# sum으로 조건에 맞는 개수 구하기
print(sum(cond))

# len으로 조건에 맞는 개수 구하기
print(len(df[cond]))

3
3


In [199]:
# 숫자만 오로직 합계
df.sum(numeric_only=True)

가격      37200.0
칼로리       730.0
이벤트가     2000.0
dtype: float64

In [200]:
df.sum(axis=1, numeric_only=True)

0    4510.0
1    6110.0
2    6750.0
3    5110.0
4    4020.0
5    6110.0
6    5300.0
7    2020.0
dtype: float64

![image.png](attachment:image.png)


In [202]:
print("최대값", df['가격'].max())
print("최소값", df['가격'].min())
print("평균값", df['가격'].mean())
print("중앙값", df['가격'].median())
print("합계", df['가격'].sum())
print("표준편차", df['가격'].std())
print("분산", df['가격'].var())

최대값 5900.0
최소값 2000.0
평균값 4650.0
중앙값 5000.0
합계 37200.0
표준편차 1220.070255588353
분산 1488571.4285714286


In [203]:
#분위수
print("분위수 25% 값", df['가격'].quantile(.25))
print("분위수 75% 값", df['가격'].quantile(.75))

분위수 25% 값 4375.0
분위수 75% 값 5350.0


In [204]:
# 하위 25% 데이터
cond = df['가격'].quantile(.25)>df['가격']
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
4,에스프레소,4000.0,20,코스타리카,
7,딴짓커피,2000.0,20,코스타리카,


In [205]:
# 상위 25% 데이터
cond = df['가격'].quantile(.75)<df['가격']
df[cond]

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
2,카페모카,5500.0,250,과테말라,1000.0
5,밀크티,5900.0,210,코스타리카,


In [None]:
# 최빈값 구하기
# mode라는 함수사용 최빈값은 1개가 아닐수도 있음.
df['원산지'].mode()[0]

0    코스타리카
Name: 원산지, dtype: object

In [None]:
# index of maximum
# 가격에서 가장 큰 값의 인덱스 반환
df['가격'].idxmax()

5

In [208]:
max_ind = df['가격'].idxmax()
df.loc[max_ind]

메뉴         밀크티
가격      5900.0
칼로리        210
원산지      코스타리카
이벤트가       NaN
Name: 5, dtype: object

In [209]:
df.loc[max_ind,'메뉴']

'밀크티'

In [210]:
# 가격 중에 n번째로 크거나 , 작거나 찾기
# nlargest
# nsmallest

df.nlargest(3,'가격')
df.nsmallest(2,'가격')

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
7,딴짓커피,2000.0,20,코스타리카,
4,에스프레소,4000.0,20,코스타리카,


In [211]:
def cal(x):
    if x>= 100:
        return "NO"
    else:
        return "YES"
    
df['먹어도 될까요'] = df['칼로리'].apply(cal)
df

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가,먹어도 될까요
0,아메리카노,4500.0,10,콜롬비아,,YES
1,카페라떼,5000.0,110,코스타리카,1000.0,NO
2,카페모카,5500.0,250,과테말라,1000.0,NO
3,카페치노,5000.0,110,과테말라,,NO
4,에스프레소,4000.0,20,코스타리카,,YES
5,밀크티,5900.0,210,코스타리카,,NO
6,녹차,5300.0,0,대한민국,,YES
7,딴짓커피,2000.0,20,코스타리카,,YES


In [214]:
df = pd.DataFrame({
    'Name':{0:'쿼카',1:'알파카',2:'시바견'},
    '수학':{0:90,1:93,2:85},
    '영어':{0:92,1:84,2:86},
    '국어':{0:91,1:94,2:83},})

df

Unnamed: 0,Name,수학,영어,국어
0,쿼카,90,92,91
1,알파카,93,84,94
2,시바견,85,86,83


In [None]:
# melt() 재구조화 함수
pd.melt(df,id_vars=['Name'])

Unnamed: 0,Name,variable,value
0,쿼카,수학,90
1,알파카,수학,93
2,시바견,수학,85
3,쿼카,영어,92
4,알파카,영어,84
5,시바견,영어,86
6,쿼카,국어,91
7,알파카,국어,94
8,시바견,국어,83


In [217]:
# 수학, 영어
pd.melt(df,id_vars=['Name'],value_vars=['수학', '영어'])

Unnamed: 0,Name,variable,value
0,쿼카,수학,90
1,알파카,수학,93
2,시바견,수학,85
3,쿼카,영어,92
4,알파카,영어,84
5,시바견,영어,86


In [221]:
pd.melt(df, id_vars=['Name'], var_name='과목',value_name='점수')

Unnamed: 0,Name,과목,점수
0,쿼카,수학,90
1,알파카,수학,93
2,시바견,수학,85
3,쿼카,영어,92
4,알파카,영어,84
5,시바견,영어,86
6,쿼카,국어,91
7,알파카,국어,94
8,시바견,국어,83


In [222]:
df = pd.DataFrame({
    '반':["A반","B반","C반"],
    "이름":["쿼카","알파카","시바견"],
    "수학":[90,93,85],
    "영어":[92,94,86],
    "국어":[91,94,83]})
df

Unnamed: 0,반,이름,수학,영어,국어
0,A반,쿼카,90,92,91
1,B반,알파카,93,94,94
2,C반,시바견,85,86,83


In [225]:
pd.melt(df,id_vars=["반","이름"],var_name='과목',value_name='점수')

Unnamed: 0,반,이름,과목,점수
0,A반,쿼카,수학,90
1,B반,알파카,수학,93
2,C반,시바견,수학,85
3,A반,쿼카,영어,92
4,B반,알파카,영어,94
5,C반,시바견,영어,86
6,A반,쿼카,국어,91
7,B반,알파카,국어,94
8,C반,시바견,국어,83


### 그룹핑
- group by()
![image.png](attachment:image.png)


In [227]:
df = pd.read_csv("./data/cafe4.csv")
df

Unnamed: 0,메뉴,가격,칼로리,원산지,이벤트가
0,아메리카노,4500.0,10,콜롬비아,
1,카페라떼,5000.0,110,코스타리카,1000.0
2,카페모카,5500.0,250,과테말라,1000.0
3,카페치노,5000.0,110,과테말라,
4,에스프레소,4000.0,20,코스타리카,
5,밀크티,5900.0,210,코스타리카,
6,녹차,5300.0,0,대한민국,
7,딴짓커피,2000.0,20,코스타리카,


In [229]:
# 원산지 기준, 평균
df.groupby(['원산지']).mean(numeric_only=True)

Unnamed: 0_level_0,가격,칼로리,이벤트가
원산지,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
과테말라,5250.0,180.0,1000.0
대한민국,5300.0,0.0,
코스타리카,4225.0,90.0,1000.0
콜롬비아,4500.0,10.0,


In [230]:
# 원산지와 칼로리 기준 평균
df.groupby(['원산지','칼로리']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,가격,이벤트가
원산지,칼로리,Unnamed: 2_level_1,Unnamed: 3_level_1
과테말라,110,5000.0,
과테말라,250,5500.0,1000.0
대한민국,0,5300.0,
코스타리카,20,3000.0,
코스타리카,110,5000.0,1000.0
코스타리카,210,5900.0,
콜롬비아,10,4500.0,


In [231]:
# 원산지와 메뉴 기준 (평균, 합계)
df.groupby(['원산지','메뉴']).agg(['mean','sum'])

Unnamed: 0_level_0,Unnamed: 1_level_0,가격,가격,칼로리,칼로리,이벤트가,이벤트가
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,sum,mean,sum
원산지,메뉴,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
과테말라,카페모카,5500.0,5500.0,250.0,250,1000.0,1000.0
과테말라,카페치노,5000.0,5000.0,110.0,110,,0.0
대한민국,녹차,5300.0,5300.0,0.0,0,,0.0
코스타리카,딴짓커피,2000.0,2000.0,20.0,20,,0.0
코스타리카,밀크티,5900.0,5900.0,210.0,210,,0.0
코스타리카,에스프레소,4000.0,4000.0,20.0,20,,0.0
코스타리카,카페라떼,5000.0,5000.0,110.0,110,1000.0,1000.0
콜롬비아,아메리카노,4500.0,4500.0,10.0,10,,0.0


In [232]:
# 1개 인덱스로 형태 리셋
df.groupby(['원산지','칼로리']).mean(numeric_only=True).reset_index()

Unnamed: 0,원산지,칼로리,가격,이벤트가
0,과테말라,110,5000.0,
1,과테말라,250,5500.0,1000.0
2,대한민국,0,5300.0,
3,코스타리카,20,3000.0,
4,코스타리카,110,5000.0,1000.0
5,코스타리카,210,5900.0,
6,콜롬비아,10,4500.0,


In [234]:
# transform

df = pd.DataFrame({
    '과일':['딸기','블루베리','딸기','블루베리','딸기','블루베리','딸기','블루베리'],
    '가격':[1000,None,1500,None, 2000,2500,None,1800]
})
df

Unnamed: 0,과일,가격
0,딸기,1000.0
1,블루베리,
2,딸기,1500.0
3,블루베리,
4,딸기,2000.0
5,블루베리,2500.0
6,딸기,
7,블루베리,1800.0


In [235]:
price = df.groupby('과일')['가격'].transform("mean")
price

0    1500.0
1    2150.0
2    1500.0
3    2150.0
4    1500.0
5    2150.0
6    1500.0
7    2150.0
Name: 가격, dtype: float64

In [236]:
df['가격']=df['가격'].fillna(price)
df

Unnamed: 0,과일,가격
0,딸기,1000.0
1,블루베리,2150.0
2,딸기,1500.0
3,블루베리,2150.0
4,딸기,2000.0
5,블루베리,2500.0
6,딸기,1500.0
7,블루베리,1800.0


In [241]:
# transform

df = pd.DataFrame({
    '과일':['딸기','블루베리','딸기','블루베리','딸기','블루베리','딸기','블루베리'],
    '등급':['B','B','A','A','A','A','B','B'],
    '가격':[1000,None,1500,None, 2000,2500,None,1800]
})
df

Unnamed: 0,과일,등급,가격
0,딸기,B,1000.0
1,블루베리,B,
2,딸기,A,1500.0
3,블루베리,A,
4,딸기,A,2000.0
5,블루베리,A,2500.0
6,딸기,B,
7,블루베리,B,1800.0


In [244]:
price = df.groupby(['과일','등급'])['가격'].transform('mean')
price

0    1000.0
1    1800.0
2    1750.0
3    2500.0
4    1750.0
5    2500.0
6    1000.0
7    1800.0
Name: 가격, dtype: float64

In [245]:
df['가격'] = df['가격'].fillna(price)
df

Unnamed: 0,과일,등급,가격
0,딸기,B,1000.0
1,블루베리,B,1800.0
2,딸기,A,1500.0
3,블루베리,A,2500.0
4,딸기,A,2000.0
5,블루베리,A,2500.0
6,딸기,B,1000.0
7,블루베리,B,1800.0


In [246]:
# unstack

coffee_data = {
    '커피종류':['아메리카노','아메리카노','아메리카노','라떼','라떼','라떼'],
    '컵크기':['Small','Medium','Large','Small','Medium','Large'],
    '판매량':[120,150,200,100,130,180]
}

df = pd.DataFrame(coffee_data)
df

Unnamed: 0,커피종류,컵크기,판매량
0,아메리카노,Small,120
1,아메리카노,Medium,150
2,아메리카노,Large,200
3,라떼,Small,100
4,라떼,Medium,130
5,라떼,Large,180


In [248]:
grouped = df.groupby(['커피종류','컵크기'])['판매량'].sum()
grouped 

커피종류   컵크기   
라떼     Large     180
       Medium    130
       Small     100
아메리카노  Large     200
       Medium    150
       Small     120
Name: 판매량, dtype: int64

In [250]:
# 컵크기를 컬럼으로 변환
# 기본적으로는 level = -1 값
grouped.unstack()

컵크기,Large,Medium,Small
커피종류,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
라떼,180,130,100
아메리카노,200,150,120


In [251]:
# 커피종류를 컬럼으로 변환
grouped.unstack(level=0)

커피종류,라떼,아메리카노
컵크기,Unnamed: 1_level_1,Unnamed: 2_level_1
Large,180,200
Medium,130,150
Small,100,120


In [252]:
grouped.unstack().unstack()

컵크기     커피종류 
Large   라떼       180
        아메리카노    200
Medium  라떼       130
        아메리카노    150
Small   라떼       100
        아메리카노    120
dtype: int64

In [253]:
# 데이터 합치기

appetize = pd.DataFrame({
    'Menu':['Salad','Soup','Bread'],
    "Price":[5000,3000,2000]
})

#메인 메뉴
main = pd.DataFrame({
    "Menu":['Steak','Pasta','Chicken'],
    "price":[15000,12000,10000]
})

print(appetize)
print(main)

    Menu  Price
0  Salad   5000
1   Soup   3000
2  Bread   2000
      Menu  price
0    Steak  15000
1    Pasta  12000
2  Chicken  10000


In [254]:
# 두 메뉴를 수직으로 연결
full_menu = pd.concat([appetize,main],ignore_index=True)
full_menu

Unnamed: 0,Menu,Price,price
0,Salad,5000.0,
1,Soup,3000.0,
2,Bread,2000.0,
3,Steak,,15000.0
4,Pasta,,12000.0
5,Chicken,,10000.0


In [255]:
# 두 메뉴를 좌우로 연결
full_menu = pd.concat([appetize,main],axis=1)
full_menu

Unnamed: 0,Menu,Price,Menu.1,price
0,Salad,5000,Steak,15000
1,Soup,3000,Pasta,12000
2,Bread,2000,Chicken,10000


In [256]:
price = pd.DataFrame({
    'Menu':['Salad','Soup','Steak','Pasta'],
    'Price':[5000,3000,15000,12000]
})

cal = pd.DataFrame({
    'Menu':['Salad','Soup','Steak','Pasta'],
    'Calories':[100,500,400,150]
})


# 두 데이터 프레임을 "Menu"를 기준으로 병합
menu_info = pd.merge(price, cal, on="Menu")
menu_info

Unnamed: 0,Menu,Price,Calories
0,Salad,5000,100
1,Soup,3000,500
2,Steak,15000,400
3,Pasta,12000,150


### 피벗테이블
![image.png](attachment:image.png)

In [257]:
data ={
    "이름":['서아','다인','채아','예담','종현','태헌'],
    "부서":['개발','기획','개발','기획','개발','기획'],
    '급여':[3000,3200,3100,3300,2900,3100]
}

df = pd.DataFrame(data)
print("[원본 데이터]")
print(df)


# 부서별 평균 급여 계산
pt = df.pivot_table(index="부서",values='급여',aggfunc='mean')
print("\n[부서별 평균 급여]")
print(pt)



[원본 데이터]
   이름  부서    급여
0  서아  개발  3000
1  다인  기획  3200
2  채아  개발  3100
3  예담  기획  3300
4  종현  개발  2900
5  태헌  기획  3100

[부서별 평균 급여]
        급여
부서        
개발  3000.0
기획  3200.0


In [259]:
data ={
    "부서":['개발','기획','기획','기획','개발','개발'],
    "직급":['대리','과장','대리','과장','대리','과장'],
    '급여':[3000,4000,3200,4200,3500,4500]
}

df = pd.DataFrame(data)
print("[원본 데이터]")
print(df)


# 부서별 평균 급여 계산
pt = df.pivot_table(index="부서",columns='직급',values='급여',aggfunc='sum')
print("\n[부서별 평균 급여]")
print(pt)


[원본 데이터]
   부서  직급    급여
0  개발  대리  3000
1  기획  과장  4000
2  기획  대리  3200
3  기획  과장  4200
4  개발  대리  3500
5  개발  과장  4500

[부서별 평균 급여]
직급    과장    대리
부서            
개발  4500  6500
기획  8200  3200


In [262]:
# 부서와 성별, 근속 연수 정보
data ={
    "부서":['개발','기획','기획','기획','개발','개발'],
    "성별":['남','여','남','여','남','여'],
    '근속연수':[3,5,4,6,7,8,]
}

df = pd.DataFrame(data)
print("[원본 데이터]")
print(df)


# 부서별 평균 급여 계산
pt = df.pivot_table(index="부서",columns='성별',values='근속연수',aggfunc='mean')
print("\n[부서별 평균 급여]")
print(pt)


[원본 데이터]
   부서 성별  근속연수
0  개발  남     3
1  기획  여     5
2  기획  남     4
3  기획  여     6
4  개발  남     7
5  개발  여     8

[부서별 평균 급여]
성별    남    여
부서          
개발  5.0  8.0
기획  4.0  5.5


In [3]:
import pandas as pd
df =pd.DataFrame({
    "구분":['전자','전자','전자','전자','전자','가전','가전','가전','가전'],
    "유형":["일반","일반","일반",'특수','특수',"일반","일반",'특수','특수'],
    "크기":['소형','대형','대형','소형','소형','대형','소형','소형','대형'],
    "수량":[1,2,2,3,3,4,5,6,7],
    "금액":[2,4,5,5,6,6,8,9,9]
})

print(df)

   구분  유형  크기  수량  금액
0  전자  일반  소형   1   2
1  전자  일반  대형   2   4
2  전자  일반  대형   2   5
3  전자  특수  소형   3   5
4  전자  특수  소형   3   6
5  가전  일반  대형   4   6
6  가전  일반  소형   5   8
7  가전  특수  소형   6   9
8  가전  특수  대형   7   9


In [4]:
# 결측값 채우기 : fill_value
pt = df.pivot_table(
    index=['구분','유형'],
    columns='크기',
    values='수량',
    aggfunc='sum',
    fill_value=0
)

pt

Unnamed: 0_level_0,크기,대형,소형
구분,유형,Unnamed: 2_level_1,Unnamed: 3_level_1
가전,일반,4,5
가전,특수,7,6
전자,일반,4,1
전자,특수,0,6


In [6]:
# 여러 열에 대해 각기 다른 집계 함수 적용
pt = df.pivot_table(
    index=['구분','크기'],
    values=['수량','금액'],
    aggfunc={'수량' : 'mean','금액':'mean'}
)

pt

Unnamed: 0_level_0,Unnamed: 1_level_0,금액,수량
구분,크기,Unnamed: 2_level_1,Unnamed: 3_level_1
가전,대형,7.5,5.5
가전,소형,8.5,5.5
전자,대형,4.5,2.0
전자,소형,4.333333,2.333333


In [None]:
# 하나의 열에 대해 여러 집계 함수를 동시에 적용

pt = df.pivot_table(
    index=['구분','크기'],
    values=['수량','금액'],
    aggfunc={'수량 : mean','금액':["min",'max',"mean"]}
)