# Pandas

## 1. 데이터 셀렉션 및 필터링

In [1]:
!pip install pandas



In [2]:
import pandas as pd

In [3]:
pd.__version__

'2.0.3'

### Series
- 1개의 컬럼값으로 구성된 1차원 데이터 셋

In [4]:
data = ["A", "B", "C", "D", "E"] # 컬럼

se = pd.Series(data)
se

0    A
1    B
2    C
3    D
4    E
dtype: object

In [5]:
se.index
se.values

array(['A', 'B', 'C', 'D', 'E'], dtype=object)

In [6]:
se[0] # indexing -> A
se[:3] # slicing

0    A
1    B
2    C
dtype: object

In [7]:
se.name = "alphabet" # series 이름
se.index.name = "No." # index 이름

se

No.
0    A
1    B
2    C
3    D
4    E
Name: alphabet, dtype: object

## 2. 데이터 셀렉션

In [8]:
data = {
    'country' : ["kor", "usa", "china", "japan"],
    'rank' : [1,2,3,4],
    'grade' : ["A", "B", "C", "D"],}

df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [9]:
# (1) df.컬럼, df['컬럼']

df.country
df['country']

# columns = ['country', 'rank', 'grade']

test_column1 = ['country', 'rank']
# test_column2 = ['country', 'grade']
# test_column3 = ['rank', 'grade']

df[test_column1]

Unnamed: 0,country,rank
0,kor,1
1,usa,2
2,china,3
3,japan,4


In [10]:
# (2) df.loc[인덱스명, 컬럼명]
print(df)
print("=========")

df.loc[2, ['country', 'rank']]
df.loc[0, 'rank']
df.loc[:, ['country','rank']]
df.loc[df['rank'] > 3, ['country','rank']]

  country  rank grade
0     kor     1     A
1     usa     2     B
2   china     3     C
3   japan     4     D


Unnamed: 0,country,rank
3,japan,4


In [11]:
# loc[인덱스값, 컬럼명]
df.loc[0:2, ['rank', 'country']]

Unnamed: 0,rank,country
0,1,kor
1,2,usa
2,3,china


In [12]:
# (3) iloc[인덱스, 컬럼인덱스] => 위치(location) 기반

df.loc[0] # 인덱스 이름이 0인 녀석
df.iloc[0] # 인덱스 값이 0인 녀석
# df.iloc[:, :]
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [13]:
df.loc[0:3] # 범위가 아니라 인덱스 값을 기반으로 가져온다.

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [14]:
df.iloc[0:3, :]

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C


In [15]:
# boolean indexing
# df[(df['rank'] >= 3) | (df['country'] == 'kor')] # | 또는
df[(df['rank'] >= 3) & (df['country'] == 'kor')] # & 그리고

Unnamed: 0,country,rank,grade


filter()를 이용한 검색

In [16]:
# df.filter(like = 'a', axis=1) # axis=1 -> 컬럼명을 기준으로 c가 포함된 것을 출력해줘.
df.filter(like = 'a', axis=0) # axis=0 -> 인덱스를 기준으로 a가 포함된 것을 출력해줘.

Unnamed: 0,country,rank,grade


### 데이터를 추가하거나 삭제하는 방법

In [17]:
data = {
    'country' : ["kor", "usa", "china", "japan"],
    'rank' : [1,2,3,4],
    'grade' : ["A", "B", "C", "D"],}

df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [18]:
president = pd.Series(["yoon", "biden", "jinping", "kishida"])
president

df['president'] = president
df

Unnamed: 0,country,rank,grade,president
0,kor,1,A,yoon
1,usa,2,B,biden
2,china,3,C,jinping
3,japan,4,D,kishida


In [19]:
gdp = pd.Series(["1000", "2000", "3000", "4000"])

df['gdp'] = gdp
df

Unnamed: 0,country,rank,grade,president,gdp
0,kor,1,A,yoon,1000
1,usa,2,B,biden,2000
2,china,3,C,jinping,3000
3,japan,4,D,kishida,4000


In [20]:
import numpy as np
etc = np.zeros(4).astype(int)

df['etc'] = etc
df

Unnamed: 0,country,rank,grade,president,gdp,etc
0,kor,1,A,yoon,1000,0
1,usa,2,B,biden,2000,0
2,china,3,C,jinping,3000,0
3,japan,4,D,kishida,4000,0


In [21]:
df['new_grade'] = df['rank'] < 3
df

Unnamed: 0,country,rank,grade,president,gdp,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,jinping,3000,0,False
3,japan,4,D,kishida,4000,0,False


In [22]:
df.loc[7] = ['singapore', 4, 'D', 'jao', "2000", 0, False]
df

Unnamed: 0,country,rank,grade,president,gdp,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,jinping,3000,0,False
3,japan,4,D,kishida,4000,0,False
7,singapore,4,D,jao,2000,0,False


In [23]:
# drop
## 행 제거하기
df.drop([3], inplace=True) # axis=0

In [24]:
# drop
## 컬럼 제거하기

df_new = df.drop('etc', axis=1)
# or df.drop('etc', axis=1, inplace=True)
df

Unnamed: 0,country,rank,grade,president,gdp,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,jinping,3000,0,False
7,singapore,4,D,jao,2000,0,False


In [25]:
df

Unnamed: 0,country,rank,grade,president,gdp,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,jinping,3000,0,False
7,singapore,4,D,jao,2000,0,False


### 집합함수 (Aggregation)

- df.sum()
- df.mean()
- df.max()
- df.describe()

In [26]:
# DataFrame 생성
data = {'country': ["kor", "usa", "china", "japan"],
        'rank': [1, 2, 3, 4],
        'grade': ["A", "B", "C", "D"],
        'score': [100, 80, 60, 40]
        }

df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade,score
0,kor,1,A,100
1,usa,2,B,80
2,china,3,C,60
3,japan,4,D,40


In [28]:
# EDA
# df.sum()
# df.mean()
# df.max() # 문자열 데이터는 Ascii 코드 값이 큰 값을 반환한다.
# df.min()
# df.describe()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   country  4 non-null      object
 1   rank     4 non-null      int64 
 2   grade    4 non-null      object
 3   score    4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes


In [29]:
df.describe()

Unnamed: 0,rank,score
count,4.0,4.0
mean,2.5,70.0
std,1.290994,25.819889
min,1.0,40.0
25%,1.75,55.0
50%,2.5,70.0
75%,3.25,85.0
max,4.0,100.0


In [30]:
# 데이터 정렬
df.sort_values(by=['rank'], ascending=False)
# df.sort_values(by=['rank', 'score'], ascending=[False, True])
# df.sort_index(by=['rank', 'score'], ascending=[False, True])

Unnamed: 0,country,rank,grade,score
3,japan,4,D,40
2,china,3,C,60
1,usa,2,B,80
0,kor,1,A,100


### NaN 데이터 처리
- NaN : Not a Number (=> 비어있는 데이터, None, Null)

- isnull() => True
- fillna() => null인 데이터들을 내가 입력하는 어떤 값으로 채워주세요
- dropna() => null 데이터를 제거해주세요

In [31]:
df

Unnamed: 0,country,rank,grade,score
0,kor,1,A,100
1,usa,2,B,80
2,china,3,C,60
3,japan,4,D,40


In [32]:
df['check'] = np.nan
df

Unnamed: 0,country,rank,grade,score,check
0,kor,1,A,100,
1,usa,2,B,80,
2,china,3,C,60,
3,japan,4,D,40,


In [33]:
df.isna()
df.isnull()

Unnamed: 0,country,rank,grade,score,check
0,False,False,False,False,True
1,False,False,False,False,True
2,False,False,False,False,True
3,False,False,False,False,True


In [34]:
df.fillna(value="pass", inplace=True)

# null 데이터를 어떻게 처리할 것인가?
# (1) 제거한다. => 데이터가 극히 소량인 경우에 한해서 (예를 들어서, 100만건, 100건 null)
# (2) 10% null => 평균값을 채워넣습니다.
# (3) 계산을 할 수 있다면 => 계산을 해서 채워넣는다.

df

Unnamed: 0,country,rank,grade,score,check
0,kor,1,A,100,pass
1,usa,2,B,80,pass
2,china,3,C,60,pass
3,japan,4,D,40,pass


In [35]:
df.iloc[2,3] = np.nan
df.dropna(how='any')

Unnamed: 0,country,rank,grade,score,check
0,kor,1,A,100.0,pass
1,usa,2,B,80.0,pass
3,japan,4,D,40.0,pass


In [36]:
df

Unnamed: 0,country,rank,grade,score,check
0,kor,1,A,100.0,pass
1,usa,2,B,80.0,pass
2,china,3,C,,pass
3,japan,4,D,40.0,pass


In [37]:
df['birth'] = ["2020.07.15", "2021.06.03", "2023.05.05", "2023.02.04"]

In [38]:
df

Unnamed: 0,country,rank,grade,score,check,birth
0,kor,1,A,100.0,pass,2020.07.15
1,usa,2,B,80.0,pass,2021.06.03
2,china,3,C,,pass,2023.05.05
3,japan,4,D,40.0,pass,2023.02.04


In [39]:
df['birth'].dtypes

dtype('O')

In [40]:
df.sort_values('birth')

Unnamed: 0,country,rank,grade,score,check,birth
0,kor,1,A,100.0,pass,2020.07.15
1,usa,2,B,80.0,pass,2021.06.03
3,japan,4,D,40.0,pass,2023.02.04
2,china,3,C,,pass,2023.05.05


### merge()
- merge 함수는 두 개 이상의 데이터프레임을 **특정 열(또는 열들)을 기준으로 합칠 때 사용**됩니다.
- 데이터베이스의 테이블 조인과 유사하게 병합할 수 있습니다.
- 매개변수: on, how, left, right 등
- 이를 사용하여 어떤 열을 기준으로 병합할 것인지와 어떤 방식으로 병합할 것인지를 지정할 수 있습니다.


In [41]:
data = {
    "고객번호" : [1001, 1002, 1003, 1004],
    '이름': ['LG', "Samsung", "Hyundai", "Kia"]}

df1 = pd.DataFrame(data)
df1

Unnamed: 0,고객번호,이름
0,1001,LG
1,1002,Samsung
2,1003,Hyundai
3,1004,Kia


In [42]:
data = {
    "고객번호" : [1001, 1001, 1005, 1006],
    '시총': ['10조', "5조", "3조", "1조"]
}

df2 = pd.DataFrame(data)
df2

Unnamed: 0,고객번호,시총
0,1001,10조
1,1001,5조
2,1005,3조
3,1006,1조


In [43]:
# 왼쪽 데이터 프레임을 기준으로 오른쪽을 합친다.
df = pd.merge(df1, df2, how='outer')

df = pd.merge(df2, df1, how='outer') # 왼쪽 데이터 프레임을 기준으로 오른쪽

In [44]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,시총
0,1001,LG,10조
1,1001,LG,5조
2,1005,,3조
3,1006,,1조


In [45]:
df = pd.merge(df1, df2, how='outer')
df.to_csv("result.csv", encoding='utf-8-sig')

In [48]:
df_new = pd.read_csv("result.csv", index_col=0)

df_new

Unnamed: 0,고객번호,이름,시총
0,1001,LG,10조
1,1001,LG,5조
2,1002,Samsung,
3,1003,Hyundai,
4,1004,Kia,
5,1005,,3조
6,1006,,1조


### Concat()
- concat 함수는 여러 개의 데이터프레임을 행 또는 열 방향으로 간단히 연결하고자 할 때 사용
- 데이터프레임을 위아래로 쌓아 올리거나 좌우로 이어붙일 수 있습니다.


In [49]:
import pandas as pd
df1 = pd.DataFrame({"A": [1,2], "B": [3,4]})
df2 = pd.DataFrame({"A": [3,4], "B": [5,6]})

# display(df1, df2)

# 세로로 합쳐보겠습니다.
df_concat = pd.concat([df1, df2], ignore_index=True)
df_concat

Unnamed: 0,A,B
0,1,3
1,2,4
2,3,5
3,4,6


In [50]:
import pandas as pd

# 가로로 합치기
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
result = pd.concat([df1, df2], axis=1)
print(result)


   A  B  C  D
0  1  3  5  7
1  2  4  6  8


## 3. 판다스 연습문제

In [51]:
import pandas as pd

data = {
    '도서': ['해리포터', '반지의 제왕', '셜록홈즈', '노인과 바다', '죄와 벌', '1984', '위대한 개츠비', '호밀밭의 파수꾼'],
    '출간 연도': [1997, 1954, 1892, 1952, 1866, 1949, 1925, 1951],
    '판매량': [120, 150, 80, 50, 65, 100, 45, 70],  # (단위: 백만 부)
    '평점': [9.7, 9.8, 9.3, 8.6, 9.2, 9.5, 8.4, 8.9]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도서,출간 연도,판매량,평점
0,해리포터,1997,120,9.7
1,반지의 제왕,1954,150,9.8
2,셜록홈즈,1892,80,9.3
3,노인과 바다,1952,50,8.6
4,죄와 벌,1866,65,9.2
5,1984,1949,100,9.5
6,위대한 개츠비,1925,45,8.4
7,호밀밭의 파수꾼,1951,70,8.9


### 초급 문제

1. 전체 데이터 중에서 '도서' 정보만 출력하시오.
2. 전체 데이터 중에서 '도서', '평점' 정보를 출력하시오.
3. 출간 연도가 1950년 이후인 도서의 데이터를 출력하시오.

In [None]:
# 문제 1
df[['도서']]

Unnamed: 0,도서
0,해리포터
1,반지의 제왕
2,셜록홈즈
3,노인과 바다
4,죄와 벌
5,1984
6,위대한 개츠비
7,호밀밭의 파수꾼


In [None]:
# 문제 2
df[['도서', '평점']]

Unnamed: 0,도서,평점
0,해리포터,9.7
1,반지의 제왕,9.8
2,셜록홈즈,9.3
3,노인과 바다,8.6
4,죄와 벌,9.2
5,1984,9.5
6,위대한 개츠비,8.4
7,호밀밭의 파수꾼,8.9


In [74]:
# 문제 3
df[df['출간 연도'] >= 1950]

Unnamed: 0,도서,출간 연도,판매량,평점,추천 점수
0,해리포터,1997,120,9.7,116.4
1,반지의 제왕,1954,150,9.8,147.0
3,노인과 바다,1952,50,8.6,43.0
7,호밀밭의 파수꾼,1951,70,8.9,62.3


---

### 중급 문제

1. '판매량'이 100만 부 이상인 도서의 '도서', '판매량' 정보를 출력하시오.
2. 주어진 계산식을 참고하여 '추천 점수' 컬럼을 추가하시오.
    - 추천 점수 = (판매량 * 평점) // 10
3. 전체 데이터를 '추천 점수' 기준 내림차순으로 정렬하여 출력하시오.
4. '출간 연도'를 기준으로 데이터를 오름차순 정렬하여 출력하시오.

---


In [None]:
# 문제 1
df[df['판매량'] >= 100][['도서', '판매량']]

Unnamed: 0,도서,판매량
0,해리포터,120
1,반지의 제왕,150
5,1984,100


In [61]:
# 문제 2
df['추천 점수'] = (df['판매량'] * df['평점']) / 10
df

Unnamed: 0,도서,출간 연도,판매량,평점,추천 점수
0,해리포터,1997,120,9.7,116.4
1,반지의 제왕,1954,150,9.8,147.0
2,셜록홈즈,1892,80,9.3,74.4
3,노인과 바다,1952,50,8.6,43.0
4,죄와 벌,1866,65,9.2,59.8
5,1984,1949,100,9.5,95.0
6,위대한 개츠비,1925,45,8.4,37.8
7,호밀밭의 파수꾼,1951,70,8.9,62.3


In [62]:
# 문제 3
df.sort_values(by=['추천 점수'], ascending=False)

Unnamed: 0,도서,출간 연도,판매량,평점,추천 점수
1,반지의 제왕,1954,150,9.8,147.0
0,해리포터,1997,120,9.7,116.4
5,1984,1949,100,9.5,95.0
2,셜록홈즈,1892,80,9.3,74.4
7,호밀밭의 파수꾼,1951,70,8.9,62.3
4,죄와 벌,1866,65,9.2,59.8
3,노인과 바다,1952,50,8.6,43.0
6,위대한 개츠비,1925,45,8.4,37.8


In [63]:
# 문제 4
df.sort_values(by=['출간 연도'])

Unnamed: 0,도서,출간 연도,판매량,평점,추천 점수
4,죄와 벌,1866,65,9.2,59.8
2,셜록홈즈,1892,80,9.3,74.4
6,위대한 개츠비,1925,45,8.4,37.8
5,1984,1949,100,9.5,95.0
7,호밀밭의 파수꾼,1951,70,8.9,62.3
3,노인과 바다,1952,50,8.6,43.0
1,반지의 제왕,1954,150,9.8,147.0
0,해리포터,1997,120,9.7,116.4



### 고급 문제

1. '평점'이 가장 높은 도서를 찾고, 해당 도서의 모든 정보를 출력하시오.
2. '판매량'의 평균을 계산하고, 평균 이상의 판매량을 기록한 도서 데이터를 출력하시오.
3. 출간 연도가 1900년부터 1950년 사이인 도서를 필터링하고, '도서', '출간 연도', '평점' 정보를 출력하시오.

In [69]:
# 문제 1
max_score = df['평점'].max()
df[df['평점'] >= max_score]

Unnamed: 0,도서,출간 연도,판매량,평점,추천 점수
1,반지의 제왕,1954,150,9.8,147.0


In [72]:
# 문제 2
mean_score = df['판매량'].mean()
df[df['판매량'] >= mean_score][['도서']]

Unnamed: 0,도서
0,해리포터
1,반지의 제왕
5,1984


In [73]:
# 문제 3
filter_df = df[(df['출간 연도'] >= 1900) & (df['출간 연도'] <= 1950)]
filter_df[['도서', '출간 연도', '평점']]

Unnamed: 0,도서,출간 연도,평점
5,1984,1949,9.5
6,위대한 개츠비,1925,8.4


## 와인 데이터

In [83]:
# 와인 데이터 분석
import pandas as pd

wine = pd.read_csv('data/winequality.csv')
wine

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,white,7.0,0.270,0.36,20.7,0.045,45.0,170.0,1.00100,3.00,0.45,8.8,6
1,white,6.3,0.300,0.34,1.6,0.049,14.0,132.0,0.99400,3.30,0.49,9.5,6
2,white,8.1,0.280,0.40,6.9,0.050,30.0,97.0,0.99510,3.26,0.44,10.1,6
3,white,7.2,0.230,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
4,white,7.2,0.230,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6492,red,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
6493,red,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,,11.2,6
6494,red,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
6495,red,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


In [None]:
# 위 데이터를 보고 가설 3개를 세워봅시다.

In [77]:
# wine.describe()
# wine.info()
wine.isna().sum()

alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64

### Q1. 우리 가게의 화이트 와인의 평균 당도는 어떻게 될까? 레드와인의 평균 당도는?  
(데이트: 화이트 와인 - 달달하니까)

- 우리 가게의 와인의 평균 등급은 어떻게 될까? 타입별 등급의 평균은 어떻게 될까?
- 데이트: 화이트 와인 - 달달하니깐. 진짜일까?

### Q2. 9등급 와인과 1등급 와인의 각 컬럼의 평균값의 차이는 어떻게 될까?

### Q3. 각 등급별 와인의 갯수는 어떻게 될까?

### Q4. 와인의 등급(quality)에 가장 큰 영향을 주는 요소(컬럼)은 무엇일까? 각 타입별 등급의 갯수는 어떻게 될까?

In [84]:
wine[wine['type'] == 'white']['residual sugar'].mean() # 6.39
wine[wine['type'] == 'red']['residual sugar'].mean() # 2.53


wine.groupby('type').mean()
wine.groupby('type')['residual sugar'].mean()

type
red      2.538806
white    6.393250
Name: residual sugar, dtype: float64

In [85]:
# 우리 가게의 와인의 평균 등급은 어떻게 될까?

wine['quality'].mean() # 5.81

# 타입별 등급의 평균은 어떻게 될까? - 화이트와인과 레드와인의 평균 등급 차이
wine.groupby('type')['quality'].mean()

type
red      5.636023
white    5.877909
Name: quality, dtype: float64

In [None]:
# 9등급 와인과 5등급 와인의 각 컬럼의 평균값의 차이는 어떻게 될까?
wine[wine['quality'] == 9].mean(numeric_only=True) - wine[wine['quality'] == 5].mean(numeric_only=True)

fixed acidity           0.090652
volatile acidity       -0.091768
citric acid             0.078279
residual sugar         -1.684116
chlorides              -0.037266
free sulfur dioxide     3.162629
total sulfur dioxide   -4.839102
density                -0.004389
pH                      0.095958
sulphates              -0.060416
alcohol                 2.342217
quality                 4.000000
dtype: float64

In [88]:
# Q4. 각 등급별 와인의 갯수는 어떻게 될까? =>
# 위에 0 대신 컬럼명을 넣으려면..
wine_quality_se = wine.groupby('quality').size().sort_values()
wine_quality_se.name = 'counts'

wine_quality_se

quality
9       5
3      30
8     193
4     216
7    1079
5    2138
6    2836
Name: counts, dtype: int64

In [89]:
# Q5. 와인의 등급(quality)에 가장 큰 영향을 주는 요소(컬럼)은 무엇일까? 각 타입별 등급의 갯수는 어떻게 될까?
# 상관관계 : -1 ~ 1
# 키가 클수록 => 몸무게가 많이나간다.

wine.corr(numeric_only=True)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
fixed acidity,1.0,0.220172,0.323736,-0.112319,0.298421,-0.283317,-0.329747,0.459204,-0.251814,0.30038,-0.095603,-0.077031
volatile acidity,0.220172,1.0,-0.378061,-0.196702,0.377167,-0.35323,-0.414928,0.271193,0.26066,0.225476,-0.038248,-0.265953
citric acid,0.323736,-0.378061,1.0,0.142486,0.039315,0.133437,0.195218,0.09632,-0.328689,0.057613,-0.010433,0.085706
residual sugar,-0.112319,-0.196702,0.142486,1.0,-0.128902,0.403439,0.49582,0.552498,-0.26705,-0.185745,-0.359706,-0.036825
chlorides,0.298421,0.377167,0.039315,-0.128902,1.0,-0.195042,-0.27958,0.362594,0.044806,0.395332,-0.256861,-0.200886
free sulfur dioxide,-0.283317,-0.35323,0.133437,0.403439,-0.195042,1.0,0.720934,0.025717,-0.145191,-0.188489,-0.179838,0.055463
total sulfur dioxide,-0.329747,-0.414928,0.195218,0.49582,-0.27958,0.720934,1.0,0.032395,-0.237687,-0.275381,-0.26574,-0.041385
density,0.459204,0.271193,0.09632,0.552498,0.362594,0.025717,0.032395,1.0,0.01192,0.259454,-0.686745,-0.305858
pH,-0.251814,0.26066,-0.328689,-0.26705,0.044806,-0.145191,-0.237687,0.01192,1.0,0.191248,0.121002,0.019366
sulphates,0.30038,0.225476,0.057613,-0.185745,0.395332,-0.188489,-0.275381,0.259454,0.191248,1.0,-0.003261,0.038729


In [None]:
# # 데이터할 때 어떤 와인 마시죠? => 화이트(달달, 알콜높아)
# # groupby => 그룹으로 묶어줘.

# # 화이트 와인과 레드 와인의 평균 알콜 도수, 당도가 궁금해.
# wine.groupby('type')[['alcohol', 'residual sugar', 'quality']].mean()

quality
9       5
3      30
8     193
4     216
7    1079
5    2138
6    2836
Name: counts, dtype: int64

In [None]:
# 레드와인의 등급별 갯수는 어떻게되?  1등-1개, 2등급-3개
wine[wine['type']=='red']['quality'].value_counts()
wine[wine['type']=='white']['quality'].value_counts()

Unnamed: 0_level_0,count
quality,Unnamed: 1_level_1
6,2198
5,1457
7,880
8,175
4,163
3,20
9,5


In [None]:
wine_corr = wine.corr(numeric_only=True) # correlation
wine_corr

# import seaborn as sns
# sns.heatmap(wine_corr, fmt='%d')

# 와인을 선물 받으면 뭐부터 본다? => 도수