# Pandas 학습

1. 데이터 분석을  위한 모듈
- 데이터 분석 및 가공에 사용되는 파이썬 라이브러리
- 사용 빈도가 굉장히 높다.
- Numpy 모듈 기반으로 생성됨

https://pandas.pydata.org/pandas-docs/stable/index.html

### 학습내용

1. 기초문법 익히기
2. 이미 존재하는 파일의 내용을 DataFrame으로 불러오기
3. 중복값 처리
4. 결측치, 불필요한 데이터 처리
5. DataFrame 병합 ( 1. row기준 / 2. Column기준 )

** 주요 객체 **
1. Series
> - DataFrame 구성 요소 <br>
> - 구조가 하나의 column으로 구성(DataFrame 하나의 칼럼)


2. DataFrame
> - 가로축과 세로축이 있는 엑셀과 유사한 구조
> - Series들로 구성

In [2]:
# 라이브러리 임포트
import numpy as np
import pandas as pd

In [81]:
def pprint(df):
    print("type:{}".format(type(df)))
    df

## 판다스 기초

In [6]:
s = pd.Series([1,2,3])
pprint(s)

type:<class 'pandas.core.series.Series'>
shape: (3,), dimension: 1, dtype:int64
Array's Data:
 0    1
1    2
2    3
dtype: int64


In [269]:
# 결측치 반영해 보기
# nan - Not A Number
# 결측치 반영시 Series의 각 요소 데이터 타입 -float64
s = pd.Series([1,2,3, np.nan, 5,6])
pprint(s)

type:<class 'pandas.core.series.Series'>


In [270]:
df = pd.DataFrame(np.random.randn(6,4), index=s, columns=list('ABCD'))

In [271]:
df

Unnamed: 0,A,B,C,D
1.0,-0.158331,0.318765,0.016306,-2.113862
2.0,1.150258,-1.287711,-0.458438,0.19988
3.0,0.159424,-0.472277,-0.455406,-0.426658
,-0.573622,1.498555,-0.251215,-0.289088
5.0,0.264947,0.992023,-1.765984,1.203977
6.0,0.099252,0.050397,-0.344548,0.175315


In [272]:
df.sort_values(by = 'B', ascending=True)

Unnamed: 0,A,B,C,D
2.0,1.150258,-1.287711,-0.458438,0.19988
3.0,0.159424,-0.472277,-0.455406,-0.426658
6.0,0.099252,0.050397,-0.344548,0.175315
1.0,-0.158331,0.318765,0.016306,-2.113862
5.0,0.264947,0.992023,-1.765984,1.203977
,-0.573622,1.498555,-0.251215,-0.289088


- 정리 : Series생성 방법
- yyyymmdd 및 기간을 기준으로 날짜 자동 생성하는 방법
- DataFrame 객체 생성 방법
- Index 및 Column 적용 방법
- DataFrame의 정보 확인하는 방법

In [53]:
# row 슬라이싱
df[:3]

Unnamed: 0,A,B,C,D
1.0,0.969684,1.942183,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075


정리 : DataFrame에서 일부 row값(index) 반환, index번호, index명

### loc 속성 ()
> Data를 슬라이싱할 수 있는 기술<br>
> loc [index, columns]

In [68]:
# index와 columns 동시에 슬라이싱
df.loc[:3, "A":"C"]

Unnamed: 0,A,B,C
1.0,0.969684,1.942183,1.203342
2.0,0.253339,-0.878013,-0.9586
3.0,-0.801282,-0.651217,0.669753


In [273]:
# 칼럼을 개별적으로 인덱싱 하고 싶으면 [] 대괄호 한 번 더 씌워야 한다.
df.loc[:3, ["A","B","C"]]

Unnamed: 0,A,B,C
1.0,-0.158331,0.318765,0.016306
2.0,1.150258,-1.287711,-0.458438
3.0,0.159424,-0.472277,-0.455406


### iloc 속성 (Integer를 이용한 loc)
> loc와 달리 행과 열의 번호를 이용해 데이터 슬라이싱

In [70]:
df.iloc[[0,1,2], [0,1]]

Unnamed: 0,A,B
1.0,0.969684,1.942183
2.0,0.253339,-0.878013
3.0,-0.801282,-0.651217


In [75]:
df.iloc[[3],[1]]

Unnamed: 0,B
,0.274827


#### 문제 - 12월 12일의  B 컬럼값 반환, loc?/loc? 따른 반환타입이 다름
- loc : numpy의 float타입으로 반환
- iloc : DataFrame타입을 반환

In [97]:
# 원본 손상없이 A칼럼 조건주기
df.loc[df.A > 0]

Unnamed: 0,A,B,C,D
1.0,0.969684,1.942183,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


In [98]:
df

Unnamed: 0,A,B,C,D
1.0,0.969684,1.942183,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075
,-1.694314,0.274827,0.827811,0.977289
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


In [99]:
# DataFrame 객체 복제
# 새로운 메모리에 변수 저장
df2 = df.copy()
df2

Unnamed: 0,A,B,C,D
1.0,0.969684,1.942183,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075
,-1.694314,0.274827,0.827811,0.977289
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


In [100]:
# DataFrame 특정 값을 바꾸고 싶을 때
df2.iloc[0,0] = 0

In [101]:
df2

Unnamed: 0,A,B,C,D
1.0,0.0,1.942183,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075
,-1.694314,0.274827,0.827811,0.977289
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


In [107]:
# df의 주소값을 넘긴 것 => 객체 지향
# df3랑 df랑 같은 놈
df3 = df 
df3.iloc[0,1] = 10
print(df3)
print(df)

             A          B         C         D
 1.0  0.969684  10.000000  1.203342 -0.123182
 2.0  0.253339  -0.878013 -0.958600  0.281583
 3.0 -0.801282  -0.651217  0.669753  0.243075
NaN  -1.694314   0.274827  0.827811  0.977289
 5.0  2.277302   0.757695  1.386823 -1.427681
 6.0  1.205852   0.547076 -0.658951  0.175027
             A          B         C         D
 1.0  0.969684  10.000000  1.203342 -0.123182
 2.0  0.253339  -0.878013 -0.958600  0.281583
 3.0 -0.801282  -0.651217  0.669753  0.243075
NaN  -1.694314   0.274827  0.827811  0.977289
 5.0  2.277302   0.757695  1.386823 -1.427681
 6.0  1.205852   0.547076 -0.658951  0.175027


In [106]:
df

Unnamed: 0,A,B,C,D
1.0,0.969684,10.0,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075
,-1.694314,0.274827,0.827811,0.977289
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


In [109]:
df["A"].max()

2.2773017016044235

In [111]:
df["A"].min()

-1.6943139645812615

In [112]:
#  A칼럼에서 최대값 - 최소값 연산하기
df["A"].max()-df["A"].min()

3.971615666185685

### apply()  : numpy 함수나 람다 함수를 DataFrame에 적용시킴
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html

In [114]:
# 사용자 정의 함수를 호출, 또는 람다 표현식을 사용 가능한 DataFrame의 함수
# 최대값 - 최소값 : 각 컬럼별  데이터 대소비교 후 연산하는 기능
df.apply(lambda x : x.max() - x.min())

A     3.971616
B    10.878013
C     2.345423
D     2.404970
dtype: float64

In [113]:
# 이 apply()가 몇번 호출될지 파악하는 로직을 lambda로 단순 확인해보기
df.apply(lambda x : print(x))

 1.0    0.969684
 2.0    0.253339
 3.0   -0.801282
NaN    -1.694314
 5.0    2.277302
 6.0    1.205852
Name: A, dtype: float64
 1.0    10.000000
 2.0    -0.878013
 3.0    -0.651217
NaN      0.274827
 5.0     0.757695
 6.0     0.547076
Name: B, dtype: float64
 1.0    1.203342
 2.0   -0.958600
 3.0    0.669753
NaN     0.827811
 5.0    1.386823
 6.0   -0.658951
Name: C, dtype: float64
 1.0   -0.123182
 2.0    0.281583
 3.0    0.243075
NaN     0.977289
 5.0   -1.427681
 6.0    0.175027
Name: D, dtype: float64


A    None
B    None
C    None
D    None
dtype: object

In [115]:
df

Unnamed: 0,A,B,C,D
1.0,0.969684,10.0,1.203342,-0.123182
2.0,0.253339,-0.878013,-0.9586,0.281583
3.0,-0.801282,-0.651217,0.669753,0.243075
,-1.694314,0.274827,0.827811,0.977289
5.0,2.277302,0.757695,1.386823,-1.427681
6.0,1.205852,0.547076,-0.658951,0.175027


### 이미 존재하는 파일의 내용을 기반으로 DataFrame생성하기
>  외부 폴더의 file을 read하기 -> DataFrame 객체 생성하기<br>
 상대경로 = 내 위치를 기준으로 찾아가는 경로 / 절대경로 - 언제나 동일한 경로<br><br>

>현재 주피터 파일이 내장된 경로 : C:/0.ITstudy/9.Pandas/step01_PandasBasic<br>
우리가 사용할 Data가 저장된 경로 : C:/0.ITstudy/0.DataSet


### 절대경로로 접근

In [276]:
df = pd.read_csv('C:/0.ITstudy/0.dataSet/friends.csv')
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


### 상대경로로 접근

In [275]:
df2 = pd.read_csv('../0.dataSet/friends.csv') # 현재 작업중인 주피터 path에서 리눅스 cd..처럼 접근 가능 
df2

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [132]:
df.loc[0:6, ["이름", "나이"]]

Unnamed: 0,이름,나이
0,신동엽,20
1,유재석,41
2,김새롬,18
3,이영자,45
4,강호동,38


In [134]:
df.loc[0:6, "이름":"직업"]

Unnamed: 0,이름,나이,직업
0,신동엽,20,연예인
1,유재석,41,교수
2,김새롬,18,학생
3,이영자,45,상담사
4,강호동,38,연예인


### tab으로 데이터를 구분한 파일의 내용을 DataFrame 객체로 만들기

In [139]:
df = pd.read_csv("../0.dataSet/friendsTab.txt", delimiter = '\t')
df

Unnamed: 0,이름,나이,직업,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


## Header가 없는 Data를 가공하기
>**원천 데이터(raw)에 컬럼명으로 사용될 header정보가 없을  경우 주의사항<br>
DataFrame 생성시 데이터의 첫 라인이 header 정보로 사용되지 않게
속성으로 제어해야 함<br><br>
1단계 실습: 신동엽 정보가 header 정보로 사용 ->column 추가시 -> 정보 손실발생<br>
2단계 실습: 신동엽 정보 손실없이 작업<br>
3단계 - DataFrame 생성 시점에 컬럼명 반영 가능**

### 방법1
- 1 row가 삭제될 가능성 높아서 비추천!

In [290]:
df = pd.read_csv("../0.dataSet/friendsNohead.txt", delimiter = '\t')
df

Unnamed: 0,신동엽,20,연예인,music
0,유재석,41,교수,art
1,김새롬,18,학생,study
2,이영자,45,상담사,talk
3,강호동,38,연예인,talk


헤더는 추가됐지만, 첫번째 데이터가 날아가 버렸다.

In [291]:
df.columns = ['name', 'age', 'job', 'hobby']
df

Unnamed: 0,name,age,job,hobby
0,유재석,41,교수,art
1,김새롬,18,학생,study
2,이영자,45,상담사,talk
3,강호동,38,연예인,talk


### Raw Data의 헤더 정보가 없을 경우 아래 방법을 사용하자!! 
> 방법2 : 불러올때 header = None 으로 헤더정보 없이 불러온 뒤 => df.columns = [?, ?, ?, ?]로 헤더 추가<br><br>
> 방법3 : 데이터 임포팅 할 때 바로 반영 (  names = [?,?,?,?]   파라미터  사용)

### 방법 2

In [150]:
# 2단계 - dataFrmae생서 시점에 컬럼명 반영 가능
df = pd.read_csv('../0.dataSet/friendsNohead.txt', delimiter='\t', header=None)
df

Unnamed: 0,0,1,2,3
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [152]:
# 헤더 없이 불러온 Data에 헤더 집어넣기
df.columns = ['name','age','job','hobby']
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


### 방법 3

In [287]:
df = pd.read_csv('../0.dataSet/friendsNohead.txt', delimiter='\t', header=None, names = ['name', 'age', 'job', 'hobby'])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


##  INDEX값 넣어주기

In [156]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'}]

In [157]:
type(friend_dict_list)

list

In [159]:
friend_dict_list[0]['name']

'신동엽'

In [163]:
# dict러 구성된 list를 DataFrame 형식으로 변환 가능
# 하지만 순서는 칼럼명 오름차순이라 맘에 안든다.
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,age,hobby,job,name
0,20,music,연예인,신동엽
1,41,art,교수,유재석
2,18,study,학생,김새롬
3,45,talk,상담사,이영자
4,38,talk,연예인,강호동


In [164]:
# df[[!@#$]]을 사용해 칼럼 순서를 지정
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [167]:
# df2라는 변수한테 friend_dict_list가 보유한 일반 python list로
# DataFrame생성, 단 컬럼 순서는 name age job hobby 순으로 생성
# 생성 시점에 컬럼순서 정할 수 잇나??
# 칼럼명과 인덱스명 둘 다 설정 가능
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job', 'hobby'], index = ['1번', '2번', '3번', '4번', '5번'])
df

Unnamed: 0,name,age,job,hobby
1번,신동엽,20,연예인,music
2번,유재석,41,교수,art
3번,김새롬,18,학생,study
4번,이영자,45,상담사,talk
5번,강호동,38,연예인,talk


#### 정제한 Data 를 csv 파일로 내보내기

In [171]:
df.to_csv('../0.dataSet/f1_out.csv')

#### 칼럼 이름 지운 상태로 f2_out.csv 익스포트 하기

In [172]:
df.to_csv('../0.dataSet/f2_out.csv', header = None)

#### 인덱스 이름 지운 상태로 f3_out.csv 익스포트 하기

In [173]:
df.to_csv('../0.dataSet/f3_out.csv', index = None)

In [177]:
# 리스트로 데이터 프레임 생성하기 + header 정보 추가하기

friends = [['신동엽',20,'연예인','music'],
           ['유재석',41,'교수','art'], 
           ['김새롬',18,'학생','study'],
           ['이영자',45,'상담사','talk'],
           ['강호동',38,'연예인','talk']]

df = pd.DataFrame.from_records(friends)
df

Unnamed: 0,0,1,2,3
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [179]:
df.columns = (['name', 'age', 'job', 'hobby'])
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


In [182]:
df['salary'] = 0
df

Unnamed: 0,name,age,job,hobby,salary
0,신동엽,20,연예인,music,0
1,유재석,41,교수,art,0
2,김새롬,18,학생,study,0
3,이영자,45,상담사,talk,0
4,강호동,38,연예인,talk,0


### 특정 칼럼의 값을 비교해  판단 후, 다른칼럼에 값을 대입
>df[?] = np.where(df[?] == ?, a, b)

In [188]:
# job이 학생인 경우 salary 값이 no / 아닌 경우 yes로 바꾸기
# np.where() / 
df["salary"] = np.where(df["job"] != '학생', 'yes', 'no')
df

Unnamed: 0,name,age,job,hobby,salary
0,신동엽,20,연예인,music,yes
1,유재석,41,교수,art,yes
2,김새롬,18,학생,study,no
3,이영자,45,상담사,talk,yes
4,강호동,38,연예인,talk,yes


### 중복값 찾아내 제거하기 (단, 모오옹든 값이 완벽하게 동일한 경우에만!!)
찾기     : df.duplicated() <br>
삭제하기 : df = df.drop_duplicates()

In [200]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,20,연예인,music


In [201]:
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [202]:
df = df.drop_duplicates()
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


### 중복 데이터 전처리

- 1단계 : 100% 동일한 데이터 test
- 2단계 : age 컬럼값만 다를 경우 중복이 아님을 확인

In [227]:
# 신동엽 age 200으로 바꿨기 때문에 하나 칼럼만 다른 상황!

friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': 200, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk
5,신동엽,200,연예인,music


### 중복되는 값 제거 1
- keep = 'first'앞에꺼 남기기 'last'뒤에꺼 남기기 False 둘 다 삭제  
- inplace = True => 대체하기

In [228]:
df.drop_duplicates(['name'], keep = 'first', inplace = True)
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20,연예인,music
1,유재석,41,교수,art
2,김새롬,18,학생,study
3,이영자,45,상담사,talk
4,강호동,38,연예인,talk


### 중복되는 값 제거 2
- 결측치 확인 : df.info() / df.isna()
- 채우기 : df.fillna('a')
- 제거 : df.dropna()

In [313]:
friend_dict_list = [{'name': '신동엽', 'age': 20, 'job': '연예인', 'hobby':'music'},
                     {'name': '유재석', 'age': 41, 'job': '교수', 'hobby':'art'},
                     {'name': '김새롬', 'age': 18, 'job': '학생', 'hobby':'study'},
                     {'name': '이영자', 'age' : 45, 'job': '상담사', 'hobby' : 'talk'},
                     {'name' :  '강호동', 'age' : 38, 'job' : '연예인', 'hobby' : 'talk'},
                    {'name': '신동엽', 'age': None, 'job': '연예인', 'hobby':'music'} ]

df = pd.DataFrame(friend_dict_list)
df = df[['name', 'age', 'job', 'hobby']]

In [315]:
df.isna()

Unnamed: 0,name,age,job,hobby
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,True,False,False


In [317]:
df

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,,연예인,music


### 결측값 처리 상황 1 : 
>(NaN이 모집단에 포함 안되서 결과값이 부정확한 상황)

In [318]:
# 모든 사람들의 나이 합은? 평균은? 
df["age"]

print("해당 칼럼의 합은 : ", df["age"].sum())

print("해당 칼럼의 평균은 : ", df["age"].mean())

print("해당 칼럼의 평균은 : ", df["age"].sum() / df["age"].count())

해당 칼럼의 합은 :  162.0
해당 칼럼의 평균은 :  32.4
해당 칼럼의 평균은 :  32.4


In [326]:
df["age"].mean(skipna = True)

32.4

### 결측값 처리 상황 2 : 
>(NaN에 0을 대입해 모집단 평균을 구함)

In [322]:
df2 = df.fillna(0)
df2

Unnamed: 0,name,age,job,hobby
0,신동엽,20.0,연예인,music
1,유재석,41.0,교수,art
2,김새롬,18.0,학생,study
3,이영자,45.0,상담사,talk
4,강호동,38.0,연예인,talk
5,신동엽,0.0,연예인,music


In [323]:
print("해당 칼럼의 합은 : ", df2["age"].sum())

print("해당 칼럼의 평균은 : ", df2["age"].mean())

print("해당 칼럼의 평균은 : ", df2["age"].sum() / df2["age"].count())

해당 칼럼의 합은 :  162.0
해당 칼럼의 평균은 :  27.0
해당 칼럼의 평균은 :  27.0
