# Pandas?
- Excel과 유사
- python에서 엑셀과 같이 데이터들을 정리하고 분석하는 Tool

In [5]:
# numpy 라이브러리 및 pandas 라이브러리 불러오기
import numpy as np
import pandas as pd

In [6]:
# pandas 버전 확인
pd.__version__

'2.1.4'

## pandas의 데이터 구조
- Series : 1차원 데이터( = 칼럼의 개수가 1개)
- DataFrame : 2차원 이상의 데이터( = 컬럼의 개수가 2개 이상)

In [10]:
# 인덱스를 지정하지 않고 생성
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [12]:
s1.index

RangeIndex(start=0, stop=5, step=1)

In [11]:
s1.values

array([10, 20, 30, 40, 50])

In [17]:
s2 = pd.Series(['a', 'b', 'c', 1, 2, 3])
s2

0    a
1    b
2    c
3    1
4    2
5    3
dtype: object

In [19]:
# 결측치, missing value
s3 = pd.Series([np.nan, 10, 30])
s3

0     NaN
1    10.0
2    30.0
dtype: float64

In [24]:
# 인덱스를 따로 지정
index_data = ['2018-10-07', '2018-10-10']

# 인덱스에 해당하는 값으로 대응됨
s4 = pd.Series([200, 195], index=index_data)
s4

# 인덱스 설정의 기본 원칙 : 중복이 되면 안됨
# 코드 상으로는 중복은 허용

2018-10-07    200
2018-10-10    195
dtype: int64

## 딕셔너리 -> Series 변환
- pandas.Series(딕셔너리 객체)

In [28]:
# 딕셔너리 타입 변수 정의
data_dict = {
    '국어' : 100,
    '영어' : 95
}

# Series로 변환
s5 = pd.Series(data_dict)

# 키 값이 인덱스로 정의됨
s5

국어    100
영어     95
dtype: int64

## 날짜 데이터
- https://pandas.pydata.org/docs/reference/api/pandas.date_range.html

In [32]:
pd.date_range(start='2024/01/01', end='2024.01.07')

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07'],
              dtype='datetime64[ns]', freq='D')

In [34]:
# end를 사용하지 않고 periods로 개수를 지정
pd.date_range(start='2024/01/01', periods=7)

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07'],
              dtype='datetime64[ns]', freq='D')

In [36]:
# 2일 간격으로 24/01/01부터 시작하는 7개의 날짜 만들기
pd.date_range(start='2024/01/01', periods=7, freq='2D')

DatetimeIndex(['2024-01-01', '2024-01-03', '2024-01-05', '2024-01-07',
               '2024-01-09', '2024-01-11', '2024-01-13'],
              dtype='datetime64[ns]', freq='2D')

In [39]:
# 시간을 포함하여 1시간씩 증가하는 7개의 날짜 만들기
pd.date_range(start='2024-01-01 08:00', periods=7, freq='H')

DatetimeIndex(['2024-01-01 08:00:00', '2024-01-01 09:00:00',
               '2024-01-01 10:00:00', '2024-01-01 11:00:00',
               '2024-01-01 12:00:00', '2024-01-01 13:00:00',
               '2024-01-01 14:00:00'],
              dtype='datetime64[ns]', freq='H')

## DataFrame을 활용한 데이터 생성 

In [44]:
# 시각화 라이브러리 (통계 시각화)
import seaborn as sns 

sns.__version__

'0.12.2'

In [45]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [49]:
# iris(붓꽃) 데이터 셋 불러오기
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [51]:
# 앞의 10개 행 가져오기
iris.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [52]:
# 뒤의 10개 행 가져오기
iris.tail(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
140,6.7,3.1,5.6,2.4,virginica
141,6.9,3.1,5.1,2.3,virginica
142,5.8,2.7,5.1,1.9,virginica
143,6.8,3.2,5.9,2.3,virginica
144,6.7,3.3,5.7,2.5,virginica
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


## 딕셔너리 -> DataFrame 변환
- pandas.DataFrame(딕셔너리 객체)

In [53]:
table_data = {
    '연도' : [2015, 2016, 2016, 2017, 2017],
    '지사' : ['한국', '한국', '미국', '한국', '미국'],
    '고객 수' : [200, 250, 450, 300, 500]
}
table_data

{'연도': [2015, 2016, 2016, 2017, 2017],
 '지사': ['한국', '한국', '미국', '한국', '미국'],
 '고객 수': [200, 250, 450, 300, 500]}

In [57]:
data = pd.DataFrame(table_data)

In [58]:
# 인덱스 출력
data.index

RangeIndex(start=0, stop=5, step=1)

In [61]:
# 밸류 값 출력하기
data.values

array([[2015, '한국', 200],
       [2016, '한국', 250],
       [2016, '미국', 450],
       [2017, '한국', 300],
       [2017, '미국', 500]], dtype=object)

In [63]:
# 차원 확인하기
data.shape # 2차원

(5, 3)

## seaborn, pandas 라이브러리를 이용하여 titanic 데이터 분석하기
- 필요한 라이브러리 : seaborn, pandas

In [172]:
# titinic 데이터 불러오기
titanic = sns.load_dataset('titanic')

# 불러온 파일을 csv 형태로 저장하기
# 인덱스를 파일에 포함하지 않음
titanic.to_csv('titanic.csv', index=False)

In [74]:
# 저장한 titanic.csv 파일 pandas read_csv 메소드로 불러오기
titanic = pd.read_csv('titanic.csv')

# 0~9 행 가져오기
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [79]:
# tiatnic 데이터에서 age 칼럼 선택
ages = titanic["age"]

# 0~9번행의 나이 출력하기
ages.head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [81]:
# titanic 데이터의 age 칼럼 type 출력
type(titanic['age'])

pandas.core.series.Series

In [84]:
# age 칼럼의 차원 출력하기
titanic['age'].shape # 1차원 : row(891개), column(1개)

(891,)

In [85]:
# 두 개의 칼럼 선택하기 (age, sex)
age_sex = titanic[['age', 'sex']]

# 나이, 성별 데이터 0~9 row(행) 출력하기
age_sex.head(10)

Unnamed: 0,age,sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
5,,male
6,54.0,male
7,2.0,male
8,27.0,female
9,14.0,female


In [88]:
# titanic 데이터의 age, sex 칼럼 type 출력
type(titanic[['age', 'sex']])

pandas.core.frame.DataFrame

In [90]:
# titanic 데이터의 age, sex 칼럼의 차원 출력
titanic[['age', 'sex']].shape # 2차원 : row(891개), column(2개)

(891, 2)

In [92]:
# DataFrame의 특정한 행들을 선택하기
above_35 = titanic[titanic['age'] > 35]

# 0~9 row 출력
above_35.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
13,0,3,male,39.0,1,5,31.275,S,Third,man,True,,Southampton,no,False
15,1,2,female,55.0,0,0,16.0,S,Second,woman,False,,Southampton,yes,True


In [93]:
# titanic 데이터셋 중 나이가 36세 이상인 경우 True 아닌경우 False 처리
titanic['age'] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [94]:
# 36세 이상인 데이터의 차원 출력
above_35.shape

(217, 15)

In [95]:
# 2번 3번 객실에 있는 승객의 정보 조회
class_23 = titanic[titanic['pclass'].isin([2, 3])]

class_23.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False


In [98]:
# isin 메소드를 사용하지 않고 2번 3번 객실의 승객 데이터 가져오기
# 위 코드와 동일한 결과가 출력되는 것을 확인할 수 있음
class_23 = titanic[(titanic['pclass'] == 2) | (titanic['pclass'] == 3)]

class_23.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False


In [99]:
# 나이 칼럼에 결측치가 없는 row 선택
age_no_na = titanic[titanic['age'].notna()]

age_no_na.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [100]:
# 나이 칼럼에 결측치가 없는 row의 차원 출력
age_no_na.shape

(714, 15)

In [103]:
# DataFrame에서 특정 행과 열 선택하기
# 나이가 36세 이상인 사람의 fare 데이터 가져오기
adult_names = titanic.loc[titanic['age'] > 35, 'fare']

adult_names.head()

1     71.2833
6     51.8625
11    26.5500
13    31.2750
15    16.0000
Name: fare, dtype: float64

In [104]:
# 3~5 column의 10~25 row 가져오기
titanic.iloc[9:25, 2:5]

Unnamed: 0,sex,age,sibsp
9,female,14.0,1
10,female,4.0,1
11,female,58.0,0
12,male,20.0,0
13,male,39.0,1
14,female,14.0,0
15,female,55.0,0
16,male,2.0,4
17,male,,0
18,female,31.0,1


In [106]:
# 3번 index column의 0~2 인덱스 row 값을 nan으로 바꾸기
titanic.iloc[0:3, 3] = 'nan'

titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [7]:
# 열이름을 key로하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 
             'c2': [7, 8 ,9], 'c3': [10, 11, 12], 
             'c4': [13, 14, 15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장
df = pd.DataFrame(dict_data)

In [8]:
# df의 자료형 출력
type(df)

pandas.core.frame.DataFrame

In [9]:
# 변수 df에 저장되어 있는 데이터프레임 객체를 출력
df

Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


## 행/열 조작하기
- 행 인덱스 변경: DataFrame 객체.index = 새로운 행 인덱스 배열
- 열 이름 변경: DataFrame 객체.columns = 새로운 열 이름 배열

In [10]:
# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
# 딕셔너리 방법이 아닌, 리스트를 이용한 방법
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
									index=['준서', '예은'],
									columns=['나이', '성별', '학교'])

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [11]:
# 행 인덱스, 열 이름 변경하기
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


## 행/열 삭제
- 행 삭제: DataFrame 객체.drop(행 인덱스 또는 배열, axis = 0)

- 열 삭제: DataFrame 객체.drop(열 이름 또는 배열, axis = 1)

In [24]:
# 두 개 이상의 행(튜플)을 삭제하고 싶은 경우 배열(리스트) 형태로 넣어주면 됨.
df = pd.DataFrame([[90, 98, 85, 100],
                 [80, 89, 95, 90],
                 [70, 95, 100, 90]],
                 index=['서준', '우현', '인아'],
                 columns=['수학', '영어', '음악', '체육'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [16]:
df.drop('우현', inplace=True)
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90


In [20]:
df.drop(['우현', '인아'], axis=0, inplace=True)
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100


In [23]:
df.drop('수학', axis=1, inplace=True)
df

Unnamed: 0,영어,음악,체육
서준,98,85,100
우현,89,95,90
인아,95,100,90


In [25]:
df.drop(['영어', '음악'], axis=1, inplace=True)
df

Unnamed: 0,수학,체육
서준,90,100
우현,80,90
인아,70,90


## 행 선택

In [28]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
# 딕셔너리 방법을 이용
exam_data = {'수학' : [90, 80, 70], '영어' : [98, 89, 95],
						 '음악' : [85, 95 ,100], '체육' : [100, 90, 90]}

# 인덱스 이름을 지정하여 데이터 프레임 생성
df  = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [33]:
# 행 인덱스를 사용하여 행 1개 선택
labell = df.loc['서준']
position1 = df.iloc[0]

print(labell)
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


## 행/열, transpose() 추가
- 행 추가: DataFrame.loc[ ‘새로운 행 이름’ ] = 데이터 값 (또는 배열)
- 열 추가: DataFrame 객체[ ‘추가하려는 열 이름’ ] = 데이터 값
- 행, 열 바꾸기: DataFrame 객체.transpose() 또는 DataFrame 객체.T

In [31]:
# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학' : [90, 80, 70], '영어' : [98, 89, 95],
						 '음악' : [85, 95 ,100], '체육' : [100, 90, 90]}

df  = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [32]:
# 행 인덱스를 사용하여 행 1개 선택
labell = df.loc['서준']
position1 = df.iloc[0]

print(labell)
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64
수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [34]:
# 행 추가
df.loc['묭동이'] = [100, 100, 100, 100]

# 열 추가
df['국어'] = [88, 92, 78, 100]

df

Unnamed: 0,수학,영어,음악,체육,국어
서준,90,98,85,100,88
우현,80,89,95,90,92
인아,70,95,100,90,78
묭동이,100,100,100,100,100


## 데이터 연산 

In [107]:
# 리스트와 Numpy 배열과 다르게, 크기가 달라도 연산을 할 수 있음
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([10, 20, 30, 40, 50])
s1 + s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [108]:
s1 - s2

0    -9
1   -18
2   -27
3   -36
4   -45
dtype: int64

In [109]:
s1 * s2

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [110]:
s1 / s2

0    0.1
1    0.1
2    0.1
3    0.1
4    0.1
dtype: float64

In [111]:
table_data1 = {'A': [1, 2, 3, 4, 5],
              'B': [10, 20, 30, 40, 50],
              'C': [100, 200, 300, 400, 500]}
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [115]:
table_data2 = {'A': [6, 7, 8],
              'B': [60, 70, 80],
              'C': [600, 700, 800]}
df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [113]:
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [119]:
table_data3 = {'봄':  [256.5, 264.3, 215.9, 223.2, 312.8],
              '여름': [770.6, 567.5, 599.8, 387.1, 446.2],
              '가을': [363.5, 231.2, 293.1, 247.7, 381.6],
              '겨울': [139.3, 59.9, 76.9, 109.1, 108.1]}
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2012', '2013', '2014', '2015', '2016']

df3 = pd.DataFrame(table_data3, columns = columns_list, index = index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [120]:
# 평균 구하기
df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [121]:
# 분산 구하기
df3.var()

봄      1492.143
여름    22167.903
가을     4537.167
겨울      956.388
dtype: float64

In [122]:
# 표준편차 구하기
df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

In [123]:
# 최댓값 구하기
df3.max()

봄     312.8
여름    770.6
가을    381.6
겨울    139.3
dtype: float64

In [125]:
# 최솟값 구하기
df3.min()

봄     215.9
여름    387.1
가을    231.2
겨울     59.9
dtype: float64

In [134]:
df3.max(axis=1)

2012    770.6
2013    567.5
2014    599.8
2015    387.1
2016    446.2
dtype: float64

In [133]:
df3.max(axis=0)

봄     312.8
여름    770.6
가을    381.6
겨울    139.3
dtype: float64

In [135]:
df3.shape

(5, 4)

In [136]:
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3


In [145]:
KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

df_KTX = pd.DataFrame(KTX_data, index = index_list)
df_KTX

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


In [138]:
# 처음 3개 행 선택
df_KTX.head(3)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2011,39060,7313,3627,309,
2012,39896,6967,4168,1771,
2013,42005,6873,4088,1954,


In [140]:
# 마지막 2개 행 선택
df_KTX.tail(2)

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2016,41266,10622,4984,3945,3786.0
2017,32427,9228,5570,5766,6667.0


## 행 선택(= 행 추출)
- Slicing과 동일한 문법으로 추출 가능


In [142]:
# 3번째 행 부터 5번째 행까지 출력
df_KTX[2:5]

Unnamed: 0,경부선 KTX,호남선 KTX,경전선 KTX,전라선 KTX,동해선 KTX
2013,42005,6873,4088,1954,
2014,43621,6626,4424,2244,
2015,41702,8675,4606,3146,2395.0


In [147]:
# df_KTX.loc[행, 열]
df_KTX.loc['2013':'2016', '경부선 KTX']

2013    42005
2014    43621
2015    41702
2016    41266
Name: 경부선 KTX, dtype: int64

In [150]:
# df_KTX.loc[행, 열]
# 2개 이상의 column(열) 선택 : 열 부분에 리스트로 넣기
df_KTX.loc['2013':'2016', ['경부선 KTX', '호남선 KTX']]

Unnamed: 0,경부선 KTX,호남선 KTX
2013,42005,6873
2014,43621,6626
2015,41702,8675
2016,41266,10622


In [153]:
# loc defualt 사용법
# (df변수명).loc[행조건, [컬럼명]]
df_KTX.loc['2013':'2016', ['호남선 KTX']]

Unnamed: 0,호남선 KTX
2013,6873
2014,6626
2015,8675
2016,10622


In [155]:
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [157]:
# sepal_length의 길이가 7cm 이상인 것만 조회
iris.loc[iris['sepal_length'] >= 7, :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
102,7.1,3.0,5.9,2.1,virginica
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
125,7.2,3.2,6.0,1.8,virginica
129,7.2,3.0,5.8,1.6,virginica


In [159]:
iris['sepal_length'] >= 7

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal_length, Length: 150, dtype: bool

In [165]:
# species가 virginica인 것만 조회
iris.loc[iris['species']=='virginica', :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica
105,7.6,3.0,6.6,2.1,virginica
106,4.9,2.5,4.5,1.7,virginica
107,7.3,2.9,6.3,1.8,virginica
108,6.7,2.5,5.8,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica


In [173]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [167]:
# embark_town 컬럼에서 S 거주민의 모든 데이터 출력
titanic.loc[titanic['embarked']=='S', :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,3,female,,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
883,0,2,male,28.0,0,0,10.5000,S,Second,man,True,,Southampton,no,True
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


In [175]:
# age 평균 구하고, 평균 이상인 데이터만 조회하기
# age 컬럼의 평균 구하기
mean_age = titanic['age'].mean()
mean_age

29.69911764705882

In [176]:
# age가 평균 이상인 데이터만 필터링
above_average_age = titanic[titanic['age'] >= mean_age]
above_average_age

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
873,0,3,male,47.0,0,0,9.0000,S,Third,man,True,,Southampton,no,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [178]:
tips = sns.load_dataset('tips')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [188]:
low_middle_bill = tips['total_bill'].median()
low_middle_bill

17.795

In [187]:
# total_bill이 중간값 이하인 것만 조회
tips.loc[tips['total_bill']>=low_middle_bill, :]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
7,26.88,3.12,Male,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [190]:
# day가 Sun인 데이터만 조회하기
var = 'day'
tips.loc[tips[var] == 'Sun', :]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
186,20.90,3.50,Female,Yes,Sun,Dinner,3
187,30.46,2.00,Male,Yes,Sun,Dinner,5
188,18.15,3.50,Female,Yes,Sun,Dinner,3
189,23.10,4.00,Male,Yes,Sun,Dinner,3


In [196]:
average_tip = tips['tip'].mean()
average_tip

2.99827868852459

In [199]:
# tip의 평균보다 크면서, time이 Dinner인 데이터만 조회하기
# tips.loc[(조건1) (& or |) (조건2), :]
tips.loc[(tips['tip'] > average_tip) & (tips['time'] == 'Dinner'), 
:]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
7,26.88,3.12,Male,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
232,11.61,3.39,Male,No,Sat,Dinner,2
234,15.53,3.00,Male,Yes,Sat,Dinner,2
238,35.83,4.67,Female,No,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3


In [200]:
# 다중조건 예시
tips.loc[(tips['tip'] >= tips['tip'].mean()) & 
    (tips['time'] == 'Dinner') & 
    (tips['size'] == 3) & 
    (tips['sex'] == 'Male') & 
    (tips['day'] == 'Sat'), 
:]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
19,20.65,3.35,Male,No,Sat,Dinner,3
35,24.06,3.6,Male,No,Sat,Dinner,3
39,31.27,5.0,Male,No,Sat,Dinner,3
65,20.08,3.15,Male,No,Sat,Dinner,3
170,50.81,10.0,Male,Yes,Sat,Dinner,3
206,26.59,3.41,Male,Yes,Sat,Dinner,3
231,15.69,3.0,Male,Yes,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3
