# 판다스(Pandas)
데이터를 손쉽게 다루고 분석할 수 있게 해주는 파이썬 라이브러리입니다. 주로 DataFrame과 Series라는 자료구조를 사용하여 표 형태의 데이터를 효율적으로 조작하고, 전처리 및 분석 작업을 쉽게 수행할 수 있도록 도와줍니다.

* 판다스 라이브러리 불러오기  
우선 판다스 라이브러리를 사용하기 위해서는 import pandas as pd 명령어로 판다스를 불러와야 합니다.

In [1]:
import pandas as pd

## 시리즈(Series)
Series는 1차원 배열과 유사한 자료구조로, 인덱스(index)라는 라벨을 붙여 데이터를 관리할 수 있습니다.

* 리스트(List)로부터 시리즈 생성하기  
가장 기본적인 방법은 파이썬의 리스트를 데이터로 사용하여 시리즈를 만드는 것입니다.

In [2]:
data_list = [10, 20, 30, 40, 50]
series1 = pd.Series(data_list)
series1

0    10
1    20
2    30
3    40
4    50
dtype: int64

* 인덱스를 직접 지정하는 경우  
리스트와 함께 인덱스 값을 직접 지정할 수도 있습니다. 이 경우, 인덱스의 길이는 데이터의 길이와 같아야 합니다.

In [3]:
data_list = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
series2 = pd.Series(data_list, index=index)
series2

a    10
b    20
c    30
d    40
e    50
dtype: int64

* 딕셔너리(Dictionary)로부터 시리즈 생성하기  
딕셔너리를 사용하면 키(key)가 인덱스로, 값(value)이 데이터로 할당되어 시리즈가 만들어집니다.

In [4]:
data_dict = {'a': 10, 'b': 20, 'c': 30}
series3 = pd.Series(data_dict)
series3

a    10
b    20
c    30
dtype: int64

pd.Series() 함수는 여러 매개변수를 제공합니다. 대표적인 매개변수는 다음과 같습니다.

* data: 시리즈에 저장할 데이터(리스트, 배열, 딕셔너리 등)
* index: 데이터에 할당할 인덱스. 지정하지 않으면 기본적으로 정수형 인덱스가 사용됩니다.
* dtype: 시리즈의 데이터 타입을 지정할 수 있습니다. (예: 'int64', 'float64', 'object' 등)
* name: 시리즈의 이름을 지정합니다. 데이터 분석 시 시리즈를 구분할 때 유용합니다.
* copy: 데이터를 복사할지 여부를 결정합니다. (기본값은 False)

In [11]:
data_list = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
series6 = pd.Series(data_list, index=index, dtype='int32', name='Example')
series6

a    10
b    20
c    30
d    40
e    50
Name: Example, dtype: int32

* 스칼라(Scalar)와의 연산  
스칼라 값(숫자 등)을 시리즈에 연산하면, 시리즈의 모든 요소에 해당 연산이 적용됩니다.

In [12]:
# 두 개의 예제 시리즈 생성
s1 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series([1, 2, 3], index=['a', 'b', 'd'])

In [16]:
s1

a    10
b    20
c    30
dtype: int64

In [17]:
s2

a    1
b    2
d    3
dtype: int64

In [13]:
# 각 요소에 5를 더하기
s_add = s1 + 5
print(s_add)

a    15
b    25
c    35
dtype: int64


In [14]:
s_sub = s1 - 5       # 각 요소에서 5 빼기
s_mul = s1 * 2       # 각 요소에 2 곱하기
s_div = s1 / 2       # 각 요소를 2로 나누기

* 시리즈 간의 연산  
두 시리즈끼리 연산할 때는 인덱스가 자동으로 정렬되어 동일한 인덱스에 대해 연산이 수행됩니다.

In [15]:
# s1과 s2를 더하기 (인덱스 기준 정렬)
s_sum = s1 + s2
print(s_sum)

a    11.0
b    22.0
c     NaN
d     NaN
dtype: float64


In [18]:
# fill_value를 사용하여 누락된 값을 0으로 대체 후 덧셈
s_sum_fill = s1.add(s2, fill_value=0)
print(s_sum_fill)

a    11.0
b    22.0
c    30.0
d     3.0
dtype: float64


* 내장 수학 함수 사용  
판다스나 넘파이의 내장 함수를 사용하여 시리즈의 각 요소에 연산을 수행할 수 있습니다.

In [23]:
import numpy as np

# 시리즈의 각 요소에 제곱근을 계산
s_sqrt = np.sqrt(s1)
print(s_sqrt)

a    3.162278
b    4.472136
c    5.477226
dtype: float64


* apply() 메서드를 통한 사용자 정의 함수 적용  
apply() 메서드를 사용하면 사용자 정의 함수를 각 요소에 적용할 수 있습니다.

In [20]:
def func(x):
    return x ** 2

In [21]:
# 각 요소에 2제곱을 적용하는 함수 정의 후 적용
s_square = s1.apply(func)
print(s_square)

a    100
b    400
c    900
dtype: int64


* 통계 및 집계 함수  
판다스 시리즈는 다양한 통계 함수를 내장하고 있습니다.

In [22]:
# 합계, 평균, 최대값, 최소값 등
total = s1.sum()
mean = s1.mean()
max_val = s1.max()
min_val = s1.min()

print("합계:", total)
print("평균:", mean)
print("최대값:", max_val)
print("최소값:", min_val)

합계: 60
평균: 20.0
최대값: 30
최소값: 10


## 데이터프레임(DataFrame)
DataFrame은 행과 열의 2차원 자료구조로, 엑셀 표나 SQL 테이블과 유사한 형태를 띄고 있습니다. 다양한 형태의 데이터를 DataFrame으로 쉽게 변환할 수 있는데, 단계별로 자세하게 설명드리겠습니다.

* Dictionary를 이용하여 DataFrame 생성하기

In [24]:
data = {
    "이름": ["홍길동", "김철수", "이영희"],
    "나이": [25, 30, 22],
    "도시": ["서울", "부산", "대구"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,도시
0,홍길동,25,서울
1,김철수,30,부산
2,이영희,22,대구


* 인덱스 지정  
기본적으로 행 인덱스는 정수형(0, 1, 2, …)으로 생성되지만, index 매개변수를 사용하여 원하는 인덱스를 지정할 수 있습니다.

In [25]:
df = pd.DataFrame(data, index=["a", "b", "c"])
df

Unnamed: 0,이름,나이,도시
a,홍길동,25,서울
b,김철수,30,부산
c,이영희,22,대구


* 리스트의 리스트(리스트 of lists)를 이용하여 DataFrame 생성하기  
데이터가 2차원 리스트의 형태로 준비되어 있을 때, 열 이름(columns)을 함께 지정하여 DataFrame을 생성할 수 있습니다.

In [26]:
data = [
    ["홍길동", 25, "서울"],
    ["김철수", 30, "부산"],
    ["이영희", 22, "대구"]
]

columns = ["이름", "나이", "도시"]

df = pd.DataFrame(data, columns=columns)
df

Unnamed: 0,이름,나이,도시
0,홍길동,25,서울
1,김철수,30,부산
2,이영희,22,대구


In [27]:
df = pd.DataFrame(data, columns=columns, index=["a", "b", "c"])
df

Unnamed: 0,이름,나이,도시
a,홍길동,25,서울
b,김철수,30,부산
c,이영희,22,대구


DataFrame 생성 시 여러 옵션을 활용할 수 있습니다.

* index: 행 인덱스를 직접 지정할 수 있습니다.
* columns: 열 이름을 지정합니다.
* dtype: 전체 데이터의 자료형을 강제할 수 있습니다.
* copy: 데이터의 복사 여부를 결정합니다. (기본값은 False)

In [28]:
df = pd.DataFrame(data, columns=columns, dtype=str)
df

Unnamed: 0,이름,나이,도시
0,홍길동,25,서울
1,김철수,30,부산
2,이영희,22,대구


### 데이터프레임 불러오기
데이터를 외부 파일이나 데이터베이스 등에서 불러와 판다스 DataFrame으로 변환하는 것은 데이터 분석의 첫 단계입니다.

#### CSV 파일 불러오기
CSV(comma-separated values) 파일은 가장 많이 사용되는 데이터 파일 형식 중 하나입니다. pd.read_csv() 함수를 사용합니다.

* filepath_or_buffer: 파일 경로 또는 URL
* sep: 구분자(기본값은 쉼표 ,)
* encoding: 파일의 인코딩 (예: "utf-8", "euc-kr")
* header: 헤더 행의 위치 (기본값은 0)
* index_col: 인덱스로 사용할 열 지정

In [30]:
tips = pd.read_csv("tips.csv")
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [31]:
tips = pd.read_csv("tips.csv", index_col="total_bill")
tips

Unnamed: 0_level_0,tip,sex,smoker,day,time,size
total_bill,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
16.99,1.01,Female,No,Sun,Dinner,2
10.34,1.66,Male,No,Sun,Dinner,3
21.01,3.50,Male,No,Sun,Dinner,3
23.68,3.31,Male,No,Sun,Dinner,2
24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...
29.03,5.92,Male,No,Sat,Dinner,3
27.18,2.00,Female,Yes,Sat,Dinner,2
22.67,2.00,Male,Yes,Sat,Dinner,2
17.82,1.75,Male,No,Sat,Dinner,2


In [32]:
tips = pd.read_csv("tips2.csv", header = None)
tips.columns = ['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size']
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


* TSV파일: TSV파일은 CSV파일와 거의 비슷합니다. CSV파일은 콤마 ```,``` 로 데이터를 구분하지만, TSV파일은 ```Tab``` 을 기준으로 데이터를 구분합니다.

In [33]:
df = pd.read_csv("gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### Excel 파일 불러오기
pd.read_excel() 함수를 사용합니다.

* io: 파일 경로 또는 URL
* sheet_name: 불러올 시트 이름 또는 번호 (기본값은 첫 번째 시트)
* header: 헤더 행 지정
* index_col: 인덱스로 사용할 열 지정
* usecols: 불러올 열 지정 (예: "A:C" 또는 리스트 ['A', 'B', 'C'])

In [34]:
df = pd.read_excel("성적 처리.xlsx", sheet_name = 'Sheet1')
df

Unnamed: 0,반,성명,국어,영어,수학,사회,과학
0,1반,홍길동,93,80,94,73,64
1,5반,백일홍,93,63,76,84,92
2,3반,이삼상,94,74,86,90,70
3,4반,정말로,83,55,64,90,65
4,5반,한번도,87,95,66,75,60
5,4반,이철수,53,81,59,88,69
6,3반,김영자,71,71,51,84,57
7,5반,다니엘,87,54,95,71,97
8,2반,이미로,59,54,75,90,82
9,1반,신성삼,64,66,59,91,86


In [35]:
df = pd.read_excel("성적 처리.xlsx", sheet_name = 'Sheet1', usecols="A:C")
df

Unnamed: 0,반,성명,국어
0,1반,홍길동,93
1,5반,백일홍,93
2,3반,이삼상,94
3,4반,정말로,83
4,5반,한번도,87
5,4반,이철수,53
6,3반,김영자,71
7,5반,다니엘,87
8,2반,이미로,59
9,1반,신성삼,64


### 데이터프레임에 자주 사용하는 함수
DataFrame은 다양한 메서드와 속성을 제공하여 데이터를 미리 확인하거나 요약할 수 있습니다.

In [36]:
df = pd.read_csv("gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


* head() 메서드는 DataFrame의 상위(처음) 몇 개의 행을 반환합니다.

In [38]:
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [40]:
df.head(3)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071


* tail() 메서드는 DataFrame의 하위(마지막) 몇 개의 행을 반환합니다.

In [39]:
df.tail()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [41]:
df.tail(3)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


* info() 메서드는 DataFrame의 간략한 정보를 출력합니다. 여기에는 행/열의 개수, 각 열의 데이터 타입, 결측치 개수, 메모리 사용량 등이 포함됩니다.

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


* describe() 메서드는 수치형 데이터에 대해 기초 통계량(평균, 표준편차, 최솟값, 25%, 50%, 75% 백분위수, 최댓값 등)을 계산하여 요약합니다.

In [43]:
df.describe()

Unnamed: 0,year,lifeExp,pop,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,59.474439,29601210.0,7215.327081
std,17.26533,12.917107,106157900.0,9857.454543
min,1952.0,23.599,60011.0,241.165876
25%,1965.75,48.198,2793664.0,1202.060309
50%,1979.5,60.7125,7023596.0,3531.846988
75%,1993.25,70.8455,19585220.0,9325.462346
max,2007.0,82.603,1318683000.0,113523.1329


* shape 속성은 DataFrame의 행과 열의 개수를 튜플 형태로 반환합니다.

In [44]:
df.shape

(1704, 6)

* columns 속성은 DataFrame의 열 이름들을 반환합니다.

In [45]:
df.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

* index 속성은 DataFrame의 행 인덱스를 반환합니다.

In [46]:
df.index

RangeIndex(start=0, stop=1704, step=1)

* set_index() 함수는 특정 열을 인덱스로 설정합니다.

In [92]:
df.set_index("year")

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,Afghanistan,Asia,28.801,8425333,779.445314
1957,Afghanistan,Asia,30.332,9240934,820.853030
1962,Afghanistan,Asia,31.997,10267083,853.100710
1967,Afghanistan,Asia,34.020,11537966,836.197138
1972,Afghanistan,Asia,36.088,13079460,739.981106
...,...,...,...,...,...
1987,Zimbabwe,Africa,62.351,9216418,706.157306
1992,Zimbabwe,Africa,60.377,10704340,693.420786
1997,Zimbabwe,Africa,46.809,11404948,792.449960
2002,Zimbabwe,Africa,39.989,11926563,672.038623


### 데이터프레임 행, 열 접근하기
* 대괄호 안에 열 이름(문자열)을 넣어 단일 열을 선택할 수 있습니다.

In [88]:
df['continent']

0         Asia
1         Asia
2         Asia
3         Asia
4         Asia
         ...  
1699    Africa
1700    Africa
1701    Africa
1702    Africa
1703    Africa
Name: continent, Length: 1704, dtype: object

* drop_duplicates(): 중복된 행은 모두 삭제하고 고유한 행만 보여줍니다.

In [90]:
df['continent'].drop_duplicates()

0         Asia
12      Europe
24      Africa
48    Americas
60     Oceania
Name: continent, dtype: object

In [89]:
df[['continent']]

Unnamed: 0,continent
0,Asia
1,Asia
2,Asia
3,Asia
4,Asia
...,...
1699,Africa
1700,Africa
1701,Africa
1702,Africa


* 여러 열을 선택할 때는 열 이름의 리스트를 대괄호 안에 넣습니다.

In [49]:
df[['country', 'year']]

Unnamed: 0,country,year
0,Afghanistan,1952
1,Afghanistan,1957
2,Afghanistan,1962
3,Afghanistan,1967
4,Afghanistan,1972
...,...,...
1699,Zimbabwe,1987
1700,Zimbabwe,1992
1701,Zimbabwe,1997
1702,Zimbabwe,2002


* loc는 인덱스(행의 라벨)와 열 이름(라벨)을 사용하여 데이터를 선택합니다.

In [51]:
df.loc[0]

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

In [52]:
df.loc[[0, 10, 100, 1000]]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
100,Bangladesh,Asia,1972,45.252,70759295,630.233627
1000,Mongolia,Asia,1972,53.754,1320500,1421.741975


In [53]:
df.loc[[0, 10, 100, 1000], ['country', 'year']]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [54]:
df.loc[2:5, "country":"year"]

Unnamed: 0,country,continent,year
2,Afghanistan,Asia,1962
3,Afghanistan,Asia,1967
4,Afghanistan,Asia,1972
5,Afghanistan,Asia,1977


* iloc는 정수 인덱스(위치)를 기반으로 데이터를 선택합니다. 즉, DataFrame의 행과 열의 실제 위치(0부터 시작하는 숫자)를 사용합니다.

In [55]:
df.iloc[0]

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

In [56]:
df.iloc[[0, 10, 100, 1000]]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
100,Bangladesh,Asia,1972,45.252,70759295,630.233627
1000,Mongolia,Asia,1972,53.754,1320500,1421.741975


In [58]:
df.iloc[[0, 10, 100, 1000], [0, 2]]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [59]:
df.iloc[2:5, :3]

Unnamed: 0,country,continent,year
2,Afghanistan,Asia,1962
3,Afghanistan,Asia,1967
4,Afghanistan,Asia,1972


#### 특정 조건을 만족하는 행에 접근하기
* 불리언 인덱싱으로 행 선택

In [60]:
A = df['lifeExp'] > 50
A

0       False
1       False
2       False
3       False
4       False
        ...  
1699     True
1700     True
1701    False
1702    False
1703    False
Name: lifeExp, Length: 1704, dtype: bool

In [61]:
df[A]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
12,Albania,Europe,1952,55.230,1282697,1601.056136
13,Albania,Europe,1957,59.280,1476505,1942.284244
14,Albania,Europe,1962,64.820,1728137,2312.888958
15,Albania,Europe,1967,66.220,1984060,2760.196931
16,Albania,Europe,1972,67.690,2263554,3313.422188
...,...,...,...,...,...,...
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306


In [64]:
df[~A]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1691,Zambia,Africa,2007,42.384,11746035,1271.211593
1692,Zimbabwe,Africa,1952,48.451,3080907,406.884115
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


* 여러 조건을 동시에 만족하는 행을 선택할 때는 논리 연산자 & (AND) 또는 | (OR)를 사용합니다.

In [62]:
df[(df['lifeExp'] >= 50) & (df['country'] == 'Japan')]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
792,Japan,Asia,1952,63.03,86459025,3216.956347
793,Japan,Asia,1957,65.5,91563009,4317.694365
794,Japan,Asia,1962,68.73,95831757,6576.649461
795,Japan,Asia,1967,71.43,100825279,9847.788607
796,Japan,Asia,1972,73.42,107188273,14778.78636
797,Japan,Asia,1977,75.38,113872473,16610.37701
798,Japan,Asia,1982,77.11,118454974,19384.10571
799,Japan,Asia,1987,78.67,122091325,22375.94189
800,Japan,Asia,1992,79.36,124329269,26824.89511
801,Japan,Asia,1997,80.69,125956499,28816.58499


In [63]:
df[(df['lifeExp'] >= 50) | (df['country'] == 'Japan')]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
12,Albania,Europe,1952,55.230,1282697,1601.056136
13,Albania,Europe,1957,59.280,1476505,1942.284244
14,Albania,Europe,1962,64.820,1728137,2312.888958
15,Albania,Europe,1967,66.220,1984060,2760.196931
16,Albania,Europe,1972,67.690,2263554,3313.422188
...,...,...,...,...,...,...
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306


* isin(): 특정 열의 값이 여러 값 중 하나에 해당하는 행을 선택할 때 사용합니다.

In [65]:
df[df['continent'].isin(['Europe', 'Africa'])]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
12,Albania,Europe,1952,55.230,1282697,1601.056136
13,Albania,Europe,1957,59.280,1476505,1942.284244
14,Albania,Europe,1962,64.820,1728137,2312.888958
15,Albania,Europe,1967,66.220,1984060,2760.196931
16,Albania,Europe,1972,67.690,2263554,3313.422188
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


* between(): 수치형 데이터에서 범위 내의 값을 선택할 때 사용합니다.

In [66]:
df[df['lifeExp'].between(20, 30)]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
552,Gambia,Africa,1952,30.0,284320,485.230659
1292,Rwanda,Africa,1992,23.599,7290203,737.068595


* str.contains(): 문자열 데이터에서 특정 패턴 또는 단어가 포함된 행을 선택할 때 사용합니다. (case 매개변수를 통해 대소문자를 구분하지 않고 검색할 수 있습니다.)

In [85]:
df[df['continent'].str.contains('N')]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap


In [86]:
df[df['continent'].str.contains('N', case = False)]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
60,Australia,Oceania,1952,69.12,8691212,10039.59564
61,Australia,Oceania,1957,70.33,9712569,10949.64959
62,Australia,Oceania,1962,70.93,10794968,12217.22686
63,Australia,Oceania,1967,71.1,11872264,14526.12465
64,Australia,Oceania,1972,71.93,13177000,16788.62948
65,Australia,Oceania,1977,73.49,14074100,18334.19751
66,Australia,Oceania,1982,74.74,15184200,19477.00928
67,Australia,Oceania,1987,76.32,16257249,21888.88903
68,Australia,Oceania,1992,77.56,17481977,23424.76683
69,Australia,Oceania,1997,78.83,18565243,26997.93657


## 연습문제 (gapminder 데이터 활용)
1. "gapminder.csv" 파일에 저장된 Gapminder 데이터를 읽어 DataFrame으로 변환하세요.

2. 불러온 DataFrame에서 "country" 열만 추출하여 Series로 만들고, 상위 5개 데이터를 출력하세요.

3. DataFrame에서 "year", "lifeExp", "pop" 열만 선택하여 새로운 DataFrame을 생성하고 출력하세요.

4. 기존 DataFrame의 인덱스를 "country" 열로 설정하여 새로운 DataFrame을 생성한 후 출력하세요.

5. Gapminder 데이터 중 "year" 열의 값이 2007인 행만 선택하여 출력하세요.

6. "lifeExp" 값이 70 이상이며 "continent"가 "Africa" 인 행만 선택하여 출력하세요.

7. "gdpPercap" 값이 1000 이상 5000 이하인 행만 선택하여 출력하세요.

8. "continent" 열이 "Asia" 또는 "Europe"인 행만 선택하여 출력하세요.

9. DataFrame의 "pop" 열에 대해 합계, 평균, 최대값, 최소값을 각각 출력하는 코드를 작성하세요.

10. 국가 이름에 "Korea" 가 들어간 행만 선택하여 출력하세요.