## 데이터프레임 정보 확인하기
판다스(Pandas)에서 데이터프레임(DataFrame)의 정보를 얻기 위한 기본 함수들은 데이터 분석을 시작할 때 매우 유용합니다. 여기에 몇 가지 주요 함수를 소개하겠습니다.

In [1]:
import pandas as pd
# 정보확인 : 누락값, 데이터타입
df = pd.read_csv("Data/gapminder.tsv", sep="\t")
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


### head()
head(n) 함수는 데이터프레임의 상위 n 행을 반환합니다. n을 지정하지 않으면 기본값으로 상위 5행을 반환합니다.

In [3]:
df.head(10)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
5,Afghanistan,Asia,1977,38.438,14880372,786.11336
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351


### tail()
tail(n) 함수는 데이터프레임의 하위 n 행을 반환합니다. 이 역시 n을 지정하지 않으면 기본값으로 하위 5행을 반환합니다.

In [4]:
df.tail(10)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1694,Zimbabwe,Africa,1962,52.358,4277736,527.272182
1695,Zimbabwe,Africa,1967,53.995,4995432,569.795071
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


### info()
info() 함수는 데이터프레임에 대한 요약 정보를 제공합니다. 이 정보에는 행의 개수, 각 열의 데이터 타입, 결측치가 아닌 값의 개수, 메모리 사용량 등이 포함됩니다.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


### shape
shape 속성은 데이터프레임의 형태를 튜플로 반환합니다. 첫 번째 요소는 행의 개수이고, 두 번째 요소는 열의 개수입니다.

In [6]:
# (행 갯수, 열 갯수)
df.shape

(1704, 6)

### describe()
describe() 함수는 수치형 열에 대한 기술통계를 반환합니다. 기본적으로 평균, 표준편차, 최소값, 최대값, 1/4분위수, 중앙값(2/4분위수), 3/4분위수 등을 제공합니다.

문자열이나 카테고리형 데이터에 대한 기술통계를 보기 위해서는 include 매개변수에 ['object'], ['category'] 또는 이 둘을 결합한 리스트를 전달합니다. 또한 모든 열에 대한 통계를 얻기 위해 include='all'을 사용할 수도 있습니다.

In [6]:
df.describe(include="all")

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
count,1704,1704,1704.0,1704.0,1704.0,1704.0
unique,142,5,,,,
top,Afghanistan,Africa,,,,
freq,12,624,,,,
mean,,,1979.5,59.474439,29601210.0,7215.327081
std,,,17.26533,12.917107,106157900.0,9857.454543
min,,,1952.0,23.599,60011.0,241.165876
25%,,,1965.75,48.198,2793664.0,1202.060309
50%,,,1979.5,60.7125,7023596.0,3531.846988
75%,,,1993.25,70.8455,19585220.0,9325.462346


## loc, iloc
pandas에서 loc과 iloc은 데이터프레임(DataFrame)이나 시리즈(Series) 내의 데이터를 접근하기 위한 방법입니다. 두 방법 모두 행(데이터)과 열(특성)을 선택하는 데 사용되지만, 주요 차이점은 loc이 라벨 기반의 인덱싱을 사용하는 반면, iloc은 정수 기반의 인덱싱을 사용한다는 것입니다.

### loc
* loc은 라벨 기반의 인덱싱을 제공합니다. 이는 인덱스 라벨(이름) 또는 조건을 사용하여 데이터를 선택할 수 있음을 의미합니다.
* 행 라벨 또는 열 라벨을 기준으로 데이터를 선택할 수 있습니다.
* 슬라이싱을 사용할 때 시작점과 끝점이 모두 포함됩니다(inclusive).
* loc[행, 열] 형태로 사용됩니다. 여기서 행과 열은 라벨 이름이나 조건이 될 수 있습니다.

In [21]:
# loc : 라벨로 접근
# iloc : 순서로 접근
df = df.rename(index = {0: "Start"})
df.loc["Start", ["country", "year"]]

country    Afghanistan
year              1952
Name: Start, dtype: object

### iloc
* iloc은 정수 기반의 위치 인덱싱을 제공합니다. 이는 파이썬의 표준 인덱싱 방식과 유사하여, 인덱스의 정수 값으로 데이터를 선택할 수 있음을 의미합니다.
* 정수 위치를 이용하여 행과 열을 선택할 수 있습니다.
* 슬라이싱을 사용할 때는 파이썬 리스트의 슬라이싱과 유사하게 시작점은 포함되지만 끝점은 포함되지 않습니다(exclusive).
* iloc[행, 열] 형태로 사용됩니다. 여기서 행과 열은 정수의 위치입니다.

In [19]:
df.iloc[[0, 10, 100, 1000], [0,2]]

Unnamed: 0,country,year
Start,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [23]:
df.loc["Start":5, ['country','year']]

Unnamed: 0,country,year
Start,Afghanistan,1952
1,Afghanistan,1957
2,Afghanistan,1962
3,Afghanistan,1967
4,Afghanistan,1972
5,Afghanistan,1977


In [33]:
df.iloc[::2,   ::2]

Unnamed: 0,country,year,pop
Start,Afghanistan,1952,8425333
2,Afghanistan,1962,10267083
4,Afghanistan,1972,13079460
6,Afghanistan,1982,12881816
8,Afghanistan,1992,16317921
...,...,...,...
1694,Zimbabwe,1962,4277736
1696,Zimbabwe,1972,5861135
1698,Zimbabwe,1982,7636524
1700,Zimbabwe,1992,10704340


In [101]:
df[df['lifeExp'] > 50]
df[df['continent']=="Europe"]

A = df["lifeExp"] >= df["lifeExp"].mean() #median(), std()
df[A].count()

B = df["continent"] == "Europe"
df[B]

df[A & B].count()
df[ A| B].count()

C = df["continent"] == "Africa"
D = df["continent"] == "Asia"
df[ B | C | D ] 
df[ (df["continent"]=="Asia" )| (df["continent"] == "Asia") ]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
Start,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1675,"Yemen, Rep.",Asia,1987,52.922,11219340,1971.741538
1676,"Yemen, Rep.",Asia,1992,55.599,13367997,1879.496673
1677,"Yemen, Rep.",Asia,1997,58.020,15826497,2117.484526
1678,"Yemen, Rep.",Asia,2002,60.308,18701257,2234.820827


## isin() 메서드
isin() 메서드는 판다스(Pandas)에서 주어진 값 목록에 대해 각 요소가 포함되어 있는지 여부를 검사하는 데 사용됩니다. 이 메서드는 데이터프레임(DataFrame)이나 시리즈(Series)의 각 요소가 지정된 값 목록 중 하나와 일치할 때 True를, 그렇지 않을 때는 False를 반환하는 불리언(Boolean) 시리즈를 생성합니다. 이를 통해 데이터를 필터링하거나 조건에 따라 선택하는 과정을 간소화할 수 있습니다.

In [88]:
E = ~df['continent'].isin(['Africa', 'Asia', 'Europe'])
df[E].count()

country      1380
continent    1380
year         1380
lifeExp      1380
pop          1380
gdpPercap    1380
dtype: int64

## .str.contains() 메서드
.str.contains() 메서드는 판다스(Pandas)에서 문자열을 포함하는 시리즈(Series)나 데이터프레임(DataFrame)의 특정 열에서, 주어진 패턴이나 문자열이 포함되어 있는지 여부를 검사할 때 사용됩니다. 이 메서드는 주로 문자열 데이터를 필터링하거나 조건에 따라 선택하는 데 사용되며, 정규 표현식을 지원하여 강력한 문자열 검색 기능을 제공합니다.

In [105]:
df[df['country'].str.contains("Korea")]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
828,"Korea, Dem. Rep.",Asia,1952,50.056,8865488,1088.277758
829,"Korea, Dem. Rep.",Asia,1957,54.081,9411381,1571.134655
830,"Korea, Dem. Rep.",Asia,1962,56.656,10917494,1621.693598
831,"Korea, Dem. Rep.",Asia,1967,59.942,12617009,2143.540609
832,"Korea, Dem. Rep.",Asia,1972,63.983,14781241,3701.621503
833,"Korea, Dem. Rep.",Asia,1977,67.159,16325320,4106.301249
834,"Korea, Dem. Rep.",Asia,1982,69.1,17647518,4106.525293
835,"Korea, Dem. Rep.",Asia,1987,70.647,19067554,4106.492315
836,"Korea, Dem. Rep.",Asia,1992,69.978,20711375,3726.063507
837,"Korea, Dem. Rep.",Asia,1997,67.727,21585105,1690.756814


## 연습문제 (실습 데이터 : gapminder.tsv)
1. 2000년 데이터만 선택하세요.

In [109]:
df[df['year']>2000]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
11,Afghanistan,Asia,2007,43.828,31889923,974.580338
22,Albania,Europe,2002,75.651,3508512,4604.211737
23,Albania,Europe,2007,76.423,3600523,5937.029526
34,Algeria,Africa,2002,70.994,31287142,5288.040382
...,...,...,...,...,...,...
1679,"Yemen, Rep.",Asia,2007,62.698,22211743,2280.769906
1690,Zambia,Africa,2002,39.193,10595811,1071.613938
1691,Zambia,Africa,2007,42.384,11746035,1271.211593
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


2. 아시아(Asia) 대륙의 1982년 데이터를 모두 선택하세요.

In [110]:
df[ (df["continent"]=="Asia") | (df["year"]==1982) ]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
Start,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1677,"Yemen, Rep.",Asia,1997,58.020,15826497,2117.484526
1678,"Yemen, Rep.",Asia,2002,60.308,18701257,2234.820827
1679,"Yemen, Rep.",Asia,2007,62.698,22211743,2280.769906
1686,Zambia,Africa,1982,51.821,6100407,1408.678565


3. 인구가 1억 이상인 국가들의 2007년 데이터를 선택하세요.

In [111]:
df[ (df["pop"] > 1000000000) | (df["year"]==2007) ]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
11,Afghanistan,Asia,2007,43.828,31889923,974.580338
23,Albania,Europe,2007,76.423,3600523,5937.029526
35,Algeria,Africa,2007,72.301,33333216,6223.367465
47,Angola,Africa,2007,42.731,12420476,4797.231267
59,Argentina,Americas,2007,75.320,40301927,12779.379640
...,...,...,...,...,...,...
1655,Vietnam,Asia,2007,74.249,85262356,2441.576404
1667,West Bank and Gaza,Asia,2007,73.422,4018332,3025.349798
1679,"Yemen, Rep.",Asia,2007,62.698,22211743,2280.769906
1691,Zambia,Africa,2007,42.384,11746035,1271.211593


4. 데이터셋의 첫 5개 행과 마지막 3개 컬럼을 선택하세요.

In [184]:
df.iloc[:5, -3:]

Unnamed: 0,lifeExp,pop,gdpPercap
Start,28.801,8425333,779.445314
1,30.332,9240934,820.85303
2,31.997,10267083,853.10071
3,34.02,11537966,836.197138
4,36.088,13079460,739.981106


5. 100번째 행부터 105번째 행까지, 컬럼은 'country', 'continent', 'year'만 선택하세요. (iloc을 이용하여 해결하세요.)

In [133]:
df.iloc[100:106, 1:3]

Unnamed: 0,continent,year
100,Asia,1972
101,Asia,1977
102,Asia,1982
103,Asia,1987
104,Asia,1992
105,Asia,1997


6. 국가 이름에 'United'가 포함된 모든 행을 선택하세요.

In [135]:
df[df['country'].str.contains("United")]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1596,United Kingdom,Europe,1952,69.18,50430000,9979.508487
1597,United Kingdom,Europe,1957,70.42,51430000,11283.17795
1598,United Kingdom,Europe,1962,70.76,53292000,12477.17707
1599,United Kingdom,Europe,1967,71.36,54959000,14142.85089
1600,United Kingdom,Europe,1972,72.01,56079000,15895.11641
1601,United Kingdom,Europe,1977,72.76,56179000,17428.74846
1602,United Kingdom,Europe,1982,74.04,56339704,18232.42452
1603,United Kingdom,Europe,1987,75.007,56981620,21664.78767
1604,United Kingdom,Europe,1992,76.42,57866349,22705.09254
1605,United Kingdom,Europe,1997,77.218,58808266,26074.53136


7. 대륙 이름에 'Asia'가 포함되고, GDP가 10,000 이상인 모든 국가의 1990년 데이터를 선택하세요.

In [141]:
I = df["continent"].str.contains("Asia")
J = df["gdpPercap"]>=10000
K = df["year"] == 1990
df[I&J&K]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap


8. 대륙이 'Europe' 또는 'Africa'인 국가들의 1960년 데이터를 선택하세요.

In [181]:
df[(df['continent'].isin(["Europe","Africa"])) & (df["year"]==1962)]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
14,Albania,Europe,1962,64.820,1728137,2312.888958
26,Algeria,Africa,1962,48.303,11000948,2550.816880
38,Angola,Africa,1962,34.000,4826015,4269.276742
74,Austria,Europe,1962,69.540,7129864,10750.721110
110,Belgium,Europe,1962,70.250,9218400,10991.206760
...,...,...,...,...,...,...
1574,Turkey,Europe,1962,52.098,29788695,2322.869908
1586,Uganda,Africa,1962,45.344,7688797,767.271740
1598,United Kingdom,Europe,1962,70.760,53292000,12477.177070
1682,Zambia,Africa,1962,46.023,3421000,1452.725766


9. 2000년과 2005년 데이터를 모두 선택하세요.

In [149]:
df[(df["year"]==2000) | (df["year"] == 2005)]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap


10. 'Korea, Rep.', 'Japan', 'China' 세 국가의 2000년 이후 데이터를 선택하세요.

In [182]:
Korea = df["country"] == "Korea, Rep."
Japan = df["country"] == "Japan"
China = df["country"] == "China"
df[(Korea | Japan | China) & (df["year"]>2000)]

df[df['country'].isin(['Korea, Rep.', 'Japan', 'China']) & (df['year'] >= 2000)]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
298,China,Asia,2002,72.028,1280400000,3119.280896
299,China,Asia,2007,72.961,1318683096,4959.114854
802,Japan,Asia,2002,82.0,127065841,28604.5919
803,Japan,Asia,2007,82.603,127467972,31656.06806
850,"Korea, Rep.",Asia,2002,77.045,47969150,19233.98818
851,"Korea, Rep.",Asia,2007,78.623,49044790,23348.13973


Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
