# data/gapminder.tsv 를 읽어 데이터 프레임 만들기

- pip install pandas
- import pandas as pd

In [None]:
import pandas as pd

# tab으로 구분된 gapminder.tsv 파일을 읽어서 데이터프레임 생성
df = pd.read_csv("data/gapminder.tsv", sep="\t")

# 데이터프레임 상위 5개 행 출력
print(df.head())


# 미리보기

### 데이터프레임 사용

**미리보기 기능 :** 데이터프레임에서 먼저 데이터의 구조와 내용을 빠르게 파악하기 위한 기능

- head(): 데이터프레임의 처음 5개 행을 보여준다 (매개변수로 다른 숫자 지정 가능)
- tail(): 데이터프레임의 마지막 5개 행을 보여준다
- info(): 데이터프레임의 기본 정보 (행/열 개수, 데이터 타입, 메모리 사용량 등)를 표시
- describe(): 수치형 열에 대한 요약 통계량 (평균, 표준편차, 최소/최대값 등)을 계산

In [None]:
import pandas as pd

df = pd.read_csv("data/gapminder.tsv", sep="\t")

# 1. 상위 5개 행 미리보기
# - head(): 데이터프레임의 처음 5개 행을 보여준다 (매개변수로 다른 숫자 지정 가능)
print(df.head())

# 2. 하위 5개 행 미리보기
# - tail(): 데이터프레임의 마지막 5개 행을 보여준다
print(df.tail())

# 3. 전체 shape(행/열 수) 확인

print(df.shape)  # (행 개수, 열 개수)

# 4. 열 이름만 보기
print(df.columns)

# 5. 간단한 통계 요약
# describe(): 수치형 열에 대한 요약 통계량 (평균, 표준편차, 최소/최대값 등)을 계산
print(df.describe())

# info(): 데이터프레임의 기본 정보 (행/열 개수, 데이터 타입, 메모리 사용량 등)를 표시
print(df.info())


# country 열 추출하기

In [None]:
df['country']

In [None]:
type(df["country"])  # pandas.core.series.Series


In [None]:
df.loc[:,'country']
# 나중에 조건 지정이 많아지면 df.loc[row, col] 형태로 넘어가게 돼.


# 'country', 'continent', 'year' 열 추출하기

In [None]:
df['continent']

In [None]:
# 방법 1: df[["열1", "열2", "열3"]] 방식 (가장 많이 씀)
df[["country", "continent", "year"]]

print(df[["country", "continent", "year"]].head())

In [None]:
df.iloc[0]

In [None]:
# 방법 2: .loc 사용
df.loc[:, ["country", "continent", "year"]]
# .loc는 행과 열을 동시에 다룰 수 있으니까, 조건 추가하고 싶을 때 유용해.

print(df[["country", "continent", "year"]].head())

# [0], [99] , [-1] 행을 각각 추출하기

In [None]:
# ✅ 특정 행 추출: .iloc[] 사용

# 0번째 행
print(df.iloc[0])

# 99번째 행
print(df.iloc[99])

# 마지막 행
print(df.iloc[-1])


In [None]:
# ✅ 여러 행을 동시에 추출하려면?
df_list = df.iloc[[0,99,-1]]

print(df.iloc[[0, 99, -1]])
type(df_list)

In [None]:
df_list1 = df.iloc[-1]
type(df_list1)

In [None]:
# 연도와 인구 10건 > 슬라이싱 > 서브셋

import pandas as pd

df = pd.read_csv("data/gapminder.tsv", sep="\t")

# 연도와 인구 서브셋 (열 선택)
subset = df[["year", "pop"]]

# 10건만 보기 (슬라이싱 또는 head)
print(subset.head(10))


In [None]:
#인구당gdp 마지막 10개 값 추출
df.iloc[-11:-1,5]

In [None]:
# range() 객체로 행/열 슬라이싱
hang = df.iloc[:, range(1,3)]
print("행 슬라이싱",hang)
yul = df.iloc[range(1,3),:]
print("열 슬라이싱",yul)

# 25.06.17(오후수업)

In [None]:
df['year'].value_counts()

In [None]:
# 'year' 열을 기준으로 데이터를 그룹화하고,
# 각 연도별로 'lifeExp' 열의 평균을 계산한다.
df.groupby('year')['lifeExp'].mean()


In [None]:
# 'year' 열을 기준으로 데이터를 그룹화한 후,
# 각 연도별로 'lifeExp' 열의 **최댓값**을 계산한다.
df.groupby('year')['lifeExp'].max()


In [None]:
# 'year' 열을 기준으로 데이터를 그룹화한 뒤,
# 각 연도 그룹에서 'lifeExp' 열을 선택하고,
# 각 그룹에서 상위 n개 (기본값 5개)를 반환한다.
# 이 경우에는 `.head()`만 쓰면 기본적으로 5개씩 보여준다.
df.groupby('year')['lifeExp'].head()


In [41]:
df.groupby(['year','continent'])[['lifeExp', 'gdpPercap']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,lifeExp,gdpPercap
year,continent,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,Africa,39.1355,1252.572466
1952,Americas,53.27984,4079.062552
1952,Asia,46.314394,5195.484004
1952,Europe,64.4085,5661.057435
1952,Oceania,69.255,10298.08565
1957,Africa,41.266346,1385.236062
1957,Americas,55.96028,4616.043733
1957,Asia,49.318544,5787.73294
1957,Europe,66.703067,6963.012816
1957,Oceania,70.295,11598.522455


In [42]:
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [49]:
# country, continent, year 집계 가능성
# 집계 후, mean(), max(), min() 실습해보기

# country, continent, year 기준으로 그룹화 가능 (복합 키로 그룹핑)
# 각 그룹에 대해 통계량(평균, 최댓값, 최솟값 등)을 계산할 수 있음

# 평균 수명(lifeExp)의 평균값
print("📌 평균 수명(lifeExp)의 평균값")
print(df.groupby(['country', 'continent', 'year'])['lifeExp'].mean())
print("\n" + "-"*50 + "\n")

# GDP의 최대값
print("📌 GDP의 최대값")
print(df.groupby(['country', 'continent', 'year'])['gdpPercap'].max())
print("\n" + "-"*50 + "\n")

# 기대 수명의 최솟값
print("📌 기대 수명의 최솟값")
print(df.groupby(['country', 'continent', 'year'])['lifeExp'].min())
print("\n" + "-"*50 + "\n")

# 여러 집계 함수 한 번에 쓰기 (agg)
print("📌 여러 통계량 한 번에 보기 (mean, max, min)")
print(df.groupby(['country', 'continent', 'year'])['lifeExp'].agg(['mean', 'max', 'min']))



📌 평균 수명(lifeExp)의 평균값
country      continent  year
Afghanistan  Asia       1952    28.801
                        1957    30.332
                        1962    31.997
                        1967    34.020
                        1972    36.088
                                 ...  
Zimbabwe     Africa     1987    62.351
                        1992    60.377
                        1997    46.809
                        2002    39.989
                        2007    43.487
Name: lifeExp, Length: 1704, dtype: float64

--------------------------------------------------

📌 GDP의 최대값
country      continent  year
Afghanistan  Asia       1952    779.445314
                        1957    820.853030
                        1962    853.100710
                        1967    836.197138
                        1972    739.981106
                                   ...    
Zimbabwe     Africa     1987    706.157306
                        1992    693.420786
                        1997    792.449

In [47]:
# 기대수명 평균이 가장 낮은 국가는? 대륙은?

# 국가별 기대수명 평균 계산
life_by_country = df.groupby('country')['lifeExp'].mean()

# 평균 기대수명이 가장 낮은 국가 찾기
life_by_country.sort_values().head(1)

# 대륙별 기대수명 평균 계산
life_by_continent = df.groupby('continent')['lifeExp'].mean()

# 평균 기대수명이 가장 낮은 대륙 찾기
life_by_continent.sort_values().head(1)


print("국가별기대수명", life_by_country)
print("==" * 30)
print("대륙별기대수명", life_by_continent)


국가별기대수명 country
Afghanistan           37.478833
Albania               68.432917
Algeria               59.030167
Angola                37.883500
Argentina             69.060417
                        ...    
Vietnam               57.479500
West Bank and Gaza    60.328667
Yemen, Rep.           46.780417
Zambia                45.996333
Zimbabwe              52.663167
Name: lifeExp, Length: 142, dtype: float64
대륙별기대수명 continent
Africa      48.865330
Americas    64.658737
Asia        60.064903
Europe      71.903686
Oceania     74.326208
Name: lifeExp, dtype: float64


continent
Africa    48.86533
Name: lifeExp, dtype: float64