# Pandas
파이썬의 판다스(Pandas)는 데이터 분석 및 조작을 위한 고성능 라이브러리입니다. 판다스는 특히 구조화된 데이터를 다루는 데 유용하며, 시리즈(Series)와 데이터프레임(DataFrame)이라는 두 가지 주요 데이터 구조를 제공합니다. 이 데이터 구조들은 서로 통합되어 복잡한 데이터 분석 작업을 쉽게 수행할 수 있게 합니다.

## 시리즈(Series)
파이썬의 판다스 라이브러리에서 시리즈(Series)는 1차원 배열 형태의 자료구조로, 인덱스를 함께 제공하여 데이터 분석을 용이하게 해줍니다. 시리즈는 데이터프레임의 열(column)을 구성하는 기본 단위이기도 합니다. 시리즈는 Numpy 배열과 유사하지만, 인덱스를 명시적으로 지정할 수 있어 데이터에 대한 접근 및 조작이 더욱 편리합니다.

### 시리즈 생성
시리즈는 다양한 방법으로 생성할 수 있습니다. 기본적인 생성 방법은 리스트, 딕셔너리, 스칼라 값을 이용하는 것입니다.

In [5]:
import pandas as pd
box = [1, 3, 5, 4, 2]

s = pd.Series(box, index = ['가', '나', '다', '라', '마'])
s * 5

가     5
나    15
다    25
라    20
마    10
dtype: int64

In [6]:
dic = {'A' : 1, 'B' : 3, 'C' : 2}
s = pd.Series(dic)
s

A    1
B    3
C    2
dtype: int64

### 시리즈 속성
시리즈는 여러 속성을 통해 데이터에 접근할 수 있습니다.

In [19]:
box = [1, 3, 5, 4, 2]
s = pd.Series(box)
s.values

array([1, 3, 5, 4, 2], dtype=int64)

In [9]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
s.dtype

dtype('int64')

### 시리즈 연산
시리즈는 벡터화 연산을 지원하여 Numpy 배열처럼 각 요소에 대해 연산을 수행할 수 있습니다.

In [11]:
s*3

0     3
1     9
2    15
3    12
4     6
dtype: int64

In [13]:
# 같은 행이름끼리 연산을 한다.
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([1, 2, 3], index=[1, 'B', 'C'])
s1 + s2

0    NaN
1    3.0
2    NaN
B    NaN
C    NaN
dtype: float64

### 시리즈 인덱싱 및 슬라이싱
시리즈는 인덱스를 이용해 데이터를 선택하고 슬라이싱할 수 있습니다.

In [28]:

s[0]

1

In [26]:
# 시리즈는 슬라이싱 및 인덱싱에 리스트를 사용할 수 있다.
s[[0, 2]]

0    1
2    5
dtype: int64

In [25]:
s[1:3]

1    3
2    5
dtype: int64

### 시리즈의 주요 메서드
시리즈는 다양한 메서드를 통해 데이터 분석과 조작을 쉽게 할 수 있습니다.

In [41]:
# 평균구하기
s.mean()

3.0

In [42]:
# 중앙값 구하기
s.median()

3.0

In [32]:
# 최대값, 최소값
s.min(), s.max()

(1, 5)

In [35]:
# 합계
s.sum()

15

In [36]:
s2 = pd.Series(['가', '가', '나', '나', '나', '다'])

In [38]:
# 빈도분석
s2.value_counts()

나    3
가    2
다    1
Name: count, dtype: int64

### 시리즈를 이용한 데이터 조작
시리즈를 이용하여 데이터 조작도 쉽게 할 수 있습니다.

In [43]:
# 값 변경
s[0] = 10
s

0    10
1     3
2     5
3     4
4     2
dtype: int64

In [45]:
# 값 추가
s[5] = 10
s

0    10
1     3
2     5
3     4
4     2
5    10
dtype: int64

## 데이터프레임(DataFrame)
판다스의 데이터프레임(DataFrame)은 2차원 데이터 구조로, 행(row)과 열(column)로 구성되어 있습니다. 데이터프레임은 엑셀 스프레드시트와 유사한 형태를 가지고 있으며, 각 열은 서로 다른 데이터 타입을 가질 수 있습니다. 데이터프레임은 판다스에서 가장 많이 사용되는 데이터 구조로, 데이터 분석 및 조작을 쉽게 할 수 있도록 다양한 기능을 제공합니다.

### 데이터프레임 생성
* 리스트를 이용한 생성

In [47]:
import pandas as pd

data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'San Francisco'],
    ['Charlie', 35, 'Los Angeles']
]

df = pd.DataFrame(data, columns = ['이름', '나이', '사는곳'])
df

Unnamed: 0,이름,나이,사는곳
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles


* 딕셔너리를 이용한 생성

In [48]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'San Francisco', 'Los Angeles']
}

df = pd.DataFrame(data)
df


Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles


### 데이터프레임 속성
데이터프레임의 주요 속성들을 통해 데이터에 대한 다양한 정보를 얻을 수 있습니다.

In [62]:
# 데이터 불러오기
my_csv = pd.read_csv("concat_1.csv", sep=",")
my_csv

my_tsv = pd.read_csv("gapminder.tsv", sep="\t")

df = my_tsv
type(my_tsv['lifeExp'][4])

numpy.float64

In [67]:
# groupby 함수에는 리스트로 여러 인자를 넣을 수 있다.
a = df.groupby(["year", "continent"])["lifeExp"].mean()
a

year  continent
1952  Africa       39.135500
      Americas     53.279840
      Asia         46.314394
      Europe       64.408500
      Oceania      69.255000
1957  Africa       41.266346
      Americas     55.960280
      Asia         49.318544
      Europe       66.703067
      Oceania      70.295000
1962  Africa       43.319442
      Americas     58.398760
      Asia         51.563223
      Europe       68.539233
      Oceania      71.085000
1967  Africa       45.334538
      Americas     60.410920
      Asia         54.663640
      Europe       69.737600
      Oceania      71.310000
1972  Africa       47.450942
      Americas     62.394920
      Asia         57.319269
      Europe       70.775033
      Oceania      71.910000
1977  Africa       49.580423
      Americas     64.391560
      Asia         59.610556
      Europe       71.937767
      Oceania      72.855000
1982  Africa       51.592865
      Americas     66.228840
      Asia         62.617939
      Europe       72.80640

In [68]:
#엑셀로 바꾸는 함수
a.to_excel("result.xlsx")

In [75]:
# 고유값확인
a = df.groupby("continent")["country"].unique()
a

continent
Africa      [Algeria, Angola, Benin, Botswana, Burkina Fas...
Americas    [Argentina, Bolivia, Brazil, Canada, Chile, Co...
Asia        [Afghanistan, Bahrain, Bangladesh, Cambodia, C...
Europe      [Albania, Austria, Belgium, Bosnia and Herzego...
Oceania                              [Australia, New Zealand]
Name: country, dtype: object

In [77]:
# 고유값 카운트하기
a = df.groupby("continent")["country"].nunique()
a

continent
Africa      52
Americas    25
Asia        33
Europe      30
Oceania      2
Name: country, dtype: int64

### 데이터프레임 데이터 접근 및 조작
* 특정 열 선택

In [79]:
df[["country", "year"]]

Unnamed: 0,country,year
0,Afghanistan,1952
1,Afghanistan,1957
2,Afghanistan,1962
3,Afghanistan,1967
4,Afghanistan,1972
...,...,...
1699,Zimbabwe,1987
1700,Zimbabwe,1992
1701,Zimbabwe,1997
1702,Zimbabwe,2002


* 특정 행 선택

In [85]:
# 특정 행렬 선택
# loc : 이름으로 접근하는 방법
# iloc : 순서로 접근하는 방법
df.loc[[0, 10, 100, 1000], ["country", "year"]]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [88]:
df.iloc[[0, 10, 100, 1000], [0, 2]]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [92]:
# loc는 슬라이싱도 먹네?
df.loc[2:9, ["country", "year"]]
df.iloc[::2 ,[0,2]]

Unnamed: 0,country,year
0,Afghanistan,1952
2,Afghanistan,1962
4,Afghanistan,1972
6,Afghanistan,1982
8,Afghanistan,1992
...,...,...
1694,Zimbabwe,1962
1696,Zimbabwe,1972
1698,Zimbabwe,1982
1700,Zimbabwe,1992


* 조건에 따른 필터링

In [98]:
A = df['lifeExp'] >= 50
B = df['continent'] == "Asia"
# 교집합과 합집합을 이용하여 조건에 Where 절을 건다.
df[A & B]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
84,Bahrain,Asia,1952,50.939,120447,9867.084765
85,Bahrain,Asia,1957,53.832,138655,11635.799450
86,Bahrain,Asia,1962,56.923,171863,12753.275140
87,Bahrain,Asia,1967,59.923,202182,14804.672700
88,Bahrain,Asia,1972,63.300,230800,18268.658390
...,...,...,...,...,...,...
1675,"Yemen, Rep.",Asia,1987,52.922,11219340,1971.741538
1676,"Yemen, Rep.",Asia,1992,55.599,13367997,1879.496673
1677,"Yemen, Rep.",Asia,1997,58.020,15826497,2117.484526
1678,"Yemen, Rep.",Asia,2002,60.308,18701257,2234.820827


In [106]:
A = df['continent'] == "Asia"
B = df['continent'] == "Africa"
C = df['continent'] == "Europe"
df[A | B | C]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [108]:
# isin 함수를 사용해서 여러개의 조건을 걸 수 있다.
A = df['continent'].isin(['Africa', 'Asia', 'Europe'])
df[A]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [113]:
# 나라이름에 대문자 K가 들어가는 경우
A = df['country'].str.contains("Korea")
df[A]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
828,"Korea, Dem. Rep.",Asia,1952,50.056,8865488,1088.277758
829,"Korea, Dem. Rep.",Asia,1957,54.081,9411381,1571.134655
830,"Korea, Dem. Rep.",Asia,1962,56.656,10917494,1621.693598
831,"Korea, Dem. Rep.",Asia,1967,59.942,12617009,2143.540609
832,"Korea, Dem. Rep.",Asia,1972,63.983,14781241,3701.621503
833,"Korea, Dem. Rep.",Asia,1977,67.159,16325320,4106.301249
834,"Korea, Dem. Rep.",Asia,1982,69.1,17647518,4106.525293
835,"Korea, Dem. Rep.",Asia,1987,70.647,19067554,4106.492315
836,"Korea, Dem. Rep.",Asia,1992,69.978,20711375,3726.063507
837,"Korea, Dem. Rep.",Asia,1997,67.727,21585105,1690.756814


* 데이터 추가 및 수정

In [121]:
# 새로운 열의 추가
df["N"] = [i for i in range(1704)]
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,N
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,0
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,1
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,2
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,3
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,4
...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,1699
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,1700
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,1701
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,1702


* 데이터 삭제

In [122]:
del df["N"]
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [124]:
df.loc[0, "lifeExp"] = 29
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,llifeExp
0,Afghanistan,Asia,1952,29.000,8425333,779.445314,29.0
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,
...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,


### 데이터프레임의 주요 메서드
데이터프레임은 다양한 메서드를 통해 데이터를 분석하고 조작할 수 있습니다.

In [127]:
# 누락 값, 데이터 타입, 평균이 정확한지
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


In [128]:
# 요약 통계값
df.describe()

Unnamed: 0,year,lifeExp,pop,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,59.474556,29601210.0,7215.327081
std,17.26533,12.916831,106157900.0,9857.454543
min,1952.0,23.599,60011.0,241.165876
25%,1965.75,48.198,2793664.0,1202.060309
50%,1979.5,60.7125,7023596.0,3531.846988
75%,1993.25,70.8455,19585220.0,9325.462346
max,2007.0,82.603,1318683000.0,113523.1329


In [133]:
# 위부터 보기, 아래부터 보기
df.head(100)
df.tail()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


## 연습문제
1. 데이터프레임에서 'country' 열만 선택하여 출력하세요.

In [134]:
df["country"]

0       Afghanistan
1       Afghanistan
2       Afghanistan
3       Afghanistan
4       Afghanistan
           ...     
1699       Zimbabwe
1700       Zimbabwe
1701       Zimbabwe
1702       Zimbabwe
1703       Zimbabwe
Name: country, Length: 1704, dtype: object

2. 데이터프레임에서 'country', 'year' 열을 선택하여 출력하세요.

In [135]:
df[["country", "year"]]

Unnamed: 0,country,year
0,Afghanistan,1952
1,Afghanistan,1957
2,Afghanistan,1962
3,Afghanistan,1967
4,Afghanistan,1972
...,...,...
1699,Zimbabwe,1987
1700,Zimbabwe,1992
1701,Zimbabwe,1997
1702,Zimbabwe,2002


3. 데이터프레임에서 'gdpPercap' 열의 처음 10개 값을 선택하여 출력하세요.

In [136]:
df["gdpPercap"].head(10)

0    779.445314
1    820.853030
2    853.100710
3    836.197138
4    739.981106
5    786.113360
6    978.011439
7    852.395945
8    649.341395
9    635.341351
Name: gdpPercap, dtype: float64

4. 데이터프레임에서 첫 번째 행을 선택하여 출력하세요.

In [140]:
df.iloc[0]

country      Afghanistan
continent           Asia
year                1952
lifeExp             29.0
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

5. 데이터프레임에서 마지막 행을 선택하여 출력하세요.

In [160]:
df.tail(1)

df.iloc[-1]


country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object

6. 'continent'가 'Asia'인 행들을 필터링하여 출력하세요.

In [144]:
A = df['continent'] == 'Asia'
df[A]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,29.000,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1675,"Yemen, Rep.",Asia,1987,52.922,11219340,1971.741538
1676,"Yemen, Rep.",Asia,1992,55.599,13367997,1879.496673
1677,"Yemen, Rep.",Asia,1997,58.020,15826497,2117.484526
1678,"Yemen, Rep.",Asia,2002,60.308,18701257,2234.820827


7. 'continent'가 'Europe'이고 'year'가 2007인 행들을 필터링하여 출력하세요.

In [146]:
A = df['continent'] == 'Europe'
B = df['year'] == 2007
df[A & B]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
23,Albania,Europe,2007,76.423,3600523,5937.029526
83,Austria,Europe,2007,79.829,8199783,36126.4927
119,Belgium,Europe,2007,79.441,10392226,33692.60508
155,Bosnia and Herzegovina,Europe,2007,74.852,4552198,7446.298803
191,Bulgaria,Europe,2007,73.005,7322858,10680.79282
383,Croatia,Europe,2007,75.748,4493312,14619.22272
407,Czech Republic,Europe,2007,76.486,10228744,22833.30851
419,Denmark,Europe,2007,78.332,5468120,35278.41874
527,Finland,Europe,2007,79.313,5238460,33207.0844
539,France,Europe,2007,80.657,61083916,30470.0167


8. 'country'가 'India' 또는 'China'인 행들 중 'lifeExp'가 50보다 큰 행들을 필터링하여 출력하세요.

In [148]:
A = df["country"].isin(["India", "China"])
B = df["lifeExp"] > 50
df[A & B]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
289,China,Asia,1957,50.54896,637408000,575.987001
291,China,Asia,1967,58.38112,754550000,612.705693
292,China,Asia,1972,63.11888,862030000,676.900092
293,China,Asia,1977,63.96736,943455000,741.23747
294,China,Asia,1982,65.525,1000281000,962.421381
295,China,Asia,1987,67.274,1084035000,1378.904018
296,China,Asia,1992,68.69,1164970000,1655.784158
297,China,Asia,1997,70.426,1230075000,2289.234136
298,China,Asia,2002,72.028,1280400000,3119.280896
299,China,Asia,2007,72.961,1318683096,4959.114854


9. 'year'가 'year'의 평균값보다 큰 행들만 출력하세요.

In [151]:
A = df['year'] > df['year'].mean()
print(df['year'].mean())

df[A]

1979.5


Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


10. 'year'가 1980보다 큰 데이터의 'pop' 열의 중앙값을 구하세요.

In [155]:
A = df['year'] > 1980
df[A]["pop"].median()

9193947.5