# 판다스 데이터 분석
판다스(Pandas)는 Python 프로그래밍 언어를 위한 오픈 소스 라이브러리로, 데이터 조작 및 분석에 특화되어 있습니다. 판다스는 특히 정형 데이터 처리에 유용한 두 가지 주요 자료구조를 제공합니다: 시리즈(Series)와 데이터프레임(DataFrame).

* 시리즈(Series): 시리즈는 1차원 배열과 같은 자료구조로, 동일한 데이터 유형의 값들을 저장합니다. 각 값에는 인덱스가 지정되어 있어 배열의 위치나 레이블을 사용하여 값에 액세스할 수 있습니다.
* 데이터프레임(DataFrame): 데이터프레임은 2차원 테이블 형태의 자료구조로, 열마다 다른 데이터 유형을 가질 수 있습니다. 데이터프레임은 데이터 분석 및 처리에 자주 사용되며, 행과 열에 레이블이 지정된 엑셀 스프레드시트와 유사한 구조를 가지고 있습니다.

## 데이터 다루기
* 데이터 적재 및 저장: 다양한 파일 형식(CSV, Excel, JSON, SQL 등)으로부터 데이터를 읽고 쓸 수 있습니다.
* 데이터 전처리: 결측치 처리, 데이터 정렬, 열이나 행의 선택 및 필터링, 데이터 병합 등 다양한 데이터 전처리 기능을 제공합니다.
* 데이터 집계 및 변환: 그룹화, 피벗 테이블 생성, 통계 요약 등 다양한 데이터 집계 및 변환 기능을 제공합니다.

### 데이터 불러오기
#### csv 파일 불러오기

In [2]:
import pandas as pd

df = pd.read_csv("data/concat_1.csv")
df

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


#### excel 파일 불러오기 
* 경우에 따라 sheet_name을 지정해주어야 함

In [4]:
df = pd.read_excel("data/직원 정보.xlsx", sheet_name = "Sheet1")
df

Unnamed: 0,순번,성,이름,영문명,사원번호,주소,전화번호
0,1,김,철수,kim cheolsu,2005-1478345,강서구 공항로 20455,010-1000-8735
1,2,박,종수,park jongsu,2010-1345972,강서구 대저중앙로 3009,010-1000-8736
2,3,김,하나,kim hana,2012-1487234,강서구 하덕로 1002,010-1000-8737
3,4,이,백만,lee baekman,2001-3747234,기장군 기장읍 연화100길,010-1000-8738
4,5,백,오십,baek osip,2002-4972944,기장군 기장읍 차성로,010-1000-8739
5,6,영웅,재준,youngwoong jaejun,2011-2382747,기장군 기장읍 기장해안로,010-1000-8740
6,7,현,빈,hyun bin,2000-2395634,남구 지게골로 10-2,010-1000-8741
7,8,장,하나,jang hana,2015-1626816,동래구 온천장로107-100,010-1000-8742
8,9,유,두울,yoo dooul,2016-4323930,동래구 동래로116,010-1000-8743
9,10,채,일,chae il,2012-3967845,북구 효열로 2502,010-1000-8744


#### tsv 파일 불러오기
* tsv 파일은 데이터가 탭으로 구분되어 있으며, csv 파일은 데이터가 콤마(,)로 구분되어 있습니다.

In [6]:
df = pd.read_csv("data/gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### json 파일 불러오기
* JSON (JavaScript Object Notation) 파일은 가벼운 데이터 교환 형식으로, 사람이 읽고 쓰기 쉽고 기계가 해석하고 생성하기 쉬운 텍스트 형식입니다. JSON은 속성-값 쌍의 집합으로 이루어진 데이터 객체를 저장하며, 파일 확장자는 ".json"으로 표시됩니다. 원래 JavaScript에서 사용되었지만, 현재는 여러 프로그래밍 언어에서도 사용되는 일반적인 데이터 형식입니다.

In [7]:
df = pd.read_json("data/example.json")
df

Unnamed: 0,employees
0,"{'name': 'John Doe', 'position': 'Software Eng..."
1,"{'name': 'Jane Smith', 'position': 'Data Analy..."
2,"{'name': 'Michael Brown', 'position': 'Project..."


### 데이터 저장하기

In [8]:
df = pd.read_csv("data/gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### 엑셀 파일로 데이터프레임 저장하기

In [9]:
df.to_excel("result.xlsx")

In [10]:
df.to_excel("result.xlsx", index=False)

#### csv 파일로 데이터프레임 저장하기

In [11]:
df.to_csv("result.csv")

In [12]:
df.to_csv("result.csv", index=False)

#### pickle 파일로 데이터프레임 저장하기  
* pickle 파일을 불러올 때는 pandas의 read_pickle() 함수를 사용해야 합니다.

In [13]:
df.to_pickle("result.pickle")

### 시리즈 만들기
* 시리즈(Series)는 1차원 배열 형태의 데이터 구조로, 데이터와 함께 인덱스가 존재합니다.

#### 리스트로 시리즈 만들기

In [3]:
data = [3, 5, 7, 9]
series = pd.Series(data)
print(series)

0    3
1    5
2    7
3    9
dtype: int64


#### 튜플로 시리즈 만들기

In [4]:
data = (3, 5, 7, 9)
series = pd.Series(data)
print(series)

0    3
1    5
2    7
3    9
dtype: int64


#### 딕셔너리로 시리즈 만들기

In [5]:
data = {'a': 3, 'b': 5, 'c': 7, 'd': 9}
series = pd.Series(data)
print(series)

a    3
b    5
c    7
d    9
dtype: int64


#### 시리즈에 인덱스 설정하기

In [6]:
data = [3, 5, 7, 9]
index = ['a', 'b', 'c', 'd']
series = pd.Series(data, index=index)
print(series)

a    3
b    5
c    7
d    9
dtype: int64


### 데이터프레임 만들기
#### 딕셔너리를 사용하여 데이터프레임 생성하기

In [7]:
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 40],
    'city': ['New York', 'San Francisco', 'Los Angeles', 'Seattle']
}

df = pd.DataFrame(data)
print(df)

      name  age           city
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles
3    David   40        Seattle


#### 리스트를 사용하여 데이터프레임 생성하기

In [8]:
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'San Francisco'],
    ['Charlie', 35, 'Los Angeles'],
    ['David', 40, 'Seattle']
]

columns = ['name', 'age', 'city']

df = pd.DataFrame(data, columns=columns)
print(df)

      name  age           city
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles
3    David   40        Seattle


#### 데이터프레임에 인덱스 설정하기

In [9]:
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 40],
    'city': ['New York', 'San Francisco', 'Los Angeles', 'Seattle']
}

index = ['a', 'b', 'c', 'd']

df = pd.DataFrame(data, index=index)
print(df)

      name  age           city
a    Alice   25       New York
b      Bob   30  San Francisco
c  Charlie   35    Los Angeles
d    David   40        Seattle


### 실습문제
#### 1. 시리즈 생성하기  
* 리스트 [3, 7, 11, 15]를 사용하여 시리즈를 생성하고 출력하세요.

#### 2. 사용자 지정 인덱스를 가진 시리즈 생성하기  
* 리스트 [4, 8, 12, 16]와 인덱스 레이블 ['a', 'b', 'c', 'd']를 사용하여 시리즈를 생성하고 출력하세요.

#### 3. 데이터프레임 생성하기  
* 다음과 같은 딕셔너리를 사용하여 데이터프레임을 생성하고 출력하세요.

In [None]:
data = {
    'subject': ['Math', 'Science', 'English', 'History'],
    'score': [90, 85, 80, 75]
}

#### 4. 사용자 지정 인덱스와 열 이름을 가진 데이터프레임 생성하기  
* 다음과 같은 리스트를 사용하여 사용자 지정 인덱스와 열 이름을 가진 데이터프레임을 생성하고 출력하세요.

In [10]:
data = [
    ['Liam', 'A', 30],
    ['Emma', 'B', 25],
    ['Noah', 'A', 20],
    ['Olivia', 'C', 22]
]

index = ['s1', 's2', 's3', 's4']
columns = ['name', 'class', 'age']

### 시리즈 전용 함수

In [12]:
df = pd.read_csv("data/gapminder.tsv", sep = '\t')
year = df['year']
year

0       1952
1       1957
2       1962
3       1967
4       1972
        ... 
1699    1987
1700    1992
1701    1997
1702    2002
1703    2007
Name: year, Length: 1704, dtype: int64

#### head(n)
* 시리즈의 처음 n개의 원소를 반환합니다 (기본값은 n=5).

In [13]:
year.head(3)

0    1952
1    1957
2    1962
Name: year, dtype: int64

#### tail(n)
* 시리즈의 마지막 n개의 원소를 반환합니다 (기본값은 n=5).

In [14]:
year.tail(3)

1701    1997
1702    2002
1703    2007
Name: year, dtype: int64

#### 평균, 최대값, 최소값, 중앙값, 표준편차 구하기
* mean, max, min, median, std 함수 등으로 표현이 가능합니다.

In [64]:
year.mean()

1979.5

In [65]:
year.max()

2007

In [66]:
year.min()

1952

In [67]:
year.median()

1979.5

In [68]:
year.std()

17.265329508973615

#### describe()
* 시리즈의 기술통계량 요약 정보를 반환합니다 (평균, 표준편차, 최소값, 최대값 등).

In [15]:
year.describe()

count    1704.00000
mean     1979.50000
std        17.26533
min      1952.00000
25%      1965.75000
50%      1979.50000
75%      1993.25000
max      2007.00000
Name: year, dtype: float64

#### unique()
* 시리즈에서 중복을 제거한 유일한 값들의 배열을 반환합니다.

In [16]:
year.unique()

array([1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, 2002,
       2007], dtype=int64)

#### nunique()
* 시리즈에서 중복을 제거한 유일한 값들의 개수를 반환합니다.

In [17]:
year.nunique()

12

#### value_counts()
* 시리즈 내 각 값들의 출현 빈도수를 반환합니다.

In [18]:
year.value_counts()

1952    142
1957    142
1962    142
1967    142
1972    142
1977    142
1982    142
1987    142
1992    142
1997    142
2002    142
2007    142
Name: year, dtype: int64

#### idxmax(), idxmin()
* 시리즈에서 최대값 최소값의 인덱스를 반환합니다.

In [19]:
year.idxmax()

11

In [20]:
year.idxmin()

0

#### sort_values(ascending=True)
* 시리즈를 값에 따라 오름차순(ascending=True) 또는 내림차순(ascending=False)으로 정렬합니다.

In [21]:
year.sort_values()

0       1952
528     1952
540     1952
1656    1952
552     1952
        ... 
1127    2007
1139    2007
1151    2007
1175    2007
1703    2007
Name: year, Length: 1704, dtype: int64

In [22]:
year.sort_values(ascending=False)

1703    2007
491     2007
515     2007
527     2007
539     2007
        ... 
1116    1952
1128    1952
1140    1952
1152    1952
852     1952
Name: year, Length: 1704, dtype: int64

#### map(function)
* 시리즈의 각 원소에 주어진 함수를 적용합니다.

In [23]:
year.map(lambda x : x ** 2)

0       3810304
1       3829849
2       3849444
3       3869089
4       3888784
         ...   
1699    3948169
1700    3968064
1701    3988009
1702    4008004
1703    4028049
Name: year, Length: 1704, dtype: int64

#### isin(values)
* 시리즈의 각 원소가 주어진 값들(values)에 포함되는지 여부를 불리언 시리즈로 반환합니다.

In [25]:
year.isin([1992, 1995, 2000])

0       False
1       False
2       False
3       False
4       False
        ...  
1699    False
1700     True
1701    False
1702    False
1703    False
Name: year, Length: 1704, dtype: bool

#### drop_duplicates()
* 시리즈에서 중복된 값을 제거한 시리즈를 반환합니다.

In [26]:
year.drop_duplicates()

0     1952
1     1957
2     1962
3     1967
4     1972
5     1977
6     1982
7     1987
8     1992
9     1997
10    2002
11    2007
Name: year, dtype: int64

### 데이터 프레임 전용 함수

In [27]:
df = pd.read_csv("data/gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### head(n)
* 데이터프레임의 처음 n개의 행을 반환합니다 (기본값은 n=5).

In [28]:
df.head(3)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071


#### tail(n)
* 데이터프레임의 마지막 n개의 행을 반환합니다 (기본값은 n=5).

In [29]:
df.tail(3)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


#### 평균, 최대값, 최소값, 중앙값, 표준편차 구하기
* mean, max, min, median, std 함수 등으로 표현이 가능합니다.

In [69]:
df.mean()

  df.mean()


year         1.979500e+03
lifeExp      5.947444e+01
pop          2.960121e+07
gdpPercap    7.215327e+03
dtype: float64

In [70]:
df.median()

  df.median()


year         1.979500e+03
lifeExp      6.071250e+01
pop          7.023596e+06
gdpPercap    3.531847e+03
dtype: float64

In [71]:
df.max()

country         Zimbabwe
continent        Oceania
year                2007
lifeExp           82.603
pop           1318683096
gdpPercap    113523.1329
dtype: object

In [72]:
df.min()

country      Afghanistan
continent         Africa
year                1952
lifeExp           23.599
pop                60011
gdpPercap     241.165876
dtype: object

In [73]:
df.std()

  df.std()


year         1.726533e+01
lifeExp      1.291711e+01
pop          1.061579e+08
gdpPercap    9.857455e+03
dtype: float64

#### describe()
* 데이터프레임의 각 열에 대한 기술통계량 요약 정보를 반환합니다 (평균, 표준편차, 최소값, 최대값 등).

In [30]:
df.describe()

Unnamed: 0,year,lifeExp,pop,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,59.474439,29601210.0,7215.327081
std,17.26533,12.917107,106157900.0,9857.454543
min,1952.0,23.599,60011.0,241.165876
25%,1965.75,48.198,2793664.0,1202.060309
50%,1979.5,60.7125,7023596.0,3531.846988
75%,1993.25,70.8455,19585220.0,9325.462346
max,2007.0,82.603,1318683000.0,113523.1329


#### info()
* 데이터프레임의 간략한 정보를 출력합니다 (행과 열의 개수, 각 열의 데이터 형식 및 비어있지 않은 값의 개수 등).

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 66.6+ KB


#### shape
* 데이터프레임의 행과 열의 개수를 튜플로 반환합니다 (예: (4, 3)).

In [32]:
df.shape

(1704, 6)

#### columns
* 데이터프레임의 열 이름들을 반환합니다.

In [33]:
df.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

#### index
* 데이터프레임의 인덱스를 반환합니다.

In [34]:
df.index

RangeIndex(start=0, stop=1704, step=1)

#### sort_values(by, ascending=True)
* 데이터프레임을 주어진 열(by)을 기준으로 오름차순(ascending=True) 또는 내림차순(ascending=False)으로 정렬합니다.

In [37]:
df.sort_values(by='year')

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
528,France,Europe,1952,67.410,42459667,7029.809327
540,Gabon,Africa,1952,37.003,420702,4293.476475
1656,West Bank and Gaza,Asia,1952,43.160,1030585,1515.592329
552,Gambia,Africa,1952,30.000,284320,485.230659
...,...,...,...,...,...,...
1127,Niger,Africa,2007,56.867,12894865,619.676892
1139,Nigeria,Africa,2007,46.859,135031164,2013.977305
1151,Norway,Europe,2007,80.196,4627926,49357.190170
1175,Pakistan,Asia,2007,65.483,169270617,2605.947580


In [38]:
df.sort_values(by='year', ascending=False)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298
491,Equatorial Guinea,Africa,2007,51.579,551201,12154.089750
515,Ethiopia,Africa,2007,52.947,76511887,690.805576
527,Finland,Europe,2007,79.313,5238460,33207.084400
539,France,Europe,2007,80.657,61083916,30470.016700
...,...,...,...,...,...,...
1116,Niger,Africa,1952,37.444,3379468,761.879376
1128,Nigeria,Africa,1952,36.324,33119096,1077.281856
1140,Norway,Europe,1952,72.670,3327728,10095.421720
1152,Oman,Asia,1952,37.578,507833,1828.230307


#### sort_index(axis, ascending=True)
* 데이터프레임을 인덱스에 따라 오름차순(ascending=True) 또는 내림차순(ascending=False)으로 정렬합니다.

In [41]:
df.sort_index()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [42]:
df.sort_index(ascending=False)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
...,...,...,...,...,...,...
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
1,Afghanistan,Asia,1957,30.332,9240934,820.853030


#### rename(columns=mapping)
* 데이터프레임의 열 이름을 주어진 매핑(mapping)에 따라 변경한 데이터프레임을 반환합니다.

In [43]:
df.rename(columns={'year': 'years'})

Unnamed: 0,country,continent,years,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### drop(labels, axis)
* 데이터프레임에서 주어진 행(axis=0) 또는 열(axis=1) 레이블을 삭제한 데이터프레임을 반환합니다.

In [44]:
df.drop(labels=['year'], axis=1)

Unnamed: 0,country,continent,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,28.801,8425333,779.445314
1,Afghanistan,Asia,30.332,9240934,820.853030
2,Afghanistan,Asia,31.997,10267083,853.100710
3,Afghanistan,Asia,34.020,11537966,836.197138
4,Afghanistan,Asia,36.088,13079460,739.981106
...,...,...,...,...,...
1699,Zimbabwe,Africa,62.351,9216418,706.157306
1700,Zimbabwe,Africa,60.377,10704340,693.420786
1701,Zimbabwe,Africa,46.809,11404948,792.449960
1702,Zimbabwe,Africa,39.989,11926563,672.038623


In [46]:
df.drop([3,4,5], axis=0)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


### 실습문제
#### 1. 시리즈 생성 및 기술통계량 확인하기
* 리스트 [4, 9, 2, 7, 5, 10, 8]를 사용하여 시리즈를 생성하고, 기술통계량 요약 정보를 출력하세요.

#### 2. 시리즈 값 정렬하기
* 리스트 [4, 9, 2, 7, 5, 10, 8]를 사용하여 시리즈를 생성하고, 값을 오름차순으로 정렬한 후 출력하세요.

#### 3. 데이터프레임 생성 및 특정 열의 평균 구하기
* 아래 딕셔너리를 사용하여 데이터프레임을 생성하고, 'score' 열의 평균을 구하세요.

In [48]:
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'score': [90, 85, 80, 92]
}

#### 4. 데이터프레임에서 특정 열의 중복값 제거하기
* 아래 딕셔너리를 사용하여 데이터프레임을 생성하고, 'class' 열에서 중복된 값을 제거한 후 출력하세요.

In [49]:
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'class': ['A', 'B', 'A', 'B']
}

#### 5. 데이터프레임에서 특정 열의 값에 따라 행 정렬하기
* 아래 딕셔너리를 사용하여 데이터프레임을 생성하고, 'age' 열 값을 기준으로 오름차순으로 정렬한 후 출력하세요.

In [50]:
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 29]
}

### 데이트프레임에서 열 선택하기

In [51]:
df = pd.read_csv("data/gapminder.tsv", sep = '\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### 1개의 시리즈 선택하기

In [52]:
df['country']

0       Afghanistan
1       Afghanistan
2       Afghanistan
3       Afghanistan
4       Afghanistan
           ...     
1699       Zimbabwe
1700       Zimbabwe
1701       Zimbabwe
1702       Zimbabwe
1703       Zimbabwe
Name: country, Length: 1704, dtype: object

#### 여러개의 시리즈 선택하기

In [53]:
df[['country', 'year']]

Unnamed: 0,country,year
0,Afghanistan,1952
1,Afghanistan,1957
2,Afghanistan,1962
3,Afghanistan,1967
4,Afghanistan,1972
...,...,...
1699,Zimbabwe,1987
1700,Zimbabwe,1992
1701,Zimbabwe,1997
1702,Zimbabwe,2002


### 데이터프레임 행, 열에 접근하기
* loc : 이름으로 접근
* iloc : 순서로 접근

In [56]:
df.loc[0]

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

In [57]:
df.iloc[0]

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

In [58]:
df.loc[[0, 10, 100, 1000]]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
100,Bangladesh,Asia,1972,45.252,70759295,630.233627
1000,Mongolia,Asia,1972,53.754,1320500,1421.741975


In [59]:
df.iloc[[0, 10, 100, 1000]]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
100,Bangladesh,Asia,1972,45.252,70759295,630.233627
1000,Mongolia,Asia,1972,53.754,1320500,1421.741975


In [60]:
df.loc[[0, 10, 100, 1000], ['country', 'year']]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


In [61]:
df.iloc[[0, 10, 100, 1000], [0, 2]]

Unnamed: 0,country,year
0,Afghanistan,1952
10,Afghanistan,2002
100,Bangladesh,1972
1000,Mongolia,1972


### 원하는 행만 추출하기
* year의 값이 2000이상인 값만 추출하기

In [62]:
df[df['year'] >= 2000]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
11,Afghanistan,Asia,2007,43.828,31889923,974.580338
22,Albania,Europe,2002,75.651,3508512,4604.211737
23,Albania,Europe,2007,76.423,3600523,5937.029526
34,Algeria,Africa,2002,70.994,31287142,5288.040382
...,...,...,...,...,...,...
1679,"Yemen, Rep.",Asia,2007,62.698,22211743,2280.769906
1690,Zambia,Africa,2002,39.193,10595811,1071.613938
1691,Zambia,Africa,2007,42.384,11746035,1271.211593
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


* year의 값이 year의 값의 평균보다 큰 행만 추출하기

In [63]:
df[df['year'] > df['year'].mean()]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


#### 2가지 이상의 조건을 줄 때
* 조건을 모두 만족해야하는 경우

In [74]:
condition1 = df['year'] >= df['year'].mean()
condition2 = df['lifeExp'] > 50
filtered_df = df[condition1 & condition2]
filtered_df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
18,Albania,Europe,1982,70.420,2780097,3630.880722
19,Albania,Europe,1987,72.000,3075321,3738.932735
20,Albania,Europe,1992,71.581,3326498,2497.437901
21,Albania,Europe,1997,72.950,3428038,3193.054604
22,Albania,Europe,2002,75.651,3508512,4604.211737
...,...,...,...,...,...,...
1686,Zambia,Africa,1982,51.821,6100407,1408.678565
1687,Zambia,Africa,1987,50.821,7272406,1213.315116
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306


* 조건 중 하나만 만족해도 되는 경우

In [75]:
condition1 = df['year'] >= df['year'].mean()
condition2 = df['lifeExp'] > 50
filtered_df = df[condition1 | condition2]
filtered_df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351
10,Afghanistan,Asia,2002,42.129,25268405,726.734055
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


### 실습문제

In [79]:
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Henry'],
        'Age': [25, 32, 28, 45, 23, 30, 29, 61],
        'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
        'Score': [78, 85, 96, 92, 76, 89, 93, 72]}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Gender,Score
0,Alice,25,F,78
1,Bob,32,M,85
2,Charlie,28,M,96
3,David,45,M,92
4,Eva,23,F,76
5,Frank,30,M,89
6,Grace,29,F,93
7,Henry,61,M,72


#### 'Age'가 30세 이상인 학생들의 정보를 필터링하세요.

#### 'Score'가 90점 이상인 학생들의 정보를 필터링하세요.

#### 'Gender'가 'M'이고, 'Age'가 40세 이상인 학생들의 정보를 필터링하세요.

#### 'Gender'가 'F'이고, 'Score'가 80점 미만인 학생들의 정보를 필터링하세요.

#### 'Age'가 25세 이상 35세 이하이며, 'Score'가 80점 이상인 학생들의 정보를 필터링하세요.

### crosstab, pivot_table
* crosstab : 두 개의 카테고리형 변수 간의 교차표(contingency table)를 생성하는 데 사용됩니다. 교차표는 변수 간의 빈도를 보여주며, 변수들 사이의 관계를 파악하는 데 도움이 됩니다.


* 데이터프레임에서 여러 열을 기준으로 데이터를 집계하고, 결과를 표 형태로 보여주는 데 사용됩니다. 이 함수는 피벗 테이블을 생성하는 데 유용하며, 엑셀과 유사한 기능을 제공합니다.

In [83]:
data = {'gender': ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F'],
        'product': ['A', 'B', 'A', 'B', 'B', 'A', 'A', 'B'],
        'price': [100, 120, 150, 180, 90, 110, 130, 200]}

df = pd.DataFrame(data)
df

Unnamed: 0,gender,product,price
0,M,A,100
1,F,B,120
2,M,A,150
3,F,B,180
4,M,B,90
5,F,A,110
6,M,A,130
7,F,B,200


In [84]:
crosstab_result = pd.crosstab(df['gender'], df['product'], margins=True)
crosstab_result

product,A,B,All
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,1,3,4
M,3,1,4
All,4,4,8


In [78]:
pivot_table_result = pd.pivot_table(df, values='price', index='gender', columns='product', aggfunc='mean')
pivot_table_result

product,A,B
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,110.0,166.666667
M,126.666667,90.0


### 실습문제

In [85]:
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Henry'],
        'Age': [25, 32, 28, 45, 23, 30, 29, 61],
        'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
        'Department': ['HR', 'IT', 'IT', 'HR', 'IT', 'HR', 'IT', 'HR'],
        'Salary': [5000, 5500, 6000, 7000, 4800, 5300, 5100, 8000]}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Gender,Department,Salary
0,Alice,25,F,HR,5000
1,Bob,32,M,IT,5500
2,Charlie,28,M,IT,6000
3,David,45,M,HR,7000
4,Eva,23,F,IT,4800
5,Frank,30,M,HR,5300
6,Grace,29,F,IT,5100
7,Henry,61,M,HR,8000


#### crosstab을 사용하여 'Gender'와 'Department' 열 간의 빈도를 계산하세요.

#### pivot_table을 사용하여 'Department'별 평균 'Salary'를 계산하세요.

In [87]:
df.pivot_table(index = 'Department', values = 'Salary', aggfunc='mean')

Unnamed: 0_level_0,Salary
Department,Unnamed: 1_level_1
HR,6325
IT,5350


#### pivot_table을 사용하여 'Gender'별 평균 'Age'를 계산하세요.

In [88]:
df.pivot_table(index = 'Gender', values = 'Age', aggfunc='mean')

Unnamed: 0_level_0,Age
Gender,Unnamed: 1_level_1
F,25.666667
M,39.2


#### pivot_table을 사용하여 'Gender'와 'Department'별 평균 'Salary'를 계산하세요.

In [89]:
df.pivot_table(index = 'Department', columns = "Gender", values = 'Salary', aggfunc='mean')

Gender,F,M
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
HR,5000.0,6766.666667
IT,4950.0,5750.0
