# 판다스 데이터 분석
판다스는 Python 언어로 작성된 데이터 조작 및 분석 라이브러리입니다. 주요 데이터 구조로 데이터프레임(DataFrame)과 시리즈(Series)를 제공하며, 누락된 데이터 처리, 데이터 병합, 재색인 등 다양한 데이터 처리 기능을 지원합니다. 다양한 데이터 형식(CSV, 엑셀, SQL 데이터베이스 등)을 읽고 쓸 수 있습니다.

In [1]:
import pandas as pd

## 데이터 저장 및 불러오기
데이터를 불러오고 저장하는 작업은 데이터 분석에서 중요한 단계입니다. 판다스는 다양한 데이터 형식(CSV, Excel, SQL, JSON 등)을 지원하며, 이러한 형식의 데이터를 불러오거나 저장하는데 사용할 수 있는 기능을 제공합니다.

## 데이터 프레임 만들기
데이터 프레임은 판다스의 핵심 데이터 구조로서, 2차원 레이블이 붙은 데이터를 포함합니다. 각 데이터 프레임은 다양한 데이터 유형 (예: 정수, 실수, 문자열 등)을 포함할 수 있는 하나 이상의 열로 구성됩니다.

## 데이터프레임 행, 열 접근하기
데이터 프레임에서 특정 열을 선택하는 것은 데이터 분석에서 일반적으로 수행하는 작업입니다.
### 단일 열 접근하기
열 이름을 사용하여 데이터 프레임에서 단일 열을 선택할 수 있습니다.

In [6]:
data = {
    'name': ['John', 'Anna', 'Peter', 'Linda'],
    'age': [28, 24, 35, 32],
    'city': ['New York', 'Paris', 'Berlin', 'London']
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city
0,John,28,New York
1,Anna,24,Paris
2,Peter,35,Berlin
3,Linda,32,London


### 여러 열 접근하기
여러 열을 선택하려면, 열 이름의 리스트를 사용하면 됩니다.

### 시리즈 통계 함수
* count(): 시리즈에서 NA 값을 제외한 값의 수를 반환합니다.

* sum(): 시리즈의 합을 반환합니다.

* mean(): 시리즈의 평균을 반환합니다.

* median(): 시리즈의 중간값을 반환합니다.

* mode(): 시리즈의 최빈값을 반환합니다.

* std(): 시리즈의 표준편차를 반환합니다.

* min(), max(): 시리즈의 최소값, 최대값을 반환합니다.

* abs(): 시리즈의 각 요소의 절대값을 반환합니다.

* prod(): 시리즈의 값들의 곱을 반환합니다.

* var(): 시리즈의 분산을 반환합니다.

* describe(): 시리즈의 기술통계(평균, 표준편차, 최소값, 25%, 50%, 75% 백분위수, 최대값)를 반환합니다.

* quantile(q): 시리즈의 분위수를 계산합니다. q는 0과 1 사이의 분위수를 지정합니다.

* cumsum(): 시리즈의 누적 합계를 계산합니다.

* cumprod(): 시리즈의 누적 곱을 계산합니다.

* pct_change(): 시리즈에서 값 간의 퍼센트 변화를 계산합니다.

* corr(other), cov(other): 시리즈와 다른 시리즈 간의 상관계수, 공분산을 계산합니다.

### 행, 열 접근하기
특정 행, 열에 접근하는 방법에는 loc와 iloc가 있습니다.
* loc는 레이블 기반의 데이터 선택 방법으로, 레이블의 이름을 통해 값을 선택합니다.

* iloc는 정수 기반의 위치를 기반으로 값을 선택합니다. 즉, 행이나 열의 정수 인덱스를 통해 값을 선택합니다.

### 특정 조건의 행 접근하기
특정 조건을 만족하는 행을 선택하는 것은 pandas에서 자주 사용되는 테크닉입니다. 이를 수행하는 기본적인 방법은 불리언 인덱싱(Boolean Indexing)을 사용하는 것입니다. 이는 데이터프레임에 조건을 적용하여 True 또는 False로 구성된 불리언 시리즈를 생성하고, 이를 사용하여 True에 해당하는 행만 선택하는 방법입니다.

* 불리언 인덱싱으로 특정 조건의 행 접근하기

* 쿼리문을 사용하여 특정 조건의 행 접근하기

* isin() 함수를 활용하여 특정 값을 포함하는 행 접근하기

* .str.contains() 함수를 활용하여 특정 값이 포함된 행 접근하기

### 연습문제
```student.csv``` 파일을 불러와서 아래 문제들을 해결하세요.
1. 0번째 열을 선택하세요.

In [4]:
import pandas as pd

df = pd.read_csv("data/student.csv")
df.iloc[:, 0]

0     yllyn
1     gcvkk
2     pstei
3     hrbmo
4     nspni
      ...  
95    siedz
96    vrtke
97    lygeb
98    xvrsw
99    qcbis
Name: Name, Length: 100, dtype: object

2. 'Name'과 'Score' 열을 선택하세요.

In [5]:
df[["Name", 'Score']]

Unnamed: 0,Name,Score
0,yllyn,99
1,gcvkk,69
2,pstei,64
3,hrbmo,71
4,nspni,56
...,...,...
95,siedz,53
96,vrtke,99
97,lygeb,79
98,xvrsw,62


3. 'Age' 열의 평균을 계산하세요.

In [7]:
df['Age'].mean()

16.49

4. 'Score' 열의 최댓값과 최솟값을 찾으세요.

In [9]:
df['Score'].max(), df['Score'].min()

(100, 50)

5. 0번째 행을 선택하세요.

In [13]:
df.iloc[[0]]

Unnamed: 0,Name,Age,Gender,Score
0,yllyn,16,Male,99


6. 마지막 행을 선택하세요.

In [15]:
df.iloc[[-1]]

Unnamed: 0,Name,Age,Gender,Score
99,qcbis,18,Male,84


7. 짝수인 행을 선택하세요.

In [17]:
df.iloc[::2]

Unnamed: 0,Name,Age,Gender,Score
0,yllyn,16,Male,99
2,pstei,18,Female,64
4,nspni,15,Female,56
6,wqxah,16,Female,80
8,shxsw,16,Female,65
10,mtaji,18,Female,84
12,egopt,16,Female,52
14,mogyd,16,Female,63
16,hvkbx,17,Female,93
18,vheom,16,Female,100


8. 2번째 행의 'Score'를 찾으세요.

In [18]:
df.loc[2, 'Score']

64

9. 'Gender' 열이 'Male'인 모든 행을 선택하세요.

In [19]:
df[df['Gender'] == 'Male']

Unnamed: 0,Name,Age,Gender,Score
0,yllyn,16,Male,99
3,hrbmo,18,Male,71
7,nrvkk,16,Male,96
19,kanvi,15,Male,60
20,lmdfg,17,Male,73
22,tglss,16,Male,50
24,jvgmq,17,Male,65
25,jfvaf,15,Male,80
27,rkldg,16,Male,95
28,vzcmm,16,Male,58


10. 'Score' 열이 평균 점수보다 높은 모든 행을 선택하세요.

In [20]:
df[df['Score'] > df['Score'].mean()]

Unnamed: 0,Name,Age,Gender,Score
0,yllyn,16,Male,99
5,fchpf,16,Female,79
6,wqxah,16,Female,80
7,nrvkk,16,Male,96
9,mhkcq,15,Female,90
10,mtaji,18,Female,84
11,nijyv,15,Female,77
13,hhtwc,17,Female,80
15,sptrj,17,Female,88
16,hvkbx,17,Female,93


11. 'Gender'가 'Female'이고, 'Age'가 18인 모든 행을 선택하세요.

In [21]:
df[(df['Gender'] == 'Female') & (df['Age'] == 18)]

Unnamed: 0,Name,Age,Gender,Score
2,pstei,18,Female,64
10,mtaji,18,Female,84
33,hkmmk,18,Female,82
51,nqnzo,18,Female,94
88,fnbbu,18,Female,87


12. 'Score'가 70 이상인 학생들의 평균 'Age'를 계산하세요.

In [24]:
df[df['Score'] >= 70]['Age'].mean()

16.476923076923075

13. 'Age'가 17 이상이고 'Score'가 80 이상인 모든 행을 선택하세요.

In [25]:
df[(df['Age'] >= 17) & (df['Score'] >= 80)]

Unnamed: 0,Name,Age,Gender,Score
10,mtaji,18,Female,84
13,hhtwc,17,Female,80
15,sptrj,17,Female,88
16,hvkbx,17,Female,93
21,hhlwu,17,Female,98
33,hkmmk,18,Female,82
36,kiapt,17,Male,99
48,ihppc,18,Male,98
51,nqnzo,18,Female,94
54,xbudk,17,Male,86


14. 'Score'의 값이 'Score'의 중간값과 같은 모든 행을 선택하세요.

In [26]:
df[df['Score'] == df['Score'].median()]

Unnamed: 0,Name,Age,Gender,Score
5,fchpf,16,Female,79
42,nbogc,15,Male,79
47,skenz,16,Female,79
79,wbrvy,16,Female,79
97,lygeb,15,Male,79


15. 'Score'가 90 이상인 학생 중에서 'Age'가 가장 어린 학생의 이름을 찾으세요.

In [30]:
a = df[df['Score'] >= 90]['Age'].min()
df[(df['Age'] == a) & (df['Score'] >= 90)]

Unnamed: 0,Name,Age,Gender,Score
9,mhkcq,15,Female,90
92,gtifa,15,Male,98
93,xbgje,15,Female,97
