# 데이터 조작 (Numpy, Pandas)

- 라이브러리: 자주 사용하고 유용한 기능을 누군가 이미 구현해 둔 코드 집합체  
- 넘파이: 파이썬으로 행렬, 수치 계산 등 데이터를 다루기 쉽게 도와주는 유명 데이터 조작 라이브러리  
- 판다스: 파이썬으로 마치 프로그래밍 버전의 엑셀을 다루듯 고성능의 데이터 구조를 만들 수 있는 유명 라이브러리  

## 판다스(Pandas)


### 1. 시리즈(Series)

In [4]:
import pandas as pd

# 시리즈
s1 = pd.Series({
    '김': 100,
    '나': 141,
    '박': 129,
    '이': 124
})
s1.name = '수학'

print(s1)

s2 = pd.Series({
    '김': 30,
    '나': 5,
    '박': 1239,
    '이': 141
})
print(s2)

s3 = pd.Series([8, 3, 13, 2])  # index를 지정 안함
s3.name = '국어'
print(s3)

s4 = pd.Series([30, 5, 1239, 141])  # name, index 모두 지정 안함
print(s4)

김    100
나    141
박    129
이    124
Name: 수학, dtype: int64
김      30
나       5
박    1239
이     141
dtype: int64
0     8
1     3
2    13
3     2
Name: 국어, dtype: int64
0      30
1       5
2    1239
3     141
dtype: int64


### 2. 데이터 프레임
데이터 프레임: 시리즈가 모인 것

In [5]:
df = pd.DataFrame({
    '출생지': ['한국', '미국'],
    '나이': [20, 30]
})

df

Unnamed: 0,출생지,나이
0,한국,20
1,미국,30


In [6]:
# 열 추가
df['성별'] = ['여자', '남자']
df

Unnamed: 0,출생지,나이,성별
0,한국,20,여자
1,미국,30,남자


In [7]:
# 행 추가
df.loc[2] = ['일본', 25, '여']
df

Unnamed: 0,출생지,나이,성별
0,한국,20,여자
1,미국,30,남자
2,일본,25,여


In [8]:
# 시리즈가 모여 데이터프레임을 이루고 있음.

df2 = pd.DataFrame(s1)
df2['영어'] = s2
df2['미술'] = [1, 2, 3, 4]
df2

Unnamed: 0,수학,영어,미술
김,100,30,1
나,141,5,2
박,129,1239,3
이,124,141,4


In [11]:
# 원하는 열 고르기
df2[['수학', '미술']]
df2['수학']

김    100
나    141
박    129
이    124
Name: 수학, dtype: int64

In [10]:
# 원하는 행 고르기

df2.loc[['김', '박']]

Unnamed: 0,수학,영어,미술
김,100,30,1
박,129,1239,3


In [19]:
# 원하는 행과 열 고르기   df2.loc[행,열]
df2.loc[['김'],['미술', '영어']]


Unnamed: 0,미술,영어
김,1,30


In [20]:
df2

Unnamed: 0,수학,영어,미술
김,100,30,1
나,141,5,2
박,129,1239,3
이,124,141,4


In [23]:
#총합
df2.sum()


수학     494
영어    1415
미술      10
dtype: int64

In [24]:
# 열의 평균
df2.mean()

수학    123.50
영어    353.75
미술      2.50
dtype: float64

In [25]:
# 행의 평균
df2.mean(axis = 1)

김     43.666667
나     49.333333
박    457.000000
이     89.666667
dtype: float64

In [26]:
# 수학점수의 평균
df2['수학'].mean()

123.5

## 미션1
직접 입력하고 어떤 명령인지 알아보세요
> , (콤마)를 기준으로 왼쪽은 행, 오른쪽은 열을 필터링합니다.  
> "영어 점수가 100점 이상인 학생만 뽑아 그들의 수학점수 평균을 보여달라"  

In [27]:
print(df2.loc[df2['영어'] >= 100, '수학'].mean())

126.5


In [28]:
## 답
# df2.loc[조건, 열의 이름]
# df2.loc[영어점수가 100점 이상인 것, '수학']
df2.loc[df2['영어'] >= 100, '수학']

박    129
이    124
Name: 수학, dtype: int64