# [Pandas] 03. 판다스란?

### 판다스:
- 구조화된 데이터를 효과적으로 처리하고 저장
- Array 계산에 특화된 NumPy를 기반으로 설계


## 1. Series 데이터
- numpy array가 보강된 형태
- Data와 Index를 가지고 있음

In [1]:
import pandas as pd

pd.Series([1,2,3,4])

0    1
1    2
2    3
3    4
dtype: int64

- 인덱스로 접근 가능

In [3]:
pd.Series([1,2,3,4], index=['a','b','c','d'])

a    1
b    2
c    3
d    4
dtype: int64

In [4]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'])
data['b'] 
# 딕셔너리처럼 괄호 치고 접근 하는 방법
# 한글 많이 쓰기에 이걸 많이 씀

2

- name 인자로 이름을 지정할 수 있다.

In [5]:
data3 = pd.Series([1,2,3,4,5], index=['수','우','미','양','가'],name="성적표")
data3['수'] = 10

In [6]:
data3

수    10
우     2
미     3
양     4
가     5
Name: 성적표, dtype: int64

- 딕셔너리로 변환

In [7]:
population_dict = {
'korea': 5180,
'japan': 12718,
'china': 141500,
'usa': 32676
}

population=pd.Series(population_dict, name="세계 인구")
population

korea      5180
japan     12718
china    141500
usa       32676
Name: 세계 인구, dtype: int64

## 2. DataFrame
- 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [8]:
gdp_dict = {
'korea': 169320000, # 시리즈가 딕셔너리로 구성. 딕셔너리 = {키:밸류}
'japan': 516700000,
'china': 1409250000, # 열끼리가 시리즈
'usa': 2041280000,
}

gdp=pd.Series(gdp_dict, name="세계 인구")
gdp

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: 세계 인구, dtype: int64

In [9]:
country=pd.DataFrame({
    'population': population,
    'gdp':gdp
})
country

Unnamed: 0,population,gdp
korea,5180,169320000
japan,12718,516700000
china,141500,1409250000
usa,32676,2041280000


In [10]:
country=pd.DataFrame({
    'gdp':gdp,
    'population': population
})
country

Unnamed: 0,gdp,population
korea,169320000,5180
japan,516700000,12718
china,1409250000,141500
usa,2041280000,32676


- 딕셔너리로 변환할 수 있음

In [11]:
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [12]:
country.columns # 속성

Index(['gdp', 'population'], dtype='object')

In [13]:
country['gdp']

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

In [14]:
type(country['gdp'])

pandas.core.series.Series

- Series도 numpy array처럼 연산자를 활용

In [15]:
gdp_per_capita = country['gdp'] / country['population']
gdp_per_capita

korea    32687.258687
japan    40627.457147
china     9959.363958
usa      62470.314604
dtype: float64

In [16]:
country=pd.DataFrame({
    'population': population,
    'gdp':gdp
})
country

Unnamed: 0,population,gdp
korea,5180,169320000
japan,12718,516700000
china,141500,1409250000
usa,32676,2041280000


In [17]:
country['gdp_per_capita'] = gdp_per_capita
country

Unnamed: 0,population,gdp,gdp_per_capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,32676,2041280000,62470.314604


### # 저장과 불러오기
- 데이터 프레임을 저장

In [18]:
country

Unnamed: 0,population,gdp,gdp_per_capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,32676,2041280000,62470.314604


In [19]:
country.population

korea      5180
japan     12718
china    141500
usa       32676
Name: population, dtype: int64

In [20]:
type(country.population)

pandas.core.series.Series

- cmd에서 pip install openpyxl 설치
- 오픈소스 오피스를 다운

In [21]:
country.to_csv("./country.csv")
country.to_excel("country.xlsx")

In [26]:
country = pd.read_csv("./country.csv")
country

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,32676,2041280000,62470.314604


In [27]:
country = pd.read_excel("country.xlsx")
country

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,32676,2041280000,62470.314604


## 3. Indexing & Slicing
- .loc : 라벨 또는 이름 인덱스를 참조하는 인덱싱/슬라이싱

In [28]:
country=pd.DataFrame({
    'gdp':gdp,
    'population': population,
    'gdp_per_capita': gdp_per_capita
})
country

Unnamed: 0,gdp,population,gdp_per_capita
korea,169320000,5180,32687.258687
japan,516700000,12718,40627.457147
china,1409250000,141500,9959.363958
usa,2041280000,32676,62470.314604


In [29]:
country.loc['china']

gdp               1.409250e+09
population        1.415000e+05
gdp_per_capita    9.959364e+03
Name: china, dtype: float64

In [31]:
country

Unnamed: 0,gdp,population,gdp_per_capita
korea,169320000,5180,32687.258687
japan,516700000,12718,40627.457147
china,1409250000,141500,9959.363958
usa,2041280000,32676,62470.314604


In [33]:
country.loc['korea':'japan', :'population']

Unnamed: 0,gdp,population
korea,169320000,5180
japan,516700000,12718


- .iloc : 정수형 인덱스 인덱싱/슬라이싱

In [34]:
country.iloc[0]

gdp               1.693200e+08
population        5.180000e+03
gdp_per_capita    3.268726e+04
Name: korea, dtype: float64

In [35]:
country.iloc[2]

gdp               1.409250e+09
population        1.415000e+05
gdp_per_capita    9.959364e+03
Name: china, dtype: float64

In [36]:
country.iloc[1:3,:2]

Unnamed: 0,gdp,population
japan,516700000,12718
china,1409250000,141500


### # DataFrame 새 데이터 추가/수정
- 리스트 또는 딕셔너리로 추가

In [37]:
dataframe = pd.DataFrame(columns=['이름', '나이','주소'])
dataframe

Unnamed: 0,이름,나이,주소


In [38]:
dataframe.loc[0] = ['임꺽정', '26', '서울']
dataframe.loc[1] = {'이름':'철수', '나이':'27', '주소':'인천'}
dataframe

Unnamed: 0,이름,나이,주소
0,임꺽정,26,서울
1,철수,27,인천


In [40]:
dataframe.loc[1, '이름'] = '영희'
dataframe

Unnamed: 0,이름,나이,주소
0,임꺽정,26,서울
1,영희,27,인천


### # DataFrame 새 컬럼 추가
- 새로운 컬럼 추가

In [42]:
import numpy as np

In [43]:
dataframe['전화번호'] = np.nan # not a number
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,
1,영희,27,인천,


In [44]:
dataframe.loc[0, '전화번호'] = '01012341234'
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,1012341234.0
1,영희,27,인천,


In [45]:
len(dataframe)

2

### # 컬럼 선택하기
- 컬럼 이름이 하나만 있다면 Series
- 리스트로 들어가 있다면 DataFrame

In [46]:
dataframe["이름"] # 데이터프레임 구조는 시리즈다
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,1012341234.0
1,영희,27,인천,


In [47]:
dataframe[["이름", "주소", "나이"]] # 행과 열이니까 2차원이니까
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,1012341234.0
1,영희,27,인천,


## 4. Pandas 연산과 함수
### # 누락된 데이터 체크
- 현실 데이터는 일부 누락되어 있는 경우가 많음

In [48]:
dataframe.isnull() # Null 값 찾기, T/F

Unnamed: 0,이름,나이,주소,전화번호
0,False,False,False,False
1,False,False,False,True


In [49]:
dataframe.notnull()

Unnamed: 0,이름,나이,주소,전화번호
0,True,True,True,True
1,True,True,True,False


In [50]:
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,1012341234.0
1,영희,27,인천,


In [51]:
dataframe.전화번호

0    01012341234
1            NaN
Name: 전화번호, dtype: object

In [52]:
dataframe.전화번호.fillna('전화번호 없음')

0    01012341234
1        전화번호 없음
Name: 전화번호, dtype: object

In [53]:
dataframe.전화번호 = dataframe.전화번호.fillna('전화번호 없음')
dataframe.전화번호

0    01012341234
1        전화번호 없음
Name: 전화번호, dtype: object

In [54]:
dataframe2 = dataframe.dropna() # 없는 값을 다 날림
dataframe2

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음


In [55]:
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음


In [56]:
dataframe.나이

0    26
1    27
Name: 나이, dtype: object

In [57]:
dataframe.loc[2,"나이"] = 20 # loc
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음
2,,20,,


- 나이에 nan있는데 이걸 fillna(0)써서 숫자 합이 되게끔 함
- 기준: nan으로 0으로 대체


- df_나이 = df_나이.astype(int)
- df_나이

In [58]:
dataframe.loc[3,"나이"] = 25 # loc
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음
2,,20,,
3,,25,,


In [59]:
dataframe.loc[3,"주소"] = "서울 상암동" # loc
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음
2,,20,,
3,,25,서울 상암동,


In [60]:
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임꺽정,26,서울,01012341234
1,영희,27,인천,전화번호 없음
2,,20,,
3,,25,서울 상암동,


### # 시리즈 연산

In [66]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
A

0    2
1    4
2    6
dtype: int64

In [67]:
B = pd.Series([1, 3, 5], index=[1, 2, 3])
B

1    1
2    3
3    5
dtype: int64

In [68]:
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [69]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### # DataFrame 연산
- add ( + ), sub ( - ), mul ( * ), div ( / )

In [70]:
A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB"))
A

Unnamed: 0,A,B
0,2,2
1,5,5


In [71]:
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("BAC"))
B

Unnamed: 0,B,A,C
0,8,1,0
1,9,6,3
2,9,8,1


In [72]:
A + B

Unnamed: 0,A,B,C
0,3.0,10.0,
1,11.0,14.0,
2,,,


In [73]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,3.0,10.0,0.0
1,11.0,14.0,3.0
2,8.0,9.0,1.0


### # 집계함수

In [74]:
data = {
'A': [ i+5 for i in range(3) ],
'B': [ i**2 for i in range(3) ]
}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,5,0
1,6,1
2,7,4


In [75]:
df['A'].sum() # 18

18

In [76]:
df.sum()

A    18
B     5
dtype: int64

In [77]:
df.mean()

A    6.000000
B    1.666667
dtype: float64

In [78]:
df_a = dataframe['나이'].sum
df_a

<bound method NDFrame._add_numeric_operations.<locals>.sum of 0    26
1    27
2    20
3    25
Name: 나이, dtype: object>

In [79]:
df_a = dataframe[["이름",'나이']]

In [80]:
df_b = df_a["나이"].astype(int)
df_b

0    26
1    27
2    20
3    25
Name: 나이, dtype: int32

In [81]:
df_b.sum()

98

In [82]:
df_b.mean() # 숫자로 변환시켜야 나옴. 평균값.

24.5

## 5. DataFrame 정렬하기
### sort_values()
- 값으로 정렬

In [83]:
df = pd.DataFrame({
'col1' : [2, 1, 9, 8, 7, 4],
'col2' : ['A', 'A', 'B', np.nan, 'D', 'C'],
'col3': [0, 1, 9, 4, 2, 3],
})
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3


In [84]:
df.sort_values('col1')

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
5,4,C,3
4,7,D,2
3,8,,4
2,9,B,9


In [85]:
df.sort_values('col1', ascending=False)

Unnamed: 0,col1,col2,col3
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3
0,2,A,0
1,1,A,1


In [86]:
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3


In [87]:
df.sort_values(['col2', 'col1'])

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
5,4,C,3
4,7,D,2
3,8,,4


--- seYi