In [228]:
# Series (시리즈)

import numpy as np
import pandas as pd

In [229]:
pd.Series([1,2,3,4])
# Series (index를 달고 나온다)

0    1
1    2
2    3
3    4
dtype: int64

In [230]:
# 인덱스 명 변경
pd.Series([1,2,3,4], index=['a','b','c','d'])

a    1
b    2
c    3
d    4
dtype: int64

In [231]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'])
data['b']

2

In [232]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'],name = 'Title')

print(data)
print()
print(data['c'])

a    1
b    2
c    3
d    4
Name: Title, dtype: int64

3


In [233]:
# Series >> dict()로 변환

population = {
    'korea' : 5180,
    'japan' : 12718,
    'china' : 141500,
    'usa' : 35676
}

print(population)

{'korea': 5180, 'japan': 12718, 'china': 141500, 'usa': 35676}


In [234]:
df_population = pd.Series(population)

print(df_population)

# dict(key : value) >> Series(idx, value)

korea      5180
japan     12718
china    141500
usa       35676
dtype: int64


In [235]:
# 데이터 프레임 (DataFrame)


gdp = {
    'korea': 169320000,
    'japan' : 516700000,
    'china' : 1409250000,
    'usa' : 2041280000
}

print(gdp)

{'korea': 169320000, 'japan': 516700000, 'china': 1409250000, 'usa': 2041280000}


In [236]:
gdp = pd.Series(gdp)

print(gdp)

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
dtype: int64


In [237]:
pd.DataFrame(gdp)

Unnamed: 0,0
korea,169320000
japan,516700000
china,1409250000
usa,2041280000


In [238]:
country = pd.DataFrame(
    {
    'population' : population, 'gdp':gdp
    }
    )


In [239]:
print(country)

       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         35676  2041280000


In [240]:
country['gdp']

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

In [241]:
type(country['gdp'])

pandas.core.series.Series

In [242]:
# 연산자 활용

print(country['gdp'])
print()
print(country['population'])

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

korea      5180
japan     12718
china    141500
usa       35676
Name: population, dtype: int64


In [243]:
gdp_per_capita =country['gdp'] / country['population']

print(gdp_per_capita)

korea    32687.258687
japan    40627.457147
china     9959.363958
usa      57217.176814
dtype: float64


In [244]:
# 새로 생성된 gdp_per_capita (1인당 국민 총 생산) 
# >> 새열로 만들어 데이터 프레임에 삽입하고파 ~

print(country)
print()

country['gdp_per_capita'] = gdp_per_capita

print(country)

       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         35676  2041280000

       population         gdp  gdp_per_capita
korea        5180   169320000    32687.258687
japan       12718   516700000    40627.457147
china      141500  1409250000     9959.363958
usa         35676  2041280000    57217.176814


In [245]:
#저장하기

country.to_csv("./country.csv")
# csv(comma separated value)

In [246]:
country.to_excel("country.xlsx")

In [247]:
# 불러오기

pd.read_csv("./country.csv")

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,35676,2041280000,57217.176814


In [248]:
pd.read_excel("country.xlsx")

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,35676,2041280000,57217.176814


In [249]:
# indexing / slicing
# .loc[행, 열], iloc[행,열]

country

Unnamed: 0,population,gdp,gdp_per_capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,35676,2041280000,57217.176814


In [250]:
country.loc['china']

population        1.415000e+05
gdp               1.409250e+09
gdp_per_capita    9.959364e+03
Name: china, dtype: float64

In [251]:
country.loc['japan':'china', :'population']

Unnamed: 0,population
japan,12718
china,141500


In [252]:
country.loc['japan':'china', :'gdp']

Unnamed: 0,population,gdp
japan,12718,516700000
china,141500,1409250000


In [253]:
# .iloc[행,열] (정수 인덱스)

country

Unnamed: 0,population,gdp,gdp_per_capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,35676,2041280000,57217.176814


In [254]:
country.iloc[0]

population        5.180000e+03
gdp               1.693200e+08
gdp_per_capita    3.268726e+04
Name: korea, dtype: float64

In [255]:
country.iloc[1:3, :-1]

Unnamed: 0,population,gdp
japan,12718,516700000
china,141500,1409250000


In [272]:
# 데이터프레임에 새 데이터 추가 및 수정
# 추가 : 리스트 또는 딕셔너리 추가

df = pd.DataFrame(columns = ['이름','나이','주소'])
df.loc[0] = ['남학균','26','서울']
df.loc[1] = {'이름':'성수린', '나이':'25', '주소':'제주'}

df

Unnamed: 0,이름,나이,주소
0,남학균,26,서울
1,성수린,25,제주


In [273]:
df.loc[1, '이름'] = '아이린'

df

Unnamed: 0,이름,나이,주소
0,남학균,26,서울
1,아이린,25,제주


In [274]:
# 새로운 컬럼 추가
df

Unnamed: 0,이름,나이,주소
0,남학균,26,서울
1,아이린,25,제주


In [275]:
df['전화번호'] = np.nan

In [276]:
print(df)

print()

df.loc[0, '전화번호'] = '01012345678'
print(df)

    이름  나이  주소  전화번호
0  남학균  26  서울   NaN
1  아이린  25  제주   NaN

    이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  아이린  25  제주          NaN


  df.loc[0, '전화번호'] = '01012345678'


In [277]:
df['이름']

0    남학균
1    아이린
Name: 이름, dtype: object

In [278]:
df[['이름','나이']]

Unnamed: 0,이름,나이
0,남학균,26
1,아이린,25


In [279]:
df[['나이', '주소']]

Unnamed: 0,나이,주소
0,26,서울
1,25,제주


In [280]:
# 결측치 처리
# 누락된 데이터 처리

print(df)
print()
print(df.isnull())

    이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  아이린  25  제주          NaN

      이름     나이     주소   전화번호
0  False  False  False  False
1  False  False  False   True


In [281]:
df.notnull()

Unnamed: 0,이름,나이,주소,전화번호
0,True,True,True,True
1,True,True,True,False


In [282]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,아이린,25,제주,


In [283]:
df.dropna()

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678


In [284]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,아이린,25,제주,


In [285]:
df['전화번호'].fillna(0)

0    01012345678
1              0
Name: 전화번호, dtype: object

In [291]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,아이린,25,제주,


In [292]:
df2 = df.copy()
df2.head()

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,아이린,25,제주,


In [293]:
df2['전화번호'] = df['전화번호'].fillna(0)
print(df2)

    이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  아이린  25  제주            0


In [294]:
df['전화번호'] = df['전화번호'].fillna('전화번호 없음')

In [295]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,01012345678
1,아이린,25,제주,전화번호 없음


In [297]:
# Series 연산

a  = pd.Series([2,4,6], index=[0,1,2])
b = pd.Series([1,3,5], index= [1,2,3])

print(a)
print(b)

0    2
1    4
2    6
dtype: int64
1    1
2    3
3    5
dtype: int64


In [298]:
a + b

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [299]:
a.add(b, fill_value = 0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [302]:
c = pd.DataFrame(np.random.randint(0,10,(2,2)), columns=list('AB'))
d = pd.DataFrame(np.random.randint(0,10,(3,3)), columns=list('BAB'))

print(c)
print()
print(d)

   A  B
0  1  7
1  8  1

   B  A  B
0  0  2  4
1  6  9  0
2  8  0  9


In [303]:
c + d

Unnamed: 0,A,B,B.1
0,3.0,7.0,11.0
1,17.0,7.0,1.0
2,,,


In [304]:
c.add(d, fill_value=0)

Unnamed: 0,A,B,B.1
0,3.0,7.0,11.0
1,17.0,7.0,1.0
2,0.0,8.0,9.0


In [305]:
# 집계함수

data = {
    'a' : [i+5 for i in range(3)],
    'b' : [i ** 2 for i in range(3)]
}

print(data)

{'a': [5, 6, 7], 'b': [0, 1, 4]}


In [307]:
df = pd.DataFrame(data)


print(df)

   a  b
0  5  0
1  6  1
2  7  4


In [308]:
df['a']

0    5
1    6
2    7
Name: a, dtype: int64

In [309]:
df['a'].sum()

18

In [310]:
df.sum()

a    18
b     5
dtype: int64

In [311]:
df.mean()

a    6.000000
b    1.666667
dtype: float64

In [315]:
# 값으로 정렬하기

pd.DataFrame(
    { 'col1' : [2,1,9,8,7,4],
      'col2' : ['a','a','b', np.nan, 'd','c'],
      'col3' : [0,1,9,4,2,3] 
})

Unnamed: 0,col1,col2,col3
0,2,a,0
1,1,a,1
2,9,b,9
3,8,,4
4,7,d,2
5,4,c,3


In [316]:
df = pd.DataFrame(
    { 'col1' : [2,1,9,8,7,4],
      'col2' : ['a','a','b', np.nan, 'd','c'],
      'col3' : [0,1,9,4,2,3] 
})

df.head()

Unnamed: 0,col1,col2,col3
0,2,a,0
1,1,a,1
2,9,b,9
3,8,,4
4,7,d,2


In [318]:
# df.sort_values()

df.sort_values('col1')
# default : 오름차순 정렬

Unnamed: 0,col1,col2,col3
1,1,a,1
0,2,a,0
5,4,c,3
4,7,d,2
3,8,,4
2,9,b,9


In [319]:
df.sort_values('col1', ascending=False)
# ascending = False : 내림차순 정렬

Unnamed: 0,col1,col2,col3
2,9,b,9
3,8,,4
4,7,d,2
5,4,c,3
0,2,a,0
1,1,a,1


In [322]:
df.sort_values(['col2', 'col1'])
# col2 기준으로 먼저 정리해준 다음, 값이 같으면 col1 로 정리해줘

Unnamed: 0,col1,col2,col3
4,7,d,2
5,4,c,3
2,9,b,9
0,2,a,0
1,1,a,1
3,8,,4


In [323]:
df.sort_values(['col2', 'col1'], ascending=[True,False])

Unnamed: 0,col1,col2,col3
0,2,a,0
1,1,a,1
2,9,b,9
5,4,c,3
4,7,d,2
3,8,,4
