In [2]:
# pandas 라이브러리 불러오기
import pandas as pd

### Series 데이터 구조
- 인덱스와 값이 1:1로 대응되어있는 구조

In [8]:
population = pd.Series([9668465,3391946,2942828,1450062])
population

0    9668465
1    3391946
2    2942828
3    1450062
dtype: int64

In [10]:
population = pd.Series([9668465,3391946,2942828,1450062],
                      index = ['서울','부산','인천','광주'])
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series 데이터 구조 확인하기
- values
- index
- dtype

In [5]:
# Series의 값만 확인하기
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

In [12]:
# Series의 인덱스값만 확인하기
population.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [11]:
# Series의 데이터 타입 확인하기
population.dtype

dtype('int64')

In [13]:
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
dtype: int64

### Series에 이름 지정하기(데이터의 정보를 나타내주기)

In [15]:
# 데이터값에 이름 지정하는 방법 : .name
population.name = '인구'
population

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

In [16]:
# 데이터의 인덱스에 이름을 지정하는 방법 : .index.name
population.index.name = '도시'
population

도시
서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 인구, dtype: int64

### Series 연산

In [17]:
population / 1000000

도시
서울    9.668465
부산    3.391946
인천    2.942828
광주    1.450062
Name: 인구, dtype: float64

In [18]:
population.values

array([9668465, 3391946, 2942828, 1450062], dtype=int64)

### Series -> 인덱싱 슬라이싱

In [27]:
# 스스로 부산데이터만 출력해보기
population[1]
population['부산']
# 인덱싱을 할때 실제 인덱스(도시) 이름으로도 가능하다

3391946

In [28]:
population[[1]]

도시
부산    3391946
Name: 인구, dtype: int64

In [29]:
# 서울, 인천, 광주 -> 한번에 가져오기 (인덱싱)
population[[0,2,3]]
population[['서울','인천','광주']]
# 여러개의 데이터를 가져오고 싶을때는 묶어서 가져오면 된다

도시
서울    9668465
인천    2942828
광주    1450062
Name: 인구, dtype: int64

- 슬라이싱

In [30]:
# 전체데이터에서 부산, 인천 -> 슬라이싱 해오기
# 변수명[시작인덱스, 끝인덱스+1]
population[1:3]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [32]:
# 지정해준 인덱스 이름으로 슬라이싱
population['부산':'인천']
# 지정해준 인덱스 값으로 슬라이싱을 할때는 끝+1 rosuddl djqtdjtj
# 그냥 내가 가져오고싶은 마지막 값을 적어주면 된다

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

- 불리언 인덱싱

In [33]:
# 인구가 250만 이상인 도시들만 출력
population[population>=2500000]

도시
서울    9668465
부산    3391946
인천    2942828
Name: 인구, dtype: int64

In [34]:
# 현재는 논리연산의 결과
population >= 2500000

도시
서울     True
부산     True
인천     True
광주    False
Name: 인구, dtype: bool

In [40]:
# 인구수가 250이상 이고 500만 이하인 도시만 출력 -> 부산, 인천
population[(population>=2500000) & (population<=5000000)]

도시
부산    3391946
인천    2942828
Name: 인구, dtype: int64

### dictionary 구조를 활용하여 Series 생성하기
- 키와 밸류 값을 가지는 데이터 구조
- key는 index
- value는 value

In [43]:
# 포켓몬이름 : 능력치
data = {'피카츄':9631,'파이리':5862,'꼬부기':1235, '이상해씨':2685}
pokemon = pd.Series(data)

In [44]:
# 레벨업한 능력치가 들어있는 pokemon_up
data2 = {'피카츄':10222,'파이리':6524,'뮤':9999,'메타몽':2560}
pokemon_up = pd.Series(data2)

In [46]:
# 올라간 능력치 계산
stat = pokemon_up - pokemon
stat
# NaN (not a number) = 결측치 (비어있다)

꼬부기       NaN
메타몽       NaN
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [51]:
# 비어있지 않은 데이터만 확인하기!
stat.notnull()    # --> 논리형 결과가 출력된다
# 비어있지 않은 데이터만 보고싶다면? --> 불리언 인덱싱
stat[stat.notnull()]
# 비어있는 데이터만 확인하기
stat[stat.isnull()]

꼬부기    NaN
메타몽    NaN
뮤      NaN
이상해씨   NaN
dtype: float64

In [55]:
# 레벨업해서 올라간 능력치의 증감fbf(%) 구하기!
# (올라간데이터 - 원래데이터) / 원래데이터 * 100
stat2 = (pokemon_up - pokemon)/pokemon * 100

In [57]:
# 비어있지 않은 데이터만 출력
stat2[stat2.notnull()]

파이리    11.293074
피카츄     6.136434
dtype: float64

In [58]:
# 비어있는 데이터만 출력
stat2[stat2.isnull()]

꼬부기    NaN
메타몽    NaN
뮤      NaN
이상해씨   NaN
dtype: float64

### Series 데이터 구조 추가, 수정, 삭제

In [59]:
stat

꼬부기       NaN
메타몽       NaN
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [61]:
# 수정 -> 기존에 있는 인덱스 명칭에 값을 덮어 씌워주는것
stat['메타몽'] = 567
stat

꼬부기       NaN
메타몽     567.0
뮤         NaN
이상해씨      NaN
파이리     662.0
피카츄     591.0
dtype: float64

In [63]:
# 추가 -> 기존에 없는 인덱스 명칭에 값을 삽입하는것
stat['리자몽'] = 1111
stat

꼬부기        NaN
메타몽      567.0
뮤          NaN
이상해씨       NaN
파이리      662.0
피카츄      591.0
푸린       482.0
리자몽     1111.0
dtype: float64

In [64]:
# 삭제1 (del)
del stat['피카츄']

In [66]:
stat

꼬부기        NaN
메타몽      567.0
뮤          NaN
이상해씨       NaN
파이리      662.0
푸린       482.0
리자몽     1111.0
dtype: float64

In [70]:
# 삭제2 (drop)
stat = stat.drop('메타몽')

In [72]:
stat.drop('파이리',inplace=True)

In [1]:
stat

NameError: name 'stat' is not defined

In [3]:
# Series 구조의 append
int1 = [1,2,3]
s1 = pd.Series(int1)
int2 = [4,5,6]
s2 = pd.Series(int2)

In [4]:
s1

0    1
1    2
2    3
dtype: int64

In [5]:
s2

0    4
1    5
2    6
dtype: int64

In [8]:
# Series의 append 다시 대입을 해줘야 적용이된다~
# ignore_index : 기존의 인덱스 번호를 무시하고 새로운 인덱스 번호를 생성한다
s1 = s1.append(s2,ignore_index=True)

  s1 = s1.append(s2,ignore_index=True)


In [10]:
s1

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

### DataFrame
- Series 1차원데이터
- DataFrame 행과 열로 구성되어있는 2차원 형태의 데이터!

In [141]:
# dictionary 구조를 활용해서 DataFrame 생성하기!
data = {'2020':[9668465,3391946,2942828,1450062],
       '2010':[10312545,3567910,2758296,1454636]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [142]:
# DataFrame에 인덱스 지정하기 (명칭 바꿔주기)
df1.index = ['서울','부산','인천','광주']
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [15]:
# DataFrame을 생성하면서 바로 인덱스 지정하기
data = {'2020':[9668465,3391946,2942828,1450062],
       '2010':[10312545,3567910,2758296,1454636]}
df2 = pd.DataFrame(data, index = ['서울','부산','인천','광주'])
df2

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [25]:
# list 자료형으로 DataFrame 생성하기
list1 = [[9668465,3391946,2942828,1450062],
        [10312545,3567910,2758296,1454636]]
col = ['서울','부산','인천','광주']
index = ['2020','2010']
df3 = pd.DataFrame(list1, index = index, columns = col)
df3

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


In [26]:
# DataFrame 전치(Transfose) -> 행과 열의 데이터를 바꿔주는 것
df3 = df3.T
# 전치 후에 다시 대입을 해줘야 적용이 된다

In [27]:
df3

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### DataFrame 속성 확인하기!
- values : 데이터의 값 확인
- index : 데이터의 인덱스 확인
- columns : 데이터의 컬럼 확인

In [28]:
# DataFrame 값만 확인하는 방법
df3.values

array([[ 9668465, 10312545],
       [ 3391946,  3567910],
       [ 2942828,  2758296],
       [ 1450062,  1454636]], dtype=int64)

In [29]:
# DataFrame 인덱스 값만 확인하는 방법
df3.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

In [30]:
# DataFrame의 컬럼 확인하는 방법
df3.columns

Index(['2020', '2010'], dtype='object')

### DataFrame 인덱싱, 슬라이싱
#### DataFrame 열데이터 확인하기

In [33]:
# 열데이터 확인하기
df1['2020']    # Series 형태로 출력이 된다 왜? 1차원 이니까

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64

In [32]:
# 데이터를 DataFrame 형태로 출력해보기(인덱싱)
df1[['2020']]

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


In [36]:
# 2020, 2010 두개의 열 출력
df1[['2020','2010']]
# 1차원 형태로 가져오게되면 오류가 난다!

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


### DataFrame 슬라이싱

In [37]:
data4 = {'2020':[9668465,3391946,2942828,1450062],
        '2010' :[10312545,3567910,2758296,1454636],
         '2005':[9762546,3512547,2517680,1456016]
        }
df4 = pd.DataFrame(data4,index = ['서울','부산','인천','광주'])
df4

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [39]:
# DataFrame 행슬라이싱
df4[0:2]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


In [40]:
# DataFrame 열슬라이싱은 안됨
df4['2020':'2010']

KeyError: '2020'

### DataFrame의 인덱서
- .loc[시작 : 끝] -> 실제인덱스 이름 or 컬럼이름으로 데이터를 가져온다
- .iloc[시작 : 끝+1] -> 인덱스 번호를 활용해서 데이터를 가져온다

In [43]:
# 행 인덱싱은 인덱서를 활용해서 가능하다! 서울 행 인덱싱 해오기
df4.loc['서울']

2020     9668465
2010    10312545
2005     9762546
Name: 서울, dtype: int64

In [44]:
# 서울~인천 loc
df4.loc['서울':'인천']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [46]:
# 서울~인천 iloc
df4.iloc[0:3]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [56]:
# 스스로 부산~ 인천, 2020~2010 loc
# loc[행,열]
df4.loc['부산':'인천', '2020':'2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


In [57]:
# 스스로 부산~ 인천, 2020~2010 iloc
# iloc[행,열]
df4.iloc[1:3, 0:2]

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


### boolean 인덱싱

In [94]:
# 2010년 데이터중에서 260만 이상인 전체데이터 가져오기!
df4[df4['2010']>=2600000]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


In [91]:
df4['2010'][df4['2010']>=2600000]

서울    10312545
부산     3567910
인천     2758296
Name: 2010, dtype: int64

In [101]:
# DataFrame에서 불리언 인덱싱을 했을때 False인 값들은 NaN으로 출력이 된다!
df4[df4>=3500000]

Unnamed: 0,2020,2010,2005
서울,9668465.0,10312545.0,9762546.0
부산,,3567910.0,3512547.0
인천,,,
광주,,,


### DataFrame 추가, 수정, 삭제

In [144]:
# 새로운 열 추가하기!
df1['2005'] = [9762546,3512547,2517680,1456016]
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


In [133]:
# DataFrame 수정하기
df1['2005']=[0,0,0,0]
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,0
인천,2942828,2758296,0
광주,1450062,1454636,0


In [134]:
df1.loc['부산','2005'] = 1234563
df1

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,0
부산,3391946,3567910,1234563
인천,2942828,2758296,0
광주,1450062,1454636,0


In [145]:
# DataFrame 삭제
del df1['2005']
df1

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


In [146]:
# drop
df1.drop('부산')

Unnamed: 0,2020,2010
서울,9668465,10312545
인천,2942828,2758296
광주,1450062,1454636


In [147]:
# drop 기능의 축설정이 axis = 0 으로 되어있다 (행테이터를 기준으로 삭제)
df1.drop('2010',axis = 1,inplace=True)
df1

Unnamed: 0,2020
서울,9668465
부산,3391946
인천,2942828
광주,1450062


### DataFrame 실습

In [150]:
population = pd.read_csv('population.csv',index_col='도시')
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [153]:
# 데이터 정렬하기
# 인덱스를 기준으로 정렬하기
population.sort_index(ascending=False)
# 기본으로 오름차순 정렬 -> 내림차순 정렬을 해주고 싶을때는 ascending=False 속성변경

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2942828,2925815.0,,2600495
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745


In [155]:
# 데이터를 기준으로 정렬하기
population['2015'].sort_values()
# 결측치는 가장 마지막에 출력이 된다!

도시
광주     1474636.0
대구     2466052.0
인천     2925815.0
서울    10022181.0
부산           NaN
Name: 2015, dtype: float64

In [159]:
# 전체데이터 내에서 정렬하고 싶을때
population.sort_values(by = '2010',ascending=False)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
대구,경상권,2418436,2466052.0,2431774.0,2456016
광주,전라권,1450062,1474636.0,1454636.0,1401745
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


In [161]:
# 만약 정렬시에 동인한 값이 있다면 우선 인덱스로 정렬이 자동으로 된다
# 그런데 내가 지정해주고 싶다면?
population.sort_values(by = ['2010','지역'])

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495


- count()함수
    - 각 행, 열별로 데이터의 개수를 세어주는 함수
    - 몇개의 행이 있는지

In [163]:
# 몇개의 열데이터가 있는지
population.count(axis = 1)

도시
서울    5
부산    3
인천    4
광주    5
대구    5
dtype: int64

- fillna 함수

In [165]:
# fillna() -> 변수명.fillna(value = 데이터)
# 결측치를 원하는 값으로 변경해주는 함수
# 왜 바꾸지> -> 결측치와의 연산은 결측치로 출력되기때문
population.fillna(value = 0)

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,0.0,0.0,3628293
인천,수도권,2942828,2925815.0,0.0,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


In [166]:
# fillna 함수도 바로 적용되지 않음!
# 다시 대입해주거나 inplace 속성을 활용해줄것!
population

Unnamed: 0_level_0,지역,2020,2015,2010,2005
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9668465,10022181.0,10312545.0,10167344
부산,경상권,3391946,,,3628293
인천,수도권,2942828,2925815.0,,2600495
광주,전라권,1450062,1474636.0,1454636.0,1401745
대구,경상권,2418436,2466052.0,2431774.0,2456016


### DataFrame 실습2

In [209]:
# 스스로 파일 읽어오기!
# 조건 : '과목'을 인덱스로 가져와주세요!
score = pd.read_csv('score.csv',index_col='과목', encoding='euc-kr')
sc

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [178]:
# 학급별 점수 총합 구하기!(sum())
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [177]:
# 학급별 점수 총합 오름차순 정렬하기!
score.sum().sort_values()

4반    243
1반    271
3반    295
2반    388
dtype: int64

In [179]:
# 과목별 점수 총합 구하기
score.sum(axis = 1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [180]:
# DataFrame에서도 마찬가지로 범용함수 사용 가능하다
# 축설정이 기본으로 행(axis = 0)으로 되어있다
# axis = 0의 의미는 '행끼리' 더해주세요!

#### Q1 과목별 합계를 구해서 DataFrame에 추가해주기 ('합계'라는 컬럼을 추가)

In [197]:
score['합계'] = score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


#### Q2 DataFrame에 반별 합계를 구해서 '반합계'행 추가하기

In [210]:
# 행인덱스 -> 인덱서 활용
score.loc['반합계'] = score.sum()
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26
반합계,271,388,295,243
