### 모듈(라이브러리)
- 함수, 클래스 혹은 변수들을 모아놓은 파일
- 파이썬 프로그램에서 불러와 사용할 수 있게끔 만들어진 파이썬 파일이라고 한다.

### Pandas
>행과 열로 구성된 표 형식의 데이터를 지원하는 라이브러리

#### Series Class : 1차원
  - 인덱스(index) + 값(value)
  
#### DataFrame Class : 2차원
  - 표와 같은 형태

In [2]:
import pandas as pd

↑ Pandas 모듈(라이브러리)를 import하고 앞으로 pd라는 이름으로 부른다.

### Series 사용

In [3]:
obj = pd.Series([-4,7,-5,3], index = ['d','b','a','c']) #시리즈 생성
obj

d   -4
b    7
a   -5
c    3
dtype: int64

In [4]:
print(obj.values) #값
print(obj.index) #인덱스
print(obj.dtype) #데이터 타입

[-4  7 -5  3]
Index(['d', 'b', 'a', 'c'], dtype='object')
int64


In [5]:
s = pd.Series([9904312,3448737,2890451,2466052], index = ['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [6]:
s.name = "인구" # Series에 이름 지정
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [7]:
s/=1000000 #Series 연산
s

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [8]:
print(s[0], s['서울']) #Series 인덱싱
print(s[[0,3,1]])
print(s[['서울','대구','부산']])

9.904312 9.904312
도시
서울    9.904312
대구    2.466052
부산    3.448737
Name: 인구, dtype: float64
도시
서울    9.904312
대구    2.466052
부산    3.448737
Name: 인구, dtype: float64


In [9]:
s[(s>=2500000) & (s<=5000000)] #Series Boolean 인덱싱

Series([], Name: 인구, dtype: float64)

In [10]:
s[(s>=2500000) | (s<=5000000)]

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [11]:
print(s[1:3])
print(s["부산":"대구"])

도시
부산    3.448737
인천    2.890451
Name: 인구, dtype: float64
도시
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [12]:
data={'인천':289045,'대구':246605}
s2 = pd.Series(data)
print(s)
print(s2)
ds = s - s2
ds

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64
인천    289045
대구    246605
dtype: int64


대구   -246602.533948
부산              NaN
서울              NaN
인천   -289042.109549
dtype: float64

In [13]:
print(ds.notnull())
ds[ds.notnull()]

대구     True
부산    False
서울    False
인천     True
dtype: bool


대구   -246602.533948
인천   -289042.109549
dtype: float64

In [14]:
print(ds.isnull())
ds[ds.isnull()]

대구    False
부산     True
서울     True
인천    False
dtype: bool


부산   NaN
서울   NaN
dtype: float64

In [15]:
data = pd.read_csv('train.csv')
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [16]:
data[data['Age'].notnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [17]:
data[data['Age'].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [18]:
ds['부산'] = 1.6
ds['대구'] = 1.41
del ds['인천']
print(ds)

대구    1.41
부산    1.60
서울     NaN
dtype: float64


In [19]:
data={
    "2015":[9904312,3448737,2890451,2466052],
    "2010":[9631482,3393191,2632035,2431774]
}

df = pd.DataFrame(data)
df.index = ["서울","부산","인천","대구"]
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [20]:
data=[[9904312,3448737,2890451,2466052],
       [9631482,3393191,2632035,2431774]]
ind=["2015","2010"]
col=["서울","부산","인천","대구"]
df2 = pd.DataFrame(data,index=ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [21]:
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [22]:
print(df.values)
print(df.index)
print(df.columns)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


In [23]:
print(df["2015"])
print(df["2010"])
df[["2010","2015"]]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64


Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [24]:
df["2005"] = [9762546,3512547,2517680,2456016]
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [25]:
df[0:1]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546


In [26]:
df["서울":"인천"]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [27]:
df.loc["서울":"부산", "2015":"2010"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [28]:
data = pd.DataFrame([[1,2],[2,3],[1,5],[1,2]])
data.iloc[:,0].value_counts() # 원소들의 개수

1    3
2    1
Name: 0, dtype: int64

### 타이타닉 데이터에서 성별로 사망생존 수, 선실등급별로 사망 생존 수를 구하시오.

In [29]:
data = pd.read_csv('train.csv')
data[data.loc[:,'Sex']=='male'].iloc[:,1].value_counts()

0    468
1    109
Name: Survived, dtype: int64

In [30]:
data = pd.read_csv('train.csv')
data[data.loc[:,'Sex']=='female'].iloc[:,1].value_counts()

1    233
0     81
Name: Survived, dtype: int64

In [31]:
data = pd.read_csv('train.csv')
for i in range(1,4):
    print("%d등급 클래스 생존자 사망자" % i)
    print(data[data.loc[:,'Pclass']==i].iloc[:,1].value_counts())
    print()

1등급 클래스 생존자 사망자
1    136
0     80
Name: Survived, dtype: int64

2등급 클래스 생존자 사망자
0    97
1    87
Name: Survived, dtype: int64

3등급 클래스 생존자 사망자
0    372
1    119
Name: Survived, dtype: int64



In [32]:
score = pd.read_csv('score.csv', encoding='euc-kr', index_col = '과목')
print(score)
score.sort_values(by=['2반','1반'],
                 ascending=False) # 2반을 기준으로 sorting하고 1반을 기준으로 sorting한다

    1반  2반  3반  4반
과목                
수학  45  44  73  39
영어  76  92  45  69
국어  47  92  45  69
사회  92  81  85  40
과학  11  79  47  26


Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26
수학,45,44,73,39


In [33]:
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [34]:
score.sum(axis=1) # 1이 x축 0이 y축 값을 입력하지 않으면 기본이 0

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [35]:
score['합계']=score.loc[:,:'4반'].sum(axis=1)
score['평균']=score.loc[:,:'4반'].mean(axis=1)
score.loc["반평균"] = score.loc[:,:'4반'].mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,,


In [36]:
s1 = pd.Series(['a','b'])
s2 = pd.Series(['c','d'])
pd.concat([s1,s2],axis=1) #help panda reference 들어가서 append랑 drop 도 알아두기

Unnamed: 0,0,1
0,a,c
1,b,d


In [37]:
crime2015 = pd.read_csv('crime//2015.csv',encoding='euc-kr')
crime2016 = pd.read_csv('crime//2016.csv',encoding='euc-kr')
crime2017 = pd.read_csv('crime//2017.csv',encoding='euc-kr')

In [38]:
crime2015[crime2015.loc[:,'관서명']=='광주지방경찰청계']

Unnamed: 0,관서명,구분,살인,강도,강간·강제추행,절도,폭력
0,광주지방경찰청계,발생건수,18,44,750,8425,9593
1,광주지방경찰청계,검거건수,18,47,758,5409,8301
2,광주지방경찰청계,검거인원,17,66,776,3433,11774
3,광주지방경찰청계,구속,9,33,42,104,58
4,광주지방경찰청계,불구속,1,26,511,2781,5618
5,광주지방경찰청계,기타,7,7,223,548,6098
