# Pandas Recap

# 1. Pandas DataFrame Basics
***

## 1.1 데이터 집합 불러오기

In [3]:
import pandas as pd
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [4]:
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


## 1.2 열단위 데이터 추출

### df에서 'country'열을 추출하여 country_sr 변수에 저장하기. (country_sr의 타입은 Series 가 되어야 한다)

In [6]:
country_sr = df['country']
type(country_sr)

pandas.core.series.Series

### 'year'열과 'pop'열을 동시에 추출하여 year_pop_df 변수에 저장하기. (year_pop_df의 타입은 DataFrame이 되어야 한다)

In [8]:
year_pop_df = df[['year', 'pop']]
type(year_pop_df)

pandas.core.frame.DataFrame

### 'year'열을 추출하여 year_df 변수에 저장하기. (year_df의 타입은 DataFrame이 되어야 한다)

In [9]:
year_df = df[['year']]
type(year_df)

pandas.core.frame.DataFrame

## 1.3 행단위 데이터 추출

In [11]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


### df에서 2번째 행 데이터 추출하기 (loc 속성 이용)

In [12]:
df.loc[1]

country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap      820.85303
Name: 1, dtype: object

### df에서 2번째 행 데이터 추출하기 (iloc 속성 이용)

In [13]:
df.iloc[1]

country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap      820.85303
Name: 1, dtype: object

### df에서 마지막 행 데이터 추출하기 (loc 속성 이용)

In [14]:
df.loc[df.shape[0] - 1]

country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object

### df에서 마지막 행 데이터 추출하기 (iloc 속성 이용)

In [15]:
df.iloc[-1]

country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object

## 1.4 loc, iloc 속성 자유자재로 사용하기 - [ [ 행 ], [ 열 ] ]

### 'country', 'year', 'gdpPercap' 열에 대해 모든 행 데이터 추출하기(loc 사용)

In [16]:
df.loc[:, ['country', 'year', 'gdpPercap']]

Unnamed: 0,country,year,gdpPercap
0,Afghanistan,1952,779.445314
1,Afghanistan,1957,820.853030
2,Afghanistan,1962,853.100710
3,Afghanistan,1967,836.197138
4,Afghanistan,1972,739.981106
...,...,...,...
1699,Zimbabwe,1987,706.157306
1700,Zimbabwe,1992,693.420786
1701,Zimbabwe,1997,792.449960
1702,Zimbabwe,2002,672.038623


### 'country', 'year', 'gdpPercap' 열에 대해 처음부터 100개 행 데이터 추출하기(loc 사용)

In [18]:
df.loc[:99, ['country', 'year', 'gdpPercap']]

Unnamed: 0,country,year,gdpPercap
0,Afghanistan,1952,779.445314
1,Afghanistan,1957,820.853030
2,Afghanistan,1962,853.100710
3,Afghanistan,1967,836.197138
4,Afghanistan,1972,739.981106
...,...,...,...
95,Bahrain,2007,29796.048340
96,Bangladesh,1952,684.244172
97,Bangladesh,1957,661.637458
98,Bangladesh,1962,686.341554


### 'country', 'year', 'gdpPercap' 열에 대해 처음부터 100개 행 데이터 추출하기(iloc 사용)

In [20]:
df.iloc[:100, [0, 2, 5]]

Unnamed: 0,country,year,gdpPercap
0,Afghanistan,1952,779.445314
1,Afghanistan,1957,820.853030
2,Afghanistan,1962,853.100710
3,Afghanistan,1967,836.197138
4,Afghanistan,1972,739.981106
...,...,...,...
95,Bahrain,2007,29796.048340
96,Bangladesh,1952,684.244172
97,Bangladesh,1957,661.637458
98,Bangladesh,1962,686.341554


# 2. Pandas Data Structures
***

## 2.1 데이터 만들기

In [40]:
import pandas as pd

In [41]:
scientists = pd.DataFrame(
    data={'Occupation': ['Chemist', 'Statistician'], 
          'Born': ['1920-07-25', '1876-06-13'], 
          'Died': ['1958-04-16', '1937-10-16'],
          'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died', 'Age']) 

## 2.2 데이터 추출

In [23]:
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


### 'William Gosset' 행 데이터 추출하기 (loc 사용)

In [24]:
scientists.loc['William Gosset']

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object

### 'William Gosset' 행 데이터 추출하기 (iloc 사용)

In [25]:
scientists.iloc[1]

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object

### 'William Gosset'의 Occupation 추출 (loc 사용)

In [29]:
scientists.loc['William Gosset', 'Occupation']

'Statistician'

### 'Rosaline Franklin'의 Occupation을 Programmer 로 변경(iloc 사용)

In [30]:
scientists.iloc[0, 0] = 'Programmer'
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin    Programmer  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


## 2.3 index, columns, values 속성 사용하기

### scientists의 index 가져오기

In [31]:
scientists.index

Index(['Rosaline Franklin', 'William Gosset'], dtype='object')

### scientists의 columns 가져오기

In [32]:
scientists.columns

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')

### scientists의 모든 values 가져오기

In [33]:
scientists.values

array([['Programmer', '1920-07-25', '1958-04-16', 37],
       ['Statistician', '1876-06-13', '1937-10-16', 61]], dtype=object)

## 2.4 시리즈의 기초 통계 메서드 사용하기

### 시리즈 메서드 정리

| 시리즈 메서드    | 설명 |
| ----------------| --- |
| append          | 2개 이상의 시리즈 연결 |
| describe        | 요약 통계량 계산 |
| drop_duplicates | 중복값이 없는 시리즈 반환 |
| equals          | 시리즈에 해당 값을 가진 요소가 있는지 확인 |
| get_values      | 시리즈 값 구하기 (values 속성과 동일) |
| isin            | 시리즈에 포함된 값이 있는지 확인 |
| min             | 최솟값 반환 |
| max             | 최댓값 반환 |
| mean            | 산술 평균 반환 |
| median          | 중간값 반환 |
| replace         | 특정 값을 가진 시리즈 값을 교체 |
| sample          | 시리즈에서 임의의 값을 반환 |
| sort_values     | 값을 정렬 |
| to_frame        | 시리즈를 데이터프레임으로 변환 |

### scientiest 에서 평균 나이 ('Age'열) 구하기

In [34]:
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin    Programmer  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


In [35]:
scientists['Age'].mean()

49.0

### scientiest 에서 최대 나이 ('Age'열) 구하기

In [36]:
scientists['Age'].max()

61

### scientiest 에서 최소 나이 ('Age'열) 구하기

In [37]:
scientists['Age'].mean()

49.0

### scientiest 에서 나이('Age'열)에 대한 표준편차 구하기

In [38]:
scientists['Age'].std()

16.97056274847714

## 2.5 시리즈 다루기 - 응용

In [4]:
scientists = pd.read_csv('../data/scientists.csv')
print(scientists)

                   Name        Born        Died  Age          Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1        William Gosset  1876-06-13  1937-10-16   61        Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5             John Snow  1813-03-15  1858-06-16   45           Physician
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


### 수명(Age)이 평균수명 보다 적은 과학자들의 수명 데이터(시리즈) 추출하기

In [6]:
scientists[scientists['Age'] < scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist


### 수명(Age)이 평균수명 보다 큰 과학자들의 이름(Name) 데이터(시리즈) 추출하기

In [7]:
scientists['Name'][scientists['Age'] > scientists['Age'].mean()]

1          William Gosset
2    Florence Nightingale
3             Marie Curie
7            Johann Gauss
Name: Name, dtype: object

### 1800년대에 태어난 과학자들의 이름(Name) 데이터(시리즈) 추출하기 (& 연산자 사용)

In [8]:
scientists['Name'][(scientists['Born'] > '1800-01-01') & (scientists['Born'] < '1900-01-01')]

1          William Gosset
2    Florence Nightingale
3             Marie Curie
5               John Snow
Name: Name, dtype: object

### 직업(Occupation)이 Chemist 또는 Physician 인 과학자들의 이름(Name) 데이터(시리즈) 추출하기 (| 연산자 사용)

In [10]:
scientists['Name'][(scientists['Occupation'] == 'Chemist') | (scientists['Occupation'] == 'Physician')]

0    Rosaline Franklin
3          Marie Curie
5            John Snow
Name: Name, dtype: object

### 수명 데이터에 10 더하기

In [11]:
scientists['Age'] + 10

0     47
1     71
2    100
3     76
4     66
5     55
6     51
7     87
Name: Age, dtype: int64

## 2.6 데이터프레임 다루기

### 수명(Age)이 평균수명 보다 적은 과학자들의 전체 데이터(데이터프레임) 추출하기

In [12]:
scientists[scientists['Age'] < scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist


### 출생일(Born) 데이터의 타입을 datetime 으로 변환하여 새로운 열(Born_dt)로 추가하기 (to_datetime 사용)

In [14]:
scientists['Born_dt'] = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')
print(scientists)

                   Name        Born        Died  Age          Occupation   
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist  \
1        William Gosset  1876-06-13  1937-10-16   61        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist   
5             John Snow  1813-03-15  1858-06-16   45           Physician   
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician   

     Born_dt  
0 1920-07-25  
1 1876-06-13  
2 1820-05-12  
3 1867-11-07  
4 1907-05-27  
5 1813-03-15  
6 1912-06-23  
7 1777-04-30  


### 출생일(Born_dt) 데이터를 사용하여 1850년 이후에 태어난 과학자의 전체데이터(데이터프레임) 추출하기

In [15]:
scientists[scientists['Born_dt'] >= '1850-01-01']

Unnamed: 0,Name,Born,Died,Age,Occupation,Born_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23


### Born_dt 열 삭제하기 (drop 함수 사용)

In [17]:
scientists.drop('Born_dt', axis=1, inplace=True)

# 3. Data Assembly, Tidy Data, Data Types and Groupby
***

## 3.1 데이터 불러오기

In [1]:
import pandas as pd

In [2]:
scores_1_1 = pd.read_csv('../data/scores_1_1.csv', header=None)
scores_1_2 = pd.read_csv('../data/scores_1_2.csv', header=None)
scores_2_1 = pd.read_csv('../data/scores_2_1.csv', header=None)
scores_2_2 = pd.read_csv('../data/scores_2_2.csv', header=None)

## 3.2 데이터 합치기

### scores_1_1 와 scores_1_2 를 열기준(axis=1) 으로 합쳐 scores_1 변수에 저장하기 (concat)

In [3]:
scores_1 = pd.concat([scores_1_1, scores_1_2], axis=1, ignore_index=True)

### scores_1 의 열이름을 1, 2, 3, ... 로 변경하기

In [4]:
scores_1.columns = range(1, len(scores_1.columns) + 1)

### scores_1 에서 누락 데이터를 0 으로 채우기 (fillna)

In [5]:
scores_1.fillna(0, inplace=True)

### scores_1 모든 데이터타입을 int32 으로 변경하기 (astype)

In [6]:
scores_1 = scores_1.astype('int32')

### scores_1 의 모든 데이터에 4를 곱한 값으로 재지정 하기 (브로드캐스팅)

In [7]:
scores_1 = scores_1 * 4

### scores_1 에 새로운 class 열 추가하기(class 데이터 값은 모두 '1반')

In [8]:
scores_1['class'] = '1반'

### scores_2_1 와 scores_2_2 를 열기준(axis=1) 으로 합쳐 scores_2 변수에 저장하기 (concat)

In [9]:
scores_2 = pd.concat([scores_2_1, scores_2_1], axis=1, ignore_index=True)

### scores_2 의 열이름을 1, 2, 3, ... 로 변경하기 (range)

In [10]:
scores_2.columns = range(1, len(scores_2.columns) + 1)

### scores_2 에서 누락 데이터를 0 으로 채우기 (fillna)

In [11]:
scores_2.fillna(0, inplace=True)

### scores_2 의 모든 데이터타입을 int32 으로 변경하기 (astype)

In [12]:
scores_2 = scores_2.astype('int32')

### scores_2 의 모든 데이터에 4를 곱한 값으로 재지정하기 (브로드캐스팅)

In [13]:
scores_2 = scores_2 * 4

### sores_2 에 새로운 class열 추가하기(class 데이터 값은 모두 '2반')

In [14]:
scores_2['class'] = '2반'

### scores_1 과 scores_2 를 행기준(axis=0) 으로 합쳐 scores 변수에 저장하기 (concat)

In [15]:
scores = pd.concat([scores_1, scores_2], axis=0, ignore_index=True)

### scores에 새로운 id열(values = 1, 2, 3, ...) 추가하기

In [16]:
scores['id'] = range(1, len(scores) + 1)

### class 열의 데이터타입을 category 로 변경하기 (astype)

In [17]:
scores['class'] = scores['class'].astype('category')

## 3.3 분석하기

### class, id 열을 고정하고, 나머지 열을 피벗하여 scores_long 변수에 저장하기 (melt - var_name='question', value_name='score')

In [18]:
scores_long = pd.melt(scores, id_vars=['class', 'id'], var_name='question', value_name='score')
print(scores_long)

     class  id question  score
0       1반   1        1    0.0
1       1반   2        1    4.0
2       1반   3        1    0.0
3       1반   4        1    4.0
4       1반   5        1    4.0
...    ...  ..      ...    ...
1895    2반  72       25    NaN
1896    2반  73       25    NaN
1897    2반  74       25    NaN
1898    2반  75       25    NaN
1899    2반  76       25    NaN

[1900 rows x 4 columns]


### scores_long 에서 학생별 점수 구하기 (groupby, sum)

In [23]:
scores_long.groupby('id')['score'].sum()

id
1     40.0
2     56.0
3     40.0
4     88.0
5     60.0
      ... 
72    80.0
73    56.0
74    64.0
75     0.0
76    40.0
Name: score, Length: 76, dtype: float64

### scores_long 에서 반/학생별 평균 점수 구하여 class_scores 변수에 저장하기 (groupby, sum, reset_index)

In [26]:
class_scores = scores_long.groupby(['class', 'id'])['score'].sum().reset_index()
print(class_scores)

    class  id  score
0      1반   1   40.0
1      1반   2   56.0
2      1반   3   40.0
3      1반   4   88.0
4      1반   5   60.0
..    ...  ..    ...
147    2반  72   80.0
148    2반  73   56.0
149    2반  74   64.0
150    2반  75    0.0
151    2반  76   40.0

[152 rows x 3 columns]


### class_scores에서 반별 평균 점수 구하기 (groupby, mean)

In [27]:
class_scores.groupby('class')['score'].mean()

class
1반    25.789474
2반    20.736842
Name: score, dtype: float64

### class_scores에서 반별 기술통계 항목 구하기 (groupby, describe)

In [28]:
class_scores.groupby('class').describe()

Unnamed: 0_level_0,id,id,id,id,id,id,id,id,score,score,score,score,score,score,score,score
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
1반,76.0,38.5,22.083176,1.0,19.75,38.5,57.25,76.0,76.0,25.789474,28.430179,0.0,0.0,10.0,48.0,88.0
2반,76.0,38.5,22.083176,1.0,19.75,38.5,57.25,76.0,76.0,20.736842,25.20284,0.0,0.0,0.0,42.0,80.0


# 4. Regular Expression
***

## 4.1 문자열에서 찾기

In [29]:
import pandas as pd
import re

sample = """
750101-1123146 01012345677
900201-2123121 010-2234-7799
950722-2027193 010-2987-7222
000321-3123142 011_1234_9087
001105-4333127 010 4422 1485
0009213876575  01045845987
"""

### 전화번호 추출하기

In [33]:
p = re.compile('\d{3}[-_\s]?\d{4}[-_\s]?\d{4}$', re.MULTILINE)
print(p.findall(sample))

['01012345677', '010-2234-7799', '010-2987-7222', '011_1234_9087', '010 4422 1485', '01045845987']


### 주민등록번호 추출하기

In [35]:
p = re.compile('\d{6}-?\d{7}')
print(p.findall(sample))

['750101-1123146', '900201-2123121', '950722-2027193', '000321-3123142', '001105-4333127', '0009213876575']


### 여성 주민등록번호 추출하기

In [36]:
p = re.compile('\d{6}-?[24]\d{6}')
print(p.findall(sample))

['900201-2123121', '950722-2027193', '001105-4333127']


## 4.2 데이터프레임에서 찾기

In [46]:
scientists = pd.read_csv('../data/scientists.csv')
print(scientists)

                   Name        Born        Died  Age          Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1        William Gosset  1876-06-13  1937-10-16   61        Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5             John Snow  1813-03-15  1858-06-16   45           Physician
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


### 5월에 태어난 과학자 추출

In [47]:
scientists[scientists['Born'].str.match('\d{4}-05-\d{2}')]

Unnamed: 0,Name,Born,Died,Age,Occupation
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist


### 성(last name)이 C로 시작하는 과학자 추출

In [48]:
scientists[scientists['Name'].str.match('\w+\s[cC]\w+')]

Unnamed: 0,Name,Born,Died,Age,Occupation
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
