# 시리즈와 데이터프레임 직접 만들기

## 데이터프레임과 시리즈는 리스트와 딕셔너리와 비슷하지만 데이털르 다루는 데 더 특화되어 있다.

##  1. 시리즈 만들기

In [2]:
import pandas as pd
s = pd.Series(['apple',33])
s

0    apple
1       33
dtype: object

list를 Series로 변환 가능

In [6]:
list_data = ['2022-03-03',3.14,'sesac',100,True]
s = pd.Series(list_data)
print(s)
print(type(s))

0    2022-03-03
1          3.14
2         sesac
3           100
4          True
dtype: object
<class 'pandas.core.series.Series'>


In [9]:
idx = s.index
val = s.values
print(idx,"\n",val)

RangeIndex(start=0, stop=5, step=1) 
 ['2022-03-03' 3.14 'sesac' 100 True]


dictionary도 Series로 변환 가능

In [12]:
dict_data = {
    'a':1
    ,'b':2
    ,'c':3
}
s = pd.Series(dict_data)
s

a    1
b    2
c    3
dtype: int64

## 2. 시리즈를 생성할 문자열을 인덱스로 지정할 수도 있다.
- 문자열을 인덱스로 지정하려면 Series메서드의 index인자를 통해 사용하고자 하는 문자열을 리스트에 담아 전달하면 된다.

In [14]:
s = pd.Series(['Jane','student'], index=['Person','Job'])
s

Person       Jane
Job       student
dtype: object

## 3. 딕셔너리로 데이터프레임 생성하기
- 파이썬의 기본 자료구조로 데이터프레임 생성이 가능하다.
- 아래의 예제는 딕셔너리로 데이터프레임 생성하는 예제이다.
- 딕셔너리를 DataFrame클래스에 전달해야 한다.
- 데이터프레임의 컬럼은 모두 시리즈입니다. 아래 예제는 5개의 시리즈로 구성된 데이터프레임이다.

In [1]:
import pandas as pd
scientists = pd.DataFrame({
        'Name' : ['programmers','baekjoon']
        ,'Occupation': ['Nurse','Artist']
        ,'Born': ['1720-07-10','1950-11-11']
        ,'Died': ['1750-04-05','1999-11-10']
        ,'Age' : [37,61]
})
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,programmers,Nurse,1720-07-10,1750-04-05,37
1,baekjoon,Artist,1950-11-11,1999-11-10,61


In [2]:
scientists = pd.DataFrame(
    data = {'Occupation': ['Nurse','Artist']
        ,'Born': ['1720-07-10','1950-11-11']
        ,'Died': ['1750-04-05','1999-11-10']
        ,'Age' : [37,61]}
    ,index = ['programmers','baekjoon']
    ,columns=['Occupation','Born','Died','Age']
)
scientists

Unnamed: 0,Occupation,Born,Died,Age
programmers,Nurse,1720-07-10,1750-04-05,37
baekjoon,Artist,1950-11-11,1999-11-10,61


pd.DataFrame.loc[[로우_인덱스1, 로우_인덱스2,...], ['컬럼명 1', '컬럼_명2',...]]

pd.DataFrame.loc[시작_로우_인덱스:끝_로우_인덱스, 시작_컬럼_인덱스:끝_컬럼_인덱스]

In [37]:
scientists.loc[:,:]
scientists.loc['programmers',['Born','Age']]

Born    1720-07-10
Age             37
Name: programmers, dtype: object

## 딕셔너리는 데이터의 순서를 보장하지 않는다
- 순서가 보장된 딕셔너리를 전달하려면 OrderdDict클래스를 사용하자

In [41]:
from collections import OrderedDict
scientists = pd.DataFrame(OrderedDict([
        ('Name', ['programmers','baekjoon'])
        ,('Occupation', ['Nurse','Artist'])
        ,('Born', ['1720-07-10','1950-11-11'])
        ,('Died', ['1750-04-05','1999-11-10'])
        ,('Age' , [37,61])
]))
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,programmers,Nurse,1720-07-10,1750-04-05,37
1,baekjoon,Artist,1950-11-11,1999-11-10,61


## 데이터프레임에서 시리즈 선택하기

In [43]:
scientists = pd.DataFrame(
    data = {'Occupation': ['Nurse','Artist']
        ,'Born': ['1720-07-10','1950-11-11']
        ,'Died': ['1750-04-05','1999-11-10']
        ,'Age' : [37,61]}
    ,index = ['programmers','baekjoon']
    ,columns=['Occupation','Born','Died','Age']
)
scientists

Unnamed: 0,Occupation,Born,Died,Age
programmers,Nurse,1720-07-10,1750-04-05,37
baekjoon,Artist,1950-11-11,1999-11-10,61


In [48]:
first_row = scientists.loc['programmers']
print(first_row)
print(type(first_row))

Occupation         Nurse
Born          1720-07-10
Died          1750-04-05
Age                   37
Name: programmers, dtype: object
<class 'pandas.core.series.Series'>


In [9]:
scientists

Unnamed: 0,Occupation,Born,Died,Age
programmers,Nurse,1720-07-10,1750-04-05,37
baekjoon,Artist,1950-11-11,1999-11-10,61


In [5]:
first_row = scientists.loc['programmers']
first_row

Occupation         Nurse
Born          1720-07-10
Died          1750-04-05
Age                   37
Name: programmers, dtype: object

## index, values 속성과 keys메서드 사용하기

### 1. index 속성 사용하기

In [13]:
print(first_row.index) # 인덱스만 가져옴
print(first_row.index[0]) # 인덱스만 가져옴

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')
Occupation


### 2. values 속성 사용하기

In [11]:
print(first_row.values) #값들 가져옴

['Nurse' '1720-07-10' '1750-04-05' 37]


## 3. keys 메서드 사용하기

In [14]:
print(first_row.keys()) #
print(first_row.keys()[0]) #

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')
Occupation


In [16]:
ages = scientists['Age']
ages

programmers    37
baekjoon       61
Name: Age, dtype: int64

In [20]:
print(ages.mean())
print(ages.min())
print(ages.std())
print(ages.sort_values()) # 내장함수

49.0
37
16.97056274847714
programmers    37
baekjoon       61
Name: Age, dtype: int64


## 시리즈와 boolean 추출 사용하기

In [49]:
import os
os.chdir('C:\\SeSAC\\python-study')
os.getcwd()
scientists = pd.read_csv('Book_doit_JumpToPython\\data\\scientists.csv')

In [50]:
import pandas as pd
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [51]:
ages = scientists['Age']
print(ages.max())
print(ages.mean())

90
59.125


#### 평균나이보다 많은사람

In [52]:
ages[ages > ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

In [53]:
print(type(ages > ages.mean()))
print(ages > ages.mean())

<class 'pandas.core.series.Series'>
0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [44]:
'''
불린추출
리스트 형태로 참, 거짓을 담아 시리즈에 전달하면 참인 인덱스의 데이터만 추출할 수 있다.
'''
manual_bool_values = \
    [True,True,False,False,True,True,False,True]
print(ages[manual_bool_values])

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


In [45]:
print(ages+ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


## 벡터와 스칼라로 브로드캐스팅 수행하기
- 벡터: 시리즈처럼 여러 개의 값을 가진 데이터
- 스칼라: 단순 크기를 나타내는 데이터

In [54]:
print(ages*ages)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


####  길이가 서로 다른 벡터를 연산

In [55]:
import pandas as pd
print(pd.Series([1,100]))

0      1
1    100
dtype: int64


In [60]:
'''
가져온 데이터는 8개인데 2개인 시리즈와 비교.
비교할 수 없으면 누락값(NaN)으로 처리한다
'''
print(ages + pd.Series([1,100]))

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


#### 인덱스 정렬
- ascending=True (default, 오름차순)
- ascending=False (역순)

In [62]:
rev_ages = ages.sort_index(ascending=False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

In [64]:
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist


In [71]:
print(scientists['Age'].mean())
scientists[scientists['Age'] > scientists['Age'].mean()]

59.125


Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician
