## Pandas의 Data Structure (Series와 DataFrame)

### 리스트로 Series 생성
index 값을 지정하지 않을 경우 0부터 자동으로 index가 부여됨

In [6]:
import pandas as pd

my_list = ['a','b','c','d','e']

s = pd.Series(my_list)
print(s)

0    a
1    b
2    c
3    d
4    e
dtype: object


### index를 명시적으로 지정하여 Series 생성
index의 길이는 list의 길이와 같아야 함

In [7]:
import pandas as pd

my_list = ['a','b','c','d','e']

s = pd.Series(my_list,
             index = [1,2,3,4,5])
print(s)

1    a
2    b
3    c
4    d
5    e
dtype: object


### 딕셔너리로 Series 생성
딕셔너리의 Key가 생성된 Series의 Index가 된다

In [9]:
import pandas as pd

my_dict = {'first_name' : 'SoHyun',
          'last_name' : 'Lee',
           'Gender' : 'W',
           'Age' : 24,
           'some_list' : [1,3,5,7,9]
          }

s = pd.Series(my_dict)
print(s)

first_name             SoHyun
last_name                 Lee
Gender                      W
Age                        24
some_list     [1, 3, 5, 7, 9]
dtype: object


### 특정 index만 선택하여 Series 생성

In [15]:
import pandas as pd

my_dict = {'first_name' : 'SoHyun',
          'last_name' : 'Lee',
           'Gender' : 'W',
           'Age' : 24,
           'some_list' : [1,3,5,7,9]
          }

s = pd.Series(my_dict,
             index = ['first_name'])
print(s)

first_name    SoHyun
dtype: object


### 튜플로 Series 생성

In [16]:
import pandas as pd

my_tuple = (10,20,30,40,50)

s = pd.Series(my_tuple)
print(s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


### int, float, string으로 Series 생성
index에 리스트값을 지정할 경우, Index 리스트 크기의 Series가 생성

In [18]:
import pandas as pd

s = pd.Series(100)
print(s)
s = pd.Series(3.14)
print(s)
s = pd.Series('some string',
             index = range(10))
print(s)


0    100
dtype: int64
0    3.14
dtype: float64
0    some string
1    some string
2    some string
3    some string
4    some string
5    some string
6    some string
7    some string
8    some string
9    some string
dtype: object


### Series의 name 설정

In [37]:
import pandas as pd

my_tuple = (10,20,30,40,50)

#방법1
s = pd.Series(my_tuple,
             index = [1,2,3,4,5],
             name = "number")
print(s)

#방법2
s.name = "numbbbber"
print(s)

1    10
2    20
3    30
4    40
5    50
Name: number, dtype: int64
1    10
2    20
3    30
4    40
5    50
Name: numbbbber, dtype: int64


### 리스트를 value로 갖는 딕셔너리로 DataFrame 생성

In [22]:
import pandas as pd

dict_list = {
        'Name' : ['Lee', 'Kim', 'Park', 'Han', 'cho'],
        'Age' : [24, 26, 30, 36, 42],
        'Gender' : ['W', 'M', 'W', 'M', 'M'],
        'is_student' : [False, True, True, False, False]
}

df = pd.DataFrame(dict_list)
print(df)

   Name  Age Gender  is_student
0   Lee   24      W       False
1   Kim   26      M        True
2  Park   30      W        True
3   Han   36      M       False
4   cho   42      M       False


### index를 지정하여 DataFrame 생성

In [25]:
import pandas as pd

dict_list = {
        'Name' : ['Lee', 'Kim', 'Park', 'Han', 'cho'],
        'Age' : [24, 26, 30, 36, 42],
        'Gender' : ['W', 'M', 'W', 'M', 'M'],
        'is_student' : [False, True, True, False, False]
}

df = pd.DataFrame(dict_list,
                 index = ['a','b','c','d','e'])
print(df)

   Name  Age Gender  is_student
a   Lee   24      W       False
b   Kim   26      M        True
c  Park   30      W        True
d   Han   36      M       False
e   cho   42      M       False


### 딕셔너리를 value로 갖는 딕셔너리로 DataFrame 생성
Outer 딕셔너리의 Key값은 DataFrame의 Column명이 되며,
Inner 딕셔너리의 Key값은 DataFrame의 Row Index가 된다.

In [29]:
import pandas as pd

dict_dict1 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }
}

df = pd.DataFrame(dict_dict1)
print(df, "\n")

   Name  Age Gender  is_student
a  Baek   21      M        True
b   Kim   31      F       False
c  Park   17      F        True
d   Han   41      M       False
e   Lee   51      M       False 



### Inner 딕셔너리의 Key 값이 서로 다를 경우

In [30]:
import pandas as pd

dict_dict2 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        '5' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        '3' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        '1' : 'M',
        '2' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        '4' : False,
        'e' : False
    },
    'some_other_value' : {}
}

df = pd.DataFrame(dict_dict2)
print(df)

   Name   Age Gender is_student  some_other_value
a  Baek  21.0    NaN       True               NaN
b   Kim  31.0    NaN      False               NaN
c  Park   NaN      F       True               NaN
d   Han  41.0      M        NaN               NaN
5   Lee   NaN    NaN        NaN               NaN
3   NaN  17.0    NaN        NaN               NaN
e   NaN  51.0      M      False               NaN
1   NaN   NaN      M        NaN               NaN
2   NaN   NaN      F        NaN               NaN
4   NaN   NaN    NaN      False               NaN


### Index와 column을 지정하여 DataFrame 생성
index = [' ', ...], 
columns = [' ', ...]

In [36]:
import pandas as pd

dict_dict2 = {
    'Name' : {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        '5' : 'Lee'
    },
    'Age' : {
        'a' : 21,
        'b' : 31,
        '3' : 17,
        'd' : 41,
        'e' : 51
    },
    'Gender' : {
        '1' : 'M',
        '2' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    'is_student' : {
        'a' : True,
        'b' : False,
        'c' : True,
        '4' : False,
        'e' : False
    },
    'some_other_value' : {}
}

df = pd.DataFrame(dict_dict2,
                 index = ['1','b',3,'e'],
                 columns = ['Name', 'Age']
                 )
print(df)

  Name   Age
1  NaN   NaN
b  Kim  31.0
3  NaN   NaN
e  NaN  51.0


### Series를 value로 갖는 딕셔너리로 DataFrame 생성

In [38]:
import pandas as pd

dict_series = {
    'Name' : pd.Series(['Baek','Kim','Park','Han','Lee']),
    'Age' : pd.Series([21,31,17,41,51]),
    'Gender' : pd.Series(['M','F','F','M','M']),
    'is_student' : pd.Series([True, False, True, False, False])
}

df = pd.DataFrame(dict_series)
print(df)

   Name  Age Gender  is_student
0  Baek   21      M        True
1   Kim   31      F       False
2  Park   17      F        True
3   Han   41      M       False
4   Lee   51      M       False


### 2중 리스트(리스트의 리스트)로 DataFrame 생성
row index, column index가 생성됨

In [39]:
import pandas as pd

list_list = [
    ['Baek','Kim','Park','Han','Lee'],
    [21,31,17,41],
    ['M','F','F','M','M'],
    [True, False, True, False]
]


df = pd.DataFrame(list_list)
print(df, '\n')

      0      1     2      3     4
0  Baek    Kim  Park    Han   Lee
1    21     31    17     41  None
2     M      F     F      M     M
3  True  False  True  False  None 



### 딕셔너리의 리스트로 DataFrame 생성
이 경우 딕셔너리의 Key 값이 DataFrame의 Column Index가 되는 것에 유의

In [41]:
import pandas as pd

list_dict = [
    {
        'a' : 'Baek',
        'b' : 'Kim',
        'c' : 'Park',
        'd' : 'Han',
        'e' : 'Lee'
    },
    {
        'a' : 21,
        'b' : 31,
        'c' : 17,
        'd' : 41,
        'e' : 51
    },
    {
        'a' : 'M',
        'b' : 'F',
        'c' : 'F',
        'd' : 'M',
        'e' : 'M'
    },
    {
        'a' : True,
        'b' : False,
        'c' : True,
        'd' : False,
        'e' : False
    }

]

df = pd.DataFrame(list_dict)
print(df, '\n')

# Transpose를 하면 원하던 결과(row index)를 얻을 수 있다.
print(df.T)

      a      b     c      d      e
0  Baek    Kim  Park    Han    Lee
1    21     31    17     41     51
2     M      F     F      M      M
3  True  False  True  False  False 

      0   1  2      3
a  Baek  21  M   True
b   Kim  31  F  False
c  Park  17  F   True
d   Han  41  M  False
e   Lee  51  M  False


### 보통 딕셔너리의 list로 이루어진 데이터는 다음과 같은 모양

In [43]:
import pandas as pd

list_dict2 = [
    {
        'Name' : 'Baek',
        'Age' : 21,
        'Gender' : 'M',
        'is_student' : True
    },
    {
        'Name' : 'Kim',
        'Age' : 31,
        'Gender' : 'F',
        'is_student' : False
    },
    {
        'Name' : 'Park',
        'Age' : 17,
        'Gender' : 'F',
        'is_student' : True,
    },
    {
        'Name' : 'Han',
        'Age' : 41,
        'Gender' : 'M',
        'is_student' : False
    },
    {
        'Name' : 'Lee',
        'Age' : 51,
        'Gender' : 'M',
        'is_student' : False
    }

]

df = pd.DataFrame(list_dict2)
print(df, '\n')

   Name  Age Gender  is_student
0  Baek   21      M        True
1   Kim   31      F       False
2  Park   17      F        True
3   Han   41      M       False
4   Lee   51      M       False 



### Series로 DataFrame 생성
Series의 Name이 DataFrame의 Column명이 된다

In [45]:
import pandas as pd

my_series = pd.Series(['a','b','c','d','e'])
my_series.name = 'column1'
df = pd.DataFrame(my_series)
print(df)

  column1
0       a
1       b
2       c
3       d
4       e
