# 2강 데이터 준비하기

## `pandas` 시작하기

In [9]:
import pandas as pd
from numpy import nan

In [10]:
data = {
    'speaker': ['S001', 'S002', 'S003', 'S004'],
    'age': [25, 34, 28, 41],
    'gender': ['F', 'M', 'F', 'M'],
    'dialect': ['Seoul', 'Busan', 'Daegu', 'Seoul'],
    'lexical_diversity': [0.82, 0.76, 0.79, 0.85]
}

df = pd.DataFrame(data)
print(df)

  speaker  age gender dialect  lexical_diversity
0    S001   25      F   Seoul               0.82
1    S002   34      M   Busan               0.76
2    S003   28      F   Daegu               0.79
3    S004   41      M   Seoul               0.85


In [11]:
print(df.dtypes)

speaker               object
age                    int64
gender                object
dialect               object
lexical_diversity    float64
dtype: object


## Tidy Data

In [24]:
tidy_url = 'https://raw.githubusercontent.com/suparklingmin/LSK-2025-LingStat/refs/heads/main/data/tidy.csv'

tidy_df = pd.read_csv(tidy_url)
print(tidy_df)

   참여자   조건  단어  반응시간
0  P01  고빈도  사람   523
1  P01  고빈도  하다   487
2  P01  저빈도  찬란   672
3  P02  고빈도  사람   498
4  P02  고빈도  하다   512
5  P02  저빈도  찬란   701
6  P03  고빈도  사람   510
7  P03  고빈도  하다   495
8  P03  저빈도  찬란   689


### Wide to Long 변환

In [25]:
messy1_url = 'https://raw.githubusercontent.com/suparklingmin/LSK-2025-LingStat/refs/heads/main/data/messy1.csv'

messy1_df = pd.read_csv(messy1_url)
print(messy1_df)

   참여자  고빈도_사람  고빈도_하다  저빈도_찬란
0  P01     523     487     672
1  P02     498     512     701
2  P03     510     495     689


In [None]:
messy2_df = pd.melt(
    messy1_df,
    id_vars=['참여자'],
    var_name='조건_단어',
    value_name='반응시간'
)
print(messy2_df)

   참여자   조건_단어  반응시간
0  P01  고빈도_사람   523
1  P02  고빈도_사람   498
2  P03  고빈도_사람   510
3  P01  고빈도_하다   487
4  P02  고빈도_하다   512
5  P03  고빈도_하다   495
6  P01  저빈도_찬란   672
7  P02  저빈도_찬란   701
8  P03  저빈도_찬란   689


In [None]:
tidy2_df = messy2_df.copy()
tidy2_df[['조건', '단어']] = tidy2_df['조건_단어'].str.split('_', expand=True)
tidy2_df = tidy2_df.drop('조건_단어', axis=1)
print(tidy2_df)

   참여자  반응시간   조건  단어
0  P01   523  고빈도  사람
1  P02   498  고빈도  사람
2  P03   510  고빈도  사람
3  P01   487  고빈도  하다
4  P02   512  고빈도  하다
5  P03   495  고빈도  하다
6  P01   672  저빈도  찬란
7  P02   701  저빈도  찬란
8  P03   689  저빈도  찬란


In [35]:
tidy_df == tidy2_df[tidy_df.columns].sort_values('참여자', ignore_index=True)

Unnamed: 0,참여자,조건,단어,반응시간
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,True
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True


### Pivot 변환

In [41]:
messy3_url = 'https://raw.githubusercontent.com/suparklingmin/LSK-2025-LingStat/refs/heads/main/data/messy3.csv'

messy3_df = pd.read_csv(messy3_url)
print(messy3_df)

   참여자  측정항목     고빈도     저빈도
0  P01  반응시간  505.00  672.00
1  P01   정확도    0.95    0.82
2  P02  반응시간  505.00  701.00
3  P02   정확도    0.93    0.79
4  P03  반응시간  502.50  689.00
5  P03   정확도    0.94    0.81


In [73]:
messy4_df = pd.melt(
    messy3_df,
    id_vars=['참여자', '측정항목'],
    var_name='조건',
    value_name='값'
)
print(messy4_df)

    참여자  측정항목   조건       값
0   P01  반응시간  고빈도  505.00
1   P01   정확도  고빈도    0.95
2   P02  반응시간  고빈도  505.00
3   P02   정확도  고빈도    0.93
4   P03  반응시간  고빈도  502.50
5   P03   정확도  고빈도    0.94
6   P01  반응시간  저빈도  672.00
7   P01   정확도  저빈도    0.82
8   P02  반응시간  저빈도  701.00
9   P02   정확도  저빈도    0.79
10  P03  반응시간  저빈도  689.00
11  P03   정확도  저빈도    0.81


In [98]:
tidy4_df = messy4_df.pivot(
    index=['참여자', '조건'],
    columns='측정항목',
    values='값'
)
print(tidy4_df)

측정항목      반응시간   정확도
참여자 조건              
P01 고빈도  505.0  0.95
    저빈도  672.0  0.82
P02 고빈도  505.0  0.93
    저빈도  701.0  0.79
P03 고빈도  502.5  0.94
    저빈도  689.0  0.81


In [99]:
tidy4_df = tidy4_df.reset_index()
print(tidy4_df)

측정항목  참여자   조건   반응시간   정확도
0     P01  고빈도  505.0  0.95
1     P01  저빈도  672.0  0.82
2     P02  고빈도  505.0  0.93
3     P02  저빈도  701.0  0.79
4     P03  고빈도  502.5  0.94
5     P03  저빈도  689.0  0.81


In [96]:
tidy4_df.columns.name = None
print(tidy4_df)

   참여자   조건   반응시간   정확도
0  P01  고빈도  505.0  0.95
1  P01  저빈도  672.0  0.82
2  P02  고빈도  505.0  0.93
3  P02  저빈도  701.0  0.79
4  P03  고빈도  502.5  0.94
5  P03  저빈도  689.0  0.81
