우리 프로젝트에서는 기본적으로 라이프치히 주석 규칙과 위키백과에 제시된 문법 범주 표지 목록을 따른다.
라이프치히 주석 규칙(Leipzing Glossing Rules)은 행간 주석(interlinear glosses)에 대한 열 가지 규칙으로 구성되어 있으며 부록으로 축약형 범주 표지의 목록을 제시하고 있다.
행간 주석(interlinear gloss)이란 원문 행과 번역문 행의 사이에 일련의 설명을 단 것을 말한다. 전사를 하거나 언어학적 분석 정보를 추가할 수 있으며 이렇게 주석으로 달린 행을 행간 주석 텍스트(IGT, interlinear glossed text)라고 한다.
텍스트에 앞서 언어명과 출처를 제시한다. 다음과 같이 5단계의 행으로 이루어질 수 있다. 원문(1)과 번역문(5)은 아래 위 정렬을 하지 않고 한 덩어리로 제시한다. 분석과 주석에 해당하는 행은 아래 위 단어 단위로 짝을 맞춘다.
일반적으로 분석(3), 주석(4), 번역(5)만 제시하며 원문(1)과 예비(2) 단계는 생략한다.
Korean (Author 2015:99) 1. 학생들에게만 주셨는데 2. 학생-들-에게-만 주-시-었-는데 2. hak.sayng.tul.ey.key.man cwu.syess.nun.te 3. haksayng-tul-eykey-man cwu-si-ess-nunte 4. student-PL-DAT-only give-HON-PST-while 5. 'while (he/she) gave (it) only to the students'
우리 프로젝트에서는 다음과 같은 원칙을 따른다.
(author year:page)
형식으로 기록한다.Небя-в | мя-кӑнанда | яӈгу |
mother-1SG | tent-LOC.3SG | be.NEG |
라이프치히 주석 규칙은 다음과 같이 10개 규칙으로 구성되어 있다. 우리 프로젝트에서는 기본적으로 이 틀을 따르되 매우 간소화하여 사용한다.
행간 주석은 왼쪽 정렬을 하고 단어 대 단어로 대응되도록 한다.
단순하게 생각하면 공백으로 구분된 단위가 대응되도록 하면 된다.
중국 지역의 참고 자료의 경우 단어 구분이 명확하지 않은 경우가 있다. 명시적으로 접사라는 언급이 없는 한 일관적으로 띄어쓰기로 한다.
분절 가능한 형태소는 예문과 주석 모두 하이픈으로 구분하여 표시한다. 예문과 주석에서 하이픈의 개수는 정확히 일치해야 한다.
Achang (Author 2015:999) ts`MN31thA?31 Ei?55 s`Mk55 ts\E~31 kuAN33 x@u33 mountaintop POS tree cut completely PTCL 산위의 나무가 (모두) 베어 없어졌다.
Achang (Author 2015:999) nAN33 xA33 kAi33 Ei?55 ts`Au33 p_jE~31 nEi?55 you PREH speak POS word right DUR '너가 한 말이 맞다.'
접어(clitic)의 경우 원자료에 명시적으로 접어로 설명이 되어있다면 등호(=
)로 연결하여
표시한다. 그렇지 않은 경우 모두 하이픈으로 연결한다.
다음은 우리 프로젝트에서 사용하지 않는다.
하이픈은 단어 내부에서만 사용하는 것이 원칙이며 단어는 띄어쓰기를 단위이다. 예외적으로 형태론적으로 종속적 요소이지만 독립적인 단어처럼 행동할 때 분석 행에서 하이픈 앞에 공백을 하나 두고 주석 행에서는 공백없이 처리한다. 이 경우 띄어쓰기 단위가 일치하지 않게 된다.
Hakha Lai a-nii -láay 3SG-laugh-FUT 's/he will laugh'
문법 형태소는 문법 범주 표지로 주석한다. 문법 범주 표지는 대문자로 표시한다. 문법 범주 표지 축약형의 목록은 부록에 있다.
대상언어에서 단일한 요소가 메타언어에서 여러 개의 요소에 대응될 때 마침표를 이용하여 구분한다.
xA55 k_huN31 ts@31 kAN31 uN33~35 wAN33 lA?31~35 this door narrow very impossible enter go '이 문은 매우 좁아 들어갈 수 없다.'
라이프치히 규약에서는 주석에서 여러가지 묶음 기호를 사용하도록 제안하고 있으나
우리 프로젝트에서는 마침표(.
)와 크다(>
) 기호만 사용한다.
참고로 모든 가능한 묶음 기호 목록은 다음과 같다.
사용 | 기호 | 사용법 | |
o | 마침표 | . | 기본 |
o | 크다 | > | 인칭-수 접사가 agent>patient를 동시 표현할 때 |
x | 밑줄 | _ | 대상언어의 요소가 형식적, 의미적 분절 불가능 |
x | 세미콜론 | ; | 대상언어의 요소가 형식적으로 분절이 불가능하나 의미/문법적으로 구분 가능 |
x | 콜론 | : | 대상언어의 요소가 분절 가능하나 표시하고 싶지 않음 |
x | 백슬래시 | \ | 대상언어의 요소가 형태 변화가 일어나는 경우 |
1PL
로 한다. 1.PL
로 표시하지 않는다.3NSG
대신에 3ns
로 간략하게 표기할 수 있다.우리 프로젝트에서는 비명시적 요소를 따로 구분하지 않는다. 다음과 같이 일대다 대응 경우처럼 처리한다.
Latin puer boy.NOM.SG
참고로 라이프치히 규약에서 제안하는 방식은 다음과 같다. 형태소 대응 주석을 할 경우 명시적으로 나타나지 않는 요소가 문제가 된다. 주석에 대괄호로 둘러싸서 표기한다.
Latin puer boy[NOM.SG]
대상언어 예문에 Ø로 빈 자리를 표시할 수도 있다.
Latin puer-Ø boy-NOM.SG
내재적인 비명시적 범주는 괄호 안에 넣어 주석한다.
Hunzib (van den Berg 1995:46) oz#-di-g xõxe m-uq'e-r boy-OBL-AD tree(G4) G4-bend-PRET 'Because of the boy the tree bent.' (G4 = 4th gender, AD = adessive, PRET = preterite)
주의! 내재 범주를 표시하기 위한 목적 이외에 부연 설명, 선택적 요소 등을 괄호로 묶어 표시하려는 경우 괄호의 좌우에 공백 문자를 하나씩 추가한다.
하나의 문법 또는 어휘 요소가 두 조각으로 나뉘어 있는 경우에 나누어 반복하여 표기한다. 다음은 라코타어의 na-xʔu̧ 'hear'의 경우의 예이다. 두 가지 방식이 있다.
Lakhota na-wíčha-wa-xʔu̧ hear-3PL.UND-1SG.ACT-hear 'I hear them' (UND = undergoer, ACT = actor)
na-wíčha-wa-xʔu̧ hear-3PL.UND-1SG.ACT-STEM 'I hear them'
접요사(infix)는 화살괄호로 묶어 표시한다.
Latin reli<n>qu-ere leave<PRS>-INF 'to leave'
중첩(reduplication)은 접사처럼 다루되 물결 ~
기호를 이용하여 연결한다.
Tagalog bi~bili IPFV~buy 'is buying'
XSAMPA를 이용할 경우 비음 기호 ~
와 충돌할 수 있다.
이때 다음과 같이 XSAMPA 경계 괄호 []
밖에서 ~
을 사용하면 충돌을 피할 수 있다.
[bi]~[bili]
다음은 라이프치히 규약 이외에 추가로 우리 프로젝트에서 도입한 규칙이다.
[pa~33~35]
pa~33~35 앞의 물결은 비음, 뒤의 물결은 성조 변화 표시.
몇 단어로 이루어진 덩어리들 사이의 경계를 표시해 주면 가독성이 높아지는 경우가 있다.
이때에는 세로막대(|
)를 사용한다.
이것은 공식전인 주석이 아니며 정확한 통사 분석을 위해서 사용하는 것은 아니다.
가독성 향상을 위한 보조적인 도구로만 사용한다.
nɯ⁵⁵ | ka⁵⁵ | ȵi²¹ | | | a⁴⁴ | ȵi²¹ | pi³³ | ȵi²¹ | | | sa³⁵. |
this | several | CL | | | one | CL | than | CL | | | thin |
대상언어 분석 행과 메타언어를 이용한 주석 행에서 동일하게 짝을 맞추어 사용하는 기호는 다음과 같은 것들이 있다.
우리 프로젝트에서는 첫 컬럼에 o
표시된 것만 사용한다. x
표시된 것은 사용하지 않는다.
사용 | 기호 | 기호 | 의미 |
o | 하이픈 | - | 단어 내의 형태소 경계. |
x | 등호 | = | clitic 경계를 표시 |
o | 화살괄호 | <> | infix |
o | 물결 | ~ | reduplication |
다음은 라이프치히 규칙의 주석 행에서 사용하는 기호 목록이다. 첫 컬럼에 o
로 표시된 것은 우리 프로젝트에서
사용하는 기호이다. x
로 표시된 것은 우리 프로젝트에서 사용하지 않는다.
o | 마침표 | . | 일대다 대응. 대상언어의 한 단어가 메타언어에서 여러 단어에 대응할 때. |
o | 크다 | > | 일대다 대응. 인칭-수 표지를 agent>patient 형식으로. |
o | 소괄호 | () | 비명시적 요소. 내재적 범주를 주석에 표시할 때. gender같은 경우. |
x | 밑줄 | _ | 일대다 대응. 대상언어의 한 단어가 형식적으로나 의미적으로나 분리되지 않을 때. |
x | 세미콜론 | ; | 일대다 대응. 대상언어의 한 단어가 형식저으로는 구분 불가 둘 이상의 의미/문법적 속성 가질 때. |
x | 콜론 | : | 일대다 대응. 대상언어가 분석 가능하나 표지하지 않았을 때. |
x | 백슬래시 | \\ | 일대다 대응. 형태변화가 있을 때 관련있는 것\관련없는 것. |
x | 대괄호 | [] | 비명시적 요소. 참조) 대상언어에서 무표(Ø)로 표시할 수도 있음. |