# 주석 규칙 ## 개요 우리 프로젝트에서는 기본적으로 라이프치히 주석 규칙과 위키백과에 제시된 문법 범주 표지 목록을 따른다. - Leipzig Glossing Rules: https://www.eva.mpg.de/lingua/resources/glossing-rules.php - List of glossing abbreviations : https://en.wikipedia.org/wiki/List_of_glossing_abbreviations 라이프치히 주석 규칙(Leipzing Glossing Rules)은 행간 주석(interlinear glosses)에 대한 열 가지 규칙으로 구성되어 있으며 부록으로 축약형 범주 표지의 목록을 제시하고 있다. - 행간 형태소 대응 주석(interlinear morpheme-by-morpheme glosses) - 목적에 따라 얼마나 상세하게 주석할지 달라질 수 있다 - 형태론적 패턴의 분석에는 여러가지 방법이 있을 수 있다. 주석 규칙이 어떻게 분석할지에 대한 지침을 주지는 않는다. 단지 분석 결과를 주석하는 방법만 제시한다. - 주석은 자료의 일부가 아니라 분석의 일부이다. 인용할 경우에 분석과 주석은 달라질 수 있다. ### 행간 주석 텍스트 행간 주석(interlinear gloss)이란 원문 행과 번역문 행의 사이에 일련의 설명을 단 것을 말한다. 전사를 하거나 언어학적 분석 정보를 추가할 수 있으며 이렇게 주석으로 달린 행을 행간 주석 텍스트(IGT, interlinear glossed text)라고 한다. 텍스트에 앞서 언어명과 출처를 제시한다. 다음과 같이 5단계의 행으로 이루어질 수 있다. 원문(1)과 번역문(5)은 아래 위 정렬을 하지 않고 한 덩어리로 제시한다. 분석과 주석에 해당하는 행은 아래 위 단어 단위로 짝을 맞춘다. 1. 원문: (original text) 대상 언어의 예문을 있는 그대로 제시. 원래 언어의 문자를 사용하여 제시하기도 한다. 2. 예비적 분석: 띄어쓰기가 없는 언어에서 단어 단위로 분절, 라틴문자로 전사, 전사하지 않고 대상 언어의 문자를 이용하여 형태소 기본형을 제시하는 등. 여러 행이 제시될 수도 있다. 3. 분석: (analysis) 형태론적 분석이 이루어진 예문. 일반적으로 라틴문자 또는 IPA를 이용하여 전사한 형태로 제시. 4. 주석: (gloss) 어휘 요소는 메타언어(주로 영어)를 이용하여, 문법 요소는 약속된 표지를 이용하여 주석. 5. 번역: (free translation) 메타언어(주로 영어)를 이용하여 의미를 잘 전달할 수 있도록 번역. 일반적으로 분석(3), 주석(4), 번역(5)만 제시하며 원문(1)과 예비(2) 단계는 생략한다. ``` Korean (Author 2015:99) 1. 학생들에게만 주셨는데 2. 학생-들-에게-만 주-시-었-는데 2. hak.sayng.tul.ey.key.man cwu.syess.nun.te 3. haksayng-tul-eykey-man cwu-si-ess-nunte 4. student-PL-DAT-only give-HON-PST-while 5. 'while (he/she) gave (it) only to the students' ``` 우리 프로젝트에서는 다음과 같은 원칙을 따른다. - 참고 자료가 IPA 또는 라틴 문자로 원자료를 제시하고 있는 경우 분석, 주석, 번역 3행으로 제시한다. 주로 중국 지역 언어 자료에 이에 해당한다. - 참고 자료가 라틴 문자 이외의 문자로 제시된 경우 원문을 그대로 제시하고 IPA 또는 라틴 문자로 전사한 후 분석, 주석, 번역으로 총 4행으로 제시한다. 주로 러시아어로 된 참고 자료가 이에 해당한다. - 언어명 자리에는 glottolog 코드를 사용한다. 대개 영문 4글자와 숫자 4개로 구성되어 있다. http://glottolog.org/glottolog - 자료의 출처를 `(author year:page)` 형식으로 기록한다. - 주석 행에서 어휘 요소의 주석을 위한 메타언어는 영어를 사용한다. 어휘 요소는 소문자로 주석한다. 고유명사의 경우에는 첫글자를 대문자로 쓴다. 문장의 첫 단어를 대문자로 쓰지 않는다. - 번역 행에서는 한국어 또는 영어를 이용한다. 괄호 안에 참고 자료의 영어, 중국어, 러시아어 번역을 기록할 수 있다. {{{eg>nene1249 (Tereshchenko1966:382) Небя-в мя-кӑнанда яӈгу mother-1SG tent-LOC.3SG be.NEG 나의 어머니는 자신의 천막에 없다. (ru. Моей матери нет дома.) }}} ## 주석 규칙 라이프치히 주석 규칙은 다음과 같이 10개 규칙으로 구성되어 있다. 우리 프로젝트에서는 기본적으로 이 틀을 따르되 매우 간소화하여 사용한다. 1. word-by-word alignment 2. morpheme-by-morpheme correspondence 3. grammatical category labels 4. one-to-many correspondences 5. person and number labels 6. non-overt elements 7. bi-partite elements 8. infixes 9. inherent categories 10. reduplication ### 1. 단어 대응 정렬 행간 주석은 왼쪽 정렬을 하고 단어 대 단어로 대응되도록 한다. {{{eg>acha1249 (shijian2009:000) lA<31>NAu<33> mA_0?<55>n`_0it<31> n`_0a?<31> husband and wife '남편과 아내' }}} 단순하게 생각하면 공백으로 구분된 단위가 대응되도록 하면 된다. 중국 지역의 참고 자료의 경우 단어 구분이 명확하지 않은 경우가 있다. 명시적으로 접사라는 언급이 없는 한 일관적으로 띄어쓰기로 한다. ### 2. 형태소 대응 분절 가능한 형태소는 예문과 주석 모두 하이픈으로 구분하여 표시한다. 예문과 주석에서 하이픈의 개수는 정확히 일치해야 한다. ``` Achang (Author 2015:999) ts`MN31thA?31 Ei?55 s`Mk55 ts\E~31 kuAN33 x@u33 mountaintop POS tree cut completely PTCL 산위의 나무가 (모두) 베어 없어졌다. ``` ``` Achang (Author 2015:999) nAN33 xA33 kAi33 Ei?55 ts`Au33 p_jE~31 nEi?55 you PREH speak POS word right DUR '너가 한 말이 맞다.' ``` 접어(clitic)의 경우 원자료에 명시적으로 접어로 설명이 되어있다면 등호(`=`)로 연결하여 표시한다. 그렇지 않은 경우 모두 하이픈으로 연결한다. 다음은 우리 프로젝트에서 사용하지 않는다. 하이픈은 단어 내부에서만 사용하는 것이 원칙이며 단어는 띄어쓰기를 단위이다. 예외적으로 형태론적으로 종속적 요소이지만 독립적인 단어처럼 행동할 때 분석 행에서 하이픈 앞에 공백을 하나 두고 주석 행에서는 공백없이 처리한다. 이 경우 띄어쓰기 단위가 일치하지 않게 된다. ``` Hakha Lai a-nii -láay 3SG-laugh-FUT 's/he will laugh' ``` ### 3. 문법 범주 표지 문법 형태소는 문법 범주 표지로 주석한다. 문법 범주 표지는 대문자로 표시한다. 문법 범주 표지 축약형의 목록은 부록에 있다. ### 4. 일대다 대응 대상언어에서 단일한 요소가 메타언어에서 여러 개의 요소에 대응될 때 마침표를 이용하여 구분한다. ``` xA55 k_huN31 ts@31 kAN31 uN33~35 wAN33 lA?31~35 this door narrow very impossible enter go '이 문은 매우 좁아 들어갈 수 없다.' ``` 라이프치히 규약에서는 주석에서 여러가지 묶음 기호를 사용하도록 제안하고 있으나 우리 프로젝트에서는 마침표(`.`)와 크다(`>`) 기호만 사용한다. 참고로 모든 가능한 묶음 기호 목록은 다음과 같다. |사용| | 기호| 사용법 | |o| 마침표 | `.` | 기본 | |o| 크다 | `>` | 인칭-수 접사가 agent>patient를 동시 표현할 때 | |x| 밑줄 | `_` | 대상언어의 요소가 형식적, 의미적 분절 불가능 | |x| 세미콜론 | `;` | 대상언어의 요소가 형식적으로 분절이 불가능하나 의미/문법적으로 구분 가능| |x| 콜론 | `:` | 대상언어의 요소가 분절 가능하나 표시하고 싶지 않음 | |x| 백슬래시 | `\` | 대상언어의 요소가 형태 변화가 일어나는 경우 | ### 5. 인칭과 수 표지 - 인칭과 수 표지는 점으로 구분하지 않고 표시한다. 예를 들어, 1인칭 복수는 `1PL`로 한다. `1.PL`로 표시하지 않는다. - 성, 수 표지가 빈번한 언어의 경우 간편 표기를 쓸 수도 있다. 예를 들어 중성 3인칭 단수는 `3NSG` 대신에 `3ns`로 간략하게 표기할 수 있다. ### 6. 비명시적 요소 우리 프로젝트에서는 비명시적 요소를 따로 구분하지 않는다. 다음과 같이 일대다 대응 경우처럼 처리한다. ``` Latin puer boy.NOM.SG ``` 참고로 라이프치히 규약에서 제안하는 방식은 다음과 같다. 형태소 대응 주석을 할 경우 명시적으로 나타나지 않는 요소가 문제가 된다. 주석에 대괄호로 둘러싸서 표기한다. ``` Latin puer boy[NOM.SG] ``` 대상언어 예문에 Ø로 빈 자리를 표시할 수도 있다. ``` Latin puer-Ø boy-NOM.SG ``` ### 7. 내재 범주 내재적인 비명시적 범주는 괄호 안에 넣어 주석한다. ``` Hunzib (van den Berg 1995:46) oz#-di-g xõxe m-uq'e-r boy-OBL-AD tree(G4) G4-bend-PRET 'Because of the boy the tree bent.' (G4 = 4th gender, AD = adessive, PRET = preterite) ``` 주의! 내재 범주를 표시하기 위한 목적 이외에 부연 설명, 선택적 요소 등을 괄호로 묶어 표시하려는 경우 괄호의 좌우에 공백 문자를 하나씩 추가한다. ### 8. 두 부분으로 구성된 요소 하나의 문법 또는 어휘 요소가 두 조각으로 나뉘어 있는 경우에 나누어 반복하여 표기한다. 다음은 라코타어의 na-xʔu̧ 'hear'의 경우의 예이다. 두 가지 방식이 있다. ``` Lakhota na-wíčha-wa-xʔu̧ hear-3PL.UND-1SG.ACT-hear 'I hear them' (UND = undergoer, ACT = actor) ``` ``` na-wíčha-wa-xʔu̧ hear-3PL.UND-1SG.ACT-STEM 'I hear them' ``` ### 9. 접요사 접요사(infix)는 화살괄호로 묶어 표시한다. ``` Latin reliqu-ere leave-INF 'to leave' ``` ### 10. 중첩 중첩(reduplication)은 접사처럼 다루되 물결 `~` 기호를 이용하여 연결한다. ``` Tagalog bi~bili IPFV~buy 'is buying' ``` XSAMPA를 이용할 경우 비음 기호 `~`와 충돌할 수 있다. 이때 다음과 같이 XSAMPA 경계 괄호 ``[]`` 밖에서 `~`을 사용하면 충돌을 피할 수 있다. ``` [bi]~[bili] ``` ## 추가 규칙 다음은 라이프치히 규약 이외에 추가로 우리 프로젝트에서 도입한 규칙이다. ### 성조 - 성조는 1, 2, 3, 4, 5 다섯 개의 숫자를 이용하여 입력한다. 키보드에 있는 숫자를 그대로 입력한다. - 이외에 6등이 사용된 경우 오류일 수 있음에 주의 - 일반적으로 2개의 숫자가 연달아 사용된다. 3개인 경우도 흔하다. 숫자 1개로 성조가 표현된 경우에는 확인할 필요가 있다. - 현재 일부 경우에는 유니코드 윗첨자를 이용하여 입력된 경우가 있다. -> 기본 1, 2, 3, 4, 5로 통일 - XSAMPA 안에 입력할 경우 윗첨자로 변환하여 나타난다. 원래 입력한 내용은 그대로 유지된다. - 나중에 윗첨자로 일괄변환이 가능하다. 문제) 예제 틀에 입력한 것은 가능하지만 본문 중에 섞여 있는 예제의 성조 번호는 변환하기 어렵다. - 음절 뒤에 바로 이어서 성조를 입력한다. 예) pa33ku35 - 성조의 변화를 나타내는 경우 물결 기호를 이용한다. 예) pa33~35 - 숫자 사이에 사용된 기호는 항상 성조 변화를 의미한다. - XSAMPA에서 모음 뒤에 물결 기호가 비음을 뜻하는 것과 다르다는 점에 주의. 예) `[pa~33~35]` [pa~33~35] 앞의 물결은 비음, 뒤의 물결은 성조 변화 표시. - 성조의 여러 가지 가능성 중 선택을 표현할 때에는 사선을 이용한다. 예) pa33/35 - 성조가 수의적인 요소임을 나타날 때는 괄호를 이용한다. 예) pa(13) - 문법적으로 수의적인 형태소를 표시할 때는 괄호 좌우에 공백을 넣는 것과는 다르다. ### 구분자 몇 단어로 이루어진 덩어리들 사이의 경계를 표시해 주면 가독성이 높아지는 경우가 있다. 이때에는 세로막대(`|`)를 사용한다. 이것은 공식전인 주석이 아니며 정확한 통사 분석을 위해서 사용하는 것은 아니다. 가독성 향상을 위한 보조적인 도구로만 사용한다. {{{eg>baic1239 (zhaoyanzhen2012:195) nɯ⁵⁵ ka⁵⁵ ȵi²¹ | a⁴⁴ ȵi²¹ pi³³ ȵi²¹ | sa³⁵. this several CL | one CL than CL | thin 이 몇 사람들이 모두 날씬해! }}} ## 기호 대상언어 분석 행과 메타언어를 이용한 주석 행에서 동일하게 짝을 맞추어 사용하는 기호는 다음과 같은 것들이 있다. 우리 프로젝트에서는 첫 컬럼에 `o` 표시된 것만 사용한다. `x` 표시된 것은 사용하지 않는다. |사용|기호|기호|의미| |o|하이픈| ``-`` | 단어 내의 형태소 경계. | |x| 등호 | ``=`` | clitic 경계를 표시 | |o| 화살괄호 | ``<>`` | infix | |o| 물결 | ``~`` | reduplication | * 이 기호들은 단어 단위의 내부 요소를 구분할 때 사용하는 것이다. * 단어 단위는 공백으로 구분한다. * 예외적으로 형태론적으로 종속적 요소이지만 독립적인 단어처럼 행동할 때 분석 행에서 하이픈 앞에 공백을 하나 두고 주석 행에서는 공백없이 처리한다. ### 주석에만 사용하는 기호 다음은 라이프치히 규칙의 주석 행에서 사용하는 기호 목록이다. 첫 컬럼에 `o`로 표시된 것은 우리 프로젝트에서 사용하는 기호이다. `x`로 표시된 것은 우리 프로젝트에서 사용하지 않는다. |o| 마침표 | ``.`` | 일대다 대응. 대상언어의 한 단어가 메타언어에서 여러 단어에 대응할 때. | |o| 크다 | ``>`` | 일대다 대응. 인칭-수 표지를 agent>patient 형식으로. | |o| 소괄호 | ``()`` | 비명시적 요소. 내재적 범주를 주석에 표시할 때. gender같은 경우. | |x| 밑줄 | ``_`` | 일대다 대응. 대상언어의 한 단어가 형식적으로나 의미적으로나 분리되지 않을 때. | |x| 세미콜론 | ``;`` | 일대다 대응. 대상언어의 한 단어가 형식저으로는 구분 불가 둘 이상의 의미/문법적 속성 가질 때. | |x| 콜론 | ``:`` | 일대다 대응. 대상언어가 분석 가능하나 표지하지 않았을 때. | |x| 백슬래시 | ``\\`` | 일대다 대응. 형태변화가 있을 때 관련있는 것\관련없는 것. | |x| 대괄호 | ``[]`` | 비명시적 요소. 참조) 대상언어에서 무표(Ø)로 표시할 수도 있음. | * 문법 범주 표지는 대문자로. 목록은 부록으로 제시. ### 문법 표지 - https://en.wikipedia.org/wiki/List_of_glossing_abbreviations