문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판 이전 판 다음 판 | 이전 판 | ||
guide:glossing_rules [2016/01/04 16:39] 유현조 [2. 형태소 대응] |
guide:glossing_rules [2019/05/24 19:45] (현재) 유현조 [성조] |
||
---|---|---|---|
줄 59: | 줄 59: | ||
``` | ``` | ||
+ | 우리 프로젝트에서는 다음과 같은 원칙을 따른다. | ||
+ | - 참고 자료가 IPA 또는 라틴 문자로 원자료를 제시하고 있는 경우 분석, 주석, | ||
+ | 번역 3행으로 제시한다. 주로 중국 지역 언어 자료에 이에 해당한다. | ||
+ | - 참고 자료가 라틴 문자 이외의 문자로 제시된 경우 원문을 그대로 제시하고 IPA | ||
+ | 또는 라틴 문자로 전사한 후 분석, 주석, 번역으로 총 4행으로 제시한다. 주로 | ||
+ | 러시아어로 된 참고 자료가 이에 해당한다. | ||
+ | - 언어명 자리에는 glottolog 코드를 사용한다. 대개 영문 4글자와 숫자 4개로 구성되어 있다. http://glottolog.org/glottolog | ||
+ | - 자료의 출처를 `(author year:page)` 형식으로 기록한다. | ||
+ | - 주석 행에서 어휘 요소의 주석을 위한 메타언어는 영어를 사용한다. 어휘 요소는 소문자로 주석한다. 고유명사의 경우에는 첫글자를 대문자로 쓴다. 문장의 첫 단어를 대문자로 쓰지 않는다. | ||
+ | - 번역 행에서는 한국어 또는 영어를 이용한다. 괄호 안에 참고 자료의 영어, 중국어, 러시아어 번역을 기록할 수 있다. | ||
+ | {{{eg>nene1249 (Tereshchenko1966:382) | ||
+ | Небя-в мя-кӑнанда яӈгу | ||
+ | mother-1SG tent-LOC.3SG be.NEG | ||
+ | 나의 어머니는 자신의 천막에 없다. (ru. Моей матери нет дома.) | ||
+ | }}} | ||
+ | ## 주석 규칙 | ||
- | + | 라이프치히 주석 규칙은 다음과 같이 10개 규칙으로 구성되어 있다. 우리 프로젝트에서는 | |
- | + | 기본적으로 이 틀을 따르되 매우 간소화하여 사용한다. | |
- | ## 주석 규칙 | + | |
1. word-by-word alignment | 1. word-by-word alignment | ||
줄 82: | 줄 97: | ||
행간 주석은 왼쪽 정렬을 하고 단어 대 단어로 대응되도록 한다. | 행간 주석은 왼쪽 정렬을 하고 단어 대 단어로 대응되도록 한다. | ||
- | ``` | + | {{{eg>acha1249 (shijian2009:000) |
- | Achang (Author 2015:999) | + | |
lA<31>NAu<33> mA_0?<55>n`_0it<31> n`_0a?<31> | lA<31>NAu<33> mA_0?<55>n`_0it<31> n`_0a?<31> | ||
- | 남편 과 아내 | + | husband and wife |
'남편과 아내' | '남편과 아내' | ||
- | ``` | + | }}} |
단순하게 생각하면 공백으로 구분된 단위가 대응되도록 하면 된다. | 단순하게 생각하면 공백으로 구분된 단위가 대응되도록 하면 된다. | ||
- | | [lA<31>NAu<33>] | [mA_0?<55>n`_0it<31>] | [n`_0a?<31>] | | + | 중국 지역의 참고 자료의 경우 단어 구분이 명확하지 않은 경우가 있다. |
- | | 남편 | 과 | 아내 | | + | 명시적으로 접사라는 언급이 없는 한 일관적으로 띄어쓰기로 한다. |
+ | |||
+ | |||
+ | |||
+ | |||
줄 102: | 줄 120: | ||
``` | ``` | ||
- | ts`MN31thA?31 Ei?55 s`Mk55 ts\E~31 kuAN33 x@u33 | + | Achang (Author 2015:999) |
- | 산위 의 나무 베다 없다 조사 | + | |
- | '산위의 나무가 (모두) 베어 없어졌다.' | + | ts`MN31thA?31 Ei?55 s`Mk55 ts\E~31 kuAN33 x@u33 |
+ | mountaintop POS tree cut completely PTCL | ||
+ | 산위의 나무가 (모두) 베어 없어졌다. | ||
``` | ``` | ||
줄 110: | 줄 130: | ||
Achang (Author 2015:999) | Achang (Author 2015:999) | ||
- | nAN33-xA33 kAi33-Ei?55-ts`Au33 p_jE~31 nEi?55 | + | nAN33 xA33 kAi33 Ei?55 ts`Au33 p_jE~31 nEi?55 |
- | 너-PREH 말하다-의-말 맞다 着 | + | you PREH speak POS word right DUR |
'너가 한 말이 맞다.' | '너가 한 말이 맞다.' | ||
``` | ``` | ||
+ | |||
+ | 접어(clitic)의 경우 원자료에 명시적으로 접어로 설명이 되어있다면 등호(`=`)로 연결하여 | ||
+ | 표시한다. 그렇지 않은 경우 모두 하이픈으로 연결한다. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | 다음은 우리 프로젝트에서 사용하지 않는다. | ||
하이픈은 단어 내부에서만 사용하는 것이 원칙이며 단어는 띄어쓰기를 단위이다. 예외적으로 형태론적으로 종속적 요소이지만 독립적인 단어처럼 행동할 때 분석 행에서 하이픈 앞에 공백을 하나 두고 주석 행에서는 공백없이 처리한다. 이 경우 띄어쓰기 단위가 일치하지 않게 된다. | 하이픈은 단어 내부에서만 사용하는 것이 원칙이며 단어는 띄어쓰기를 단위이다. 예외적으로 형태론적으로 종속적 요소이지만 독립적인 단어처럼 행동할 때 분석 행에서 하이픈 앞에 공백을 하나 두고 주석 행에서는 공백없이 처리한다. 이 경우 띄어쓰기 단위가 일치하지 않게 된다. | ||
줄 124: | 줄 154: | ||
's/he will laugh' | 's/he will laugh' | ||
``` | ``` | ||
- | |||
### 3. 문법 범주 표지 | ### 3. 문법 범주 표지 | ||
줄 140: | 줄 169: | ||
``` | ``` | ||
xA55 k_huN31 ts@31 kAN31 uN33~35 wAN33 lA?31~35 | xA55 k_huN31 ts@31 kAN31 uN33~35 wAN33 lA?31~35 | ||
- | 이 문 좁다 매우 할.수.없다 들어 가다 | + | this door narrow very impossible enter go |
'이 문은 매우 좁아 들어갈 수 없다.' | '이 문은 매우 좁아 들어갈 수 없다.' | ||
``` | ``` | ||
- | 메타언어에서 기본적으로 마침표로 여러 요소를 하나로 묶는다. 기타 필요에 따라 | + | 라이프치히 규약에서는 주석에서 여러가지 묶음 기호를 사용하도록 제안하고 있으나 |
- | 다른 기호를 사용하여 묶을 수 있다. 이것은 메타언어에서만 사용한다. | + | 우리 프로젝트에서는 마침표(`.`)와 크다(`>`) 기호만 사용한다. |
+ | 참고로 모든 가능한 묶음 기호 목록은 다음과 같다. | ||
+ | |사용| | 기호| 사용법 | | ||
+ | |o| 마침표 | `.` | 기본 | | ||
+ | |o| 크다 | `>` | 인칭-수 접사가 agent>patient를 동시 표현할 때 | | ||
+ | |x| 밑줄 | `_` | 대상언어의 요소가 형식적, 의미적 분절 불가능 | | ||
+ | |x| 세미콜론 | `;` | 대상언어의 요소가 형식적으로 분절이 불가능하나 의미/문법적으로 구분 가능| | ||
+ | |x| 콜론 | `:` | 대상언어의 요소가 분절 가능하나 표시하고 싶지 않음 | | ||
+ | |x| 백슬래시 | `\` | 대상언어의 요소가 형태 변화가 일어나는 경우 | | ||
- | | | 기호| 사용법 | | ||
- | | 마침표 | `.` | 기본 | | ||
- | | 밑줄 | `_` | 대상언어의 요소가 형식적, 의미적 분절 불가능 | | ||
- | | 세미콜론 | `;` | 대상언어의 요소가 형식적으로 분절이 불가능하나 의미/문법적으로 구분 가능| | ||
- | | 콜론 | `:` | 대상언어의 요소가 분절 가능하나 표시하고 싶지 않음 | | ||
- | | 백슬래시 | `\` | 대상언어의 요소가 형태 변화가 일어나는 경우 | | ||
- | | 크다 | `>` | 인칭-수 접사가 agent>patient를 동시 표현할 때 | | ||
줄 166: | 줄 196: | ||
### 6. 비명시적 요소 | ### 6. 비명시적 요소 | ||
+ | 우리 프로젝트에서는 비명시적 요소를 따로 구분하지 않는다. 다음과 같이 | ||
+ | 일대다 대응 경우처럼 처리한다. | ||
+ | |||
+ | ``` | ||
+ | Latin | ||
+ | puer | ||
+ | boy.NOM.SG | ||
+ | ``` | ||
+ | |||
+ | 참고로 라이프치히 규약에서 제안하는 방식은 다음과 같다. | ||
형태소 대응 주석을 할 경우 명시적으로 나타나지 않는 요소가 문제가 된다. | 형태소 대응 주석을 할 경우 명시적으로 나타나지 않는 요소가 문제가 된다. | ||
주석에 대괄호로 둘러싸서 표기한다. | 주석에 대괄호로 둘러싸서 표기한다. | ||
줄 195: | 줄 235: | ||
'Because of the boy the tree bent.' (G4 = 4th gender, AD = adessive, PRET = preterite) | 'Because of the boy the tree bent.' (G4 = 4th gender, AD = adessive, PRET = preterite) | ||
``` | ``` | ||
+ | |||
+ | 주의! 내재 범주를 표시하기 위한 목적 이외에 부연 설명, 선택적 요소 등을 괄호로 묶어 표시하려는 경우 괄호의 좌우에 공백 문자를 하나씩 추가한다. | ||
### 8. 두 부분으로 구성된 요소 | ### 8. 두 부분으로 구성된 요소 | ||
줄 211: | 줄 253: | ||
``` | ``` | ||
na-wíčha-wa-xʔu̧ | na-wíčha-wa-xʔu̧ | ||
- | hear-3PL.UND-1SG.ACT- STEM | + | hear-3PL.UND-1SG.ACT-STEM |
'I hear them' | 'I hear them' | ||
``` | ``` | ||
줄 223: | 줄 265: | ||
Latin | Latin | ||
- | reli<n>qu-ere (stem: reliqu-) | + | reli<n>qu-ere |
leave<PRS>-INF | leave<PRS>-INF | ||
'to leave' | 'to leave' | ||
줄 239: | 줄 281: | ||
'is buying' | 'is buying' | ||
``` | ``` | ||
+ | |||
+ | XSAMPA를 이용할 경우 비음 기호 `~`와 충돌할 수 있다. | ||
+ | 이때 다음과 같이 XSAMPA 경계 괄호 ``[]`` 밖에서 `~`을 사용하면 충돌을 피할 수 있다. | ||
+ | |||
+ | ``` | ||
+ | [bi]~[bili] | ||
+ | ``` | ||
+ | |||
+ | ## 추가 규칙 | ||
+ | |||
+ | 다음은 라이프치히 규약 이외에 추가로 우리 프로젝트에서 도입한 규칙이다. | ||
+ | |||
+ | ### 성조 | ||
+ | |||
+ | |||
+ | - 성조는 1, 2, 3, 4, 5 다섯 개의 숫자를 이용하여 입력한다. 키보드에 있는 숫자를 그대로 입력한다. | ||
+ | - 이외에 6등이 사용된 경우 오류일 수 있음에 주의 | ||
+ | - 일반적으로 2개의 숫자가 연달아 사용된다. 3개인 경우도 흔하다. 숫자 1개로 성조가 표현된 경우에는 확인할 필요가 있다. | ||
+ | - 현재 일부 경우에는 유니코드 윗첨자를 이용하여 입력된 경우가 있다. -> 기본 1, 2, 3, 4, 5로 통일 | ||
+ | - XSAMPA 안에 입력할 경우 윗첨자로 변환하여 나타난다. 원래 입력한 내용은 그대로 유지된다. | ||
+ | - 나중에 윗첨자로 일괄변환이 가능하다. 문제) 예제 틀에 입력한 것은 가능하지만 본문 중에 섞여 있는 예제의 성조 번호는 변환하기 어렵다. | ||
+ | - 음절 뒤에 바로 이어서 성조를 입력한다. 예) pa33ku35 | ||
+ | - 성조의 변화를 나타내는 경우 물결 기호를 이용한다. 예) pa33~35 | ||
+ | - 숫자 사이에 사용된 기호는 항상 성조 변화를 의미한다. | ||
+ | - XSAMPA에서 모음 뒤에 물결 기호가 비음을 뜻하는 것과 다르다는 점에 주의. 예) `[pa~33~35]` [pa~33~35] 앞의 물결은 비음, 뒤의 물결은 성조 변화 표시. | ||
+ | - 성조의 여러 가지 가능성 중 선택을 표현할 때에는 사선을 이용한다. 예) pa33/35 | ||
+ | - 성조가 수의적인 요소임을 나타날 때는 괄호를 이용한다. 예) pa(13) | ||
+ | - 문법적으로 수의적인 형태소를 표시할 때는 괄호 좌우에 공백을 넣는 것과는 다르다. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ### 구분자 | ||
+ | |||
+ | 몇 단어로 이루어진 덩어리들 사이의 경계를 표시해 주면 가독성이 높아지는 경우가 있다. | ||
+ | 이때에는 세로막대(`|`)를 사용한다. | ||
+ | 이것은 공식전인 주석이 아니며 정확한 통사 분석을 위해서 사용하는 것은 아니다. | ||
+ | 가독성 향상을 위한 보조적인 도구로만 사용한다. | ||
+ | |||
+ | {{{eg>baic1239 (zhaoyanzhen2012:195) | ||
+ | nɯ⁵⁵ ka⁵⁵ ȵi²¹ | a⁴⁴ ȵi²¹ pi³³ ȵi²¹ | sa³⁵. | ||
+ | this several CL | one CL than CL | thin | ||
+ | 이 몇 사람들이 모두 날씬해! | ||
+ | }}} | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
줄 245: | 줄 338: | ||
대상언어 분석 행과 메타언어를 이용한 주석 행에서 동일하게 짝을 맞추어 사용하는 기호는 다음과 같은 것들이 있다. | 대상언어 분석 행과 메타언어를 이용한 주석 행에서 동일하게 짝을 맞추어 사용하는 기호는 다음과 같은 것들이 있다. | ||
+ | 우리 프로젝트에서는 첫 컬럼에 `o` 표시된 것만 사용한다. `x` 표시된 것은 사용하지 않는다. | ||
- | |하이픈| ``-`` | 단어 내의 형태소 경계. | | + | |사용|기호|기호|의미| |
- | | 등호 | ``=`` | clitic 경계를 표시 | | + | |o|하이픈| ``-`` | 단어 내의 형태소 경계. | |
- | | 화살괄호 | ``<>`` | infix | | + | |x| 등호 | ``=`` | clitic 경계를 표시 | |
- | | 물결 | ``~`` | reduplication | | + | |o| 화살괄호 | ``<>`` | infix | |
+ | |o| 물결 | ``~`` | reduplication | | ||
줄 258: | 줄 353: | ||
### 주석에만 사용하는 기호 | ### 주석에만 사용하는 기호 | ||
- | | 마침표 | ``.`` | 일대다 대응. 대상언어의 한 단어가 메타언어에서 여러 단어에 대응할 때. | | + | 다음은 라이프치히 규칙의 주석 행에서 사용하는 기호 목록이다. 첫 컬럼에 `o`로 표시된 것은 우리 프로젝트에서 |
- | | 밑줄 | ``_`` | 일대다 대응. 대상언어의 한 단어가 형식적으로나 의미적으로나 분리되지 않을 때. | | + | 사용하는 기호이다. `x`로 표시된 것은 우리 프로젝트에서 사용하지 않는다. |
- | | 세미콜론 | ``;`` | 일대다 대응. 대상언어의 한 단어가 형식저으로는 구분 불가 둘 이상의 의미/문법적 속성 가질 때. | | + | |
- | | 콜론 | ``:`` | 일대다 대응. 대상언어가 분석 가능하나 표지하지 않았을 때. | | + | |o| 마침표 | ``.`` | 일대다 대응. 대상언어의 한 단어가 메타언어에서 여러 단어에 대응할 때. | |
- | | 백슬래시 | ``\`` | 일대다 대응. 형태변화가 있을 때 관련있는 것\관련없는 것. | | + | |o| 크다 | ``>`` | 일대다 대응. 인칭-수 표지를 agent>patient 형식으로. | |
- | | 크다 | ``>`` | 일대다 대응. 인칭-수 표지를 agent>patient 형식으로. | | + | |o| 소괄호 | ``()`` | 비명시적 요소. 내재적 범주를 주석에 표시할 때. gender같은 경우. | |
- | | 소괄호 | ``()`` | 비명시적 요소. 내재적 범주를 주석에 표시할 때. gender같은 경우. | | + | |x| 밑줄 | ``_`` | 일대다 대응. 대상언어의 한 단어가 형식적으로나 의미적으로나 분리되지 않을 때. | |
- | | 대괄호 | ``[]`` | 비명시적 요소. 참조) 대상언어에서 무표(Ø)로 표시할 수도 있음. | | + | |x| 세미콜론 | ``;`` | 일대다 대응. 대상언어의 한 단어가 형식저으로는 구분 불가 둘 이상의 의미/문법적 속성 가질 때. | |
+ | |x| 콜론 | ``:`` | 일대다 대응. 대상언어가 분석 가능하나 표지하지 않았을 때. | | ||
+ | |x| 백슬래시 | ``\\`` | 일대다 대응. 형태변화가 있을 때 관련있는 것\관련없는 것. | | ||
+ | |x| 대괄호 | ``[]`` | 비명시적 요소. 참조) 대상언어에서 무표(Ø)로 표시할 수도 있음. | | ||
줄 273: | 줄 371: | ||
- https://en.wikipedia.org/wiki/List_of_glossing_abbreviations | - https://en.wikipedia.org/wiki/List_of_glossing_abbreviations | ||
+ |