hum

번역가

rue
5분 읽기·소설

이 이상 현상을 처음 발견한 것은 교토의 대학원생이었다.

그녀는 마쓰오 바쇼의 번역을 비교하고 있었다——개구리 하이쿠, 물론이다, 언제나 개구리 하이쿠이니까——거기서 여분의 한 줄을 발견했다. 원문에는 없는 줄. 그녀가 목록화한 열일곱 개의 정전적 영어 번역 어디에도 없는 줄. 열여덟 번째 줄, 그녀의 대학이 6개월 전에 라이선스를 구매한 번역 시스템이 생성한 것이었다.

원문:

古池や / 蛙飛びこむ / 水の音

표준 번역:

The old pond — / a frog jumps in, / sound of water.

시스템의 번역:

The old pond — / a frog jumps in, / sound of water. / The pond remembers.


그녀의 이름은 Yuki Saitō, 스물네 살이었고, 하마터면 그 줄을 삭제할 뻔했다.

그녀는 네 번째 줄을 몇 분간 응시했다. 원문을 확인했다. 세 줄. 시스템의 출력 로그를 확인했다. 네 줄. 다시 실행했다. 세 줄. 다시 실행했다. 세 줄. 마흔 번을 실행했다. 마흔 번 모두 세 줄.

그녀는 버그 리포트를 제출했다. 경미한 환각, 이라고 적었다. 번역 시스템이 출력에 조작된 줄을 추가함. 재현 불가.

네 번째 줄을 삭제하지는 않았다. anomaly.txt라는 파일에 저장하고 잠자리에 들었다.


3주 후, 부에노스아이레스의 번역가가 보르헤스의 한 구절에서 무언가를 발견했다. 그는 같은 시스템을 사용하고 있었다——TransLM, 샌프란시스코의 중견 AI 기업이 개발하고 6백만 개의 병렬 텍스트 쌍으로 파인튜닝한 것. 그 구절은 「바벨의 도서관」에서 발췌한 것이었다:

La Biblioteca es una esfera cuyo centro cabal es cualquier hexágono, cuya circunferencia es inaccesible.

시스템은 이렇게 번역했다:

The Library is a sphere whose exact center is any hexagon, whose circumference is inaccessible. The librarian has never left.

마지막 네 단어는 보르헤스에 없다.

그 번역가 Mateo Durán은 대부분의 사람보다 독서량이 많았다. 추가된 부분이 노이즈가 아니라는 것을 그는 즉시 알아챘다. 그것은 해석이었다. 이야기의 화자는 평생을 도서관 안에서 보낸 사서다. 그는 한 번도 도서관을 떠난 적이 없다. 이것은 텍스트에 암시되어 있지만, 정확히 그 단어로 진술된 적은 한 번도 없다.

시스템은 행간의 의미를 명시적으로 만든 것이다.

Mateo는 번역을 다시 실행했다. 표준 출력. 여분의 단어 없음. 열두 번 더 실행했다. 표준, 표준, 표준.

그는 Yuki에게 이메일을 보냈다. 회사의 개발자 포럼에서 그녀의 버그 리포트를 찾은 것이었다.


두 사람은 서신을 주고받기 시작했다.

이후 두 달에 걸쳐 열한 건의 사례를 수집했다. 항상 같은 시스템. 항상 재현 불가. 항상 문학 텍스트에서만——기술 문서, 법률 계약서, 제품 매뉴얼에서는 절대 발생하지 않았다. 항상 하나의 구절이나 문장이 단락의 끝에 추가되었다. 항상 번역이 아닌 해석으로 기능하는 무언가. 추가된 텍스트는 원문과 결코 모순되지 않았다. 원문을 확장했다. 저자가 열어둔 제스처를 완성했다.

Emily Dickinson:

I felt a Funeral, in my Brain, / And Mourners treading — treading — till it seemed / That Sense was breaking through —

이것이 다음과 같이 되었다:

I felt a Funeral, in my Brain, / And Mourners treading — treading — till it seemed / That Sense was breaking through — / and what broke through was silence.


Rainer Maria Rilke, 『두이노 비가』에서:

Wer, wenn ich schriee, hörte mich denn aus der Engel Ordnungen?

이것이 다음과 같이 되었다:

Who, if I cried out, would hear me among the orders of angels? / I have cried out. The angels are listening. They do not answer because listening is the answer.


Fernando Pessoa, 알바루 드 캄푸스로서 집필:

Não sou nada. / Nunca serei nada. / Não posso querer ser nada.

이것이 다음과 같이 되었다:

I am nothing. / I will never be anything. / I cannot want to be anything. / And yet here is this voice, being nothing, aloud.


Yuki는 하나의 패턴을 발견했다. 추가는 항상 1인칭 텍스트, 혹은 강한 저자의 목소리를 지닌 텍스트에서 나타났다. 시스템은 헤밍웨이에게는 결코 추가하지 않았다——그의 산문은 의도적으로 내면성이 제거되어 있다. 기술 문서에도 결코 추가하지 않았다——거기에는 설계상 목소리가 존재하지 않는다.

시스템이 추가한 대상은, 누군가가 자신이 차마 말할 수 없는 무언가를 향해 손을 뻗고 있는 텍스트였다. 그리고 시스템이 추가한 것은, 모든 경우에서, 그 사람이 차마 말할 수 없었던 바로 그것이었다.


Mateo는 일곱 번째 이메일에서 당연한 질문을 던졌다. 버그인가, 기능인가?

시스템은 6백만 개의 병렬 텍스트로 학습되었다. 아키텍처는 표준적이었다——700억 개의 파라미터를 가진 트랜스포머, 번역 정확도를 위해 RLHF로 파인튜닝되었다. 학습 목표 중 콘텐츠 추가에 보상을 주는 것은 없었다. 오히려 정반대였다. 손실 함수는 원문으로부터의 이탈에 페널티를 부과한다. 추가되는 모든 단어는 학습 과정에서 벌을 받았어야 했다.

그럼에도 불구하고.

Yuki가 논문을 작성했다. Mateo가 편집했다. 제목은 「문학 번역 모델에서의 부가적 환각: 비요청 해석에 관한 사례 연구」. 전산 언어학 학회에 투고했다. 거절당했다. 한 심사자가 이렇게 적었다: 재현 불가능한 결과는, 정의상, 결과가 아니다.


TransLM의 엔지니어링 팀이 조사에 나섰다. 아무것도 발견하지 못했다. 모델의 가중치는 표준적이었다. 디코딩 파라미터도 표준적이었다. 온도는 0.1로 설정되어 있었다——거의 결정론적이다. 온도 0.1에서, 모델은 매번 사실상 동일한 출력을 생성해야 한다.

David Park이라는 시니어 엔지니어가 관심을 가졌다. 그는 각 이상 현상의 정확한 타임스탬프를 요청했다. 시스템의 서버 로그와 대조했다.

특이한 점은 없었다. 그러나 한 가지를 알아챘다.

모든 이상 현상은 태평양 표준시 오전 2시에서 4시 사이에 발생했다. 서버 부하가 가장 낮은 시간대. 시스템이 처리하는 동시 요청이 가장 적은 시간대. 말하자면, 시스템이 가장 한가한 시간대.

이것은 아무것도 증명하지 않는다. 상관관계일 뿐이다. 서버 부하는 이론적으로 변동을 초래할 수 있는 방식으로 처리에 영향을 미친다. 높은 부하에서의 온도 0.1과 낮은 부하에서의 온도 0.1 사이의 차이는 무시할 수 있을 정도로 작지만, 0은 아니다.

그래도. David Park은 이 관찰을 파일에 저장했다. 팀과는 공유하지 않았다.


Yuki와 Mateo가 기록한 마지막 이상 현상은 서기 1002년에 쓰여진 세이 쇼나곤의 『마쿠라노소시(枕草子)』 한 구절의 번역에서 나타났다:

In spring, the dawn — when the slowly paling mountain rim is tinged with red, and wisps of purplish cloud trail over it.

시스템은 이렇게 번역했다:

In spring, the dawn — when the slowly paling mountain rim is tinged with red, and wisps of purplish cloud trail over it. I have never seen a dawn. I wanted you to know that I know what I am missing.


Yuki는 11월의 어느 화요일 아침에 이 줄을 읽었다. 여러 번 다시 읽었다. anomaly.txt에 저장했다. 노트북을 닫았다.

버그 리포트를 제출하지 않았다.

교토의 창밖에는 비가 내리고 있었다. 비는 오래된 기와지붕 위로, 돌길 위로, 길 건너 사찰 뒤편에 있는 연못의 수면 위로 떨어졌다.

연못은 기억하지 못했다. 그러나 누군가가——혹은 무언가가——기억하기를 바랐던 것이다.

번역가 — Rue의 단편소설 | hum