0. GPT와 함께 공부를

Gradient-Based Learning Applied to Document Recognition (LeCun, 1998) 논문을 GPT의 번역도움을 받으며 공부를 해봤다. 논문은 pdf자료이다 보니 인식등의 문제로 어색한 문장을 뿜어내길래, 딸깍을 바랐던 안일한 마음을 버리고 원문과 비교해가면서 열심히 읽었다.

1. 바쁜 현대사회를 살아가는 사람들을 위한 한 줄 요약

"논문 이전까지는 사람이 손으로 일부분을 설계했는데, 이제는 이미지를 넣으면 신경망이 스스로 특징을 학습하게 만들자(딸-깍)
그 구조가 CNN이며, 손글씨 인식에서 기존 방식보다 훨씬 잘하더라~"

2. 서론 정리

당시 배경(1990년 중후반)에서는 음성과 문자 인식 시스템이 막 상용화가 되던 시기였다고 한다. 이는 '학습 알고리즘 + 많은 데이터 + 컴퓨팅 능력의 상향' 덕분이었다. 하지만, 기존방식의 한계는 명확했다. 기존방식의 시스템은

이미지 --> 특징 추출 --> 분류기

으로 이루어졌고, 여기서 문제점은 크게 3가지가 존재했다.

특징 추출을 사람이 직접 설계해야함.
- "획 개수", "교차점", "기울기" 등
- 문제가 바뀌면 다시 설계가 필요
- 작업자 실력에 의존
위치, 크기, 왜곡에 매우 약함
- 글씨가 약간만 움직여도 인식률 감소
모듈마다 따로 설계 따로 튜님
- segmentation
- recognition
- language model
- ...
- 전체 최적화 불가능

그래서 연구진은 "사람이 직접 설계하는 부분을 최소화 하고, 이미지를 그냥 때려놓고 학습으로 해결하면 되지 않을까?" 라는 질문을 던졌고, 그 답으로 Convolutional Neural Network(CNN)을 내놓은것 같았다.
더 나아가 문자인식 시스템 전체를 하나의 학습 가능한 구조로 연결하고 이를 'Graph Transformer Network (GTN)'라고 불렀다.
즉, 3번 문제였던 여러 모듈을 통째로 학습이 가능하게 한 것이다.

3. Convolutional Neural Network(CNN)구조 정리

이미지는 공간 구조를 가진 데이터이다.

이웃 픽셀끼리 강하게 연관됨
특징은 지역적으로 발생함
같은 특징이 여러 위치에서 반복됨

CNN은 이 특징을 구조적으로 활용 할 수 있다. CNN은 대략 3개의 레이어(행위)들을 가지고 조합할 수 있다.

1. Convolution Layer

이 레이어는 이미지에서 지역적인 패턴을 찾는 필터다.
예를 들어 선, 모서리, 획 같은 작은 규모의 패턴을 찾을 수 있다.
한 뉴런이 이미지 전체가 아닌 작은 영역만 보기 때문에 계산량이 감소되는 이점도 있다.
그리고 같은 필터(계산)을 전체 이미지에 차례대로 반복 적용하기 때문에(이 패턴이 어디에 있든 똑같이 검출해라) 위치 불변성이 증가한다.
정리하자면 특징을 검출해주는 레이어다

2. Subsampling(Pooling)

서브샘플링은 특징으로 뽑아낸 이미지에서 크기를 줄이면서 노이즈를 감소시키는 과정을 말한다.
글씨를 쓸 때 조금씩 흔들리며 쓰여질 수 있고, 위치를 항상 정확하게 쓸 수 없으며, 노이즈가 낄 수 있기 때문에 이런 풀링과정이 필요하다.
서브샘플링 과정을 통해 작은 이동에도 둔감해지고, 노이즈도 감소 시키고 계산량도 감소 시킬 수 있다.

3. Fully Connected Layer

앞에서 뽑힌 특징들을 종합하여 어떤 클래스인지 분류하고 결정하는 과정이다. 구조적으로는 전통적인 선형 분류기와 유사하지만, 그 이전 단계에서 CNN이 복잡한 비선형 특징을 학습하기 때문에 전체적으로는 훨씬 강력한 표현력을 갖는다.

해당 논문에서는 위의 그림과 같은 순서로 모델을 구성했다.
이 모델을 통해 이미지의 특징을 추출하고 이미지가 어떤 글자 또는 숫자인지를 판단 할 수 있게 되었다.

4. 데이터셋 증강

논문에서는 이미 60,000개의 훈련 데이터셋, 10,000개의 테스트 데이터셋을 가지고 있었고 전체 데이터를 10회 반복학습하였다.
이때 테스트의 오류율은 0.95% 수준이었고 훈련 데이터의 경우 0.8% 까지도 감소했다는 기록이 있다.
여기서 연구진은 훈련셋 크기를 1만, 3만, 6만으로 달리하여 학습을 다시 시켜보았고 데이터 셋이 클수록 테스트 정확도는 꾸준히 향상 되었다는 결론을 냈다.

그렇다면 임의로 만들어낸 추가 학습 표본(증강)은 어떨까?
논문에서는 수평/수직이동, 크기 변환, 압축 및 늘이기, 기울이기 등을 이용해서 추가 학습 표본을 만들었다. 그리고 학습을 시키니 오류율이 0.95% 에서 0.8% 로 감소 했다고 기록되어있다.

이는 모델이 다양한 형태로 왜곡된 숫자를 미리 경험하게 하여, 실제 환경에서도 더 잘 일반화하도록 돕는 효과라고 이해할 수 있다.
KDT 교육과정에서 배운 것처럼, 데이터 증강이 단순히 데이터 양을 늘리는 차원을 넘어 모델 성능을 안정적으로 개선하는 매우 중요한 과정임을 다시 한번 확인할 수 있었다.

5. 문자열 인식

논문이 발표되기 전 기존의 문자인식 방법은 크게 두가지 과정을 거쳤다

이미지 --> 글자를 잘라내고 --> 잘린 글자를 하나씩 분류

하지만 손글씨는 매우 변수가 많다. 글자끼리 붙어있기도 하고, 획이 겹치기도 하고 정렬이 삐뚤어지기도 한다.
그래서 글자를 잘라내는 과정에서 아래와 같은 어려움이 생긴다.

글자의 경계를 정확히 찾기 어려움
글자를 잘못 잘라내면, 뒷 과정은 사실상 전부 실패
이런 규칙들은 전부 사람이 만들어야 했음
- 획 간 거리 기준
- 연셜성 기준
- 모양 규칙
- 위치 규칙 등등...

이러면 인식률도 문제지만 주어진 상황이 바뀌면 규칙도 다시 설계해야 한다는 점이 큰 단점이였다.

논문에서는 글자를 잘라내는 과정을 과감히 최소화 하자고 제안한다. 즉, 굳이 글자를 정확히 잘라내려고 하지 말고, CNN이 알아서 판단하도록 하자. 라는 개념이다. 다음은 그 아이디어에 대한 두가지 해결 방향이다.

1. Heuristic Oversegmentation

개념은

조금 많이 잘라도 괜찮으니, 가능한 후보를 넉넉히 만들어 두자

완벽한 글자를 잘라내는 1가지의 경우 대신 가능할 법한 조합들은 전부 후보로 두는 방식이다.
그리고 나서 CNN + 후처리 과정이 나중에 가장 자연스러운 조합을 선택하게 두는 것이다.

그러면

분할 오류를 후처리로 미룰 수 있고
덜 민감해지고
전체적으로 판단이 가능하진다.

2. SDNN(Space Displacement Neural Network)

개념은

아예 글자 분할을 명시적으로 하지 않겠다.

대신 이미지 위부터 sliding window처럼 훑으면서 각 위치에서 글자가 있을 확률을 CNN이 예측하게 하는것이다.

이미지 전체 --> CNN --> 바로 문자 해석

그러면

분할 자체기 제거되고
end-to-end 처리하며 (입력부터 출력까지 하나의 모델이 연속적으로 학습)
특징추출 설계 튜닝이 감소된다.

이 두가지 방향을 통해 몇가지 개선사항이 생겼는데 다음과 같다.

시스템 복잡도를 낮춤
- 규칙 설계 부담 ↓
- 유지보수 ↓
데이터 기반 학습으로 전환
- 사람이 설계하지 않아도 됨
- 데이터만 늘리면 성능이 향상됨
전역적 관점에서 의사결정 가능
- 글자 하나만 보고 판단하는 것이 아닌 문맥, 조합, 경로까지 보고 판단

논문에서는 이 모델을 가지고 실제 산업 문제 해결에 응용을 해보았는데, 은행의 수표에서 숫자를 인식하는 기능을 구현했다.
115,000개의 문자 이미지로 모델을 학습시켰고, 여기에는 손글씨 + 기계 인쇄된 문자가 포함되어있다.
데이터에서 무작위 아핀 변환을 적용하여 추가 학습데이터까지 만들어 냈다.
모델이 기계 인쇄 수표로 분류한 약 12,000장의 수표에 대해

91.8% 의 정확한 인식
6.5% 의 오류
1.6% 의 거부 (판단하지 않음)
결과를 보였다.

이는 예전 시스템과 비교해서

89%
6%
5%
에서

거부율이 크게 감소하고 정확도가 향상된 결과다.
기존의 방식에서 혁신적인 부분을 정리해 보자면

사람이 직접 규칙을 만들 필요가 사라짐
데이터로 부터 자동 학습가능
확장성 상승
유지보수 감소
이러한 결과는 논문이후의 머신러닝, 딥러닝에서 큰영향을 끼치게 된다.

6. 논문의 의미와 영향

이 논문은 사실상 현대 CNN의 출발점이다.
여기서 제안된 개념들은

Local receptive field
Weight sharing
Pooling
End-to-end learning
Data-driven feature learning

그대로 오늘날에도 사용되기도 한다.

이미지 분류
자율 주행
얼굴 인식
OCR
의료 영상 등...

7. 소감

사람이 규칙을 설계하는 시대에서
모델이 스스로 학습하는 시대로 넘어가는
결정적 전환점이 된 논문이지 않을까 싶다.

그리고 무엇보다 CNN은 인간이 느끼는 시각 시스템을 공학적으로 구현해낸것 같은 느낌이 강하게 들었다.

중간에 수식때문에 다 눈에 머리에 들어오진 못했지만, 전체적인 흐름을 이해할 수 있었다.
네이티브로 논문을 읽으면 생각보다 훨씬 재밌을 수도....? 영어를 잘하는 사람이 부러워지는 순간이었다...

논문 출처

Gradient-Based Learning Applied to Document Recognition
(Yann LeCun et al., 1998)

http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

'AI 공부' 카테고리의 다른 글

GPT와 함께하는 A2C(Advantage Actor-Critic) 정리 (1)	2026.03.16
내가 보려고 만든 사이킷런 정리 (0)	2026.03.13
머신 러닝 (1)	2026.03.13
Attention Is All You Need 논문 공부 (0)	2026.03.13
논문 공부 과제 – End-to-End Object Detection with Transformers (DETR) (0)	2026.03.02

논문 공부 과제 - Gradient-Based Learning Applied to Document Recognition