pdf 파일에서 글들을 복사해서 문서화하는 것이 가능한 것은 이미 오래전 일입니다.
처음 봤을 때 신기했었는데 이제는 당연하게 여기는 기능이 되었죠..
하지만 수식이 있는 글들은 복붙이 어렵습니다. 특히 한글로 옮기면 날 리가 나죠..
원인을 찾던 중 두가지 문제가 있다는 것을 알았습니다.
하나는 pdf파일은 기본적으로 이미지파일이라는 것입니다. ORC방식으로 광학적으로 이미지를 스캔하고 글자와 이미지를 구분하여 글자화 하는 것입니다. 그러다 보니 수식, 글자, 이미지, 등이 많이 섞여 있는 경우에 인식률이 현저히 떨어집니다. 무엇이 글자고 무엇이 수식인지 판단하기 어려운 거죠.. 하지만 요즘 많은 기술의 발전으로 이러한 오류들이 크게 개선되고 있습니다. 아직까지는 아쉽지만 정말 많이 좋아졌습니다.
두 번째 이유가 더 큰 문제인데... 아래한글입니다. 수식 입력의 구조가 국제표준과 다릅니다. pdf스캔을 하여 변화해 주는 많은 회사들이 있습니다. 하지만 모든 회사들이 국제 표준으로 만들지, 우리나라에서만 많이 쓰는 아래한글을 크게 배려해주지 않습니다. 그러다 보니 한글문서화 하기가 어렵습니다.
예전 PDF파일의 영어문제를 복붙 하여 시험지를 만들어 봤습니다. 거의 바로 만들어집니다.
이런 면만 보면 영어선생님들은 자료 만들기 쉽겠다 생각을 했습니다. 수학선생님들에 비해 말이죠..
수학은 자료가 대부분 복붙이 어렵습니다.
좋은 자료를 찾았다해도 그것이 PDF라면..
그것을 자료화 하고 싶다면...
그냥 쳐야합니다.
그래서 시작했습니다.
최대한 인식률을 높이며,
수식은 실제 수학선생님들의 도움을 받아가며, 많은 테스트를 거쳐가며 개발을 했습니다.
그리고 이제 개발이 완료되었습니다. 물론 앞으로도 많은 수정이 있을 것이고, 업그레이드 계획도 하고 있습니다.
이공계 관련 분들에게 정말 큰 도움이 되리라 생각합니다.!
특히 학생들 지도에 불철주야 힘쓰시는 학교,학원 선생님들에게 도움이 되기를 희망합니다.