LG AI Research
학습용 텍스트 데이터 추출을 통한 AI 모델 엑사원(EXAONE) 성능 개선
LG AI Research는 한국 LG그룹 산하의 인공지능 연구소로, 자체 개발한 대규모 언어 모델(LLM) EXAONE을 포함해 다양한 고급 AI 모델과 서비스를 개발한다.
연구소는 챗봇 서비스를 위한 강력한 문서 파서(document parser)가 필요한 상황이었다. 사용자가 업로드한 PDF 문서의 내용을 기반으로 지능적이고 문맥을 이해하는 답변을 제공할 수 있도록 PDF를 정확하게 텍스트로 변환하는 전처리가 필요했기 때문이다.
LG AI Research는 PDF 데이터 추출에 특화된 고성능 파이썬 라이브러리인 PyMuPDF Pro를 시스템에 통합했다. PyMuPDF Pro는 PDF 문서에서 텍스트를 빠르고 정확하게 추출하여 EXAONE이 처리할 수 있는 형태로 제공했다. 그 결과 AI 모델은 향상된 답변을 생성할 수 있게 되었고, 서비스 활용 범위가 창의적 콘텐츠 생성, 전문가 지식 추론, 과학적 발견 등 다양한 분야로 확장될 수 있었다. PyMuPDF Pro 통합으로 EXAONE은 보다 정교하고 문맥적으로 적합한 답변을 제공할 수 있게 되었고, 사용자 만족도와 서비스 몰입도를 한층 높이는 결과를 가져왔다.
#PyMuPDF PRo