정밀한 라벨링 데이터로 더욱 스마트한 코딩 LLM

저희는 코드 스니펫, 대화, 프로그래밍 작업을 분석, 주석 처리 및 정제하여 지도 미세 조정(SFT) 데이터셋을 생성하기 위한 코딩 모델용 데이터 라벨링 서비스를 제공합니다. 이는 코딩 특화 LLM의 정확성, 일관성, 최적의 성능을 보장합니다.

전 세계 업계 리더에게 신뢰받는 LTS GDS

LTS GDS의 역량

정교한 코드 주석 작업을 통해 코딩 LLM 학습 및 파인튜닝에 최적화된 고품질 SFT 데이터셋을 구축해 드립니다.

지도 학습 기반 파인튜닝 (SFT)

휴먼 프리퍼런스 랭킹(RLHF)

LLM 평가 및 A/B 테스트

LLM 레드팀 평가

LTS GDS는 코드 생성, 소스 코드 분석, 알고리즘 설명 등 코딩 LLM의 역량을 강화하기 위한 파인튜닝 데이터셋을 제공합니다. 지원 범위:
  • 프롬프트 생성
  • 프롬프트 검증
  • 답변 생성
  • 답변 검증
  • 대화 생성
  • 대화 평가
  • 버그 탐지 및 수정 제안
LTS GDS의 전문가들은 RLHF(인간 피드백 기반 강화학습)를 활용하여, 프로그래밍 맥락에서 모델이 생성한 응답을 정확성, 알고리즘 효율성, 실행 가능성, 언어 규칙 준수 등의 기준으로 평가 및 순위화합니다. 주요 특징:
  • 실시간 인간 상호작용 기반 평가
  • 단일 턴 및 멀티 턴 대화 평가 지원
  • 의미 정확성, 문법 준수, 성능 최적화 등 맞춤형 평가 기준 설정 가능
LTS GDS는 다양한 모델 버전 간 또는 기존 벤치마크 대비 A/B 비교 평가를 통해 프로그래밍 작업에서의 모델 성능을 분석하는 데이터 라벨링 서비스를 제공합니다. 핵심 역량:
  • 코드 생성 모델 간 상세 비교
  • 정확성, 성능, 일관성 기반 평가
  • 특정 프로그래밍 시나리오에서 모델 응답에 대한 정성·정량 분석 지원
LTS GDS는 프로그래밍 모델의 편향, 환각, 안전하지 않은 출력 등 잠재적 취약점을 식별합니다. 활용 사례:
  • 보안에 취약한 코드 생성
  • 악의적 또는 부적절한 제안(예: 인증 우회, SQL 인젝션)
  • 실제 시나리오 기반 멀티 턴 테스트

코딩 LLM을 위한 데이터 라벨링 워크플로우

대규모 코딩 작업을 효율적으로 해결할 수 있도록, 전문가 중심의 프로세스를 따라 진행합니다.

프로젝트 요구사항 정의
프로젝트 팀 구성
파일럿 작업 수행
본 작업 실행
triangle-arrow
지속적 개선

초기 단계에서 GDS의 검증된 엔지니어들이 프로젝트 요구사항을 정의합니다. 고객과의 초기 교육 세션을 진행하고, 프로젝트 가이드라인 문서를 명확히 하기 위해 Q&A 세션을 실시합니다.

내부 팀과 벤더 팀을 포함한 프로젝트 팀을 구성한 후, 필요한 프로그래밍 언어에 따라 작업을 배정합니다. 가이드라인을 명확히 하고 질문에 답변하기 위해 내부 딜리버리 팀과 벤더 팀 모두를 대상으로 교육을 진행합니다. 마지막으로, 양측 팀과 회의를 진행하여 실행 방식에 대한 정렬을 맞춥니다.

파일럿 작업을 수행하여 고객에게 전달합니다. 피드백을 받은 후 내부 및 외부 딜리버리 팀과 후속 회의를 진행합니다. 이 단계에서 확인된 새로운 시나리오나 엣지 케이스를 반영하여 가이드라인을 업데이트합니다.

벤더에게 작업을 배정하고 LTS GDS의 마감 기준을 적용합니다. LTS GDS는 벤더가 완료한 작업을 무작위로 검수합니다. 이후 결과물을 고객에게 전달하며, 고객은 일반적으로 약 100개 단위의 배치로 검토합니다.

고객의 승인 기준은 다음과 같습니다:
-승인율이 90% 이상인 경우, 해당 배치 전체 승인
-반려율이 90% 이상인 경우, 배치 전체 재작업 및 재제출 필요

불명확한 설명, 숨겨진 요구사항 등 외부 요인으로 인한 반려 건은 고객에게 보고하여 명확한 지침을 요청합니다. 또한, 실행 과정에서 발견된 내부 오류를 해결하기 위해 격일로 회의를 진행합니다.

LTS GDS 선택하는 이유

저희의 SFT 및 RLHF 프로세스를 통해 코딩 LLM 개발을 가속화하십시오.

우수한 품질

정교한 Supervised Fine-tuning(SFT) 데이터셋을 구축하기 위해 엄격한 QA 프로세스를 적용하며, 최대 99% 정확도를 달성하도록 설계된 고성능 코딩 모델 학습용 데이터셋을 제공합니다.

검증된 전문성

SQL, Python, C#, JavaScript, TypeScript, Bash, .NET, Scala 등 다양한 언어에 능통한 100명 이상의 숙련된 개발자가 참여하여, LLM이 빠르고 논리적이며 오류 없는 코드를 생성할 수 있도록 지원합니다.

신속한 팀 구축

LTS GDS는 대규모 프로젝트를 위해 전문 PM과 사내 팀 및 파트너 네트워크를 활용한 최대 200 200 man-months 규모의 전담 팀을 2주 이내에 구성할 것을 보장합니다.

비용 효율성

베트남 아웃소싱 시장의 비용 경쟁력과 우호적인 세제 정책을 기반으로, 글로벌 기업은 최적의 예산으로 사전 학습된 모델을 코딩 특화 LLM으로 최적화할 수 있는 IT 전문가를 확보할 수 있습니다.

수상 내역

99%

정확도

1,000만+

코드 라인 처리

11개

국 진출

200+

프로젝트 수행

사례 연구

데이터 라벨링 서비스가 코딩 LLM의 정확도를 어떻게 비약적으로 향상시켰는지, 실제 사례를 통해 확인해 보십시오.

[데이터 어노테이션] 피자 재료 어노테이션 
22 - 05 - 2024
클라이언트 요청 클라이언트는 이미지 세그멘테이션 기술을 사용하여 피자 재료를 식별하고 영양가를 계산하는 AI 모델을 개발하고 있었다. 계산하는 AI 모델을 개발하고 있었다. 이를 통해 고객사가 칼로리 소비를 비교하고 적합한 다이어트 선택을...
[RPA] RPA를 통해 온라인으로 차량 보험 발급 
22 - 05 - 2024
클라이언트 개요 클라이언트는 베트남의 선도적인 보험 회사으로써 오토바이 보험 발급프로세스를 최적화하고자 전문 RPA 공급업체를 찾았다. 목표는 로보틱 프로세스 자동화를 현재 시스템에 통합하여 정책 발행에 처리할 시간을 줄이고 전반 고객 서비스...
RPA
[데이터 어노테이션] 스마트 교통 시스템 프로젝트
21 - 05 - 2024
클라이언트 요청 고객사는 인공지능 기술을 활용하여 운전을 더 안전하게 개선할 목표로 운전 환경을 잘 인식하고 결정을 정확하게 내리기 위해 AI에게 중요한 정보를 제공하는 고품질 데이터 세트가 필요하다. 특히 높은 정밀도...
[RPA] RPA 솔루션으로 소매업계 구매 인보이스 데이터 입력 강화
21 - 05 - 2024
비즈니스 과제 구매 인보이스 괄리 및 프로세싱은  어떤 비즈니스 분야에게도 필수적인 작업이 될 수 있다. 소매 구매자와 공급업체로부터 수백만 인보이스 수량이 있는 슈퍼마켓의 경우에는 창고 관리 부서가 관리 시스템에 모든...
RPA
RPA를 통해 은행 개발 프로젝트의 일일 보고 개선 
29 - 01 - 2024
비즈니스 과제 160개 이상의 글로벌 지사 진출 상황에서 클라이언트는 일본에서 500만 명을 위한 금융 서비스를 제공하고 있었습니다. 이러 대규모 고객 데이터베이스는 직원들로 하여금 매달 보고해야 하는 수백 가지 프로세스를 처리하도록...
RPA
US 차량 어노테이션
29 - 01 - 2024
클라이언트의 요청 클라이언트는 장기적인 데이터 주석 프로젝트에서 교통 수단과 차량 데이터 세트에 라벨링 작업을 요청했습니다. 그들은 바운딩 박스, 폴리라인, 폴리곤, 3D 박스 등과 같은 형식으로 다양한 객체들 (차량, 교통 표지판,...
RPA를 통해 뱅킹에서 데이터 입력 처리 최적화
29 - 01 - 2024
비즈니스 과제 클라이언트는 일본과 해외에서 200개 이상의 지점을 운영하고 있습니다. 결과로 매일 엄청난 양의 입력 데이터를 매뉴얼로 처리해야 하여 그 걸린 시간은 연간 12,000시간까지로 차지한 것입니다. 이는 클라이언트의 대응 시간을...
RPA
활주로  어노테이션 
29 - 01 - 2024
클라이언트의 요청 클라이언트는 시맨틱 세그멘테이션 유형으로 활주로 주석에 능숙한 공급업체를 찾으셨습니다. 이는 다음과 같은 핵심 요청 사항을 기반으로 자동 조종 프로젝트이었습니다:  99%+ 정확도   2달 이내 촉박한 기간   정보 보안 보장 ...

LTS GDS의 도구 및 기술

첨단 도구와 맞춤형 시스템을 활용하여 코딩 주석 작업과 품질 관리를 효율적으로 수행합니다.

코딩 및 프로그래밍용 LLM 파인튜닝에 관한 자주 묻는 질문

코딩 분야에서 LLM 파인튜닝이란 무엇입니까?

파인튜닝은 사전 학습된 대규모 언어 모델(LLM)에 소스 코드 또는 코드 관련 작업으로 구성된 정제된 데이터셋을 추가로 학습시키는 과정입니다. 이를 통해 모델이 코드 생성, 디버깅, 문서화 등 프로그래밍 특화 기능을 보다 정확하게 수행할 수 있도록 전문화됩니다.

RLHF란 무엇입니까?

RLHF(Reinforcement Learning from Human Feedback)는 인간의 선호도와 피드백을 모델 학습 과정에 반영하여 LLM의 성능을 향상시키는 기법입니다. 기초 학습 이후, 인간 피드백을 강화학습 단계에 통합함으로써 모델의 응답 품질을 더욱 정교하게 개선합니다.

SFT와 RLHF의 차이점은 무엇입니까?

SFT(Supervised Fine-tuning)는 라벨링된 데이터를 활용하여 모델이 특정 작업을 수행하도록 직접적으로 학습시키는 과정입니다.
RLHF는 SFT 이후 단계로, 인간 피드백과 강화학습을 통해 모델의 출력을 세밀하게 조정하고 인간 기준에 맞게 정렬시키는 과정입니다. 즉, SFT는 ‘무엇을 말할지’를 가르치고, RLHF는 ‘어떻게 말할지’를 다듬는 역할을 합니다.

파인튜닝과 프롬프트 엔지니어링은 어떻게 다릅니까?

파인튜닝은 특정 데이터셋을 사용하여 모델의 파라미터 자체를 조정함으로써 코딩 작업에 특화된 성능을 제공합니다.
프롬프트 엔지니어링은 모델을 변경하지 않고, 입력 프롬프트를 개선하여 더 나은 응답을 유도하는 방식입니다.

파인튜닝된 코딩 LLM은 어떤 작업을 수행할 수 있습니까?

파인튜닝된 LLM은 코드 생성, 질의응답, 대화 생성, 논리 평가를 수행할 수 있으며, 언어 간 코드 변환, 문서 생성, DevOps 스크립트 지원도 가능합니다. 또한 특정 코드베이스로 학습될 경우 도메인 특화 개발 작업까지 숙련되게 수행합니다.

코딩 특화 LLM을 파인튜닝하면 어떤 이점이 있습니까?

 파인튜닝된 코딩 LLM은 더 높은 정확도, 적은 오류, 특정 프로그래밍 언어 및 코드베이스에 대한 깊은 이해를 제공하며, 더 관련성 높은 제안을 제공하고, 특수 프레임워크를 지원하며, 내부 코딩 표준에 맞게 맞춤화할 수 있습니다.

수상 및 인증

귀사의 코딩 LLM을 한 단계 더 도약시킬 준비가 되셨습니까?

귀사의 비즈니스를 어떻게 지원해 드릴 수 있을지 함께 논의해 보겠습니다. 연락처 정보를 공유해 주시면, 귀사에 최적화된 맞춤형 솔루션으로 연락드리겠습니다.