[개발자전용] 추가학습데이터 연결을 위한 대규모 병원AI 자체개발 관련 소식

하룹의 병원AI애드파인더 성능 향상을 위해 LLAMA2 모델의 추가 파인튜닝을 대규모로 진행할 예정입니다.
개발자 분들은 아래의 지침에 따라 작업을 진행해 주시기 바랍니다.

먼저 `autotrain-advanced` 패키지를 설치하여 딥러닝 모델을 쉽게 학습시킬 수 있도록 준비합니다.
!pip install -q autotrain-advanced

Colab에서 작업중인 경우 PyTorch 업데이트가 필요할 수 있습니다.
!autotrain setup –update-torch

주어진 데이터셋을 이용하여 LLAMA2 모델을 파인튜닝합니다.
아래 예시 코드를 참고하여 작업을 진행해 주시면 됩니다. (이제 솔직히 더 자세히 코드 안알려주셔도 다들 너무 잘하시기에..
기본 베이스만 전달드립니다. 혹시 모르거나 도움이 필요하면, 본사 개발팀쪽으로 직접 도움요청을 주시면 됩니다)
!autotrain llm –train
–project_name “ko-llama2-finetune”
–model “TinyPixel/Llama-2-7B-bf16-sharded”
–data_path “adfinder-lm2/ko-alpaca”
–text_column “text”
–use_peft
–use_int4
–learning_rate 2e-4
–train_batch_size 16
–num_train_epochs 3
–trainer sft
–model_max_length 2048

위에 대해 안내를 드리자면, 아래와 같습니다.

– `project_name`: 체크포인트 및 기타 파일을 저장할 경로를 지정합니다.
– `model`: 사용할 모델의 경로를 지정합니다 (LLAMA2 2.7B 사용).
– `data_path`: 사용할 데이터셋의 경로를 지정합니다 (ko-alpaca 데이터셋 사용).
– `text_column`: 사용할 데이터 중 텍스트 칼럼을 지정합니다 (‘text’ 칼럼 사용).
– `use_peft`: Parameter Efficient Fine Tuning을 사용합니다.
– `use_int4`: 정수 형태로 학습을 진행합니다.
– `learning_rate`: 학습률을 지정합니다.
– `train_batch_size`: 학습 배치 크기를 지정합니다 (A100의 경우 16, T4의 경우 2 추천).
– `num_train_epochs`: 학습 에포크 수를 지정합니다.
– `trainer`: Supervised Fine Tuning을 위해 ‘sft’로 지정합니다.
– `model_max_length`: 모델의 최대 길이를 지정합니다.

이 과정을 통해, 병원AI애드파인더의 성능을 더욱 향상시켜,
병원 마케팅의 효율성을 극대화할 수 있을 것으로 기대합니다.
또한 자체적으로 AI를 구성함에 따라 더욱 다양한 파급효과를 기대하고 있습니다.

모든 개발팀분들의 적극적인 참여를 부탁드립니다. 감사합니다.