데이터 부족으로 한계에 다다른 알파폴드, 제약사들은 자체 AI 개발 착수

비공개 데이터로 알파폴드 한계 뛰어넘는 모델 구축 도전
최근 생명 과학 분야에서 인공지능 기술의 도입은 매우 활발하게 이루어지고 있으며, 특히 단백질 구조 예측에 있어 큰 성과를 거둔 알파폴드는 AI의 실질적인 효용을 보여주는 대표적인 사례로 주목받고 있다. 알파폴드는 구글 딥마인드가 개발한 인공지능 모델로, 복잡한 단백질의 3차원 구조를 높은 정확도로 예측함으로써 오랫동안 해결되지 못했던 과학적 난제를 풀 수 있는 길을 열었다. 단백질은 생명체 내에서 다양한 생화학 반응과 생리작용을 조절하는 핵심 분자로, 그 구조를 이해하는 것은 질병의 원인을 규명하고 치료제를 개발하는 데 필수적인 과정이다. 단백질 구조 예측은 곧 신약 개발의 기초라 할 수 있는 만큼, 알파폴드는 생명 과학계에 큰 영향을 미쳤다.
알파폴드의 최신 버전인 알파폴드 3는 단백질 자체의 구조 예측을 넘어서, DNA나 RNA와 같은 핵산 분자, 그리고 약물로 쓰이는 소분자 화합물과 단백질 간의 상호작용까지 예측할 수 있는 능력을 선보였다. 이러한 기능은 신약 후보 물질이 체내 단백질과 어떤 방식으로 결합하는지를 파악하는 데 큰 도움이 될 수 있다. 신약을 개발하는 과정에서 가장 중요한 단계 중 하나는 특정 단백질과 잘 결합하여 효과를 낼 수 있는 약물을 찾는 것인데, 알파폴드의 이 능력은 이를 빠르게 실현하는 데 큰 가능성을 제시했다.
하지만 이러한 기대에도 불구하고 알파폴드 3에는 여전히 한계가 존재한다. 특히 약물과 단백질 간의 상호작용 구조에 대한 예측 성능은 학습 데이터의 부족으로 인해 충분하지 않다는 지적이 있다. AI 모델은 충분한 양의 고품질 데이터를 기반으로 훈련되어야 예측 정확도가 높아지는데, 신약 개발에 필요한 소분자와 단백질의 결합 구조에 대한 실험 데이터는 대부분 각 제약사 내부에 축적되어 있고 외부에는 거의 공개되지 않았다. 이는 마치 유능한 학생이 교과서 없이 시험을 준비하는 상황과도 같으며, AI가 모든 문제를 제대로 풀기에는 데이터라는 학습 도구가 부족한 셈이다.
이러한 문제를 해결하기 위해 세계적인 제약사들이 힘을 모으고 있다. 애브비, 존슨앤드존슨, 사노피, 베링거인겔하임 등 주요 글로벌 제약사들이 ‘AI 구조 생물학 컨소시엄(AI Structural Biology Consortium)’을 결성하여, 각자가 보유한 비공개 실험 데이터를 활용해 새로운 AI 모델을 공동으로 개발하기로 한 것이다. 이들이 보유한 데이터는 수많은 단백질과 신약 후보 화합물 간의 상호작용 정보를 담고 있으며, 어떤 화합물이 어떤 단백질에 잘 맞는지에 대한 고급 지식이 축적되어 있다. 지금까지는 기업 비밀로 인해 외부에 공개되지 않았던 이 데이터들이 컨소시엄이라는 안전한 협력 틀 아래에서 AI 개발에 활용될 계획이다.
컨소시엄은 오픈소스 프로젝트인 ‘오픈폴드 3(OpenFold 3)’를 기반으로 자신들만의 AI 모델을 개발할 예정이다. 오픈폴드 3는 알파폴드의 구조를 토대로 만들어진 공개형 프로젝트로, 누구나 그 코드를 활용하거나 수정할 수 있다. 제약사들은 여기에 자신들의 데이터와 요구 사항을 반영하여 특화된 AI를 구축하려 하고 있다.
하지만 각 제약사가 보유한 민감한 데이터를 외부와 직접 공유하지 않고도 협력 모델을 개발하기 위해서는 새로운 기술적 방식이 필요하다. 이를 위해 사용되는 것이 ‘아페리스(Apheris)’라는 기술 플랫폼이다. 아페리스는 연합 학습(Federated Learning)과 유사한 기술을 기반으로 하여, 각 회사가 자체 데이터는 그대로 보유하면서도 공동으로 AI 모델을 훈련시킬 수 있는 방식을 제공한다. 연합 학습이란 데이터를 모으지 않고도 여러 기관이 공동으로 AI 모델을 학습시킬 수 있도록 설계된 방법으로, 각 데이터 센터에서 모델을 훈련시키고 그 결과만을 공유해 전체 모델을 개선하는 방식이다.
이 방식을 통해 각 제약사는 데이터 보안을 유지하면서도 고성능 AI 모델 개발에 참여할 수 있다. 각자의 데이터를 외부로 전송하지 않기 때문에 기업 비밀이 노출될 위험이 없고, 동시에 AI 모델은 다양한 실제 데이터를 학습함으로써 성능을 향상시킬 수 있다. 아페리스의 기술은 이런 협력의 중심에서 데이터 프라이버시를 보장하는 중요한 역할을 하게 된다.
이러한 컨소시엄의 노력은 알파폴드의 가능성을 넘어서 실제적인 신약 개발 과정에 AI를 깊이 있게 적용하려는 중요한 전환점으로 평가받고 있다. 만약 이들이 개발하는 AI 모델이 알파폴드보다 더 정확하고 실용적인 예측을 할 수 있다면, 제약사들은 보다 효율적으로 신약을 개발할 수 있게 된다. 이는 신약 개발에 드는 시간과 비용을 크게 줄이고, 더 많은 환자들에게 빠르게 효과적인 치료제를 제공하는 데 도움을 줄 수 있다.
하지만 서로 경쟁하는 입장의 글로벌 제약사들이 이처럼 민감한 데이터를 기반으로 성공적인 협력 모델을 만들 수 있을지, 또 실제로 알파폴드의 한계를 뛰어넘는 AI 성능을 보여줄 수 있을지는 여전히 지켜봐야 할 과제다. 그럼에도 불구하고 이들의 시도는 AI가 신약 개발이라는 복잡하고 정교한 과제에 어떻게 도움을 줄 수 있는지를 보여주는 의미 있는 실험으로 평가받고 있다.

유전체 분석, 세포 치료제, 합성생물학 등 첨단 바이오 기술과 산업의 흐름을 깊이 있게 추적해 왔습니다. 생명과학의 연구 성과가 실제 의료 및 산업에 어떻게 접목되는지를 탐색하며, 정책·규제와 기술 상용화의 접점에도 관심을 두고 있습니다. AI 기반 분석 도구와 생물정보학 기술이 실험 설계와 해석에 어떤 영향을 미치는지에 주목하고 있으며, 복잡한 개념을 명확하게 전달하는 데 강점을 지닙니다. 기초 과학부터 산업 현장까지 다양한 관점을 연결해 바이오 분야의 전체적인 맥락을 조망하는 데 집중하고 있습니다.