재보험 기업 RGA(Reinsurance Group of America)의 수석 부사장 겸 최고기술책임자(CTO) 론 할로웰은 ” 2025년에는 퍼블릭 클라우드와 프라이빗 클라우드 전반에서 업무 도입, 분배 기준, 구현 방식 등의 프로세스를 성숙시켜 퍼블릭 클라우드 활용을 최적화하는 데 중점을 둘 예정이다”라며 “비용 최적화와 명확한 워크로드 선택 기준이 퍼블릭 클라우드와 프라이빗 클라우드 간의 적합한 활용 방안을 결정할 것”이라고 설명했다.
소프트웨어 기업 엔다바(Endava) 클라우드 기능 담당 부사장 라두 분불리아는 대기업의 많은 CIO와 컨설팅을 진행하고 있다. 분불리아 부사장은 “올해는 하이브리드 클라우드, 멀티 클라우드, 온프레미스로의 이전 등에 대해 더 많이 논의하는 한 해가 될 것”이라고 전했다. 그는 예상보다 높은 비용뿐만 아니라 성능 및 지연(latency) 문제, 보안, 데이터 프라이버시 및 규제 준수 이슈, 그리고 데이터의 위치, 이동, 처리와 관련된 지역 디지털 주권 규정이 이러한 논의를 주도하고 있다고 밝혔다.
할로웰은 “프라이빗 클라우드를 퍼블릭 클라우드보다 선호하게 만드는 주요 요인은 비용”이라고 강조했다. 할로웰 CTO는 쇼핑몰, 항공사, 예매 사이트처럼 특정 시기에 트래픽이 집중되는 서비스에서 퍼블릭 클라우드가 비용 효율적인 기술이라고 평가했다. 그는 “안정적인 업무 부하를 가진 서비스는 프라이빗 클라우드나 전용 서버 운영이 더 경제적일 수 있다”고 설명했다.
분불리아 부사장은 많은 CIO들이 비용 문제로 퍼블릭 클라우드 전략을 재검토 중이라고 밝혔다. 엔다바의 엔터프라이즈급 시스템 중 80%가 퍼블릭 클라우드를 전체 또는 부분적으로 사용하지만, 이 중 60%는 최소 한 개 시스템의 마이그레이션을 진행하고 있다. 분불리아는 “이러한 추세가 최근의 일반적인 경향”이라고 표현했다.
우 애널리스트는 “온프레미스, 온프레미스 프라이빗 클라우드 또는 호스팅 프라이빗 클라우드와 퍼블릭 클라우드에 대한 관심이 다시 높아지고 있으며, 특히 생성형 AI와 같이 데이터가 많은 워크로드로 인해 클라우드 지출이 천문학적으로 증가하기 시작했다”고 설명했다. 이어 “애플리케이션을 다시 온프레미스로 이동하거나 온프레미스 또는 호스팅된 프라이빗 클라우드 서비스를 사용함으로써 CIO는 데이터 프라이버시를 보장하면서 멀티테넌시를 피할 수 있다”라고 밝혔다. 포레스터는 올해 클라우드 리더의 80%가 프라이빗 클라우드 투자 규모를 20% 늘릴 것으로 전망했다.
우 애널리스트는 “2025년의 클라우드 전략이 온프레미스 복귀에만 국한되지 않을 것”이라며 “프라이빗 클라우드 투자가 생성형AI, 비용, 디지털 주권 문제, 성능 요건 등으로 인해 증가하고 있지만, 퍼블릭 클라우드 투자도 여전히 늘고 있다”라고 설명했다. 이어 “퍼블릭 클라우드가 기술 접근성과 비용 효율성, 혁신 지원 측면에서 매력적인 옵션을 제공하며, 이러한 특성들이 퍼블릭 클라우드에 대한 수요를 지속적으로 증가시키고 있다”라고 분석했다.
퍼블릭 클라우드의 숨겨진 비용과 과제들
세인트주드 산하 연구병원의 수석 부사장 겸 최고정보책임자(CIO) 키스 페리는 퍼블릭 클라우드가 생태계 외부 연구자들에게 지식을 전달하는 효과적인 수단이라고 언급했다. 세인트주드 병원은 온프레미스 슈퍼컴퓨터를 사용해 연구 데이터를 생성하며, 이 데이터를 퍼블릭 클라우드로 이동시키고 다시 가져오는 데 드는 비용이 상당히 클 수 있다. 페리는 “연구 기관은 보통 자체 보유한 슈퍼컴퓨터로 데이터를 생성 및 처리한 후, 이를 퍼블릭 클라우드로 옮기고 다시 불러오는데, 이 과정에서 상당한 데이터 전송 비용이 든다”라고 전했다.
할로웰에 따르면, 데이터 집약적인 작업에서 지속적인 고성능 컴퓨팅이 필요할 경우 비용이 크게 증가할 수 있다. 할로웰은 “데이터 이동은 비용뿐만 아니라 성능에도 영향을 미친다”며, “데이터 라이프사이클을 신중히 관리해 클라우드 간 전송을 최소화하고 있다”라고 말했다.
우 애널리스트에 따르면, 퍼블릭 클라우드는 가용 영역(AZ), 지역, 클라우드 간의 데이터 저장 및 전송 비용이 모두 발생하므로 데이터 집약적 워크로드의 비용 부담이 크다고 지적했다. 특히 공급업체들은 특정 가용 영역으로 유입되는 데이터와 유출되는 데이터 모두에 대해 전송 요금을 부과하여 추가적인 비용이 발생한다. 우 애널리스트는 “AZ 간 전송의 경우 기본적으로 두 번 요금이 부과되며, 숨겨진 전송 수수료는 정말 엄청날 수 있다”고 전했다.
분불리아는 특히 페타바이트 단위의 데이터 전송 비용이 높고 데이터 전송 및 동기화가 복잡할 수 있다고 언급했다. 분불리아는 “어떤 AI 프로젝트에서는 클라우드 비용의 약 45%가 데이터를 퍼블릭 클라우드에서 다른 위치로 이동시키는 데서 발생했다”라며 “전체 시스템을 구축해 서비스 주변의 모든 필요 사항을 충족하는 과정에서 초기 예상보다 3~4배 더 많은 비용이 들 수 있다”고 설명했다.
예를 들어, 오픈AI를 활용해 AI 솔루션을 구축하는 조직은 AI 서비스 외에도 비밀 데이터를 보호하기 위한 보안 저장소 구성, 보안 정책 수립과 보안 시스템 설정, 데이터 저장소 보안, 데이터 변환, 모니터링, 감사, 규정 준수 관리 등을 추가로 고려해야 한다. 이러한 요구 사항을 충족하기 위해 10~12개의 추가 클라우드 서비스를 활용해야 하며, 이는 시스템의 복잡성을 더욱 증가시킨다.
농업 화학 기업 모자이크 컴퍼니(Mosaic Company)의 CIO 제프 위소키는 이러한 예산 초과 문제를 인정하면서도, CIO가 퍼블릭 클라우드 공급업체와 협력하여 이러한 비용을 통제할 수 있다고 조언했다. 예를 들어, 모자이크는 최근 마이크로소프트(MS)의 빙(Bing) 플랫폼에서 광산 채굴 작업을 위한 자체적인 ‘모자이크 GPT 안전 모델’을 개발했다. 곧 파일럿으로 출시될 이 모델에는 수년간의 안전 관련 정보가 포함되어 있어 채굴 현장에서 일하는 계약자는 안전과 관련된 질문을 입력하고 주어진 상황에 대처하는 방법을 확인할 수 있다.
위소키는 “비용 문제를 해결하기 위해 아키텍처를 변경했다”고 설명했다. 모자이크의 팀이 모델을 구축한 방식과 MS가 솔루션을 설계한 방식은 프로젝트를 예산 범위 내에서 유지하는 데 도움이 되었다. 위소키는 “MS와 함께 비용을 합리적인 수익으로 간주할 수 있는 수준으로 낮추기 위해 몇 가지 사항을 변경했다”라고 전했다.
모자이크의 ERP 시스템은 처음에 프라이빗 클라우드에 있었지만, 현재는 SAP 프라이빗 클라우드에서 운영되고 있다. 그러나 일부 서버는 여전히 온프레미스에 있으며, 이는 큰 변화 없이 유지될 가능성이 높다. 위소키는 “엣지 서버 솔루션이 클라우드와 동기화될 수는 있겠지만, 지금 상태에서 크게 변하지는 않을 것”이라고 말했다. 현재 모자이크의 IT 운영의 약 80~85%는 클라우드에서 이루어지고 있으며, 이 비율은 앞으로도 유지될 것으로 보인다.
예산을 초과할 수 있는 AI 프로젝트의 위험성
AI와 머신러닝 프로젝트는 데이터 집약적 특성으로 인해 클라우드 비용을 크게 증가시킬 수 있다. 챗GPT 3.5와 4.0과 같은 대규모 기초 모델을 활용하려면 막대한 컴퓨팅 자원이 필요하며, 이를 자체적으로 구축하는 비용은 감당하기 어려울 것이라고 가트너의 클라우드·엣지·AI 인프라 서비스 부문 부사장인 시드 내그는 설명했다.
Sid Nag, VP, cloud services and technology, Gartner
Gartner
가트너는 2027년까지 기업이 사용하는 생성형AI 대규모 언어모델(LLM)의 50% 이상이 산업별 특화 모델이 될 것으로 전망했다. 이러한 모델은 대규모 범용 기초 모델보다 훨씬 작고, 다른 환경에서도 실행할 수 있다. 인스트럭트랩(InstructLab) 같은 오픈소스 AI 모델 관리 도구 등을 활용해 회사 고유 데이터를 추가로 학습시킨다 해도 여전히 규모가 작다. 내그는 “산업별 특화 모델은 훈련에 필요한 자원이 적기 때문에 온프레미스, 프라이빗 클라우드, 또는 호스팅 프라이빗 클라우드에서도 실행할 수 있을 것”이라고 전했다.
그러나 분불리아는 이러한 모델을 훈련하거나 최적화하기 위한 컴퓨팅 자원과 인프라를 온프레미스에서 확보하는 것이 쉽지 않다고 지적했다. 분불리아에 따르면, 컴퓨팅 자원은 가장 중요한 요소 중 하나이며, 클라우드 벤더가 제공하는 상용 AI 플랫폼을 활용하면 기업이 자체 데이터를 이용해 모델을 훈련할 수 있다. 그는 또한 “온프레미스에서 실행하더라도 시스템을 직접 구성할 필요는 없다”라고 설명했다.
내그는 온프레미스나 프라이빗 클라우드로 전환하는 데 신중해야 한다고 경고했다. 그는 “재정적 책임을 가진 의사결정권자들은 특별히 설득력 있는 이유가 없는 한 자본 지출(CapEx) 중심의 과거로 돌아가는 아이디어를 꺼릴 것”이라고 말했다.
분불리아는 클라우드 벤더들이 AI와 머신러닝 서비스를 플랫폼형 서비스(PaaS)로 계속 제공하고 있다고 설명했다. 그는 “기본적으로 사전 훈련된 모델을 활용하고, 기업 데이터를 추가해 문제없이 서비스를 사용할 수 있다”라며 “퍼블릭 클라우드 벤더가 제공하는 모델이 대부분의 기업 표준 요구를 90%까지 충족할 만큼 성숙한 단계에 가까워지고 있다”라고 언급했다.
결국, 이러한 서비스를 사용할지 여부는 비용 문제로 귀결된다. 분불리아는 “해당 서비스가 사업 모델에 적합한 비용 구조를 갖췄는지가 핵심”이라고 전했다.
저렴하지만 성능이 떨어지는 서비스의 한계
포레스터의 애널리스트는 CIO들이 초기에 비용 절감에 중점을 두지만, 이는 종종 성능 요구사항이나 궁극적인 목표와 상충될 수 있다고 지적했다. 퍼블릭 클라우드가 비용 효율적으로 보일지라도, 잠재적인 지연 시간과 성능 문제를 감안하면 최적의 선택이 아닐 수 있다. 특히 결제 처리나 금융 서비스와 같이 지연 시간에 민감한 산업에서는 더욱 신중한 검토가 필요하다.
세인트주드 병원의 페리는 “데이터를 생성하는 장비와 이를 처리하는 컴퓨팅 시스템 간의 지연 시간이 데이터 위치 선정의 핵심 요소”라고 설명했다. 일부 장비는 고성능 컴퓨팅 자원과 실시간에 가까운 연결이 필요하다고 덧붙였다.
페리는 “연구 장비와 온프레미스 및 퍼블릭 클라우드의 고성능 컴퓨터 간 발생하는 지연으로 인해 퍼블릭 클라우드에서 실시간 분석을 수행하는 것은 실효성이 없다”고 지적했다. 아울러 고성능 컴퓨팅용 대규모 GPU 클러스터를 구축하는 퍼블릭 클라우드 사업자가 증가하면서 비용 측면도 주의 깊게 검토해야 한다고 강조했다.
생물체의 유전체를 구성하는 DNA 염기서열을 분석하는 ‘게놈 시퀀싱(Genomic sequencing)’은 비용이 합리적일 경우, 일부 처리 작업을 로컬 슈퍼컴퓨터에서 퍼블릭 클라우드로 이전하는 것이 효율적인 분야다. 페리는 게놈 시퀀싱과 관련된 일부 워크플로가 시간이 지나면서 어느 정도 표준화된다고 설명했다. 이러한 경우 비용에 따라 파이프라인을 규모에 맞게 최적화하고 클라우드에서 실행하는 것이 더 합리적일 수 있다. 페리는 “우리는 온프레미스 고성능 컴퓨팅 자원의 작업량을 줄이기 위해 일부 유전체 시퀀싱 파이프라인을 클라우드로 이전하는 작업을 진행했다”라고 밝혔다.
퍼블릭 클라우드에서 애플리케이션을 호스팅할지 여부를 결정할 때 성능은 중요한 요소이지만, 반드시 결정적인 요인은 아니다. 그러나 모자이크 컴퍼니의 위소키는 “광산 작업 현장에서 엣지 서버에서 실행되는 일부 애플리케이션은 예외”라고 말했다. 그는 “우리에게는 장비 자체 또는 그 근처에서 실행되어야 효과적인 엣지 컴퓨팅이 항상 필요하다”고 밝혔다.
위치의 문제: 데이터 주권과 규제
위소키는 ” 보안, 프라이버시, 비용이 우리의 주요 고려 사항이다”라며 “퍼블릭 클라우드 서비스에서 보안과 프라이버시 문제는 아직 크게 드러나지 않았다”라고 설명했다.
할로웰은 RGA가 퍼블릭 클라우드 서비스의 보안에 만족하고 있다고 언급했다. 할로웰은 “데이터 격리 및 보안을 제공하는 AWS의 베드락 서비스를 통해 앤스로픽, 미스트랄 등의 파운데이션 모델을 활용하고 있다”라며 “이 서비스는 데이터 격리와 보안을 제공해 안전한 환경에서 챗GPT와 유사한 기능을 구현할 수 있게 해준다”라고 설명했다.
우 애널리스트는 디지털 주권 문제는 다른 차원의 논의사항이라고 지적했다. 현지화 규정이 엄격한 국가에서는 퍼블릭 클라우드를 사용할 수 없을 수도 있다. 우 애널리스트는 “온프레미스 프라이빗 클라우드나 호스팅 프라이빗 클라우드를 선택하여 직접 관리하거나 다른 사람이 관리할 수 있다”며 “어느 쪽이든 데이터의 위치를 제어할 수 있다”고 전했다.
할로웰은 클라우드 서비스와 데이터 저장 위치를 결정할 때 규제 환경뿐만 아니라, 다른 요인들도 중요한 영향을 미친다고 설명했다. 할로웰은 “일부 지역에서는 데이터 현지화와 프라이버시 요건이 고객 계약에 직접 포함되어 있다”라고 밝혔다. 이런 경우 프라이빗 클라우드가 더 유연한 솔루션이 될 수 있다.
분불리아는 다국적 대규모 조직의 경우, 온프레미스와 클라우드를 함께 활용하는 하이브리드 방식이 최적의 선택이 될 수 있다고 조언했다. 또한 각국의 규제 환경에 따라 적합한 퍼블릭 클라우드 제공업체를 신중히 선택해야 한다고 덧붙였다.
분불리아는 “예를 들어 중동의 특정 지역에서 워크로드를 실행하려는 경우 오라클 클라우드가 최적의 선택지가 될 수 있다”라며 각 국가마다 데이터 처리와 관련하여 자체 규제가 있기 때문이라고 설명했다. 모든 국가에 진출한 단일 클라우드 공급업체는 없지만, 오라클은 중동 지역에서 큰 입지를 확보하고 있으므로 오라클 및 다른 클라우드 공급업체와 함께 온프레미스 워크로드를 실행할 수 있다.
할로웰은 하이브리드 클라우드에도 단점이 있다고 지적했다. 할로웰은 ” 여러 퍼블릭 및 하이브리드 클라우드 환경에서 대규모 데이터셋의 호환성과 성능을 관리하는 것이 주요 해결 과제로 남아있다”라고 강조했다.
“유연성을 유지하고 변화에 대비하라”
할로웰은 “앞으로 우리의 전략적 목표는 단순히 모든 것을 퍼블릭 클라우드로 옮기기보다 새로운 기능에 대한 비즈니스 요구 사항과 애플리케이션 수명 주기 관리 관행을 결합해 호스팅 결정을 평가하는 것”이라고 설명했다. 전통적인 통합 인프라로 처리할 수 있는 안정적인 용량 요구를 가진 애플리케이션은 프라이빗 클라우드에서 실행되며, 지속적으로 높은 컴퓨팅 자원을 요구하지 않는 애플리케이션은 퍼블릭 클라우드 후보로 남을 것이다.
페리는 조직의 애플리케이션에 적합한 IT 인프라를 구축하는 것은 올바른 건축 자재를 사용하는 것과 같다고 비유했다. 페리는 “퍼블릭 클라우드는 우리가 아키텍처 솔루션을 구축하는 데 필요한 자재 중 하나일 뿐이며, 균형을 잘 맞추는 것이 중요하다”FK고 밝혔다.
안타깝게도 온프레미스, 프라이빗 클라우드, 퍼블릭 클라우드 서비스의 조합을 최적화하는 것은 쉽지 않다. 페리는 “기술이 끊임없이 발전하고 있기 때문에 모든 것이 최상의 위치에 있다고 말할 수는 없다”라고 설명했다. 페리는 클라우드 기술이 항상 변화하고 있으므로 시대에 맞춰 변화할 수 있도록 준비해야 한다고 조언했다. 현재 사용하는 도구가 내일은 필요하지 않을 수도 있기 때문에 이를 위한 올바른 도구를 확보하는 것이 매우 중요하다.
분불리아는 기술 발전에 따른 변화 대응을 위해서도 벤더 종속을 피해야 한다고 지적했다. 그러나 클라우드 워크로드를 최적화하려면 벤더의 독점 고급 기능을 사용해야 하는 딜레마가 존재한다고 설명했다. 그는 궁극적으로 온프레미스, 퍼블릭 클라우드, 프라이빗 클라우드 간의 자유로운 이동이 가능한 유연성 확보를 위해 벤더 종속을 피하는 것이 중요하다고 강조했다. dl-ciokorea@foundryco.com