더보기

고객의 미래가 디에스앤지의 미래입니다.

Lablup Backend.AI

Lablup 사의 Hyper-Scalable 인공지능 연구/개발 플랫폼 Backend.AI

NVIDIA DGX-Ready 소프트웨어로 검증된 Backend.AI는 DGX 시스템을 포함한 NVIDIA 가속 컴퓨팅의 뛰어난 성능으로 효율적인 인공지능 연구/개발을 가능하게 합니다.

  • GPU 활용도 극대화

    Lablup 사의 Backend.AI는 모든 유형의 워크로드에 대하여 비용과 성능 모두를 만족시키는 최적화를 제공합니다. 많은 자원이 필요한 모델 트레이닝 세션을 위해 고성능 GPU 번들로 묶어 활용하고, 동시 추론 및 트레이닝 워크로드에 대응하여 GPU 분할 가상화를 제공합니다. 빠르게 변하는 GPU 시장에 맞추어, 고가의 GPU를 항상 최적으로 활용할 수 있도록 AI 모델 트레이닝부터 추론 서비스, 머신러닝 교육으로 이어지는 전체 라이프 사이클 사용 계획을 제공합니다.

    • 컨테이너 수준 GPU 분할 가상화™ 지원
    • NVIDIA 다중 인스턴스 GPU (MIG) 지원
  • 직관적인 관리 및 사용자 경험

    클러스터에서 여러 사용자와 작업을 관리하고 모든 시스템을 완전히 활용하는 것은 어려울 수 있습니다. Backend.AI는 단일 노드부터 대규모 다중 노드 클러스터에 이르기까지 간단하고 일관된 사용자 및 관리 경험을 제공합니다.

    • 웹 UI / 데스크톱 앱
    • GUI 기반 MLOps 파이프라인 / 배치
    • 모니터링 솔루션과 통합되는 상세 로그 및 통계
    • 자동화 및 통합을 위한 CLI / API / SDK
  • AI/HPC 최적화

    Lablup 사의 Backedn.AI는 AI와 HPC에 특화된 독자적인 GPU 중심 스케줄러를 통해 딥 러닝 친화적인 리소스 배치, 분산 처리용 다중 노트 워크로드, 데이터 I/O 병렬화를 지원하는 스토리지 프록시를 통해 컴퓨팅 리소스를 효율적으로 관리하여 최대한의 잠재력을 발휘합니다.

    • 최적의 연산 리소스 배치를 구현하는 독자적인 GPU 중심 오케스트레이터
    • Air-gapped 클러스터를 위한 로컬 PyPI / CRAN / APT / Yum 저장소
  • 쉬운 워크로드 규모 확장

    분할 가상화 GPU 및 작은 자원으로 딥 러닝 개발을 시작하십시오. 준비가 되면 Backend.AI가 간단하게 AI 모델 트레이닝 규모를 효율적으로 확장해 드립니다.

    • 자동 분산 트레이닝 설정이 포함된 다중 노드 / 다중 컨테이너 세션
    • 모델 트레이닝 및 데이터 I/O 파이프라인 분리
    • CephFS, Flashblade 등의 분산 스토리지 솔루션에 대한 파일 I/O 지원 가속

Backend.AI 플랫폼

Lablup 사의 Backend.AI는 클라우드 및 온-프레미스 환경에서 AI 프레임워크 개발을 위한 효율적인 GPU 관리 플랫폼입니다. AI 전문가, DevOps 엔지니어들은 필요에 따라 Backend.AI의 GPU 리소스를 통해 AI 프레임워크의 운영 및 관리를 효율적으로 확장할 수 있습니다.

  • GPU 지원

    컨테이너 수준 다중 GPU 할당 및 GPU 분할 공유 / NVLink 최적화 다중 GPU 플러그인 아키텍처

  • 개발자 관리

    범용 프로그래밍 언어 지원(Python, C/C++, R, Java 등 14종) / 통합 개발 환경 플러그인(VS Code, Atom, IntelliJ, PyCharm) 제공 / 대화형 셀, 터미널 지원

  • 스케일링

    온-프레미스 설치(실 서버/가상 서버) / 하이브리드 클라우드 운영(온-프레미스+클라우드) 및 다중 클라우드(이종) 연동 / 워크로드 분산 처리 시, 멀티 네트워크 환경 자동 지원

  • 스케줄링

    GUI 어드민을 통한 통합 스케줄링 및 모니터링(CLI 지원) / 사용자 및 사용자 그룹별 자원 사용 / 다중 컨테이너 일괄 실행 및 제어 기능 제공 / 가용 슬롯 기반 스케줄링 / 확장 및 사용자화 가능한 배치 스케줄러

  • 보안

    다중 사용자 지원 / 하이버 바이저 혹은 컨테이너를 통한 샌드박싱 / 프로그래머블 샌드박싱 / 시스템 콜 수준 로깅 / 관리자 모니터링

  • Air-gapped

    Backend.AI Reservoir를 통한 자체 패키지 저장소 (PyPI, CRAN 및 Ubuntu 저장소 대상) / 스토리지 프록시 기반의 스토리지 가속 플러그인 지원 (PureStorage, NetApp, CephFS, LustreFS)

  • 신뢰성

    고 가용성 (H/A) 구성

  • UI/UX

    사용자 어플리케이션(Windows10, MacOS 10.12~) / 웹 기반 서비스 지원 / 관제 콘솔 지원

  • 관리 및 제어

    시스템 관리자 전용 대시보드 / 관리자 전용 컨트롤 패널 / 연산 노드 설정 제어 / 연산 노드 시스템 설정 변경

  • 데이터 관리

    공유 스토리지 기능을 통한 데이터 업&다운로드 및 공유 지원 / EFS, NFS, SMB 및 분산 파일 시스템 사용 / 사용자 & 그룹별 접근 제어 지원 / 로컬 가속 캐쉬(SSD, 메모리)

  • AI 개발자 / 데이터 과학자 지원

    사용자 어플리케이션 내 Jupyter, TensorBoard 등 GUI 기반 도구 지원 / NGC(NVIDIA GPU 클라우드) 플랫폼 통합 / 주요 머신 러닝 라이브러리 지원 : TensorFlow, PyTorch, CNTK, Mxnet 등 / 라이브러리 버전별 동시 지원(예: TensorFlow 1.0~1.14, 2,0) / 웹 콘솔 내 Jupyter, TensorBoard 둥 GUI 기반 도구 지원 / 머신 러닝 라이브러리 자동 업데이트 / 함수화 딥 러닝 모델 / 사용자 작성 모델 서빙 / 서빙 모델 버전 관리

Backend.AI 엔터프라이즈 패키지

Essential

엔터프라이즈 환경을 위한
딥 러닝 연구 플랫폼

교육 기관 및 비영리 단체

  • ML / AI 개발환경
  • 웹 UI 및 데스크탑 앱
  • 개발환경 허브
  • 관리자 전용 컨트롤 패널
  • GPU 분할 가상화™
  • 하이브리드 클라우드 구성

Pro

서비스 운영 및 프로덕션 모델 개발용
토탈 솔루션 및 컨설팅 서비스

기업 및 공공기관, 연구소

  • Essential 포함
  • AutoML 라이브러리 지원
  • 모델 서비스 BETA
  • MLOps 파이프라인 BETA
  • 모델/데이터 저장소
  • 관제용 대시보드

Reservoir

완전 폐쇄 환경 운영을 위한
Backend.AI와 통합된 패키지 저장소

폐쇄망 운영 기업 / 기관

  • PyPI / CRAN 저장소
  • APT (Ubuntu, Debian)
  • RPM / Yum (CentOS)
  • 패키지 보안 체크
  • 패키지 동기화 서비스
  • 대시보드 통합

Backend.AI는 왜 도입해야 하는가?

Backend.AI는 AI / ML / HPC를 R&D부터 Business Service, AI Service 추론 및 제공까지 하나의 일관된 플랫폼을 통해 효과적으로 관리할 수 있습니다.

  • Q.
    수천 개의 시뮬레이션을 실행하고 단시간에 수백만 개의 데이터를 분석할 수 있게 최적화된 초거대 팜을 구성하고 싶습니다.
    A.
    Backend.AI는 AI, ML, HPC, 수치 해석 등 연구 개발 환경에 최적화되어 있습니다. 멀티 노드 분산 트레이닝 및 GPU 간 네트워크 기반의 대규모 분산 처리가 가능하며, 고성능 컴퓨팅에 특화된 다양한 배치 자리, 자원 할당 및 병목 제거 구현을 통해 수백만 개의 데이터를 단시간에 분석할 수 있습니다.
  • Q.
    머신 러닝 교육 및 개발 클라우드 서비스 도입 시 최소의 비용과 인력만으로 개발 환경을 구성하여 효율적으로 관리하고 싶습니다.
    A.
    Backend.AI는 ML / HPC 전문가들이 직접 만든 플랫폼으로 GPU 분할 가상화(Fractional GPU™)를 통한 고가 GPU의 활용성 증대 및 고가용성을 달성할 수 있습니다. 더 적은 하드웨어(GPU)로 동일한 성능, 동일한 교육 환경 제공으로 비용 절감은 물론 강력한 장애 대응 (연속성 Fall Over, 쉬운 장애 원인 분석 및 로그 API / 로그 솔루션 통합) 시스템 관리 컨트롤 패널을 통한 상세한 관리자 제어 기능을 제공하여 적은 인원으로 효율적으로 관리할 수 있습니다.
  • Q.
    갑자기 많은 자원이 필요할 때 즉시 퍼블릭 클라우드 인스턴스를 추가하여 하이브리드 클라우드로 구성하여 사용하고 싶습니다.
    A.
    Backend.AI는 Public Cloud는 물론 On-Prem에서 Hybrid 클라우드까지 빠르고 쉽게 확장할 수 있습니다. 또한 다양한 GPU 및 머신 러닝 가속 H/W 지원과 완전 문서화된 API 및 S아 (Python, Node.js) 제공으로 단시간 구성이 가능합니다.
  • Q.
    언제 어디서나 내 머신 러닝 개발 환경에 접속해서 개발만 하고 싶습니다.
    A.
    Backend.AI는 웹에서 접속만 하면 개발자가 직접 설정해 둔 개발 환경, 연산 자원 등 변경 없이 언제 어디서든 실행이 가능합니다. 네트워크를 통해 사용자가 개발, 운영하는 제품에 연동할 수 있는 공용 API 및 SDK를 제공하고 사용자 유형별 Customized 할 수 있습니다.

Backend.AI – Success Story

초거대 AI 인프라에 Lablup사의 Backend.AI와 NVIDIA DGX 클러스터를 결합한 슈퍼컴퓨터가 수천 개의 시뮬레이션을 실행하고 단시간에 수백만 개의 데이터를 분석하고 있습니다.

  • 구성

    • 대륙 간, Multi-organization 사용자용 머신 러닝 최적화 클러스터 팜 솔루션
    • A100 GPU 수백 대, 추가 고성능 CPU 노드 (데이터 분석용)
    • aaa완전 폐쇄 환경에서의 운영을 위한 Backend.AI와 통합된 패키지 저장소인 “Backend.AI Reservoir” 추가 도입으로 aaaaaaaaaa
    • 완전 Air-gapped 환경을 구축
  • 고객 혜택

    • 대단위 팜 구성 설계 제공 및 SLA 극대화를 위한 고가용성 구성
    • 멀티 노드 분산 트레이닝 지원 기능 및 GPU 간 네트워크 기반의 대규모 초고속 딥 러닝 훈련
    • Backend.AI Reservoir를 통해 PyPI 및 Ubuntu 저장소를 완전 폐쇄망 내에서 자유롭게 사용 지원
    • 기관 내/외부 동시 서비스 시, 시스템/데이터 보안을 위한 격리 도메인 구성