개발일기

NCP(Naver Cloud Platform) - Analytics 정리 본문

자격증/NCP

NCP(Naver Cloud Platform) - Analytics 정리

Flashback 2022. 12. 24. 11:16
728x90
반응형

Cloud Insight

성능 지표들을 통합 관리하고, 장애 발생시 담당자에게 정보를 전달하는 모니터링 서비스

  • 지표 조회 및 시각화 : 성능 및 운영 지표를 시각화하여 확인가능
  • 사용자 대시보드 구성
  • Event Rule 및 Event 관리 : 장애 발생이 의심되는 상황에 장애를 식별할 수 있는 Event Rule을 생성하고, 각 장애 상황에 적합한 담당자를 지정하여 SMS 및 이메일 알림 제공
  • 유지보수 일정 관리 : 등록된 유지보수 일정에 따라 SMS 및 이메일 전송을 해당 기간 동안 잠시 중지
  • 제공 성능 지표 : Server, Load Balancer, Cloud Search 등의 상품의 성능 지표를 확인 가능
  • Metric : 사용자가 취급하려는 값 (STRING, INTEGER, FLOAT 등)
  • Dimension : Metric의 속성을 의미
  • 집계와 집계 주기 : 수집된 데이터 상태 그대로 Cloud Insight에 저장. 수집된 데이터는 일정 주기마다 집계 함수를 이용하여 연산된다
  • 집계는 1분, 5분, 30분, 2시간, 1일 간격으로 실행되며 AVG, MIN 등의 집계 함수로 연산을 진행한다

 

Cloud Search

  • 증설하는 것이 편리하고 자동으로 복구되며 이중화 구성도 가능
  • 별도의 인프라 구성없이 검색 엔진 생성 가능
  • 도메인, 섹션, 색인, 검색, 랭킹, 자동완성, 불용어, 모니터링, 쿼리분석, API 등의 검색 관리 기능 제공
  • 검색용 컨테이너만 개수를 조절할 수 있으며 모든 도메인을 합쳐 최대 10개까지 검색용 컨테이너 생성이 가능(운영 단계에서는 검색용 컨테이너의 개수를 2개로 사용해서 쓰도록 권장함)
  • 컨테이너 타입은 Standard, HIgh Memory 타입이 존재. 4GB부터 2배 단위로 메모리 크기가 증가. 최대 문서수도 100만개 부터 2배 단위로 증가. 권장 색인은 2개부터 1개씩 증가. 스토리지는 30GB → 50GB 부터 2배 단위로 증가
  • 모니터링 데이터는 최근 3개월까지의 데이터만 조회 가능. 출력에 5분~10분정도의 지연 발생. 1, 5분 간격으로 설정 시 최대 1주일의 기간 설정 가능

 

Search Engine Service

Apache Lucene 기반으로 하는 오픈소스 Restful 검색 및 분석 엔진

 

Cloud Data Streaming Service

Apache Kafka 클러스터를 배포, 보호, 운영 및 확장시킬 수 있는 서비스

 

Cloud Hadoop

오픈소스 기반 프레임워크를 사용자가 자유롭게 사용하여 빅데이터를 쉽고 빠르게 처리할 수 있는 완전 관리형 클라우드 분석 서비스

  • Apache Hadoop, HBase, Spark, Hive, Presto 등의 오픈소스 기반 프레임워크 지원
  • 자동으로 클러스터 생성을 지원
  • 원하는 시간에 데이터 분석에 필요한 인스턴스의 수의 조절이 가능
  • 관리와 모니터링을 위한 Web UI 제공
  • Cloud Hadoop 클러스터 노드
    • 엣지 노드 : 외부 접속을 위한 게이트웨이용
    • 마스터 노드 : 작업자 노드를 모니터링하는 관리자 노드. 고가용성을 지원하는 마스터 노드가 2개 생성. 마스터 노드의 개수는 변경 불가능
    • 작업자 노드 : 마스터 노드의 명령을 받아 데이터 분석 등의 실제적인 작업을 수행하는 노드. 기본적으로 최초 생성 시 최소 2개, 최대 8개의 작업자 노드를 생성 가능. 최초 생성 이후, 동적으로 추가적인 노드를 추가 및 삭제 가능

 

Map Reduce

하둡에서 맵 리듀스와 HDFS를 결합하여 큰 파일을 분산 패치하여 맵 리듀스에서 파일을 처리하는 방식

 

Hadoop Eco

  • Flow : Data, Collecting, Store, Analysis, Visualiazation의 흐름으로 빅 데이터를 처리하는 과정
  • 수집 시스템
    • SQOOP : 하둡과 관계형 데이터 베이스 간에 데이터를 전송할 수 있도록 설계된 오픈소스 소프트웨어
    • Flume : 서버에서 발생하는 로그를 수집하여 하둡에 저장하는 데이터 수집 도구
  • 처리 시스템
    • Hive : 하둡에 저장된 데이터를 HiveQL를 사용항 처리
    • Pig : 데이터 분석을 프로그래밍할 수 있는 대용량 데이터셋 분석 플랫폼. Map Reduce에서 처리할 수 없는 Join 등의 연산을 지원
    • Spark : 데이터 처리부터 시각화까지 가능한 프레임워크. 메모리 기반의 데이터 처리
  • 관리도구 Hue : 아파치 라이선스에 따라 사용이 허가된 SQL Cloud Editor
  • Ambari : 하둡 클러스터를 프로비저닝, 관리, 모니터링 및 보호할 수 있는 관리 플랫폼. RESTFull API들을 통해 WebUI를 제공.

Spark

하둡의 서브 프로젝트

  • 애플리케이션의 처리 속도를 높이는 인메모리 클러스터 컴퓨팅
    • 기존의 하둡에 비해 디스크 읽기 / 쓰기 작업을 줄임으로써 처리 속도를 높임
    • 맵 리듀스 뿐만 아니라 SQL 쿼리, 스티리밍 데이터, ML 및 그래프 알고리즘 지원
  • 구성요소
    • 아파치 스파크 코어 : 스파크 실행 엔진
    • 스파크 SQL : 데이터 추상화인 SchemaRDD 생성
    • 스파크 스트리밍 : 스트리밍 데이터 처리
    • Mllib : 분산 기계 학습 프레임워크
    • GraphX : 사용자 정의 그래프를 모델링

메시징 시스템 : 애플리케이션간에 메시지를 교환하기 위해 사용하는 시스템

메시지 : 로그 데이터, 이벤트 메시지 등 API로 호출할 때 보내는 데이터

  • Point to Point : 보내는 사람이 큐를 통해서 메시지를 전달하면 받는 사람이 큐에서 하나씩 꺼내 읽는 방식
  • Pub/Sub 모델 : Publisher(게시자)가 토픽에 메시지를 보내면, 해당 토픽을 구독해높은 Subscriber(구독자) 모두에게 메시지가 전송되는 방식

 

Cloud Data Streaming Service

  • 매니저 노드 및 브로커 노드 구성
    • 클러스터는 1대의 매니저 노드와 3대 이상의 브로커 노드로 구성
    • 브로커 노드의 수는 설치시 원하는 만큼 늘릴 수 있음
    • 브로커 노드는 기존의 브로커 노드의 서버타입과 동일하게 생성되며 변경이 불가능
    • 브로커 노드 추가 및 반영시에 전체 클러스터가 재시작
    • 브로커 노드 감소 지원안함
  • 클러스터 관리
    • CMAK을 통해 클러스터, 토픽 등의 생성 및 변경, Consumer Group 확인 등 Kafka 클러스터 관리 기능을 제공
    • CMAK 접속을 위해서는 Public 도메인 활성화

 


참고 사이트 : 

https://guide.ncloud-docs.com/docs

 

Home

 

guide.ncloud-docs.com

 

https://guide.ncloud-docs.com/docs/hadoop-vpc-1

 

Cloud Hadoop 개요

 

guide.ncloud-docs.com

 

728x90
반응형
Comments