스파크(Spark) 기본형태


스파크(Spark) 기본 형태

  • 스파크 (Spark) : 반구조, 구조, 스트리밍, 머신러닝 등을 위한 프레임워크

  • 쉽게 말해 하둡의 맵 리듀스 과정을 메모리 위에서 돌리는 것이라고 이해.

    Spark_ecosystem

    • 메모리에 저장되어 있을때는 하둡보다 100배, 디스크에 저장되어 있을때는 10배 빠릅니다.


실행 프로세스

한개의 드라이버 프로세스를 마스터 노드에서 실행한다. 이 드라이버 프로세스는 실행프로세스들을 컨트롤 하고, 실행 프로세스들은 여러개의 worker노드로 task를 분산합니다.

img

  • Spark Driver : Task process의 개수와 구성 결정.
  • Task Process : 하나의 Job graph에 기반해 실행 노드에 의해 컨트롤 됨
  • Worker Node : 서로 다른 Job으로부터 받은 Task를 실행할 수 있음.


스파크는 Dag이라는 비순환 방향성 그래프로 Scheduling과 Task실행을 최적화 할 수 있습니다.





© 2018. by yeo0

Powered by yeo0