스파크(Spark) 기본형태
in Programming on Spark
스파크(Spark) 기본 형태
스파크 (Spark)
: 반구조, 구조, 스트리밍, 머신러닝 등을 위한 프레임워크쉽게 말해 하둡의 맵 리듀스 과정을 메모리 위에서 돌리는 것이라고 이해.
- 메모리에 저장되어 있을때는 하둡보다 100배, 디스크에 저장되어 있을때는 10배 빠릅니다.
실행 프로세스
한개의 드라이버 프로세스를 마스터 노드에서 실행한다. 이 드라이버 프로세스는 실행프로세스들을 컨트롤 하고, 실행 프로세스들은 여러개의 worker노드로 task를 분산합니다.
- Spark Driver : Task process의 개수와 구성 결정.
- Task Process : 하나의 Job graph에 기반해 실행 노드에 의해 컨트롤 됨
- Worker Node : 서로 다른 Job으로부터 받은 Task를 실행할 수 있음.
스파크는 Dag이라는 비순환 방향성 그래프로 Scheduling과 Task실행을 최적화 할 수 있습니다.