Hadoop 이론

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

sean.log

Hadoop 이론 본문

분산 시스템

Hadoop 이론

sean.k 2026. 2. 4. 21:35

Hadoop이란?

Hadoop: 대규모 데이터 처리를 위한 분산처리 오픈소스 프레임워크

고가의 고성능 컴퓨터 1대 대신 저렴한 범용 컴퓨터 여러대를 클러스터로 구성하고, 큰 크기의 데이터를 나누어 병렬 처리함으로써 처리 속도를 높일 수 있다

⇒ Hadoop의 핵심 키워드: HDFS, MapReduce, YARN

예: Hadoop을 택배 시스템으로 설명한다면?
- HDFS = 물류 창고 (데이터 저장소)
- MapReduce = 택배 포장 & 배송 작업 (데이터 처리)
- YARN = 물류 센터 관리자 (리소스 관리 및 배분)

HDFS (Hadoop Distributed File System)

HDFS: 대용량 데이터를 작게 잘라 분산 저장하는 스토리지

- HDFS는 하나의 큰 파일을 작은 조각으로 나누어 저장하는데, 이 조각을 블록이라고 한다

아키텍처

Secondary NameNode (SNN)

: NameNode의 메타데이터 파일인 FsImage와 EditLog를 주기적으로 병합하여 최신 상태로 관리하는 보조 서버

NameNode는 메타데이터를 메모리(RAM)에 관리하는데, 서버가 꺼졌을 때를 대비해 디스크에도 기록을 남겨야 한다
- FsImage: 스냅샷, 특정 시점의 메타데이터 전체 상태를 저장한 파일
- EditLog: 로그, 마지막 스냅샷 생성 이후 발생한 모든 변경 사항(생성, 삭제 등)을 기록한 로그 파일
- NameNode가 오래 실행될 수록 로그가 쌓여 EditLog가 거대해진다. 이 상태로 NameNode가 재시작하면 EditLog를 FsImage에 하나씩 적용하는 과정 때문에 부팅 시간이 길어지고 메모리 부담이 커지는 문제가 발생한다
  ⇒ SNN에서 미리 정기적으로 EditLog를 FsImage에 적용시켜서 최신 스냅샷 파일을 만든다 (체크포인트)
동작 과정
1. 로그 수집: NameNode로부터 현재 FsImage, EditLog를 가져온다
2. 병합(체크포인트): SNN 내부에서 FsImage에 EditLog의 변경 사항을 적용해 새로운 스냅샷 파일을 만든다
3. 전송: 최신 FsImage를 NameNode에 보낸다
4. 갱신: NameNode는 받은 최신 FsImage로 교체하고, 기존 EditLog를 비워 새로운 로그를 쌓기 시작한다

데이터 쓰기(Write) 과정

클라이언트가 데이터 저장을 요청한다
- 클라이언트는 NameNode에 먼저 접근하여 저장할 공간을 확인한다
- NameNode는 파일을 블록 단위로 나눌 계획을 세우고, 각 블록을 어느 DataNode에 저장할지 결정한다
NameNode가 저장할 DataNode 목록을 클라이언트에게 제공한다
클라이언트가 DataNode에 직접 데이터를 저장한다
- 하나의 파일이 여러 블록으로 나뉘어 여러 DataNode에 저장된다
- 클라이언트가 첫 번째 DataNode에 블록을 전송하면 해당 노드는 두 번째, 세 번째 DataNode로 복제본을 전파한다
- 모든 복제본이 저장되면, DataNode → NameNode → 클라이언트 순으로 저장 완료 여부를 전달한다

데이터 읽기(Read) 과정

클라이언트가 NameNode에 읽기 요청을 보낸다
NameNode가 각 블록이 저장된 DataNode 위치 목록을 반환한다
클라이언트가 DataNode에서 직접 데이터를 읽는다
- 복제본 중 하나에서 데이터를 읽는다
- 이때 가장 가까운 노드 선택이 가능하기 때문에 성능이 최적화된다

MapReduce

MapReduce: Hadoop의 핵심 연산 방식으로, 데이터를 작은 조각으로 분할해 병렬로 처리하고, 결과를 집계하는 분산 처리 모델

- HDFS, YARN 위에서 동작한다

동작 과정

Map: 데이터 분할 & 처리
- 입력 데이터를 작은 조각으로 분할하여 병렬 처리한다
- 각 조각은 <Key, Value> 쌍으로 변환된다
- Map 함수는 데이터를 가공하거나 필요한 정보를 추출한다
Shuffle & Sort
- Map 단계에서 나온 중간 결과를 키 기준으로 정렬한다 (같은 키를 가진 값들을 하나로 모음)
- 이 과정은 Hadoop 내부에서 자동 처리됨
Reduce: 결과 합산
- 정렬된 데이터를 받아 같은 키의 값들을 병합한다
- Reduce 함수가 최종 집계나 요약 결과를 생성한다

MR1 vs MR2 (왜 YARN이 필요할까?)

MapReduce의 초기 버전(MR1)에는 심각한 구조적 문제점이 존재했다

이때 YARN과 함께 어떻게 문제점을 해결했는지 확인해보자

기존 MR1 (Hadoop 1.x) 방식

단일 중앙 관리자, JobTracker가 클러스터 전체의 리소스 관리와 작업 관리(스케줄링, 모니터링)까지 모두 맡는 구조

⇒ 확장성에 제한이 생기고, 클러스터가 커질수록 심각한 병목 현상이 발생

YARN 기반 MR2 (Hadoop 2.x) 방식

YARN이 도입되면서, 리소스 관리 역할과 작업 관리 역할이 분리되었다
- YARN: Hadoop의 운영체제 같은 역할을 하며, 컴퓨팅 자원 관리 및 작업 스케줄링을 담당하는 리소스 관리자
구조:
- ResourceManager: 클러스터 전체의 CPU, 메모리, 네트워크 등 리소스(자원)를 중앙에서 관리한다
- NodeManager: 각 노드의 리소스를 감시하고 작업을 실행한다
- ApplicationMaster: 개별 작업의 실행을 조정하며 관리한다

⇒ ResourceManager가 중앙에서 리소스를 관리하고, 개별 애플리케이션이 ApplicationMaster를 통해 실행된다

⇒ YARN 덕분에 Hadoop은 분산 파일 시스템(HDFS) + 분산 실행 플랫폼이 되었고, Spark와 같은 최신 기술도 지원할 수 있다

Hadoop Echosystem
: Hadoop 프레임워크를 중심으로 결합된 다양한 오픈소스 프로젝트들의 집합
다양한 프레임워크(Spark, Hive, Kafka 등)가 YARN 위에서 병렬로 실행될 수 있는 구조로 확장된 것!

MapReuce의 한계

Hadoop(MapReduce)는 연산이 끝날 때마다 HDFS에 중간 데이터를 저장하고, 다시 읽는 과정을 반복한다. 이때 느린 속도 때문에 I/O 병목이 발생한다
- +) 실시간 데이터 처리에 대한 니즈 증가

⇒ 데이터를 메모리에 유지하면서 반복적으로 처리할 수 있는 인메모리 처리 기반의 Spark 등장!

'분산 시스템' 카테고리의 다른 글

Spark 이론 (1)	2026.02.04
CAP Theorem & PACELC Theorem (0)	2025.11.30

'분산 시스템' Related Articles

sean.log

Hadoop 이론 본문

Hadoop 이론

Hadoop이란?

HDFS (Hadoop Distributed File System)

아키텍처

데이터 쓰기(Write) 과정

데이터 읽기(Read) 과정

MapReduce

동작 과정

MR1 vs MR2 (왜 YARN이 필요할까?)

기존 MR1 (Hadoop 1.x) 방식

YARN 기반 MR2 (Hadoop 2.x) 방식

MapReuce의 한계

'분산 시스템' 카테고리의 다른 글

티스토리툴바