목록2026/02 (2)
sean.log
Spark란?Spark: 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼메모리 기반의 빠른 분산 처리 엔진으로, 대규모 데이터를 빠르게 처리하고 이를 토대로 다양한 분석 및 실시간 서비스에 활용할 수 있도록 인프라와 API를 제공하는 역할을 한다⇒ 처리 엔진이기 때문에 HDFS, S3와 같은 저장소 위에서 계산만 하는 역할!예: 데이터가 요리 재료, HDFS는 냉장고라면 Spark는 요리사 Spark Component요리에 한식, 중식, 양식 등 다양하게 있는 것처럼 Spark의 라이브러리도 비슷하다!예: 구조화된 데이터 처리에는 SparkSQL, 실시간 처리는 Structured StreamingSpark는 여러 워크로드를 위한 라이브러리를 제공한다각각의 컴포넌트는 중심 엔진(Spark Core)과 별..
Hadoop이란?Hadoop: 대규모 데이터 처리를 위한 분산처리 오픈소스 프레임워크고가의 고성능 컴퓨터 1대 대신 저렴한 범용 컴퓨터 여러대를 클러스터로 구성하고, 큰 크기의 데이터를 나누어 병렬 처리함으로써 처리 속도를 높일 수 있다⇒ Hadoop의 핵심 키워드: HDFS, MapReduce, YARN 예: Hadoop을 택배 시스템으로 설명한다면?HDFS = 물류 창고 (데이터 저장소)MapReduce = 택배 포장 & 배송 작업 (데이터 처리)YARN = 물류 센터 관리자 (리소스 관리 및 배분) HDFS (Hadoop Distributed File System)HDFS: 대용량 데이터를 작게 잘라 분산 저장하는 스토리지- HDFS는 하나의 큰 파일을 작은 조각으로 나누어 저장하는데, 이 조각을..