목록Airflow (2)
sean.log
사이드 프로젝트를 위한 데이터 파이프라인 환경이 필요해서 Airflow를 구축하게 되었다.이번 포스팅에서는 Docker Compose를 활용하여 CeleryExecutor 기반의 Airflow 환경을 구성한 과정을 정리해보겠다.CeleryExecutor 선택 이유Airflow는 여러 Executor를 제공하는데, 그 중 CeleryExecutor를 선택한 이유는 다음과 같다:분산 처리: 여러 워커를 통해 작업을 병렬로 처리할 수 있다확장성: 필요에 따라 워커를 쉽게 추가할 수 있다안정성: 워커가 죽어도 다른 워커가 작업을 이어받을 수 있다물론 간단한 프로젝트라면 SequentialExecutor나 LocalExecutor도 충분하지만, 실제 프로덕션에 가까운 환경을 경험해보고 싶었다. Architectu..
본 게시글은 Airflow 2.10.x 버전을 기준으로 작성하였습니다1. DAG (Directed Acyclic Graph)DAG는 워크플로우 또는 데이터 파이프라인을 정의하는 기본 개념으로, Task라는 기본적인 작업 단위를 연결한 집합이다.DAG는 지도와 같으며, 실제로 이 DAG를 실행하면 인스턴스가 만들어진다. 이때 특정 시점에 실행되는 DAG의 인스턴스를 DAG run이라고 한다. DAG는 여러 개의 Task로 구성되어 있는데, 이때 DAG가 실행될 때(DAG run이 생성될 때) DAG 내의 각 Task는 하나의 Task instance로 구체화되어 실행된다. 즉, Task instance는 특정 시점에 실행되는 Task의 인스턴스이다.2. ArchitectureWebserverAirflow에..