zookeeper-kafka cluster install
0. 사전작업
테스트 환경은 아래와 같다.
hostname | ip address | resource |
---|---|---|
kafka-01 | 172.16.194.24 | memory: 8G hdd:50G |
kafka-02 | 172.16.194.12 | memory: 8G hdd:50G |
kafka-03 | 172.16.194.16 | memory: 8G hdd:50G |
*사내오픈스택 구성
Kafka cluester 를 구성 하기 위한 ZooKeeper,kafka 모두 java기반으로 동작 하기 위해서 아래와 같이 jdk를 모든 노드에 설치 한다.
1-1. ZooKeeper?
본래 hadoop 의 서브 프로젝트 였던 ZooKeeper는 hadoop의 분산 어플리케이션을 관리 하는 코디네이션 어플리케이션으로 사용 되었다.
(ZooKeeper는 한국 말로 사육사를 의미 하는데, hadoop 생태계의 프로젝트들이 대부분 동물의 이름으로 네이밍 되어 있어서 동물을 관리 하는 사육사로 ZooKeeper라는 네이밍 되었다는 이야기가 있다.)
분산 어플리케이션을 개발하면서 동시에 코디네이션 어플리케이션을 개발 하려면 추가적인 개발 리소스가 필요하기 때문에 ,hadoop에서 검증된 ZooKeeper를 분산 어플리케이션을 코디네이션 하기 위해서 많이 사용 한다.
kafka도 동일한 분산 어플리케이션으로 안정적인 코디네이션 서비스를 하기 위하여 zookeeper 를 사용 한다. kafka뿐만 아니라 storm,hbase 등으로 많은 어플리케이션에서 사용 가능 하다.
코디네이션 서비스는 분산 되어 있는 어플리케이션을 안정적인 서비스를 할 수 있도록 각 어플리케이션의 분산동기화,환경정보 유지 보수 등을 집중화 서비스 한다.
ZooKeeper 는 앙상블이라는 이름의 클러스터를 구성 한다. 일반적으로 3대 이상의 홀수 단위로 서버를 구성 한다.
만약 ZooKeeper 서버들간의 데이터 불일치가 발생할 경우 과반수의 룰을 적용 하기 때문에 데이터정합성 측면에서 유리하다.
앙상블을 구성하게 되면 각 ZooKeeper 서버들은 Leader와 follower을 선출 하며 실제 데이터는 client가 follwer를 통하여 받고, leader로 전달 그리고 leader가 모든 follower에 전달 하여 모두 동일한 데이터를 갖을 수 있도록 유지 한다.
https://zookeeper.apache.org/doc/r3.3.3/zookeeperOver.html
각 상태정보는 znode 에 key-value 형식으로 저장 하며 아래 그림과 같이 계층적 구조로 정보를 저장 한다.
그리고 저장되는 데이터를 메모리에 저장 하여 빠른 처리 속도를 나타낸다.
https://zookeeper.apache.org/doc/r3.3.3/zookeeperOver.html
1-2. ZooKeeper install
아래와 같이 ZooKeeper 를 설치 한다.
zoo.cfg 설정 하기에 앞서 별도의 데이터 디렉토리를 설정 해야 한다. 데이터 디렉토리는 ZooKeeper의 recovery를 위하여 사용 된다.
recovery는 ZooKeeper데몬이 재시작 되거, 서버가 재시작 되더라도 복구 할 수 있도록 트렌젝션 로그를 파일시스템에 저장 한다. 만약 재시작 할경우 해당 파일시스템에 있는 트렌젝션로그를 읽어서
이전의 상태를 보장 할 수 있도록 한다.
만약 트렌젝션 로그의 크기가 클 경우 재시작 하기 위해서 시간이 많이 소요가 될 수 있어서 ,ZooKeeper에서는 일정 이상의 사이즈의 트렌젝션 로그가 생성이 되면 스냅샷데이터로 만들고 새로운 트랜젝션 로그를 만들어서 빠른 재시작을 보장
할 수 있도록 한다.
앙상블 구성시 ZooKeeper 노드를 구분 하기 위하여 각각 파일 시스템별로 myid 파일이라는 이름의 ID 파일을 생성 한다.
이제, zoo.cfg 파일을 수정 한다.
dataDir는 이전에 생성한 디렉토리로 설정하여 스냅샷 파일과 트렌젝션 로그가 저장 될 수 있도록 설정한다.
앙상블 설정을 위하여 server.n 구조로 n에는 앞서 설정한 id 번호를 설정 하여 각 앙상블 호스트 이름을 설정 하며 뒤에 2888:3888 포트는 앙상블 안에 있는 노드들 끼리 연결 하는데 사용 한다.
- tickTime millisecond 단위로 heartbeat과 최소 세션 타임아웃 시간으로 사용
- dataDir :in-memory 데이터베이스 스냅샷을 저장하는 위치로 지정하지 않는경우 메모리에 트랜잭션 업데이트 로그를 저장
- clientPort : Listen하는 포트
위에서 설정파일로 ZooKeeper를 실행 하고 확인 한다.
관리의 편의서을 위한 systemd 파일을 생성 한다.
아래와 같이 systemd 에 등록 , 실행하여 상태를 확인 한다.
2-1. kafka install
아래와 같이 kafka 를 설치 한다.
KAFKA_LOG 라는 log가 쌓일 디렉토리를 생성 한다.
server.properties 파일을 수정 한다.
기본 설정 파일에서 변경할 부분은 아래와 같다.
broker.id는 브로커간 구분 해야할id로, 서로 다른 값을 준다. 편의상 각노드 숫자로 입력 한다.
log.dirs 은 위에서 생성한 디렉토리로 설정 하며
zookeeper.connect 은 ZooKeeper의 접속정보를 수정하며, 브로커가 시작할 때 지노드가 주키퍼에 없으면 자동으로 생성 한다.
delete.topic.enable 은 topic을 삭제 하기 위해서 추가 해야 한다(optional)
아래와 같이 모든 노드에서 kafka를 실행 한다.
중지는 아래와 같이 가능 하다.
Kafka도 관리의 편의성을 위하여 systemd에 등록 하기 위하여 kafka.service 파일을 생성 한다.
아래와 같이 systemd 에 등록 , 실행하여 상태를 확인 한다.
2-2. kafka test
cy 라는 이름의 replication 1,partition 1 로 설정 된 topic을 생성한다 .
삭제는 아래와 같이 --delete옵션을 통하여 가능 하다.
삭제한 topic을 재 생성후, topic리스트를 확인 한다.
console-producer 에서 쉘 환경으로 메세지입력
다른 쉡을 띄어서 console-consume 를 통하여 메세지가 확인 되는것을 통하여 테스트 진행