도커 파일을 생성해서 컨테이너의 timezone을 설정하고, 유틸리티들(wget, vim..)을 미리 설치해두겠습니다. 다음의 명령어를 순서대로 실행해주세요
timezone 설정을 하겠습니다.
oracle jdk 1.8 설치는 Docker Hadoop Hive 1편을 참고해서 진행하시면 됩니다.
spark 는 scala, python, R 으로 실행합니다. scala, python, R 을 설치합니다.
sbt 스칼라 빌드 툴도 설치합니다. 설치는 sbt document를 참고합니다.
spark 바이너리 파일을 다운받습니다.
이제 샘플을 실행해서 문제가 없는지 확인합니다.
Spark 설치를 끝냈습니다.
mkdir hadoop cd hadoop vim Dockerfile
FROM ubuntu:latest MAINTAINER myname <myemail@example.com> RUN apt-get update && apt-get install -y software-properties-common wget sudo vim ssh rsync git locales w3m RUN locale-gen ko_KR.UTF-8 ENV LC_ALL ko_KR.UTF-8 CMD ["/bin/bash"]저장 하고 빠져나온 뒤에 다음의 명령어를 실행하세요.
docker build -t spark:0.1 .build 가 끝나면 docker images 에 내가 만든 이미지가 등록되어 있습니다.
docker run -d -it --name spark spark:0.1 /bin/bash docker exec -it spark /bin/bash
timezone 설정을 하겠습니다.
apt-get -y install tzdata && ln -sf /usr/share/zoneinfo/Asia/Seoul /etc/localtime
oracle jdk 1.8 설치는 Docker Hadoop Hive 1편을 참고해서 진행하시면 됩니다.
spark 는 scala, python, R 으로 실행합니다. scala, python, R 을 설치합니다.
apt-get install -y scala python r-base
sbt 스칼라 빌드 툴도 설치합니다. 설치는 sbt document를 참고합니다.
echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823 sudo apt-get update && apt-get install sbt
spark 바이너리 파일을 다운받습니다.
cd /tmp wget http://mirror.navercorp.com/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz tar xvf spark-2.3.1-bin-hadoop2.7.tgz mkdir /usr/local/spark mv spark-2.3.1-bin-hadoop2.7/* /usr/local/spark
이제 샘플을 실행해서 문제가 없는지 확인합니다.
./bin/run-example SparkPi 10
Spark 설치를 끝냈습니다.