wget으로 웹 사이트 백업하기

  • Post author:
  • Post category:칼럼
  • Post comments:0 Comments
  • Post last modified:February 8, 2020

wget은 주로 웹에서 파일을 다운로드 받을 때 사용하는 명령 줄(Shell) 프로그램이다. 그 뿐 아니라 특정 도메인에 속한 웹 사이트를 모두 내려받는데 사용하기도 한다. 오프라인에서 특정 웹 사이트의 자료가 필요하거나 자신이 운영 중인 웹 사이트를 백업할 때 좋다. 이번에는 위키를 제거하기 전에 백업하기 위해 이 프로그램을 사용했다.

이번에 사용한 명령은 다음과 같다.

wget 
—recursive – html-extension – convert-links —page-requisites 
--remote-encoding=utf-8 – local-encoding=utf8 —restrict-file-name=nocontrol 

옵션이 각기 의미하는 바는 다음과 같다.

  • recursive
    지정한 주소(https://andromedarabbit.net)와 그 주소에 속한 모든 웹 페이지를 가져온다.
  • convert-links
    모든 웹 링크를 로컬에 내려 받은 파일의 주소로 대체한다.
  • html-extension
    원래 웹 페이지가 https://andromedarabbit.net/index.php였다면 로컬 저장소에 저장할 때는 index.html로 파일 확장자를 바꾼다.
  • page-requisites
    웹 사이트에 포함된 이미지, CSS 등도 모두 내려 받는다.
  • remote-encoding
    원래 웹 사이트의 인코딩을 지정한다.
  • local-encoding
    로컬에 저장할 파일에 쓸 인코딩을 지정한다.
  • restrict-file-name
    가장 중요한 옵션이다. 이 옵션의 값을 nocontrol로 지정하지 않으면 한글이 포함된 URI는 아래와 같이 파일 이름이 정해진다.
    한글이
    하지만 nocontrol을 지정하면 정상적인 한글 파일 이름을 가진다.
    한글이

이 외에도 wget은 옵션이 다양하니 공식 문서를 참고하자!

Kubernetes, DevSecOps, AWS, 클라우드 보안, 클라우드 비용관리, SaaS 의 활용과 내재화 등 소프트웨어 개발 전반에 도움이 필요하다면 도움을 요청하세요. 지인이라면 가볍게 도와드리겠습니다. 전문적인 도움이 필요하다면 저의 현업에 방해가 되지 않는 선에서 협의가능합니다.
follow me
  • 싸이월드 법인가 뭔가 화제였는데 이런 게 훨씬 현실적인 접근이다 https://t.co/fSB9LiMYzO
    1 day ago
  • 시장을 좋게 보는 사람을 좋게 볼 근거를 찾고 그렇지 않은 사람은 나쁘게 볼 근거만 열심히 찾네. 그 반대로 해야 얻는 게 있을텐데
    1 day ago
  • 일본이 liberal country 라는 말이 마음에 걸리네 https://t.co/aLteP9gEE8
    2 days ago
Buy me a coffeeBuy me a coffee
×
Kubernetes, DevSecOps, AWS, 클라우드 보안, 클라우드 비용관리, SaaS 의 활용과 내재화 등 소프트웨어 개발 전반에 도움이 필요하다면 도움을 요청하세요. 지인이라면 가볍게 도와드리겠습니다. 전문적인 도움이 필요하다면 저의 현업에 방해가 되지 않는 선에서 협의가능합니다.
Latest Posts