[Web] 웹 데이터 수집 및 가공 관련 용어정리

2021. 9. 13. 16:47·ETC/ETC
728x90

웹에 존재하는 데이터를 처리하는 프로그램을 작성하기 위해 데이터 수집 및 가공의 과정을 거치게 된다.

데이터를 수집 및 가공하는 과정에서 파싱, 크롤링, 스크래핑 등 용어를 사용하는데, 본 포스팅에서는 웹에서 데이터를 수집 및 가공과 관련된 용어에 대해 정리한다.

 


파싱(Parsing)

분석하다(parse)의 사전적 의미로, 웹페이지 내에서 특정 패턴, 순서로 데이터를 추출하여 데이터를 가공하는 것. 

 

크롤링(Crawling)

기어가다(Crawl)의 사전적 의미로, 광대한 웹사이트에서 필요한 정보를 수집/분류/저장하여 사용자가 필요한 시기에 쉽게 참조 할 수 있도록하는 일련의 로봇임.

 

스크래핑(Scraping)

조각/단편의 정보(scrap)의 사전적 의미로, 

데이터(자료)를 수집하는 모든 과정. 크롤링도 스크래핑의 일부분이다.


 

정리하자면 크롤링과 스크래핑을 구분은 큰 의미가 없으며, 둘다 웹상에서의 정보를 수집하는 일을 의미하며, 파싱은 사용자가 원하는 데이터를 추출하여 가공하는 일을 의미한다.

 

 

웹 데이터 수집관련 용어정리 끝.

 

* CopyRight 2021. Jay Park All rights reserved.

728x90
저작자표시 비영리 변경금지

'ETC > ETC' 카테고리의 다른 글

[E-Mail] 메일 보안 필터링 이론 정리  (0) 2022.04.06
[E-Mail] 이메일 시스템 구조 및 용어 정리  (0) 2022.03.01
[E-Mail] Telnet과 OpenSSL을 이용한 SMTP 메일 발송  (0) 2022.02.03
[Math] 진법변환 (2진수, 8진수, 10진수, 16진수)  (0) 2021.09.27
[ETC] 함수와 관련 용어 정리  (0) 2021.09.13
'ETC/ETC' 카테고리의 다른 글
  • [E-Mail] 이메일 시스템 구조 및 용어 정리
  • [E-Mail] Telnet과 OpenSSL을 이용한 SMTP 메일 발송
  • [Math] 진법변환 (2진수, 8진수, 10진수, 16진수)
  • [ETC] 함수와 관련 용어 정리
dev.parkjh
dev.parkjh
Jay Blog. Github: https://github.com/GreatPark96
  • dev.parkjh
    0과 1을 공부하다.
    dev.parkjh
  • 전체
    오늘
    어제
    • 분류 전체보기 (114) N
      • Profile (2)
      • Paper (6)
      • Column (3)
      • Project (8)
        • Smart Home (3)
        • 3D Printing (5)
      • Front-End (0)
        • Web (3)
      • Back-End (8)
        • API (1)
        • DB (1)
        • Laravel (4)
      • Language (16)
        • Kotlin (11)
        • C, C++ (3)
        • JAVA (0)
        • python (2)
      • System (28)
        • Server (15)
        • Security (1)
        • Network (1)
        • Linux (8)
        • Cloud (3)
      • ETC (34) N
        • Book Recommend (Computer) (3)
        • IoT (7)
        • BlockChain (7)
        • ETC (17) N
      • My YOLO (1)
      • Note (4)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    ai code review
    git
    Database
    data serialization formats
    kubernetes
    work hour
    Kotlin
    github
    C언어
    docker container
    네이버클라우드
    ncp container registry
    nas
    코틀린개발환경
    gitlab
    3D
    Notification
    3D프린터 입문
    3D모델링
    linux job
    NAS HDD교체
    docker
    3D프린터
    데이터 직렬화 포맷
    coderabbit
    리눅스 파일동기화
    3d프린터 초보
    Jenkins
    ci/cd
    docker private register
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dev.parkjh
[Web] 웹 데이터 수집 및 가공 관련 용어정리
상단으로

티스토리툴바