on
[빅데이터 2] 빅데이터 생성, 수집, 예시
[빅데이터 2] 빅데이터 생성, 수집, 예시
반응형
빅데이터의 생성
- 데이터와 정보
- 데이터의 존재론적 특징에 따른 구분
- 데이터의 구성에 따른 구분
정형 데이터 (structured Data) : 고정형 필드에 저장된 데이터 ex) 관계형 데이터베이스, 스프레드시트 등
반정형 데이터 (Semi-structured Data) : 메타데이터, 스키마를 이용하여 표현되는 데이터 ex)XML, HTML
비정형 데이터 (Unstructured Data) : 정형/반정형이 아닌 모든 데이터 ex) 텍스트 문서, 멀티미디어 콘텐츠
- 데이터의 구성에 따른 유용성 : 빅데이터는 수집 난이도, 구성 복잡도, 잠재적 가치에 따라 그 유용성이 달라짐
빅데이터의 수집 : 시스템의 내외부에서 주기성을 가지고 필요한 형태로 데이터를 모으는 작업을 뜻함
빅데이터 수집의 역할 : 유용한 데이터 선택(품질 향상) , 최적의 방법론 선택(안정성 향상) , 수집 소요 비용 최소화
빅데이터 수집 절차 설계 : 수집 데이터 선정 -> 세부계획 수립 -> 테스트 수집 진행 -> 수집 진행
빅데이터 수집 계획서
데이터 소스 : 소스 위치, 형태, 인터페이스, 실무자, 협약 상세
수집 주기 : 주기시간(규칙성) 또는 실시간(불규칙성), 데이터/트래픽량
수집 방법 : 수집 기술, 사전/사후처리(pre/post processing), 대안
빅데이터 수집 도구
1. 인적 자원 활용Human Resource
사람을 통하여 데이터 수집
인적 자원 비용 발생
오해석 또는 오차 등의 문제점
2. 자동화 도구 사용Automatic Data Crawler
대부분 과정에 사람 개입 없음
인적 자원 비용 최소화 가능
데이터 원천의 형태에 따라 적용이 불가능할 수도 있음
빅데이터 자동화 수집 기술
1.네트워크 수집
크롤링(Crawling) : 사전 정의 패턴에 따라 정해진 네트워크 지점의 데이터 수집
OpenAPI : 데이터 배포자 제공 인터페이스
2.로그/센서 수집
로그(Log) 수집 : 작동 또는 이용 패턴의 기록
센서(Sensor) 수집 : 센서 장치를 이용한 기록
빅데이터 수집 사례
JSON (JavaScript Object Notation)
XML 유사 데이터 정형화 방식
인터넷 상의 데이터 송수신 방식
텍스트 형태, 작은 용량, 빠른 변환 속도
프로그래밍 언어 또는 플랫폼 독립적
Flume(플럼)
2010년 Cloudera 개발, 로그 데이터 수집기
분산 데이터 통합 가능, 안정성 가용성 높음
Chukwa (척와)
2008년 Yahoo 개발, 로그 데이터 수집기
아파치 하둡 기반, 실시간 분석 가능
SQOOP (스쿱)
SQl-to-hadOOP, 다양한 DBMS 벤더 호환
DBMS, 하둡, NoSQL 간 데이터 연동에 적용
OpenRefine (오픈 리파인)
2010년 Google의 오픈 프로젝트
데이터 정제 도구 : 오류 수정, 데이터 정리
데이터 연계 API 및 워크플로우 기능 제공
Protocol Buffers (프로토콜 버퍼)
Google의 오픈소스 직렬화 라이브러리
다양한 플랫폼 간 통신 가능
왜 글씨는 쓰면 자꾸 기울어지지,,, 미스테리~
반응형
from http://mingul.tistory.com/12 by ccl(A) rewrite - 2021-09-21 18:27:49