DB 관련 신기술
빅데이터
- 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합
- 기업이나 정부, 포털 등이 빅데이터를 효과적으로 분석함으로써 미래를 예측해 최적의 대응 방안을 찾고, 이를 수익으로 연결하여 새로운 가치를 창출함
메타 데이터
- 일련의 데이터를 정의하고 설명해 주는 데이터
- 컴퓨터에서는 데이터 사전의 내용, 스키마 등을 의미
- HTML 문서에서는 메타 태그 내의 내용이 메타 데이터임
하둡
- 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼
- 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성
그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임 워크
- 구글, 야후 등에 적용되고 있음
타조
- 오픈 소스 기반 분산 컴퓨팅 플랫폼인
아파치 하둡 기반의 분산 데이터 웨어하우스 프로젝트
- 데이터 웨어하우스 : 정보와 창고의 합성어로,
기업의 의사결정 과정에 효과적으로사용될 수 있도록 여러 시스엠에 분산되어 있는
데이터를 주제별로 통합, 축적해 놓은 데이터베이스
OLAP
- 다차원으로 이루어진 데이터로 통계적인 요약 정보를 분석하여 의사 결정에 활용하는 방식
- OLAP 연산 : Roll-up, Drill-down, Drill-through, Drill-across, Pivoting, Slicing, Dicing
브로드 데이터
- 다양한 채널에서 소비자와 상호 작용을 통해 생성된 것
- 기업 마케팅에 있어 효율적이고 다양한 데이터이며,
이전에 사용하지 않거나 알지 못했던 새로운 데이터나 기존 데이터에 새로운 가치가 더해진 데이터
디지털 아카이빙
- 디지털 정보 자원을 장기적으로 보존하기 위한 작업
- 아날로그 컨텐츠는 디지털로 변환한 후 압축해서 저장
- 디지털 콘텐츠도 체계적으로 분류하고 메타 데이터를
만들어 DB화 하는 작업임
맵리듀스
- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델
- 흩어져 있는 데이터를 연관성 있는 데이터 분류로 묶는 Map 작업을 수행한 후 중복 데이터를 제거하고 원하는 데이터를 추출하는 Reduce 직업을 수행함
- Google에 의해 고안되었으며, 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법으로 많이 사용됨
데이터 다이어트
- 데이터를 삭제하는 것이 아니라 압축하고, 중복된 정보는 중복을 배제하고, 새로운 기준에 따라 나누어 저장하는 작업
데이터 마이닝
- 대량의 데이터를 분석하여 데이터에 내재된 변수 사이의 상호 관계를 규명하여 일정한 패턴을 찾아내는 기법
DB 관련 용어
스택
- 리스트의 한쪽 끝으로만 자료의 삽입, 삭제 작업이 이루어지는 자료 구조
- 후입선출 방식으로 자료를 처리함
큐
- 리스트의 한쪽에서는 삽입 작업이 이루어지고 다른 한쪽에서는 삭제작업이 이루어지도록 구성한 자료 구조
- 선입선출 방식으로 자료를 처리함
정규화
- 함수적 종속성 등의 종속성 이론을 잘못 설계된 관게형 스키마를
더 작은 속성의 세트로 쪼개어 바람직한 스키마로 만들어 가는 과정
- 정규화 과정
- 비정규 릴레이션→ 1NF → 2NF→ 3NF → BCNF → 4NF → 5NF
- 비정규 릴레이션→ 1NF
- 1NF → 2NF
- 2NF→ 3NF
- 3NF → BCNF
- BCNF → 4NF
- 4NF → 5NF
반정규화
- 시스템의 성능 향상, 개발 및 운영의 편의성 등을 위해 정규화된 데이터 모델을 통합, 중복, 분리하는 과정
- 의도적으로 정규화 원칙을 위배하는 행위
이상
- 정규화를 거치지 않으면 데이터베이스 내에 데이터들이 불필요하게 중복되어
릴레이션 조작 시 예기치 못한 곤란한 현상이 발생함
- 삽입 이상, 삭제 이상, 갱신 이상이 있음
개체 무결성
- 기본 테이블의 기본키를 구성하는 어떤 속성도 Null 값이나 중복값을 가질 수 없다는 규정
참조 무결성
- 외래키 값은 Null이거나 참조 릴레이션의 기본키 값과 동일해야함
기출문제
1번 문제
2번 문제
종속성이 없음 → 대량의 데이터를 분석하여 데이터에 내재된 변수 사이의 상호관계를 규명하여 일정한 패턴을 찾아내는 기법
3번 문제
4번 문제