DB 관련 신기술 / 용어 | Notion

DB 관련 신기술

빅데이터

기존의 관리 방법이나 분석 체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합
기업이나 정부, 포털 등이 빅데이터를 효과적으로 분석함으로써 미래를 예측해 최적의 대응 방안을 찾고, 이를 수익으로 연결하여 새로운 가치를 창출함

메타 데이터

일련의 데이터를 정의하고 설명해 주는 데이터
컴퓨터에서는 데이터 사전의 내용, 스키마 등을 의미
HTML 문서에서는 메타 태그 내의 내용이 메타 데이터임

하둡

오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼
일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임 워크
구글, 야후 등에 적용되고 있음

타조

오픈 소스 기반 분산 컴퓨팅 플랫폼인 아파치 하둡 기반의 분산 데이터 웨어하우스 프로젝트
- 데이터 웨어하우스 : 정보와 창고의 합성어로, 기업의 의사결정 과정에 효과적으로사용될 수 있도록 여러 시스엠에 분산되어 있는 데이터를 주제별로 통합, 축적해 놓은 데이터베이스

OLAP

다차원으로 이루어진 데이터로 통계적인 요약 정보를 분석하여 의사 결정에 활용하는 방식
OLAP 연산 : Roll-up, Drill-down, Drill-through, Drill-across, Pivoting, Slicing, Dicing

브로드 데이터

다양한 채널에서 소비자와 상호 작용을 통해 생성된 것
기업 마케팅에 있어 효율적이고 다양한 데이터이며, 이전에 사용하지 않거나 알지 못했던 새로운 데이터나 기존 데이터에 새로운 가치가 더해진 데이터

디지털 아카이빙

디지털 정보 자원을 장기적으로 보존하기 위한 작업
아날로그 컨텐츠는 디지털로 변환한 후 압축해서 저장
디지털 콘텐츠도 체계적으로 분류하고 메타 데이터를 만들어 DB화 하는 작업임

맵리듀스

대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델
흩어져 있는 데이터를 연관성 있는 데이터 분류로 묶는 Map 작업을 수행한 후 중복 데이터를 제거하고 원하는 데이터를 추출하는 Reduce 직업을 수행함
Google에 의해 고안되었으며, 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법으로 많이 사용됨

데이터 다이어트

데이터를 삭제하는 것이 아니라 압축하고, 중복된 정보는 중복을 배제하고, 새로운 기준에 따라 나누어 저장하는 작업

데이터 마이닝

대량의 데이터를 분석하여 데이터에 내재된 변수 사이의 상호 관계를 규명하여 일정한 패턴을 찾아내는 기법

DB 관련 용어

스택

리스트의 한쪽 끝으로만 자료의 삽입, 삭제 작업이 이루어지는 자료 구조
후입선출 방식으로 자료를 처리함

큐

리스트의 한쪽에서는 삽입 작업이 이루어지고 다른 한쪽에서는 삭제작업이 이루어지도록 구성한 자료 구조
선입선출 방식으로 자료를 처리함

정규화

함수적 종속성 등의 종속성 이론을 잘못 설계된 관게형 스키마를 더 작은 속성의 세트로 쪼개어 바람직한 스키마로 만들어 가는 과정
정규화 과정
- 비정규 릴레이션→ 1NF → 2NF→ 3NF → BCNF → 4NF → 5NF
- 비정규 릴레이션→ 1NF
  - 도메인이 원자 값
- 1NF → 2NF
  - 부분적 함수 종속 제거
- 2NF→ 3NF
  - 이행적 함수 종속 제거
- 3NF → BCNF
  - 결저자이면서 후보키가 아닌 것 제거
- BCNF → 4NF
  - 다치 종속 제거
- 4NF → 5NF
  - 조인 종속성 이용

반정규화

시스템의 성능 향상, 개발 및 운영의 편의성 등을 위해 정규화된 데이터 모델을 통합, 중복, 분리하는 과정
의도적으로 정규화 원칙을 위배하는 행위

이상

정규화를 거치지 않으면 데이터베이스 내에 데이터들이 불필요하게 중복되어 릴레이션 조작 시 예기치 못한 곤란한 현상이 발생함
삽입 이상, 삭제 이상, 갱신 이상이 있음

개체 무결성

기본 테이블의 기본키를 구성하는 어떤 속성도 Null 값이나 중복값을 가질 수 없다는 규정

참조 무결성

외래키 값은 Null이거나 참조 릴레이션의 기본키 값과 동일해야함

기출문제

1번 문제

~~클러스터 컴퓨팅~~ → 하둡

2번 문제

~~종속성이 없음~~ → 대량의 데이터를 분석하여 데이터에 내재된 변수 사이의 상호관계를 규명하여 일정한 패턴을 찾아내는 기법

3번 문제

맵리듀스

4번 문제