데이터마이닝 | 데이터 전처리
세 가지의 search machanisms
- 분석적 검색 : 수학적 함수를 사용 , 증감, 최적 솔류션이 존재할 경우 해당 솔루션을 찾을 수 있음. 단 글로벌 솔루션이 아닌 local solution
Analytical search: it si guided using some mathematical function. In optimization, some search algorithms are guided using the gradient, whereas others the Hessian.
- 블라인드 검색 : 완전검색과 불완전 검색의 두 가지 클래스로 분류
완전검색 : 단순히 검색 공간을 열거하고 최적의 솔루션을 철저히 검색
불완전 검색 : 문제 공감을 검색하는 방식에 편향되어 있어 최적의 솔루션을 찾는 것을 보장하지 않음
Blind Search : it sometimes called unguided search and is usually categorized into two classes
A complete search technique: enumerates that search space and exhaustively searches for the optimal solution
Incomplete search techniques :to not guarantee to find the optimal solution
- 경험적 접근 검색 : 안내된 검색, 최적의 솔루션 찾기 보장안됨
Heuristic search : guided serach widely used in practice.
휴리스틱에 대한 이해
그리스어 discover 발견에서 기원함
문제해결 - 경험의 법칙 접근 방법
인공지능 - 증거가 부족할 수 있음
최적화 - converge 보장안된 접근 (극한값에 수렴 안됨)
generation of neighborhood solution
Hil climing algorithm
무작위로 솔루션을 초기화하는 것으로 시작함
다음 루프는 현재의 루프 근처에서 솔루션을 생성하도록 구성됨
새 솔루션이 현재 솔루션보다 우수한 경우 수락되고, 그렇지 않은 경우 거부되고 이웃에서 새 솔루션이 생성됨
The algorithm starts by initializing a solution at random. A loop is then constructed to generate a solution in the neighborhood of the current one.
If the new solution is better than the current one, it is accepted; otherwise it is rejected, and a new solution from the neighborhood is generated
stimulated annealing
.
제대로 이해한건가?
고체입자는 무작위로 액체 상태를 형성할 때 까지 가열됨 - 액체를 결정화하기 위해 느린 냉각 과정이 사용됨
입자는 고온에서 자유롭게 이동하다가 온도가 낮아지면 점차 이동성을 잃게 됨
데이터 마이닝
데이터에서 패턴, 연관성, 이상 징후 및 통계적으로 중요한 구조를 찾는 과정
일반적으로 데이터가 너무 크거나 복잡하여 수동 분석이나 단순 쿼리를 통한 분석이 불가능한 경우
두 가지 주요 단계
-데이터 사전처리 :낮은 수준의 데이터에서 관련된 높은 수준의 특징이나 속성을 추출
-패턴인식: 추출된 데이터를 통핸 데이터의 패턴을 인식
전저리 단계 : 데이터의 유형에 따라 여러 하위 작업으로 구성됨
raw data 가 매우 큰 경우 , 샘플링을 사용해 더 작은 인스턴스로 작업 / 다중 해상도 기술을 사용하여 더 거친 해상도로 데이터 작업 가능
If the raw data is very large, we could use sampling and work with fewer instances or use multi-resolution techniques and work with data at a coarser resolution.
다음으로, 데이터의 노이즈를 제거하고 관련된 특징을 추출
next, noise in the data is removed to the extent possible, and relevant features are extracted
데이터 마이닝 배경지식을 쌓자