본문 바로가기
독서

데이터마이닝 | 데이터 전처리

by Melony_22 2023. 3. 8.
반응형

 

 

세 가지의 search machanisms  

  • 분석적 검색 : 수학적 함수를 사용 ,  증감, 최적 솔류션이 존재할 경우 해당 솔루션을 찾을 수 있음. 단 글로벌 솔루션이 아닌 local solution 

Analytical search: it si guided using some mathematical function. In optimization, some search algorithms are guided using the gradient, whereas others the Hessian.

  • 블라인드 검색 : 완전검색과 불완전 검색의 두 가지 클래스로 분류

완전검색 : 단순히 검색 공간을 열거하고  최적의 솔루션을 철저히 검색

불완전 검색 : 문제 공감을 검색하는 방식에 편향되어 있어 최적의 솔루션을 찾는 것을 보장하지 않음

Blind Search : it sometimes called unguided search and is usually categorized into two classes

A complete search technique: enumerates that search space and exhaustively searches for the optimal solution

Incomplete search techniques :to not guarantee to find the optimal solution

 

  • 경험적 접근 검색 : 안내된 검색, 최적의 솔루션 찾기 보장안됨 

Heuristic search : guided serach widely used in practice.

 

휴리스틱에 대한 이해 

그리스어 discover 발견에서 기원함

문제해결 - 경험의 법칙 접근 방법

인공지능 - 증거가 부족할 수 있음

최적화 - converge 보장안된 접근 (극한값에 수렴 안됨)


generation of neighborhood solution

https://images.app.goo.gl/x7R8Fn4rYHhXwy5UA

Hil climing algorithm

 

ㅜ작위로https://images.app.goo.gl/fcYq3sF1v14PVgLB7

무작위로 솔루션을 초기화하는 것으로 시작함

다음 루프는 현재의 루프 근처에서 솔루션을 생성하도록 구성됨

새 솔루션이 현재 솔루션보다 우수한 경우 수락되고, 그렇지 않은 경우 거부되고 이웃에서 새 솔루션이 생성됨

 

The algorithm starts by initializing a solution at random. A loop is then constructed to generate a solution in the neighborhood of the current one.

If the new solution is better than the current one, it is accepted; otherwise it is rejected, and a new solution from the neighborhood is generated

 

stimulated annealing

https://images.app.goo.gl/PXftmujLfS4em5218

.

제대로 이해한건가?

고체입자는 무작위로 액체 상태를 형성할 때 까지 가열됨 - 액체를 결정화하기 위해 느린 냉각 과정이 사용됨

입자는 고온에서 자유롭게 이동하다가 온도가 낮아지면 점차 이동성을 잃게 됨


데이터 마이닝

데이터에서 패턴, 연관성, 이상 징후 및 통계적으로 중요한 구조를 찾는 과정

일반적으로 데이터가 너무 크거나 복잡하여 수동 분석이나 단순 쿼리를 통한 분석이 불가능한 경우

 

두 가지 주요 단계

-데이터 사전처리 :낮은 수준의 데이터에서 관련된 높은 수준의 특징이나 속성을 추출 

-패턴인식: 추출된 데이터를 통핸 데이터의 패턴을 인식

 

전저리 단계 : 데이터의 유형에 따라 여러 하위 작업으로 구성됨

raw data 가 매우 큰 경우 , 샘플링을 사용해 더 작은 인스턴스로 작업 / 다중 해상도 기술을 사용하여 더 거친 해상도로 데이터 작업 가능

If the raw data is very large, we could use sampling and work with fewer instances or use multi-resolution techniques and work with data at a coarser resolution.

 

다음으로, 데이터의 노이즈를 제거하고 관련된 특징을 추출

next, noise in the data is removed to the extent possible, and relevant features are extracted

 

 

데이터 마이닝 배경지식을 쌓자

반응형