데이터베이스3 데이터 마이닝 (연관규칙, Apriori 알고리즘) [apriori 알고리즘?] apriori 알고리즘은 데이터 마이닝과 연관 규칙 학습 분야에서 매우 유용한 알고리즘 중 하나입니다. 이 알고리즘은 주어진 데이터 세트에서 항목 간의 연관성을 파악하는 데 사용됩니다. 특히, 많은 트랜잭션이 있는 데이터베이스에서 발견된 빈번한 항목 집합(frequent itemset)을 찾아내는 데 초점을 맞추고 있습니다. 아래에서 apriori 알고리즘의 작동 방식과 주요 단계를 설명하겠습니다: 지지도(Support) 설정: 사용자가 지정한 임계값(min_support)을 사용하여 빈번한 항목 집합을 결정합니다. 지지도는 특정 항목 집합이 데이터 세트 내에서 등장하는 비율을 의미합니다. 일반적으로 이 값은 0과 1 사이의 실수로 표현됩니다. 1-항목집합 생성: 모든 항목들.. 2023. 7. 21. 데이터 마이닝 (연관규칙) [연관규칙이란?] 데이터 마이닝 연관 규칙은 대규모 데이터 집합으로부터 유용한 정보를 추출하는 데이터 마이닝 기법 중 하나입니다. 연관 규칙은 데이터 집합에서 특정 사건들 간의 관계를 파악하는 데 사용되며, 이를 통해 유용한 통찰력을 얻을 수 있습니다. [연관규칙 예] 연관 규칙은 주로 'IF-THEN' 형태의 규칙으로 표현되며, 다음과 같은 예시로 설명할 수 있습니다: IF {사용자가 제품 A를 구매한다} THEN {사용자가 제품 B를 구매할 확률이 높다} 이러한 규칙은 많은 데이터를 분석하여 얻어진 결과로, 비즈니스나 마케팅 등 다양한 분야에서 활용될 수 있습니다. 연관 규칙을 찾는 과정은 크게 두 단계로 이루어집니다: 항목 집합 생성 (Itemset Generation): 데이터 집합으로부터 모든 .. 2023. 7. 20. DW(데이터 웨어하우스), 다차원 모델링 개요 다차원 모델링은 데이터 웨어하우스와 비즈니스 인텔리전스(Business Intelligence, BI) 시스템에서 사용되는 중요한 개념 중 하나입니다. 데이터 웨어하우스는 다양한 소스로부터 추출된 데이터를 통합하여 효율적으로 저장하고, 해당 데이터를 분석하여 의사 결정에 도움을 주는 역할을 수행합니다. 다차원 모델링은 이러한 데이터 웨어하우스에서 데이터를 조직화하고 사용자들이 데이터를 쉽게 이해하고 접근할 수 있도록 하는 방법론입니다. 다차원 모델링의 주요 개념은 "차원(dimension)"과 "측정값(measure)"입니다. 이 두 가지 개념을 사용하여 데이터를 직관적으로 이해하기 쉬운 형태로 구성합니다. 차원(Dimension): 차원은 데이터를 설명하는 기준이나 항목들의 집합입니다. 예를 들어, 제.. 2023. 7. 19. 이전 1 다음