본문 바로가기

인공지능

알고리즘 - Modeling

데이터 과학 초보자를 위한 10가지 최고의 머신러닝 알고리즘

https://www.dataquest.io/blog/top-10-machine-learning-algorithms-for-beginners/

 

The Top 10 Machine Learning Algorithms for ML Beginners

Machine learning algorithms are key for anyone who's interested in the data science field. Here's an introduction to ten of the most fundamental algorithms.

www.dataquest.io

 

머신러닝 알고리즘의 유형

머신러닝(ML) 알고리즘에는 3가지 유형이 있습니다.

 

1. 지도 학습 알고리즘 

레이블이 지정된 교육 데이터를 사용하여 입력 변수(X)를 출력 변수(Y)로 바꾸는 매핑 함수를 학습합니다. 즉, 다음 방정식에서 f 풉니다.

 

Y = 에프(X)

 

이를 통해 새로운 입력이 주어졌을 때 출력을 정확하게 생성할 수 있습니다.

지도 학습의 두 가지 유형인 분류와 회귀에 대해 이야기하겠습니다.

 

분류는 출력 변수가 범주 형식일 때 주어진 샘플의 결과를 예측하는 데 사용됩니다. 

분류 모델은 입력 데이터를 보고 "아프다" 또는 "건강하다"와 같은 레이블을 예측하려고 시도할 수 있습니다.

 

회귀는 출력 변수가 실제 값의 형태일 때 주어진 샘플의 결과를 예측하는 데 사용됩니다. 

예를 들어, 회귀 모델은 입력 데이터를 처리하여 강우량, 사람의 키 등을 예측할 수 있습니다.

 

선형회귀는 앞서 복습한 부분에도 공부했었따!!!

https://thebetterlife2030.tistory.com/10

 

머신러닝 - Linear Regression

선형회귀분석. 강의를 통해 배운 내용을 토대로. 다시 한번 복습하면서 내것으로 만들고자 한다. 마법처럼 드르륵 코드를 작성하고 싶지만 잘 기억이 나지않아. 계속 계속 생각하고. 숙달해야겠

thebetterlife2030.tistory.com

 

앙상블은 감독 학습의 또 다른 유형입니다. 

이는 개별적으로 약한 여러 기계 학습 모델의 예측을 결합하여 새 샘플에 대해 더 정확한 예측을 생성하는 것을 의미합니다. 

 

2. 비지도 학습 알고리즘 

비지도 학습 모델은 입력 변수(X)만 있고 해당 출력 변수가 없을 때 사용됩니다. 

라벨이 지정되지 않은 교육 데이터를 사용하여 데이터의 기본 구조를 모델링합니다.

 

비지도 학습의 세 가지 유형에 대해 이야기하겠습니다.

연관은 컬렉션에서 항목의 동시 발생 가능성을 발견하는 데 사용됩니다. 

장바구니 분석에 광범위하게 사용됩니다. 

예를 들어 고객이 빵을 구매하면 계란도 구매할 가능성이 80%임을 발견하기 위해 연관 모델을 사용할 수 있습니다.

 

클러스터링은 동일한 클러스터 내의 개체가 다른 클러스터의 개체보다 서로 더 유사하도록 샘플을 그룹화하는 데 사용됩니다.

Dimensionality Reduction은 중요한 정보가 계속 전달되도록 하면서 데이터 세트의 변수 수를 줄이는 데 사용됩니다. 특징 추출 방법과 특징 선택 방법을 사용하여 차원 축소를 수행할 수 있습니다. 기능 선택은 원래 변수의 하위 집합을 선택합니다. 특징 추출은 고차원 공간에서 저차원 공간으로 데이터 변환을 수행합니다. 예: PCA 알고리즘은 특징 추출 방식입니다.

 

3. 강화 학습:

강화 학습은 에이전트가 보상을 극대화할 행동을 학습하여 현재 상태를 기반으로

최상의 다음 행동을 결정할 수 있도록 하는 기계 학습 알고리즘의 한 유형입니다.

강화 알고리즘은 일반적으로 시행착오를 통해 최적의 조치를 학습합니다

예를 들어 플레이어가 포인트를 얻기 위해 특정 시간에 특정 장소로 이동해야 하는 비디오 게임을 상상해 보십시오

해당 게임을 플레이하는 강화 알고리즘은 무작위로 이동하는 것으로 시작하지만

시행착오를 통해 시간이 지남에 따라 총점을 최대화하기 위해 게임 캐릭터를 이동해야 하는 위치와 시기를 학습합니다.

 

 

지도 학습 알고리즘:

1. 선형 회귀

기계 학습에는 출력 변수(y)를 결정하는 데 사용되는 입력 변수(x) 집합이 있습니다. 

입력 변수와 출력 변수 사이에는 관계가 있습니다. ML의 목표는 이 관계를 정량화하는 것입니다.

 

 

선형 회귀에서 입력 변수(x)와 출력 변수(y) 간의 관계는 y = a + bx 형식의 방정식으로 표현됩니다. 

따라서 선형 회귀의 목표는 계수 a와 b의 값을 찾는 것입니다. 여기서 a는 절편이고 b는 직선의 기울기입니다.

그림 1은 데이터 세트에 대해 플롯된 x 및 y 값을 보여줍니다.

목표는 대부분의 점에 가장 가까운 선을 맞추는 것입니다. 이렇게 하면 데이터 포인트의 y 값과 선 사이의 거리('오차')가 줄어듭니다.

 

2. 로지스틱 회귀

선형 회귀 예측은 연속 값(즉, 강우량(cm))이고, 로지스틱 회귀 예측은 변환 함수를 적용한 후 이산 값(즉, 학생의 합격/불합격 여부)입니다.

로지스틱 회귀는 이진 분류, 즉 y = 0 또는 1인 데이터 세트에 가장 적합합니다. 여기서 1은 기본 클래스를 나타냅니다. 예를 들어 이벤트가 발생할지 여부를 예측할 때 발생할 가능성(1로 표시)과 발생하지 않을 가능성(0)의 두 가지 가능성만 있습니다. 1따라서 환자가 아픈지 여부를 예측하는 경우 데이터 세트 의 값을 사용하여 아픈 환자에 레이블을 지정합니다 .로지스틱 회귀는 로지스틱 함수 h(x)= 1/ (1 + ex)라고 하는 변환 함수의 이름을 따서 명명되었습니다. 이것은 S 자 모양의 곡선을 형성합니다.

 

 

로지스틱 회귀에서 출력은 기본 클래스의 확률 형식을 취합니다(출력이 직접 생성되는 선형 회귀와 다름). 확률이므로 출력은 0-1 범위에 있습니다. 예를 들어 환자가 아픈지 예측하려는 경우 아픈 환자가 로 표시된다는 것을 이미 알고 있으므로 1알고리즘이 환자에게 0.98의 점수를 할당하면 환자가 아플 가능성이 매우 높다고 생각합니다. .

이 출력(y 값)은 로지스틱 함수 h(x)= 1/ (1 + e^ -x) 를 사용하여 x 값을 로그 변환하여 생성됩니다. 그런 다음 이 확률을 이진 분류로 강제 적용하기 위해 임계값이 적용됩니다.

 

로지스틱 회귀 방정식 P(x) = e ^ (b0 +b1x) / (1 + e(b0 + b1x)) ln(p(x) / 1-p(x)) = b0 + b1x 로 변환될 수 있습니다 .

로지스틱 회귀의 목표는 훈련 데이터를 사용하여 계수 b0 및 b1의 값을 찾아 예측 결과와 실제 결과 사이의 오류를 최소화하는 것입니다. 이러한 계수는 Maximum Likelihood Estimation 기술을 사용하여 추정됩니다.

 

3. 카트

분류 및 회귀 트리(CART)는 결정 트리의 구현 중 하나입니다.

분류 및 회귀 트리의 비단말 노드는 루트 노드와 내부 노드입니다. 터미널 노드는 리프 노드입니다. 각 비단말 노드는 단일 입력 변수(x)와 해당 변수의 분할점을 나타냅니다. 리프 노드는 출력 변수(y)를 나타냅니다. 이 모델은 예측을 위해 다음과 같이 사용됩니다. 리프 노드에 도달하기 위해 트리의 분할을 걷고 리프 노드에 있는 값을 출력합니다.

 

분류 및 회귀 트리(CART) 예측 알고리즘으로 다른 사항을 기반으로 대상 변수의 값을 예측할 수 있는 방법을 설명합니다. 각 포크가 예측 변수로 분할되고 각 노드가 마지막에 대상 변수에 대한 예측을 갖는 의사 결정 트리입니다.

 

의사결정 트리에서 노드는 속성의 임계값을 기준으로 하위 노드로 분할됩니다루트 노드를 트레이닝 세트로 삼고 최상의 속성과 임계값을 고려하여 개로 나눕니다또한 하위 집합도 동일한 논리를 사용하여 분할됩니다이것은 나무에서 마지막 순수한 하위 집합이 발견되거나 성장하는 나무에서 가능한 최대 수까지 계속됩니다.

https://www.geeksforgeeks.org/cart-classification-and-regression-tree-in-machine-learning/

 

CART (Classification And Regression Tree) in Machine Learning - GeeksforGeeks

A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions.

www.geeksforgeeks.org

 

'인공지능' 카테고리의 다른 글

알고리즘 - Modeling - Kmeans  (27) 2023.03.25
캐글 Kaggle - 영화 추천  (18) 2023.03.22
알고리즘 - Polynomial 예제  (12) 2023.03.21
지식그래프 - Ontology  (23) 2023.03.21
지식그래프 - Node & Edges  (4) 2023.03.21