파이썬 소수 예제

ADASYN은 밀도 분포에 따라 소수 등급의 샘플을 생성합니다. 학습하기 쉬운 소수 표본에 비해 학습하기 어려운 소수 클래스 샘플에 대해 더 많은 합성 데이터가 생성됩니다. 각 소수 인스턴스의 K-가장 가까운 이웃을 계산한 다음 소수 인스턴스와 다수 인스턴스의 클래스 비율을 사용하여 새 샘플을 생성합니다. 이 프로세스를 반복함으로써, 그것은 적응 학습하기 어려운 그 샘플에 초점을 결정 경계를 이동합니다. 여기서 대부분의 클래스는 소수 클래스의 총 수로 축소되어 두 클래스 모두 레코드 수가 동일합니다. 사용 가능한 예제의 본문 내에서만 예제를 생성할 수 있습니다. 공식적으로 SMOTE는 기존 소수 예제의 볼록한 선체만 채울 수 있지만 소수 예제의 새 외부 영역을 만들 수는 없습니다. 이러한 각 경우에 관찰의 작은 부분만 실제로 긍정입니다. 신용 카드 요금 10,000건 중 1건만이 사기성이라고 생각합니다. 최근에는 소수 클래스 관측값의 과대 샘플링이 예측 모델링의 품질을 향상시키는 일반적인 접근 방식이 되었습니다. 오버샘플링을 통해 모델은 클래스를 구별하는 패턴을 더 잘 학습할 수 있습니다. 아래에서 파이썬 사이킷 학습 모듈 불균형 학습으로 샘플링 기술을 시연합니다.

독자는 파이썬 패키지를 설치해야합니다. 다음 데이터 생성 진행률(DGP)은 2개의 클래스로 2,000개의 샘플을 생성합니다. 데이터는 각 클래스에 할당된 0.03 및 0.97의 비율로 매우 불균형합니다. 10개의 기능이 있으며, 그 중 2개는 유익하고 2개는 중복이고 6개(10-2-2)는 반복된 기능입니다. make_classification 함수는 정보 및 중복 피처에서 반복(쓸모없는) 피쳐를 생성합니다. 중복 기능은 정보 제공 기능의 선형 조합일 뿐입니다. 각 클래스는 2개의 가우시안 클러스터로 구성되어 있습니다. 각 클러스터에 대해 유익한 피쳐는 N(0, 1)에서 독립적으로 그려진 다음 각 클러스터 내에서 선형으로 결합됩니다.