목록대학생활 (4)
이모저모

이상치 이상치(outlier): 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값. 데이터의 분포가 정규분포를 따르는 경우 Z-score를 이용해 원하는 범위의 값 만을 가지도록 설정 가능하다. 데이터의 분포가 정규분포를 따르지 않거나 skew한 경우 IQR을 이용하여 이상치를 제거한다. 일반적으로 위의 그림처럼 IQR의 1.5배를 boundary로 하여 이상치를 탐지한다. 파이썬 코드 파이썬 코드를 이용하여 이를 판별하기 위해서는 사분위수를 판별하는 방법을 알아야 한다. numpy의 percentile을 이용하거나 dataframe에 내장되어 있는 함수인 quantile을 이용하여 구할 수 있다. np.percentile(df[column].values, 25) np.percentile(df[column..

Hands-On Machine Learning with Scikit-Learn, Keras & Tensorflow를 참고하였다. 1. 과대적합 (overfitting) 1.1. 의미 :모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어진다는 뜻 1.2. 발생상황 데이터 셋이 너무 작은 경우 -> 샘플링 잡음 발생 -> 잡음이 섞인 패턴을 감지해 새로운 샘플에 일반화 되지 못함. 샘플링 잡음(sampling noise): 우연에 의한 대표성이 없는 데이터 샘플링 편향(sampling bias): 추출 방법이 잘못되어 데이터에 대표성이 없는 경우 ∴ 과대적합이 발생하는 경우 = 훈련 데이터에 있는 잡음의 양에 비해 모델이 너무 복잡할 때. 1.3. 해결방법 파라미터 수가 적은 모델 선택, 훈련 데이터에 있는..

1. 시작하며 기계학습, 딥러닝 카테고리에서는 관련 정보를 순서 대로 올리기보단 발췌하듯 글을 작성하고자 한다. 첫 번째 주제는 간단한 이미지 인식이다. 해당 내용은 "모두의 딥러닝(조태호)" 제 3판을 참고하여 작성하였다. 또 실습 환경은 Google Colab을 활용하였다. 2. 기초 인식(MLP 활용) 2.1. 사용 모듈 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping from tensorflow.keras.datasets import mnist from tensor..
지금 데이터 애널리틱스 수업을 수강하고 있지는 않지만 수강한 내용을 정리하고자 한다. 정리 내용은 다음과 같은 순서이다. - Multiple criteria decision-making models - Social network analysis - Recommendation systems - Information retrieval and text mining - Data dimension reduction - Clustering algorithms - Classifiers with machine learning / Deep learning 많은 내용을 담기보단 이론과 실습을 간단히 정리하는 방향으로 작성될 예정이다. 또 수강한 강의의 강의자료와 유튜브, 구글링을 통한 정보를 취합할 예정이다. 다른 카테고..