본문 바로가기

DeepLearning

1일차 처음 만드는 인공지능 모델링

반응형
더보기

강사 : 장은진 

스마트 시티란? 

1. 다양한 데이터가 공유 및 분석되어 사용자의 필요에 맞게 제공되는 도시 

2. 예시 (국내) :

  • 교통정보시스템은 서울시의 전체적인 교통정보를 제공하는 플랫폼 (TOPIS)
  • 디지털 트윈 환경  : 서울시의 가시권을 미리 확인해 볼 수 있는 시스템

공유주차 시스템은 민간과 공공주차장을 통합하고 예약 및 결제를 원스톱으로 처리해주는 공유주차 시스템 (모두의 주차장)

3. 예시 (해외) : 

  • 태양광 패널 스마트 쓰레기통(Bigbelly Bins)은 비슷한 크기의 다른 쓰레기통 보다 최소 8배 쓰레기 처리 가능 뚜껑에 있는 쓰레기 감지 센서가 쓰레기가 어느 정도 차면 미화원에게 알람을 보냄
  • 코펜하겐 스트리트 랩(Street LAB)은 도시 내의 주차 정보 , 쓰레기 처리 , 공기 오염도, 소음 , 상하수도 정보 등을 취합하여 분석 

4. 도시가 스마트 해지는 이유 

지속적으로 다양한 데이터가 수집되고 분석되어 필요에 맞게 제공되기 때문

5.미래에는 ? 

  • 사람들의 다양한 수요에 맞는 맞춤 서비스를 제공하기 위해 미래에는 더욱 많이 정보가 수집, 분석, 처리 될 것으로 예상됩니다. 
  • 이에 따라 스마트 시키 관련 산업 또한 그 규모가 확대될 것으로 예측됩니다. 

6. 인공지능이란

인공적으로 학습된 지능으로 사람과 비슷한 판단을 할 수 있도록 구현된 지능

현재 기준 일부 분야에서는 사람보다 뛰어난 처리 능력을 갖는 인공지능도 존재함

인공지능 : 사고나 학습 등 인간이 가진 지적능력을 컴퓨터를 통해 구현하는 기술

머신 러닝 : 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상시키는 기술방법

딥러닝 : 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리하는 방법

7. 인공지능 학습방법 

우리가 개와 공양이를 분류할 수 있게 된 이유는 반복된 학습을 통해 해당 사물을 인지 분류할 수 있기 때문입니다. 

지도학습 : 학습할 데이터의 방향을 정해주고 진행되는 학습

비지도 학습 : 학습할 데이터의 방향을 정해주지 않고 진행되는 학습

강화 학습 : 정확한 학습이 되었을 때 보상을 주어 학습 정확도를 높이는 학습 

인공지능학습데이터

인공지능 학습을 위해 많은양의 데이터가 필요

이러한 학습데이터를 활용할 수 있는 사이트 

-> UCI Machine Learning Repository : 머신러닝을 위한 데이터 셋 제공

-> Kaggle : 전세계 data scientist 들이 데이터를 분석할 수 있는 대회를 개회하고 분석 내용을 토론할 수 있도록 정보를 제공하는 커뮤니티 

-> AI Hub 한국 지능정봐회 진흥원이 운영하는 AI통합 플랫폼

 

인공지능 데이터 분석 프로세스

 

데이터수집 ->  데이터 분석->  예측 모델 생성 ->  예측 모델 평가

드디어 실습

생활/복지 분야 데이터 기초 통계 분석 

orange3 설치 

miniconda 설치 

orange3 실행 -> new 

 data -> 데이터 입출력 및 정보관련 위젯

transform -> 데이터 처리 위젯

visualize ->  데이터 시각화 위젯

model -> 데이터 모델 위젯

evaluate -> 모델 성능 평가 위젯

unsupervised -> 비지도학습 위젯

 

 

데이터 준비 -> 훈련데이터 / 검증데이터 /테스트데이터 

 

동일하게 진행

독립변수 : 연구자가 의도적으로 변화시키는 변수

종속변수 : 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수 

-> 독립변수와 종속변수는 서로 인과 관계를 갖음 

예시 ) 흡연량에 따른 폐암 발병률을 알고 싶을 때 흡연량이 독립변수 , 폐암 발병률이 종속 변수가 됨. 

 

Logistic Regression (로지스틱 회귀 0)

사건발생의 가능성을 예측하는데 사용되는 통계 기법으로 종속 변수가 범주형일때 사용가능 (0~1 의 범위 1에 가까울 수록 발생가능성 높음 ) 

105개 45개 -> 45개 남은 데이터로 가지고 성능평가를 함 

 

https://truman.tistory.com/179

 

혼동행렬 / 정확도 / 정밀도 / 재현율 / F1 점수

1. 혼동행렬 (confusion matrix) 모델의 성능을 평가할때 사용되는 지표 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬 예상(예) 예상(아니오) 실제(예) TP FN 실제(아니오) FP TN TP(True

truman.tistory.com

Orange3를 활용한 심장 질환 예측 모델링

-> Orange 3 에서 기본적으로 제공되는 데이터를 활용하여 각요인들 (심전도, 연령, 성별, 콜레스테롤 , ST Segment 등)에 따라 심혈관 좁아짐 증상(diameter narrowing)을 예측하는 모델을 만들어 봅니다. 

SVM( Support Vector Machin)

SVM은 주어진 데이터가 어느 범위에 속할지 판단하는 이진 선형 분류 모델

이는 분류에 사용되는 지도학습 머신러닝 모델

  • 서포트벡터 를 사용해서 결정 경계를 정의
  • 서포트 벡터와 결정 경계 사이의 거리를 마진이라고 함 
  • 이상치 허용범위에 따라 하드 마진  소프트 마진으로 나뉨
  • SVM은 마진 최대화를 추구함

-> 소프트 마진을 현실에는 많이 사용함 -> 모델을 안정적으로 확인하기 위함 

반응형