# Be a Data Scientis ---  ## 얘네들 뭐예요 ? - Data Mining - Statistics - Deep Learning - Machine Learning - Big data - AI (Artificial Intelligence) : 4차 산업혁명, 알파고의 등장, Google Home(에코), Amazon, Google 의 미친짓 등등 요즘 가장 핫한 분야가 제가 위에 나열한 분야라고 생각 됩니다. 물론 IOT, Connected Car, Sharing economy 등 다양한 이슈들이 있지만 이슈들 또한 어떻게 데이터를 처리하고, 자동화 하는지에. 대한 부분이 core라 생각됩니다. 앞으로 이 분야에 관하여 Steemit 에 한글로 된 자료를 정리하자는 취지로 그 방점을 찍어보려 합니다. **저도 아직 모르는 것이 너무 많고, 제가 잘못된 지식을 알고 있을지도 모르니 언제든 첨언&수정&지적 부탁드립니다**. 데이터 분석의 개요와 용어 정리에서 시작하여 기본 알고리즘 소개, 분석툴 소개, 최신 연구동향 등에 대하여 **지극히 개인적인 견해로** 다룰 예정입니다. --- ### 그럼 첫 번째로 복잡하게 남용되고 있는 용어들을 나열해보고 Steemit kr 사용자는 같은 의미의 언어로 사용하고자 용어들을 정리해보도록 하겠습니다. --- - Data Mining : Data Mining은 가장 포괄적인 단어로 사용됩니다. `[데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.` [https://ko.wikipedia.org/] 데이터 마이닝은 ``` 데이터 저장 -> 데이터 불러오기 -> 데이터 정체하기 => 시각화 or 데이터 탐색 => 모델링 -> 제품화 or 자동화 -> 데이터 저장 ``` 의 사이클을 가지고 진행됩니다. => 의 표시로 된 부분에서는 시각화/데이터 탐색에서 사이클이 종료되고 다시 처음으로 돌아갈 수도 있고, 같은 의미로 => 모델링이 종료되고 다시 처음으로 돌아갈 수 있습니다. 여러 종류의 알고리즘이 있고, 굉장히 광범위한 부분이라 오늘은 '아 이런거다~' 의 개념만 드리도록 하겠습니다. - Statistics : 통계학은 데이터에 접근하는 전통적인 방법으로, 크게 두가지 종류로 나누어 볼 수 있습니다. 기술통계와 추리통계로 나누어 지는데, 기술통계는 평균, 분산 등 한 종류의 자료 설명에 관심이 많은 친구입니다. 사과 한상자가 있는데 그 상자안에 있는 사과 크기의 평균, 사과 크기 분산 등과 같이 사과 한놈한테만 관심이 있습니다. 추리통계는 두 개 이상의 변수에 관심이 많은데 (사실 표본을 추출하고 모수를 추청하는 통계기법이지만 다른 관점으로 바라보면) 사과 한상자가 있는데 그 안에 사과들 당도가 얼마나 되는지 알고싶습니다. 근데 모든 사과를 다 먹어볼 수 없으니 3개 정도를 먹어보고 '아 이 상자속 사과는 달구나' 라고 판단을 내릴 수 있죠. 이 때 우리는 사과 - 당도 의 관계에 대하여 생각해 봅니다. 통계학은 데이터 마이닝을 수행하는 하나의 도구로 사용된다 생각하시면 좋으실 듯 합니다. (오로지 데이터 과학자의 관점 + 저의 관점 입니다) - Deep Learning : Deep Learning 은 사실 그냥 큰 범주를 갖는 알고리즘 중 하나입니다. Deep learning 이라는 용어가 너무 유행이라 여기에 넣어 보았습니다. Deep learning 은 Neural network 라는 machine learning 도구를 좀더 학습을 잘하도록 발전시킨 것이라 생각하시면 됩니다. 이 부분에 대해서는 나중에 더욱 자세히 들여다 볼 예정입니다. (Deep learning은 만능이 아니야!! 라고 혼자 소리쳐 봅니다) - Machine Learning : `머신러닝은 이렇게 ‘기계’가 일일이 코드로 명시하지 않은 동작을 데이터로부터 ‘학습’하여 실행할 수 있도록 하는 ‘알고리즘’을 개발하는 연구 분야이다. (1959년 아서 사무엘)`. 기계에게 어떻게 동작하도록 하나하나 모두 입력하지 않고도 스스고 학습하여 원하는 행동을 하도록 만드는 것을 이야기 합니다. 알파고에게 기보를 주고 바둑을 스스로 학습시킨 것 처럼 목표를 가지고 그 목표에 알맞게 기계가 행동하도록 만드는 것입니다. > Machine learning vs Data Mining : 이 둘은 매우 유사하고 겹치는 부분도 많지만 이름에서 풍기는 느낌처럼 Machine learning은 기계를 학습시키는 것을 목표로 하고, Data Mining은 데이터에서 지식을 발견하는 것을 목표로 합니다. - Big data : Big data 는 말그대로 많은 데이터 입니다. 데이터가 많아진다고 해서 완벽한 기계를 만들거나, 엄청난 정보를 뽑아낼 수 있다는 것은 아닙니다. 요즘 빅데이터라는 용어가 많이 사용되고, 컴퓨팅 능력의 향상으로 기술이 발전된 것은 맞지만, Big data라는 단어가 분석&AI 등 모든것을 내재하고 있는 듯하게 사용된다는 점은 조심해야 할 부분이라 생각됩니다. small data에서도 엄청난 insight를 뽑아낼 수 있습니다. - AI (Artificial Intelligence) : Machine Learning을 통하여 기계 스스로 결정을 내리거나 주어진 task를 수행하는 모든 것을 말합니다. 물리적 기계를 지칭하는 말로 주로 사용되지만 소프트웨어나 자동화 프로그램 모두 AI 라고 불립니다. Strong AI & Weak AI 등에 대한 이슈도 많은 논의가 필요하고, 이야기가 필요하다 생각됩니다. --- 처음 접하는 분들에게는 너무 내용이 어려울 수 있기에 마지막으로 요리에 비유하여 정리해보도록 하겠습니다. - Data Mining = 요리하는 모든 과정! (재료 재배부터 신요리 개발까지) - Statistics = 요리 재료 확인 - Deep Learning = 요리하는 방법 중 하나 - Machine Learning = 기계가 요리재료도 분류해주고, 자동화 요리 - Big data = 재료도 많고, 종류도 많음 - AI (Artificial Intelligence) = 사람에게 뭐먹을지 물어보고 요리해주는 machine - Data Scientist = 요리사! 사실 너무 주관적으로 정리한 글이라 틀린 부분도 존재하고, 공개된 공간에 글을 옮기는 것이 조심스럽지만 Data science를 공부하는 초심자의 입장에서 소개하는 글을 적고 싶었습니다. 읽어주셔서 감사합니다.
author | yongju |
---|---|
permlink | be-a-data-scientist--and-and-and |
category | kr |
json_metadata | {"tags":["kr","kr-newbie","datascience","machinelearing","ai"],"image":["https://steemitimages.com/DQmPhZejBTwwcQUsgg9jCjogeiYg4mC1RnFHqqsc1TRdgkP/image.png"],"links":["https://ko.wikipedia.org/"],"app":"steemit/0.1","format":"markdown"} |
created | 2017-05-27 12:20:54 |
last_update | 2017-05-27 12:22:24 |
depth | 0 |
children | 4 |
last_payout | 2017-06-03 12:20:54 |
cashout_time | 1969-12-31 23:59:59 |
total_payout_value | 22.740 HBD |
curator_payout_value | 6.569 HBD |
pending_payout_value | 0.000 HBD |
promoted | 0.000 HBD |
body_length | 3,310 |
author_reputation | 252,952,619,615 |
root_title | "[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)" |
beneficiaries | [] |
max_accepted_payout | 1,000,000.000 HBD |
percent_hbd | 10,000 |
post_id | 3,851,393 |
net_rshares | 7,204,120,990,468 |
author_curate_reward | "" |
voter | weight | wgt% | rshares | pct | time |
---|---|---|---|---|---|
leesunmoo | 0 | 246,128,676,384 | 100% | ||
sonzweil | 0 | 164,340,526,402 | 100% | ||
slowwalker | 0 | 2,386,865,262,008 | 70% | ||
jay4u | 0 | 23,425,648,490 | 100% | ||
bitland | 0 | 1,555,814,148 | 100% | ||
ioc | 0 | 312,291,216,284 | 100% | ||
oldstone | 0 | 391,367,169,992 | 100% | ||
jsg | 0 | 37,230,314,594 | 100% | ||
twinbraid | 0 | 13,117,508,648 | 100% | ||
blacktier | 0 | 28,831,476,594 | 100% | ||
siniceku | 0 | 819,650,896 | 100% | ||
sanghkaang | 0 | 281,377,944,473 | 100% | ||
sochul | 0 | 553,467,694,343 | 100% | ||
gotoperson | 0 | 1,125,217,083,936 | 100% | ||
steemitpoem | 0 | 8,744,764,688 | 100% | ||
corn113 | 0 | 115,380,123,995 | 50% | ||
yoon | 0 | 181,069,857,046 | 70% | ||
daniel.dalo | 0 | 1,036,994,096 | 57% | ||
economyit | 0 | 12,163,574,367 | 100% | ||
cnstlf60 | 0 | 7,132,377,262 | 100% | ||
coinkorea | 0 | 1,044,196,937,305 | 25% | ||
haerang2 | 0 | 0 | 100% | ||
ludorum | 0 | 256,290,470,136 | 100% | ||
marcusxman | 0 | 730,960,153 | 5% | ||
lhamed | 0 | 1,634,545,815 | 100% | ||
steem.korea | 0 | 1,537,045,615 | 100% | ||
ianlim | 0 | 1,485,061,045 | 100% | ||
naanruble | 0 | 3,529,551,287 | 50% | ||
leomichael | 0 | 393,997,762 | 100% | ||
vimva | 0 | 1,091,062,930 | 100% | ||
yongju | 0 | 1,515,363,816 | 100% | ||
aidensong | 0 | 152,315,958 | 100% |
제가 공부할 대만 해도 지도교수님이 AI쪽으로는 말리는 분위기였습니다. 한때는 논문도 안받아주는 시절이 있었다고 합니다. 학계가 AI에 좌절한 영향이었을겁니다.
author | ianlim |
---|---|
permlink | re-yongju-be-a-data-scientist--and-and-and-20170529t020418898z |
category | kr |
json_metadata | {"tags":["kr"],"app":"steemit/0.1"} |
created | 2017-05-29 02:04:18 |
last_update | 2017-05-29 02:04:18 |
depth | 1 |
children | 0 |
last_payout | 2017-06-05 02:04:18 |
cashout_time | 1969-12-31 23:59:59 |
total_payout_value | 0.000 HBD |
curator_payout_value | 0.000 HBD |
pending_payout_value | 0.000 HBD |
promoted | 0.000 HBD |
body_length | 89 |
author_reputation | 2,017,944,163,420 |
root_title | "[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)" |
beneficiaries | [] |
max_accepted_payout | 1,000,000.000 HBD |
percent_hbd | 10,000 |
post_id | 3,907,412 |
net_rshares | 0 |
와 평소에 궁금했던 내용들이에요! 맨날 많이 들었지만 사실 내용까지는 생소한 단어들이라 큰 도움이 됐습니다 ! 다음 글들도 기대되네요
author | lhamed |
---|---|
permlink | re-yongju-be-a-data-scientist--and-and-and-20170601t024553784z |
category | kr |
json_metadata | {"tags":["kr"],"app":"steemit/0.1"} |
created | 2017-06-01 02:45:54 |
last_update | 2017-06-01 02:45:54 |
depth | 1 |
children | 0 |
last_payout | 2017-06-08 02:45:54 |
cashout_time | 1969-12-31 23:59:59 |
total_payout_value | 0.000 HBD |
curator_payout_value | 0.000 HBD |
pending_payout_value | 0.000 HBD |
promoted | 0.000 HBD |
body_length | 75 |
author_reputation | 9,161,544,535,077 |
root_title | "[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)" |
beneficiaries | [] |
max_accepted_payout | 1,000,000.000 HBD |
percent_hbd | 10,000 |
post_id | 4,016,831 |
net_rshares | 0 |
오 이 포스팅을 통해 Data science에 대한 큰 그림을 머릿속에 그려볼 수 있을 것 같네요! 평소에 제 전공인 심리학의 특성상 추론통계만을 주로 사용하고 있어서 머신러닝이나 빅데이터 분석 등에 관심이 많습니다. 앞으로도 좋은 포스팅 기대하겠습니다 :)
author | vimva |
---|---|
permlink | re-yongju-be-a-data-scientist--and-and-and-20170528t071154918z |
category | kr |
json_metadata | {"tags":["kr"],"app":"steemit/0.1"} |
created | 2017-05-28 07:11:57 |
last_update | 2017-05-28 07:12:09 |
depth | 1 |
children | 1 |
last_payout | 2017-06-04 07:11:57 |
cashout_time | 1969-12-31 23:59:59 |
total_payout_value | 0.000 HBD |
curator_payout_value | 0.000 HBD |
pending_payout_value | 0.000 HBD |
promoted | 0.000 HBD |
body_length | 144 |
author_reputation | 44,388,156,466,824 |
root_title | "[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)" |
beneficiaries | [] |
max_accepted_payout | 1,000,000.000 HBD |
percent_hbd | 10,000 |
post_id | 3,879,365 |
net_rshares | 0 |
감사합니다! 사실 쉽게 정리해서 쓴다고 했지만 글쓰는 능력이 부족하여 너무 모자란 것 같습니다. 저 스스로 발전시킬 수 있는 기회라 생각하고, 앞으로 많이 지켜봐 주세요!
author | yongju |
---|---|
permlink | re-vimva-re-yongju-be-a-data-scientist--and-and-and-20170528t072534384z |
category | kr |
json_metadata | {"tags":["kr"],"app":"steemit/0.1"} |
created | 2017-05-28 07:18:39 |
last_update | 2017-05-28 07:18:39 |
depth | 2 |
children | 0 |
last_payout | 2017-06-04 07:18:39 |
cashout_time | 1969-12-31 23:59:59 |
total_payout_value | 0.000 HBD |
curator_payout_value | 0.000 HBD |
pending_payout_value | 0.000 HBD |
promoted | 0.000 HBD |
body_length | 96 |
author_reputation | 252,952,619,615 |
root_title | "[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)" |
beneficiaries | [] |
max_accepted_payout | 1,000,000.000 HBD |
percent_hbd | 10,000 |
post_id | 3,879,506 |
net_rshares | 0 |