글
real time recommendation: Google News Personalization: Scalable Online Collaborative Filtering 논문 읽기
설정
아직 읽는 중.
Memory based
[PDF]Instance Selection Techniques for Memory-Based ... - DBS
는 online training set이 너무 적다. 정말 크고, 팍팍 변화하는 환경에서는 어울리지 않는다.
논문을 읽어봤더니, memory-based, model-based 설명이 잘 돼 있었다.
users를 다 쓰기엔 너무 많으니까 일부 users만 추려서 collaborative filtering하려는 거네. users selection는 algorithms이 논문의 핵심.
[PDF]Item-based Collaborative Filtering Recommendation ...
도 읽어봤다.
users similarity를 쓰기에는 users가 너무 많고, dynamic하니까 비교적 static한 items의 similarity를 이용하는 논문. popular items만 이용하면 data도 줄일 수 있다.
Model based
users를 clustering한다.
여러 interests를 가진 user를 modeling하기 위해 LSI, Bayesian clustering, PLSI, Markov decision process, LDA 등을 쓴다.
systems 구성을 깔끔한 그림과 자세한 설명으로 소개해줘서 좋네.
따로 공부
Minhashing
11분부터 강의 시작.
jaccard similarity를 정확하게 계산하는 게 아니라 random permutation 중 첫 번째 1이 어디 있냐를 비교하는 방식으로 estimation
hash 중 min을 찾는 방법으로 대신한다.
LSH
설명 중 umm이 많다.
Minhash에 LSH를 쓴다.
https://www.coursera.org/course/mmds
Week 7 Materials
(expanded, click to collapse)
Completed LSH Families (21:13) slides for LSH Families (21:13) Subtitles (text) for LSH Families (21:13) Subtitles (srt) for LSH Families (21:13) Video (MP4) for LSH Families (21:13)
Completed More About LSH Families (12:57)
...
안에도 설명이 있는데, 화질, 음질이 더 깔끔하다.
하지만, 너무 어렵다 ...
LSI
stanford ng 옛날 강의
text에서 PCA하는 셈. 거의 비슷하다. 그게 끝? LSI설명은 거의 없네.
subspace에 projection하는 것?
PCA, SVD 관계도 조금 알 수 있다. SVD를 이용해서 Xt * X의 eigenvectors (columns of U)를 알아내서 PCA를 계산하는 방법이 있다.
'공부 > Computers' 카테고리의 다른 글
codejam 2018 R1B R1C practice (0) | 2020.04.10 |
---|---|
kickstart 2019 Round A 공부 (0) | 2020.03.16 |
cs231n stanford dnn image classification 보는 중 (1) | 2016.08.07 |
SPRING FRAMEWORK ESSENTIALS video 보기 (2) | 2016.06.17 |
videolectures로 PLSI, LDA 공부 (1) | 2016.04.18 |
groovy study (0) | 2015.12.28 |
Tinkerpop and Titan graph database study (0) | 2015.12.25 |
Mining Massive Datasets, Coursera (0) | 2015.05.24 |
2015 google codejam Round 1B 실패 기록 (5) | 2015.05.12 |
2015 google codejam QR 문제 풀이 (6) | 2015.04.18 |
글
Mining Massive Datasets
선생님 3명
1명 원어민
1명 조금 유럽 발음
1명 조금 인도 발음
유럽 발음 선생님 내용이 제일 관심이 있고, 집중이 잘 된다.
machine learning 기술도 많이 배운다.
수학은 좀 덜 나온다. 증명 같은 것은 없다. 이해만 하고 넘어간다.
진도
Link Analysis and PageRank (9:39)
page rank 드디어 배웠다. 계산을 이제 할 수 있겠다!
hash function으로 빠르게 계산하는 거 잘 모르겠네.
Week 03
Good cluster
max within-cluster connections
min inter-cluster connections
conductance score = cut score / degrees
optimal cut is NP-hard
Laplacian matrix를 만들어서 eigenvalue decomposition을 하면, 신기하게도 k cluster로 나뉜다.
bipartite subgraphs K_s,t
week02에서 frequent itemset enumeration 대충 봤는데, 여기서 다시 쓰이네.
big data page rank 계산법 등 page rank에 대한 advanced topics에 대해서도 다시 보기.
'공부 > Computers' 카테고리의 다른 글
SPRING FRAMEWORK ESSENTIALS video 보기 (2) | 2016.06.17 |
---|---|
videolectures로 PLSI, LDA 공부 (1) | 2016.04.18 |
real time recommendation: Google News Personalization: Scalable Online Collaborative Filtering 논문 읽기 (0) | 2016.04.01 |
groovy study (0) | 2015.12.28 |
Tinkerpop and Titan graph database study (0) | 2015.12.25 |
2015 google codejam Round 1B 실패 기록 (5) | 2015.05.12 |
2015 google codejam QR 문제 풀이 (6) | 2015.04.18 |
WWDC Core animation videos (0) | 2015.04.09 |
google code jam 2014 R1 A A Charging chaos (0) | 2015.04.07 |
2012 Gogle code jam Round 1A practice 다시 풀어 보기 (0) | 2015.04.06 |
RECENT COMMENT