<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom"><title type="text">博客园_个人博客已迁移至codinglabs.org，博客园不再更新_分类_[11]数据挖掘</title><id>http://feed.cnblogs.com/blog/u/35418/category/273456/rss</id><updated>2012-06-03T20:24:07Z</updated><generator>feed.cnblogs.com</generator><link rel="alternate" type="text/html" href="http://www.cnblogs.com/leoo2sk/category/273456.html"/><link rel="self" type="application/atom+xml" href="http://feed.cnblogs.com/blog/u/35418/category/273456/rss"/><entry><id>http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html</id><title type="text">算法杂货铺——k均值聚类(K-means)</title><summary type="text">在前面的文章中，介绍了三种常见的分类算法。分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k均值和k中心点聚类，最后会举一个实例：应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。</summary><published>2010-09-20T12:05:00Z</published><updated>2010-09-20T12:05:00Z</updated><author><name>T2噬菌体</name><uri>http://www.cnblogs.com/leoo2sk/</uri></author><link rel="alternate" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html"/><content type="html"/></entry><entry><id>http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html</id><title type="text">算法杂货铺——分类算法之决策树(Decision tree)</title><summary type="text"> 在前面两篇文章中，分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础，可以对分类及决策问题进行概率推断。在这一篇文章中，将讨论另一种被广泛使用的分类算法——决策树（decision tree）。相比贝叶斯算法，决策树的优势在于构造过程不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。</summary><published>2010-09-19T08:30:00Z</published><updated>2010-09-19T08:30:00Z</updated><author><name>T2噬菌体</name><uri>http://www.cnblogs.com/leoo2sk/</uri></author><link rel="alternate" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html"/><content type="html"/></entry><entry><id>http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html</id><title type="text">算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)</title><summary type="text">在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件，就是特征属性必须有条件独立或基本独立（实际上在现实应用中几乎不可能做到完全独立）。当这个条件成立时，朴素贝叶斯分类法的准确率是最高的，但不幸的是，现实中各个特征属性间往往并不条件独立，而是具有较强的相关性，这样就限制了朴素贝叶斯分类的能力。这一篇文章中，我们接着上一篇文章的例子，讨论贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络（又称贝叶斯信念网络或信念网络）。</summary><published>2010-09-18T14:50:00Z</published><updated>2010-09-18T14:50:00Z</updated><author><name>T2噬菌体</name><uri>http://www.cnblogs.com/leoo2sk/</uri></author><link rel="alternate" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html"/><content type="html"/></entry><entry><id>http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html</id><title type="text">算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)</title><summary type="text">贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。</summary><published>2010-09-17T05:09:00Z</published><updated>2010-09-17T05:09:00Z</updated><author><name>T2噬菌体</name><uri>http://www.cnblogs.com/leoo2sk/</uri></author><link rel="alternate" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html"/><content type="html"/></entry></feed>
