<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom"><title type="text">博客园_Yin.P.Cube</title><subtitle type="text">源于数据而高于数据</subtitle><id>http://feed.cnblogs.com/blog/u/48388/rss</id><updated>2010-03-12T14:43:04Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><generator>feed.cnblogs.com</generator><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/"/><link rel="self" type="application/atom+xml" href="http://feed.cnblogs.com/blog/u/48388/rss"/><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/10/08/1578942.html</id><title type="text">Searcharoo源码学习日志（二）</title><summary type="text">Searcharoo第二版相对第一版做了很多改动，如将之前的基于当前站点的文件索引换成了基于Internet的网络爬行器、新增了HtmlDocument对象作为中间文档对象用于暂存文档信息、增加对已访问页面的判断处理、新增使用HttpWebRequest对象去获取Internet文档内容、新增去除页面内容中的脚本块样式块等功能。</summary><published>2009-10-07T18:19:00Z</published><updated>2009-10-07T18:19:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/10/08/1578942.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/10/08/1578942.html"/><content type="text">Searcharoo第二版相对第一版做了很多改动，如将之前的基于当前站点的文件索引换成了基于Internet的网络爬行器、新增了HtmlDocument对象作为中间文档对象用于暂存文档信息、增加对已访问页面的判断处理、新增使用HttpWebRequest对象去获取Internet文档内容、新增去除页面内容中的脚本块样式块等功能。</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/10/06/1578543.html</id><title type="text">Searcharoo源码学习日志（一）</title><summary type="text">Searcharoo源码学习系列文章将会对这套开源搜索引擎的各个版本（主要是前几个版本，因为关于搜索技术的变化更新主要体现在前几个版本，后面的版本主要是一些扩展和展现方式的改进）源代码进行简单的介绍，包括组成这个搜索引擎的各部分及其在各版本中的发展过程。从上一篇文章中我们可以大概了解到Searcharoo是一套比较简单且易于上手学习的搜索引擎开源项目。从这篇文章开始我们就要从细节来学习这套搜索引擎源代码。</summary><published>2009-10-06T10:10:00Z</published><updated>2009-10-06T10:10:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/10/06/1578543.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/10/06/1578543.html"/><content type="text">Searcharoo源码学习系列文章将会对这套开源搜索引擎的各个版本（主要是前几个版本，因为关于搜索技术的变化更新主要体现在前几个版本，后面的版本主要是一些扩展和展现方式的改进）源代码进行简单的介绍，包括组成这个搜索引擎的各部分及其在各版本中的发展过程。从上一篇文章中我们可以大概了解到Searcharoo是一套比较简单且易于上手学习的搜索引擎开源项目。从这篇文章开始我们就要从细节来学习这套搜索引擎源代码。</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/09/29/1576626.html</id><title type="text">Searcharoo —— 一个适合学习研究的搜索引擎项目</title><summary type="text">这次我要介绍一套开源的搜索引擎项目，名字为Searcharoo，这个项目来自CodeProject，同时也有自己的一个网站（http://www.searcharoo.net/），在网站中可以下载其源码也可以看到每个版本间演化的详细介绍。这套搜索引擎不像Lucene和Nutch那样复杂，代码少很多，因此我认为它非常适合用于初学搜索技术。</summary><published>2009-09-29T13:49:00Z</published><updated>2009-09-29T13:49:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/09/29/1576626.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/09/29/1576626.html"/><content type="text">这次我要介绍一套开源的搜索引擎项目，名字为Searcharoo，这个项目来自CodeProject，同时也有自己的一个网站（http://www.searcharoo.net/），在网站中可以下载其源码也可以看到每个版本间演化的详细介绍。这套搜索引擎不像Lucene和Nutch那样复杂，代码少很多，因此我认为它非常适合用于初学搜索技术。</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/06/16/1503938.html</id><title type="text">基于Lucene.NET的文件搜索工具</title><summary type="text">本文要介绍的是利用Lucene.NET写的一个简单的文档搜索器。实现最基本的索引和搜索功能。编写这个小工具的初衷之一是因为我收集的专业资料文档越来越多，有时想要在计算机中找到自己想要的文档却不知道自己之前把那些资料放到了什么地方，而且现在的硬盘越来越大，目录结构也越来越复杂，常常要花很多时间去查找自己想要的资料。有了这个搜索工具，只要定期重新建立索引，就可以方便快速地找到自己想要的东西，其次是因为正好这段时间想花时间了解一下Lucene.NET这个开源库学习一下搜索引擎的原理</summary><published>2009-06-15T16:34:00Z</published><updated>2009-06-15T16:34:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/06/16/1503938.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/06/16/1503938.html"/><content type="text">本文要介绍的是利用Lucene.NET写的一个简单的文档搜索器。实现最基本的索引和搜索功能。编写这个小工具的初衷之一是因为我收集的专业资料文档越来越多，有时想要在计算机中找到自己想要的文档却不知道自己之前把那些资料放到了什么地方，而且现在的硬盘越来越大，目录结构也越来越复杂，常常要花很多时间去查找自己想要的资料。有了这个搜索工具，只要定期重新建立索引，就可以方便快速地找到自己想要的东西，其次是因为正好这段时间想花时间了解一下Lucene.NET这个开源库学习一下搜索引擎的原理</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/06/11/1501013.html</id><title type="text">MDX Procedure Based on .NET</title><summary type="text">MDX script in SSAS provides strong functions for multidimensional data analysis, however many problems are hard to solve with MDX actually. Because not all the problems can be cope with MDX script. In other words, these problems will be solved by coding way easily. MDX procedure is supported by all the .NET languages.The .NET MDX procedure can be used when a assembly that contain the specific procedure is deployed into the analysis server or multidimensional dataset. It is a demo .NET MDX proced</summary><published>2009-06-10T16:48:00Z</published><updated>2009-06-10T16:48:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/06/11/1501013.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/06/11/1501013.html"/><content type="text">MDX script in SSAS provides strong functions for multidimensional data analysis, however many problems are hard to solve with MDX actually. Because not all the problems can be cope with MDX script. In other words, these problems will be solved by coding way easily. MDX procedure is supported by all the .NET languages.The .NET MDX procedure can be used when a assembly that contain the specific procedure is deployed into the analysis server or multidimensional dataset. It is a demo .NET MDX proced</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/05/30/1492561.html</id><title type="text">Debug MDX Procedure Based .NET in Visual Studio</title><summary type="text">It's really a piece of cake to debug MDX procedure in Visual Studio. It will be done just in only a few steps. In Visual Studio 2010(the same to VS2005 and VS2008), you should attach the MDX procedure project to the Analysis Service process(msmdsrv.exe), and then the assemblies which are needed will be loaded automatically. The specific MDX procedure will also be loaded by Analysis Service.</summary><published>2009-05-30T15:48:00Z</published><updated>2009-05-30T15:48:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/30/1492561.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/30/1492561.html"/><content type="text">It's really a piece of cake to debug MDX procedure in Visual Studio. It will be done just in only a few steps. In Visual Studio 2010(the same to VS2005 and VS2008), you should attach the MDX procedure project to the Analysis Service process(msmdsrv.exe), and then the assemblies which are needed will be loaded automatically. The specific MDX procedure will also be loaded by Analysis Service.</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490398.html</id><title type="text">调试.NET的MDX存储过程</title><summary type="text">在Visual Studio中调试MDX存储过程非常简单，只要几步设置就可以实现。对于Visual Studio 2010(与VS2005和VS2008的设置方法相同)。在Visual Studio中将存储过程项目附加到分析服务器进程（msmdsrv.exe进程），附加进程之后它会自动加载程序集</summary><published>2009-05-26T13:18:00Z</published><updated>2009-05-26T13:18:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490398.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490398.html"/><content type="text">在Visual Studio中调试MDX存储过程非常简单，只要几步设置就可以实现。对于Visual Studio 2010(与VS2005和VS2008的设置方法相同)。在Visual Studio中将存储过程项目附加到分析服务器进程（msmdsrv.exe进程），附加进程之后它会自动加载程序集</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490397.html</id><title type="text">利用.NET扩展MDX存储过程</title><summary type="text">SSAS的MDX脚本提供了强大的数据分析查询功能，然而在实际使用中同样会遇到一些问题使得用MDX来表达比较困难，因为MDX并不能提供满足年有数据分析需求的函数，这个时候可以尝试通过基于.NET的存储过程以编程的方式来完成我们特定的功能需求。基于.NET的MDX存储过程支持所有基于.NET平台的编程语言。</summary><published>2009-05-26T13:17:00Z</published><updated>2009-05-26T13:17:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490397.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/26/1490397.html"/><content type="text">SSAS的MDX脚本提供了强大的数据分析查询功能，然而在实际使用中同样会遇到一些问题使得用MDX来表达比较困难，因为MDX并不能提供满足年有数据分析需求的函数，这个时候可以尝试通过基于.NET的存储过程以编程的方式来完成我们特定的功能需求。基于.NET的MDX存储过程支持所有基于.NET平台的编程语言。</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/05/22/1487323.html</id><title type="text">对Weka中DBSCAN算法的分析以及在C#中的实现</title><summary type="text">DBSCAN算法是常用的数据挖掘算法。所有的聚类方法分为若干类型，前面讨论过的KMEANS算法是基于划分的方法进行聚类，而这次提到的DBSCAN算法是基于密度的方法。当然其它的还有基于层次凝聚和分裂的方法、基于模型的方法等。我先对Weka中实现的DBSCAN算法进行一个介绍和分析，然后再给出我自己的实现方法。但是在这之前要解释几个概念，如果之前没有了解过这个算法的话，最好是先熟悉几个概念：epsilon-邻域、核心对象、（直接）密度可达、密度相连，这些概念可以在《数据挖掘概念与技术》一书中找到，了解这些概念对理解这个算法来说是很重要的。</summary><published>2009-05-22T12:43:00Z</published><updated>2009-05-22T12:43:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/22/1487323.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/22/1487323.html"/><content type="text">DBSCAN算法是常用的数据挖掘算法。所有的聚类方法分为若干类型，前面讨论过的KMEANS算法是基于划分的方法进行聚类，而这次提到的DBSCAN算法是基于密度的方法。当然其它的还有基于层次凝聚和分裂的方法、基于模型的方法等。我先对Weka中实现的DBSCAN算法进行一个介绍和分析，然后再给出我自己的实现方法。但是在这之前要解释几个概念，如果之前没有了解过这个算法的话，最好是先熟悉几个概念：epsilon-邻域、核心对象、（直接）密度可达、密度相连，这些概念可以在《数据挖掘概念与技术》一书中找到，了解这些概念对理解这个算法来说是很重要的。</content></entry><entry><id>http://www.cnblogs.com/SmartBizSoft/archive/2009/05/14/1457161.html</id><title type="text">文本向量表示及TFIDF词汇权值</title><summary type="text">文本相似计算是进行文本聚类的基础，和传统结构化数值数据的聚类方法类似，文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同，文本数据是一种半结构化数据，在进行文本挖掘之前必须要对文本数据源进行处理，如分词、向量化表示等，其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分析计算。</summary><published>2009-05-14T15:16:00Z</published><updated>2009-05-14T15:16:00Z</updated><author><name>Yin.P</name><uri>http://www.cnblogs.com/SmartBizSoft/</uri></author><link rel="alternate" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/14/1457161.html"/><link rel="alternate" type="text/html" href="http://www.cnblogs.com/SmartBizSoft/archive/2009/05/14/1457161.html"/><content type="text">文本相似计算是进行文本聚类的基础，和传统结构化数值数据的聚类方法类似，文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同，文本数据是一种半结构化数据，在进行文本挖掘之前必须要对文本数据源进行处理，如分词、向量化表示等，其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分析计算。</content></entry></feed>
