5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

Web上のゴミ文章を分別する方法

1 : ◆zzzbb2c.e6 (東京都):2011/06/15(水) 23:19:14.93 ID:48SpqrI6P ?PLT(12000) ポイント特典

第5回 Web上のゴミ文章を分別する方法
2011/06/15
石井 哲=クオリカ

(前略)

「全文関連度が80%以上」の文書はゴミと割り切れ

 製品に対する評価などを拾い出そうとするうえで、Webには3種類のゴミがある。1つ目は、愚痴やため息といっ
た、たわいない日常を記述した内容だ。これは分析時に分別可能である。今回の震災で話題となったデマや風評
もこの範疇に属する。

 2つ目はアフィリエイト目的で行われる、同内容の文章のマルチポスト、無断コピペ(コピー&ペースト=転写)、
自動投稿ツールなどによるゴミである。こうした「お金欲しさで生成されたゴミ情報」は、通常に比べて数十倍・数
百倍もの熱意を持って投稿されるのでタチが悪い。日本国内のブログの約4割がスパムブログである、という調査
もあるほどだ。

 3つ目は、引用文である。Webコミュニケーションでは、引用やコピペが頻繁に行われており、これも分析の邪魔
となる。

 ゴミの大部分は通常、2番目のコピペ文書と3番目の引用文である。それらの削除手法についてブログを例に
取って紹介しよう。

 まずコピペ文書の除去手法である。ある商品名でブログ記事を収集し、それらの記事全文での関連度の分布を
分析した例を示す(図2)
http://itpro.nikkeibp.co.jp/article/COLUMN/20110609/361226/zu02.gif

全文はソースで
http://itpro.nikkeibp.co.jp/article/COLUMN/20110609/361226/

2 :名無しさん@涙目です。(鹿児島県):2011/06/15(水) 23:19:57.72 ID:SmCgImkm0
http://up3.viploader.net/ippan/src/vlippan216416.jpg
ゴミ画像

3 :名無しさん@涙目です。(関東):2011/06/15(水) 23:23:42.68 ID:sXmXvR/PO
クソな人間の集まるクソな空気のν速でも、まともなレスだけ抽出したまとめブログを
通せば、立派だったり面白い人たちが集まるネット掲示板に見えてしまうすごさ。

4 :名無しさん@涙目です。(東京都):2011/06/15(水) 23:23:51.29 ID:2kuItuLC0
●●については日頃から気になっていまして、色々調べて行くうちに
どうせなら情報はシェアしたいと思い、この記事を書いています。
あなたの知りたい情報があればいいなぁ。

5 :名無しさん@涙目です。(チベット自治区):2011/06/15(水) 23:26:32.26 ID:fV2v+KGs0
Google検索する時のはてなの鬱陶しさは異常

6 :名無しさん@涙目です。(東京都):2011/06/15(水) 23:38:55.84 ID:y+0oEjuW0
>>5
-
つければいいだろが

7 :名無しさん@涙目です。(東京都):2011/06/15(水) 23:58:48.91 ID:48SpqrI60
なんか珍しく>>1がまとも

8 :名無しさん@涙目です。(チベット自治区):2011/06/16(木) 00:13:47.84 ID:loIuF06X0
自分が歳をとった分だけ相対的に読むに耐えるものが減ってくるわ゜

まあ専門書に移行すべきなんだろうけどな

9 :名無しさん@涙目です。(dion軍):2011/06/16(木) 00:15:55.88 ID:uNj+tuMk0
chromeの拡張機能のPersonal Blocklistはいいよ
ドメインで非表示にできるし

10 :名無しさん@涙目です。(長屋):2011/06/16(木) 00:17:07.62 ID:7ffrv4eR0
昔より検索がめんどくなったね
買ってもいない商品を紹介してるblogとか引っかかる

11 :名無しさん@涙目です。(長屋):2011/06/16(木) 00:18:33.51 ID:nP0WUFuU0
ロボット型の検索エンジンはもうやめないか
ゴミしかねー

12 :名無しさん@涙目です。(チベット自治区):2011/06/16(木) 00:19:22.23 ID:loIuF06X0
ここでは評判の悪いはてなだが、俺ははてブの新着エントリは見てるんだよね
で、特定の文字列が入ってる記事だけ非表示みたいなことって出来ないのかね
div単位で制御?するのか?

13 :名無しさん@涙目です。(埼玉県):2011/06/16(木) 00:21:43.59 ID:31Z0NABC0
>>12
グリモンで簡単に出来そうだな
俺にはとても出来ないけど

14 :名無しさん@涙目です。(dion軍):2011/06/16(木) 00:22:10.01 ID:Ond5DlohP
>>10
確かに一昔前に比べて、ここで言う「ゴミ」の量は格段に増えたな


15 :名無しさん@涙目です。(九州):2011/06/16(木) 00:22:42.88 ID:MuAZiZnYO
ネット時代になっても情報を量的に処理してるやつは馬鹿だと思うよ

16 :名無しさん@涙目です。(新潟県):2011/06/16(木) 00:23:48.12 ID:umgP2xyc0
−blog −twitter −楽天 −はてな

17 :名無しさん@涙目です。(catv?):2011/06/16(木) 00:24:08.95 ID:K7V9OqIrP
まずブログ除外

18 :名無しさん@涙目です。(チベット自治区):2011/06/16(木) 01:18:28.88 ID:loIuF06X0
>>13
グリモンか、調べてみるわ

19 :名無しさん@涙目です。(dion軍):2011/06/16(木) 01:19:46.51 ID:48PmODF10
回線で首吊る

20 :名無しさん@涙目です。(千葉県):2011/06/16(木) 01:20:52.40 ID:Aiu3vjp60
昔は検索エンジンはヒットすればするほどよかったのに
今じゃゴミだらけで質のほうが重要になってきてるな・・・逆戻りかよ

21 :名無しさん@涙目です。(群馬県):2011/06/16(木) 01:23:34.13 ID:c757eNf00
>>1
ゴミ文章乙

22 :名無しさん@涙目です。(dion軍):2011/06/16(木) 01:31:40.48 ID:kda+yI1o0
Yahoo知恵袋に教えてgoo、ウィキペディアのコピーサイト、必死チェッカーにウンカー

とっとと死に晒さんかゴミカス

6 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)