メーリングリストでの活動
|
上級システムアドミニストレータ連絡会恒例<×000番の記録> |
●フリートークメーリングリスト7000発言突破!!(2003年07月06日) 7000番をGETされた勝原さんからの寄稿 |
勝原です。 このたびは不覚にもキリ番を踏んでしまいましたので、吉例によりまして 1000発言のとりまとめをさせていただきます。 (対象は、[sdf:6001] 03/04/26〜 [sdf:7000] 03/07/06まで) 今回は、千葉県大会の蝋山さんの発表に触発されまして、何とかテキスト マイニングの手法を採り入れられないか(しかも無料で^^);ということで、 以下の方法を試してみました。 ――――――――――――――――――――――――――――――――― 1.メーラ(Netscape Messenger)から対象メールをテキストファイルで 保存(約2MB) ↓ 2.フリーのテキスト置換ソフト※を使って、ヘッダ(From:、To:行など) や本文の前後に挿入されるFreeMLの広告、JSDGよりのお知らせを カット(この時点で約1MB。FD1枚に入りますね) ※PsBR http://www.vector.co.jp/soft/win95/util/se151964.html ↓ 3.これまたフリーの日本語形態素解析ツール※で、テキストファイルを 単語に分解+単語の品詞を分析→結果をファイル出力(約7MB) ※茶筌(ChaSen) http://www.vector.co.jp/soft/win95/edu/se050095.html ↓ 4.これを強引にExcelで集計..と思ったらさすがに30万行は読み込めず、 一旦Accessにインポート、クエリーで単語別の登場回数を集計し、約 1万5千行に圧縮してからExcelに出力(約1MB、これでほぼ元通り?^^); ↓ 5.Excelのオートフィルタで、品詞別に登場回数のランキングを採って みました。さて、前置きが長くなりました。分析結果は以下の通り。 ――――――――――――――――――――――――――――――――― 無料テキストマイニングによる1000発言まとめ 分析結果レポート (対象メール:[sdf:6001-7000]、期間:03/04/26〜03/07/06) ◆一般名詞部門 1 408 人 2 371 システム 3 331 情報 4 286 会社 5 262 自分 6 199 人間 7 165 会員 8 160 皆さん 9 157 フリー 10 153 ページ やはりシスアドの最大の関心事は「人」ということでしょうか。「人間」 とあわせるとダントツの1位となりました。次いで「システム」「情報」 と順当?にランクインしました。 ◆固有名詞(人名)部門 1 295 浜島 2 189 植松 3 159 滝沢 4 158 佐藤 5 130 守屋 6 123 三村 7 114 勝原 8 112 阿部 9 87 島本 10 85 山中 浜島さんが堂々の優勝!おめでとうございます。2位にはダブル植松さん (1号さんのうれしい復活シーンもありました)、3位以下には常連さん がずらりといったところ。但し本文、引用文、フッタ等の登場回数なので、 必ずしも発言数には比例していません。 面白いので、11位から30位まで掲載しておきましょう。左から右へ、 北村 北浦 田中 渡辺 高橋 柴田 内田 宍戸 青木 加藤 今井 佐々木 大森 吉野 藤田 三間 有川 若狭 国重 尾関 以上、カウント順、敬称略ってことで、ご参照下さい。 ◆固有名詞(地名)部門 1 175 東京 2 139 大阪 3 115 関西 4 101 横浜 5 96 神奈川 6 87 神戸 7 78 京都 8 77 千葉 9 55 兵庫 10 40 仙台 東京が大阪を僅差でかわして1位、しかしよくみると「関西」というのが ありますので単純比較は難しいかも。当然ながら、オフ会や研修会開催地 の登場頻度が高くなっていますね。 横浜中華街オフ、世界のビールオフ、関西入梅オフ、おちゃのみずオフ、 中部地区新入会員歓迎会、東京ミニ研、千葉県大会..いろいろありました。 あと、惜しくも県大会事前オフ開催が見送られた兵庫と近い将来オフ開催 が予感される仙台がランクインしました。ちなみに名古屋は13位でした。 ◆感動詞部門 1 378 こんにちは 2 273 ありがとう 3 166 こんばんは 4 46 おはよう 5 43 おめでとう 6 43 はい 7 29 はじめまして 8 27 こんばんわ 9 24 こんにちわ 10 23 まあ 挨拶の基本語ばかりですが、「おめでとう」は春試験の合格発表、「はじ めまして」は入会のごあいさつということで、季節ネタを反映した結果と なりました。この数の多さを見るにつけ、挨拶の大切さが身にしみますね。 ◆顔文字部門 1 63 (^^; 2 57 (^^) 3 52 (=^^=) 4 49 (^^;) 5 40 (=^^=;; 6 34 (^-^;) 7 26 (^o^) 8 20 ..^^); 9 17 (^^ 10 14 (^_^;) 最後にオマケをひとつ。MLの定番、顔文字部門です。今回使用した形態 素解析ツールでは、顔文字は全て「未知語」に分類されてしまいましたの で(しかし単語として認識するところはスゴイ^^);、目視で顔文字を抽出 してみました^^); 私がよく使うのは8位の..^^);ですね。カッコの中の文章を閉じる時など に愛用しています。3位と5位は、佐藤化け猫さんのでしょうね。 ・・・・ 分析結果は以上ですが、やはりツールの限界のため拾いきれなかったネタ が多くあります。ので、メールのタイトルから「人力」で抽出しました。 多少の漏れや、タイトルを見ただけでは何のコトかよくわからないものも ありますが、ご了承ください。 ○困りごとヘルプネタ ・Windowsのボタンが変 ・「ちょっと良いかな」対策 ・WindowsNT系で使えるメールサーバーソフトは? ・Webアプリをつくるミドルウエア ・その場で自動バックアップしてくれるアプリ ・システム管理者は 2 名以上必要の根拠 ・このようなウイルス御存知ありませんか? ・プロジェクトマネジメントの委託 ・利用部門に要求する情報化リテラシーの程度は ・HTMLエディタ ・WindowsXP用のファイル復活ソフト ・10万円以下のSCSIスキャナ ・インボイス読み込みの自動化 ・インターネットVPN ・IT難民はどうしてますか ○資格・人材育成ネタ ・医療情報技師育成事業 ・ITスキル標準(ITSS)に準拠した「市場価値診断」 ・「N」マークの鞄を背負った子供達と曖昧言葉の氾濫 ・学校の先生向けIT教育サイト「IT授業実践ナビ」の運営開始 ・アドミン4冠達成 ・SDは70万円也 ・【短報】システム監査実践セミナ受講体験 ・AutoCADの試験 ・「情報システム部門のためのモデリング研究会」 ・ITC 特認制度再々変更 ・JSDG研修会、ITCポイントに対応 ・英語熱..その後(2回目のTOEIC受験体験記) ・【受講報告】全員参加による情報セキュリティマネジメント ・上級シスアド資格を受験要件とした公務員試験 ・営業マンの必須ITスキル7ケ条 ・情報処理技術者試験インターネット申しこみのセキュリティトラブル ・基本情報技術者 ○ITツール、電子玩具ネタ ・LモードFAX ・腕時計型無線電話の実用化 ・携帯メール実用人類の不思議 ・持ち歩き個人用DBの暗黒面 ・multi keitai gateway ・おもちゃを買いました・・・ ・Bフレッツ導入! ・ICレコーダー ○出版・執筆ネタ ・「伸びるSEのスキル強化書」 ・「情報処理技術者用語辞典」発刊 ・ 不合格体験連載第13回 【祝1周年】 ・「Dr芦屋のSE診断クリニック」(芦屋広太の最新書籍) ・今月の学研の「合格情報処理」は私のプロマイド付き ○シスアドネタ ・アクセスログ解析 ・ホームページ開設しました ・電子自治体と費用対効果 ・e-Japan2 ・三重県における公開調達 ・野中先生の講演 ・JSDG−MVP表彰選考委員会 ・連結経営管理セミナーでしゃべります ・タグ手打ちの企業ホームページ ・国立病院のIT化 ・鬼の征伐に,ももたろさんのお腰に付けたきび団子♪ ・全国大会on Internetの検討 ・地域パソコンマスターメールマガジン ・社内インフラ整備 ・ 17日朝日新聞『声』 ・<笑話>Excelが足してくれない。。。。。 ・ Excelユーザと基幹系ホスト開発者の綱引き ・ソフトピアジャパン周辺仲間メーリングリスト ・節電対策 ・ソフトウェア要求 顧客が望むシステムとは ・システム監査企業登録台帳について ・電子政府戦略会議 ○その他(雑談・近況報告など) ・預金封鎖 ・宮城に転居しました ・地軸反転 ・曖昧言葉ウォッチャーの集う片隅 ・復帰?! ・三線弾き ・大阪の正しい歩き方 ・発想の転換を求められているのは「産」の側 ・岐路に立つ国 ・朝食のスクランブル・エッグ ・大阪に転勤します ・井の中の蛙 ・マウスイヤーの換算率は ・5月分の手取りが増えた人が多いらしい ・ニックネームの効用 ・東北の地震は大丈夫でしたか ・世界ビジネストーク集 ・こころが壊れる時 ・マトリックスリローデッド ・チャットルームをどうぞ使って下さい ・睡眠の効用 ・ウィークリーまぐまぐと青竹踏みの効用 ・スタートレックファンの皆様へ ・横浜・弘明寺の話題 ・言葉にできない ・毎月1日は,映画の日 ・Nifty-Serveは何処へ行った ・六本木ヒルズ イベント案内 こうしてみると、約2か月半の間によくこれだけバラエティーに富む話題 が出たものだなーと改めて感心しますね。しかもテキストデータとしては たったの1MB、というのも何だか不思議な感じがします。では。 -- 勝原潔史 |