西宮ハーフ記録度数分布
11月11日付けの「サンスポ」紙に西宮国際ハーフマラソン完走者の全記録が掲載されることになっていたので購入。記録を眺めていて、ふと、どんな分布になっているのか見てみたくなった。100名程ずつ手入力しようかとも思ったが、スキャナで読み込んで、OCRした方が効率が良さそうなので挑戦。OCRソフトは、スキャナに付属していた機能限定版を使用し、取り込んだテキストはエクセルに貼り付けた。
やってみると意外に難しく、行がずれたり抜けたりする部分もあり、手入力で修正し、エクセルの行番号と順位を照らし合わせながら慎重に行ったつもりでも、やはり間違えていて、行がずれている箇所は新聞で10名ずつ数えながら再度修正した。結局2448名のデータを入力するのに、11/12~11/15の4日間を要した。丁度休ラン中だったので、「走る代わり」でもあったが、長時間のパソコン操作は、肩と腰のためには良くない。
順位とタイムとの分布を見ると横になったS字の感じ。こうすると「度数分布」が見てみたくなる。エクセルデータを取り込んで直接度数分布を描かせるソフトもあるが、手持ちのソフトではタイム表示の単位が秒になってしまい、解りづらい。タイムを10分毎に区切ったテキスト表示に変換し、ようやくそれらしいグラフが完成した。
いわゆる「正規分布」に近い形であり、やっぱりな~、当然かな~と、嬉しさ半分、がっかり半分の気持ちであった。さらにサンスポ関西のサイトで同記録がPDFの形で公開されている事に気付いた。もっとも、このPDFから直接テキストデータを取りだすのは(手持ちのソフトでは)出来ないようなので、たとえこのPDFがあったとしても、やはり印刷→スキャン→OCRという手間が必要であったかもしれない。