level4 はじめました。
(1-1)
for i in 1 2 3 4 5; do echo $i w3m -dump "https://ja.wikipedia.org/wiki/200$i"sleep 5 done
i を忘れなければloop できる つづきかくよ
一週間たったので続き書きます↓
(1-2)交通情報 (以下のurlはコピペOK. (1-3)移行はそれに手動で書き加えるらしい)
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" ↑ 各路線の交通情報が沢山表示された。とても長い。
(1-3)交通情報からJR東日本と書かれた列を抜き出す。
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep JR東日本 ↑ 赤文字でJR東日本が抜き出された。
(1-4)正規表現 「^」 行頭を使って、行頭にあるJR東日本を抜きだす。正規表現を使うために -E オプションをつける。
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E "^JR東日本" ↑JR東日本をダブルポーテーションでくくるのを気を付ける
(1-5)交通情報から行頭のJR東日本と書かれた言葉から後50行抜き出す。 -A 行数 で単語の後ろ50行も抜き出す。
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" ↑JR東日本の路線、状況、詳細がでてきた。
(1-6) 事故を起こしてない路線を抜き出す。(-v オプションで「遅延情報なし」を除く)
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" | grep -v 遅延情報はありません ↑遅延情報があるのだけ取り出される。五線ぐらい出た。
(1-7) 路線名(1列目だけ)を抜き出す。
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" | awk '{print $1}'
↑多分できた
(1-8)「線」を「にゃー」に置換
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" | awk '{print $1}' | sed "s/線/にゃー/g" ↑
(1-9) 「線」の前の任意文字列をにゃーに置換。「.」は正規表現の任意の文字列(文字. の繰り返し)。「.*線」で「線」の前の任意の文字列。
w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" | sed "s/.線/にゃー/g" (1-10)[川崎~横須賀]のような部分を削除。正規表現の任意の文字列(文字. の繰り返し)「.」。「[.]」で[任意の文字列]を表す。\はエスケープ文字で。「[」が正規表現記号でなく文字という印 w3m -dump "https://transit.yahoo.co.jp/diainfo/area/4" | grep -E -A 50 "^JR東日本" | awk '{print $1}' | sed "s/線/にゃー/g" | sed "s/[.]//g"
来週は↑の内容確認をするらしいです。