Python Tips: ファイル内の特定単語のその次の単語を抽出する方法

投稿日：2020年7月11日更新日：2020年7月22日

Contents

1 Pythin Tips: まずやりたいこと
2 ファイル内の特定単語のその次の単語を抽出する方法

Pythin Tips: まずやりたいこと

なんかのファイルを加工しようとしたら、なぜか、各行でフォーマットがちょっと違う、、、

ありますね。

例えば、以下のようなファイルです。

#file : aa.txt
aa bb:  cc dd ee　　#ddを抽出したい
ee dd : cc bb aa　　#bbを抽出したい

#file : aa.txt

aa bb: cc dd ee　　#ddを抽出したい

ee dd : cc bb aa　　#bbを抽出したい

例えば、このようなフォーマットで、一行目と二行目のccの次の値を抽出したいのですが、splitで分けると、目的の単語の位置が違います。

Splitだと、１行目なら、３カラム目。

２行目なら、４カラム目です。

何かのツールが吐き出したファイルとかでたまにあるのですが、面倒なんですよね。

例のように、２行ならいいですが、何万行とあって、数行だけ、フォーマット違うとか、ありますよね。

どこが変換されてないのか？分かんなくて、ちょっと時間を無駄にしたりします。

今回は、splitで、前からの単語数を数えて、、、

#!/usr/bin/env python
  
ifile = "aa.txt"

for line in open(ifile):
    if line.find("cc") >= 0 :
        print (line, end="")
        get_word = line.split()[3]
        print (get_word)

#!/usr/bin/env python

ifile = "aa.txt"

for line in open(ifile):

if line.find("cc") >= 0 :

print (line, end="")

get_word = line.split()[3]

print (get_word)

結果：

aa bb:  cc dd ee 
dd
ee dd : cc bb aa
cc　　　　　　　　　　＃ここが、bbであってほしいのに、、、

aa bb: cc dd ee

ee dd : cc bb aa

cc　　　　　　　　　　＃ここが、bbであってほしいのに、、、

ファイル内の特定単語のその次の単語を抽出する方法

このような例の場合、以下のように、抽出単語の前の文字列の場所から、一つ後ろの単語を抽出する方法もあります。

実際には、色々な方法があるので、自身の加工したいファイルを確認して、好みの方法を使うといいと思います。

手前の単語の場所から、単語を抽出すると以下のようになります。

#!/usr/bin/env python

ifile = "aa.txt"

for line in open(ifile):
    if line.find("cc") >= 0 :
        print (line, end="")
        pos = line.split().index("cc")
        pos_p1 = int(pos) + 1
        get_word = line.split()[pos_p1]
        print (get_word)

#!/usr/bin/env python

ifile = "aa.txt"

for line in open(ifile):

if line.find("cc") >= 0 :

print (line, end="")

pos = line.split().index("cc")

pos_p1 = int(pos) + 1

get_word = line.split()[pos_p1]

print (get_word)

結果は、おわかりのように、

aa bb: cc dd ee
dd
ee dd : cc bb aa
bb #ここが正しく抽出されるようになった

ポイントは、indexです。配列のポジション（位置）をとってくれるメソッドです。

split（）は、配列にされるので、indexを使うといいというわけです。

このへんは、また、別の機会にでもお話ししましょう。

はい、今回は、ここまでにします。

indexって、たまに忘れてたりするので、ちょっとメモしておきました。

何かの役立てば、幸いです。