診断士特集 PR

【知識0で挑む】カスタムGPTs作成【vol.4:文字抽出実験①】

記事内に商品プロモーションを含む場合があります

最近ChatGPTってよく聞くけど、【自分オリジナルのChatGPT】作れないのかな?

と、考えているあなたに朗報ですChatGPTには自分だけのオリジナルを作る機能が搭載されています。

  • どんな風に作成していくの?
  • 気を付ける点は?
  • 実際に作成してみて、どうだった?

先週ChatGPTを導入したばかりの初心者の私が、試行錯誤している内容をお伝えできればと考えています。

おはようございます!中小企業診断士のグレート☆セバスチャンと申します。私のプロフィールは、こちらへ。

それでは、さっそく解説いってみましょう!

前提条件

恥ずかしながら、私はChatGPT初心者です。したがって、この記事は、素人目線で行った取り組みの記録としてご覧いただきたいと思います。私と同じく知識がゼロの方々に少しでも役立てることができれば幸いです。

カスタムGPTsの使用条件

有料版への登録が必要(2024.4.28現在)

※現在、使用可能なChatGPTの無料版である3.5は、今まで使用したことがありませんので、基本的に4.0以降でのお伝えになります。

セバスチャン

4月末に登録しました・・・笑

前回の課題

直接入力すると、文字を入力するのに膨大な時間がかかります。

そのため、データを記憶させることを検討しました。結果として、Wordベースの内容が最も学習効果が高いと判断されました。

今回の課題はExcelやWordではなく、ブログ記事そのものから文字だけを抽出することです。

実験:文字抽出実験

※今回の画像は、チャットGPTで「パソコンに向かって試行錯誤している日本人の女性」というテーマで作成しました。

まずは、知識0ですのでチャットGPTに質問してみました。


ブログ記事から文字を抽出する方法はいくつかあります。その中で主な方法をいくつか紹介しますね。

  1. コピー&ペースト
    • 最も簡単で基本的な方法です。ブログのテキストをマウスで選択し、右クリックで「コピー」を選び、必要な場所(ワード文書やテキストエディタなど)に「ペースト」します。
  2. ウェブスクレイピングツールの使用
    • Pythonなどのプログラミング言語を使用して、ウェブスクレイピングを行うことができます。例えば、PythonのBeautifulSoupScrapyといったライブラリを使用して、特定のウェブページからデータを抽出することが可能です。
    • ウェブスクレイピングは技術的な知識が必要ですが、大量のデータを効率的に収集するのに適しています。
  3. ブラウザの拡張機能
    • クロームやファイアフォックスなどのブラウザには、テキストを簡単に抽出できる拡張機能があります。これらの拡張機能を利用すると、クリック一つでページのテキストをコピーすることができます。
  4. OCR(光学文字認識)ツールの使用
    • ブログのテキストが画像としてアップロードされている場合、OCRツールを使用して文字を読み取ることができます。Googleの「Googleドキュメント」に画像をアップロードすると、画像内のテキストをテキスト形式で抽出できます。

知識0の私としては、1の解決方法以外は分かりません。そして、1には膨大な時間がかかるため、どうにかならないかを検討しているので、何か他に方法はないでしょうか?

次に以下の質問をしてみました。

ワードプレスのプラグインで文字を抽出するものはない?


WordPressでテキストや文字を抽出するためのプラグインはいくつか存在します。これらのプラグインは、ページや投稿から特定のテキストを抽出し、他の場所で再利用するなどの目的に役立ちます。以下はそのようなプラグインの例です:

  1. Import and Export WordPress Data as CSV or XML: このプラグインは、WordPressの投稿やページ、カスタムフィールドなどからデータをCSVやXML形式でエクスポート・インポートする機能を提供します。特定のデータを抽出するのに便利です。
  2. WP All Export: このプラグインもデータのエクスポートに特化しており、投稿、ページ、カスタム投稿タイプ、タクソノミー、カスタムフィールドからのデータをXMLやCSVファイルでエクスポートできます。抽出したいテキストに特定の条件を設定して抽出することが可能です。
  3. Content Extractor: ページや投稿から特定のセクションや要素を自動的に抽出して表示する機能を持つプラグインです。このようなプラグインは特定のテキストを簡単に抽出して再利用するのに役立ちます。

これらのプラグインは、WordPressのプラグインディレクトリや各プラグインの公式サイトからダウンロード及びインストールが可能です。使用する際には、WordPressのバージョンとの互換性を確認することが重要です。また、セキュリティの観点からも信頼できるプラグインを選ぶことが大切です。

これなら、シンプルにワードプレスにプラグインを入れるだけなので、私でもできるので大丈夫そうです。

ちなみに、自分のワードプレスのダッシュボードを調べたら、ツールのところに普通にプラグインが有効になっていました。笑

なお、プラグインが英語のみで提供されている場合もありますが、ChatGPTを使って翻訳することが可能です。少し手間はかかりますが、英語で書かれているからといって諦める必要はありません。

全体の記事をまとめて出力できそうですが、養成課程に絞って抽出してみます。

それで、でてきた文字がこちら。

「・・・?」という感じです。知識0の私からすると、文字は日本語だけなのですが、抽出される文字、つまり言語とはサイトを構築しているソースコードのことを指すようです。

GPTに聞いたところ、こんな回答が。


HTML(HyperText Markup Language)は、ウェブページを作成するためのマークアップ言語です。ウェブページの構造を定義し、テキスト、画像、リンクなどのコンテンツを配置するために使われます。HTMLはタグと呼ばれる特定のコードを使用して、見出し、段落、リストなどの要素をウェブページ上でどのように表示するかを指定します。これにより、ブラウザはその構造に従ってページを適切にレンダリングできるようになります。

まぁ、要は日本語だけの抽出はできないってことですよね。

と思い、シンプルにチャットGPTに、「日本語部分だけを抽出して」とお願いしました。

凄い!できてますね。ならばと思い、ソースコードを全部コピペして、同じ指示をしましたが、「送信されたメッセージが長すぎます。会話をリロードして、もっと短いメッセージを送信してください。」という言葉が、チャットGPTに聞いてみたところ以下の回答。

一つのメッセージで対応できる最適な文字数は約2000文字程度です。それを超えると処理に影響が出る可能性があります。もし長い内容をお伝えしたい場合は、複数のメッセージに分けて送ることをお勧めします。

知らなかった。笑。一度に入力できるのは2000文字程度とのこと、ソースコードまで入れるととてもじゃありませんが、対応不可ということですね。

ゴリ押しするのであれば、小分けして日本語のみを抽出していけばいいのですが、正直、直接記事からコピペする方法と変わらないですよね。

結局、ここままで振り出しに戻りました。

どうやったら、大量のソースコードの中から文字だけを抽出できるのか・・・

知識0はツライですね。でも、チャットGPTのみでなんとか乗り越えていきたい。みなさんはどうしますか?

セバスチャン

なかなか上手くいきません。涙

まとめ

【知識0で挑む】カスタムGPTs作成:【vol.4:文字抽出実験①】いかがだったでしょうか?

このブログを読んで、少しでもためになったという方は、ブログの応援と投票お願いします。みなさんの協力が必要です。何卒宜しくお願い致します。

また、Twitterにも登録して頂くと、記事を更新した時にお知らせしますので、今後も「志」ともに、一緒に学んでいけると幸いです。

ABOUT ME
グレート☆セバスチャン
Great Sbastian School 学長 グレート☆セバスチャン 専門分野(店舗管理/店内製造/衛生管理/管理会計/景況調査/補助金審査) 資格(中小企業診断士・第一種衛生管理者・調理師・2級(FP/簿記/販売士) 【あなたを中小企業診断士にしたい!】

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です