VSCODEの拡張機能 Data Wranglerでparquetファイルの中身が見れる!

1 min
xainome

xainome

データサイエンティスト風味のSES
自身の話をするよりは人の話を聞く方が好き
普通の人

FOLLOW

parquetファイルは非常に優秀なファイルだと思います

pythonでデータを扱う場合、小規模のデータであればcsvファイルが使われがちですが、私の現場ではparquetファイルが使われています

parquetファイルのメリットとしては

  • データが圧縮されるため、ストレージの節約になる
  • ファイルを読み込む際、型の指定をしなくても自動で読み込んでくれる
  • データを列で読み込むと高速で読み込める

デメリットとしては

  • ファイルを手軽に扱えない(テキストファイルで開いたり、書き換えたり)

個人的にはこのように感じています

これがData Wrangler(ラングラー)を使えば手軽に見ることができます!書き換えたりはできないですが…

しかも導入手順も簡単!

  1. 拡張機能からData Wranglerをインストール
  2. 対象のファイルを右クリック > Opne in Data Wranglerをクリック
  3. pythonやjupyter notebookのカーネルに接続する
  4. 必要なライブラリが足らなければインストールを行う

こうすることで以下のような画面でparquetファイルの中身を見ることができます!(画面黒いと目にいいよね)

csvファイルも同じように見れます

ちなみに上記のデータはスクレイピングで取ってきた求人情報になります(スクレイピングプログラムはChat-GPTに頼みました)。一応利用規約見てスクレイピングに関する規約はなかったので大丈夫かと思いますが、もしやる際は連続アクセスにならないよう2,3秒時間を空けることを勧めます

上のカラム名の場所に欠損の数やユニークな値の数、数値であればヒストグラムの分布などが描かれたりします

また左の操作でカラムの操作や欠損値埋め、文字列変換、グループ化など簡単なデータ変換であればこちらで操作できるうえに、コード化ファイルを出力することもできます!

おおまかにデータを見ながら加工をし、そのプログラムを作ってくれる素晴らしい機能をMicrosoftが提供していますのでぜひ活用していきたいですね!

xainome

xainome

データサイエンティスト風味のSES
自身の話をするよりは人の話を聞く方が好き
普通の人

FOLLOW

カテゴリー:
タグ:
関連記事

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


Social Media Auto Publish Powered By : XYZScripts.com