◎読み込んだ時点で先頭10行を表示する「df.print();」が実行されています。
- 関数で加工したデータの表示にもprint();を使用するけど、初期状態では10行までしか表示できません。
- 何故か
公式ドキュメント
に記載が無いけど、以下のコマンドで表示する行数を変更することができます。
- printの表示行数を20行に変更:
df.config.setMaxRow(20);
- 先頭から20件表示する場合:
df.config.setMaxRow(20); df.head(20).print();
- 末尾から30件表示する場合:
df.config.setMaxRow(30); df.tail(30).print();
◎データセットの基本的な統計情報を計算することができます(オススメ)。
- 「string」が入っていないカラムを指定して、累積和を計算する場合は以下の通りです。
- 末尾から10件の累積和を表示:
df["stringではない型のカラム"].cumSum().tail(10).print();
◎特定のカラムの要素で
グループ化
した後に、色々な処理を行うことができます。
df.nUnique(axis=0).print();
df["要素の出現頻度を出すカラム"].valueCounts().print();
IndexError: Row index must contain unique valuesというエラーが出る時がある(対処法探し中)。
- JSONで保存:
dfd.toJSON(df, { fileName: "ファイル名.json", download: true });
- Excelで保存:
dfd.toExcel(df, { fileName: "ファイル名.xlsx"});
- CSVで保存:
df.toCSV({ fileName: "ファイル名.csv", download: true});
- TSVで保存:
df.toCSV({ fileName: "ファイル名.tsv", download: true, sep: "\t"});