python

プログラミング

【pandas】数 GByte 超に肥大化した .csv ファイルを読み込み違うファイル形式で保存し直す

お仕事お疲れ様です.こんなことは経験ありませんか?「現場や顧客から分析を依頼された .csv データが数 GByte 超で,excel では開けないし,普通に読みこむとメモリエラーで詰んだ....」「センサーを放ったらかしてデータを取得し続...
python

pandas / polars における concat の速度比較

pandas で primary key 使わずに複数のテーブル(DataFrame)を行方向に結合する際に,追加したいテーブルを逐次 concat する方法しか頭にありませんでした.しかし,たまたま見かけたコードでは,「list に Da...
AI

Python embeddable package を用いて環境構築不要な簡易 GUI 付き音声文字起こしツールを作成/部署内展開した話

(注意:初版公開日の 2023/08/21 時点では部署内への展開前であり,身内をテストユーザーとしてレビューいただいている状況です.)社会人たるもの,クライアントや社内に対する会議への参加は不可避で,付随して議事録作成もほぼ不可避な業務と...
プログラミング

【自前AI講座】畳み込みニューラルネットワークの基礎

ディープラーニングが流行ったのは,2010年から始まった大規模画像認識コンペティションの ILSVRC (ImageNet Large Scale Visual Recognition Challenge) において,2012年大会の Im...
プログラミング

【自前AI講座】ディープラーニング基礎と実装

ディープラーニング (Deep Learning; DL,深層学習) は,ニューラルネットワークの層を深くしたディープニューラルネットワーク (Deep Neural Network; DNN) を用いて学習する手法です.(ニューラルネット...
プログラミング

【自前AI講座】ニューラルネットワーク

Chat GPT / Stable Diffusion / 自動運転技術を筆頭に,今や AI といえば Deep Learning の時代といっても過言ではないでしょう(もちろん,スパースモデリングなども今後ブームとなる可能性もあります)....
プログラミング

【自前AI講座】決定木の理論/数式/コード実装

決定木 (decision tree) は,色々な条件でデータをふるい分けすることを繰り返し,木のような構造でデータが分類されていく機械学習手法の一種です.この "ふるい分け" の条件と分けられたデータの経緯が追えるので,なぜその AI モ...
プログラミング

【自前AI講座】SVM(サポートベクターマシン)の理論/数式/コード実装

サポートベクターマシン(Support Vector Machine; SVM,サポートベクトルマシンとも呼ばれる)は,詳細は後述しますが簡単に言うと,例えば3次元の説明変数の分布を均等な距離で綺麗に”良い感じに”分けるような平面を学習によ...
AI

【自前AI講座】LASSO / Ridge 回帰 / ElasticNet の理論/数式/コード実装

ざっくりいうと LASSO / Ridge 回帰 / Elastic Net は,線形回帰モデルの損失関数に正則化項と呼ばれる項を加えた回帰モデルで,学習に用いていない未知のデータに対して線形回帰モデルよりも上手く適合させる(汎化性能を向上...
プログラミング

Google Colab のランタイムをコードから終了させる方法

結論 次のコードを実行するだけです. from google.colab import runtime runtime.unassign() 背景/動機 Google Colaboratory は手軽に Deep Learning 用のクラ...
AI

【自前AI講座】線形回帰の理論/数式/コード実装

自前AI講座用の資料です.初回なので,まずは機械学習の中で一番単純と思われる線形回帰について,考え方や数式,Python のライブラリを用いたコード実装までを紹介します.線形回帰とは,説明変数と目的変数の関係を線形なモデルとして表現する回帰...
プログラミング

グラフ描画ライブラリ matplotlib(入門編)

説明資料ですとかデータ分析におけるグラフの作成について,皆さんはどんなツールを用いていますでしょうか?オフィス用途だと Microsoft の Excel を用いることが圧倒的に多いかと思われます.データ数が多いと Excel では少々役不...
python

PyAutoGUI を用いて Google Colab Pro+ でなくても放置状態で計算させ続ける

Colab ユーザーにおいて,リッチな Pro+ ユーザでない限り最も厄介なのは,「バックグラウンド実行できない」「放置しておくと操作中かどうか聞かれるウィンドウが表示され,そのまま更に放置するとセッションが切れる」という点だと思います.上...
python

Python で excel 処理を半自動化

日本のデスクワーカーにおいて,Microsoft 社の表計算ソフトである excel は,ほとんどの方が業務で用いられる避けて通れないツールだと思われます(excel 以外の表計算ソフトを用いる場合もあると思います).excel は GUI...
IoT

M5Stack / MicroPython / streamlit を用いた簡易的な異常検知モニタリングシステムの構築(プログラミング/実装編)

日本の製造業の中の人が,「ベンダーやコンサルに頼らない」をモットーに,一人で/一週間の真夜中だけで/手持ちの機材で,手軽にAI/IoTシステムを構築できることを証明するために挑みました.当該連載記事はその記録で,今回は,IoT デバイスに実...
IoT

M5Stack / MicroPython / streamlit を用いた簡易的な異常検知モニタリングシステムの構築(ハード/ソフト準備編)

日本の製造業の中の人が,「ベンダーやコンサルに頼らない」をモットーに,一人で/一週間の真夜中だけで/手持ちの機材で,手軽にAI/IoTシステムを構築できることを証明するために挑みました.当該連載記事はその記録で,今回はハード/ソフトの準備に...
python

pytorch の .numpy() メソッドで “RuntimeError: Numpy is not available” になったときの対処法

ある日,ローカル上にて pytorch でモデル構築し,torchsummary.summary で構造を表示しようとしたところ,"RuntimeError: Numpy is not available" に遭遇し,しばらくネットサーフィ...
python

機械学習におけるデータ分割手法まとめ

機械学習において,持っているデータ全てを学習させてしまうと,そのデータの傾向に依存したバイアスがかかり,過学習に陥ることによって,モデルにおける未知のデータに対する推論性能(汎化性能)が損なわれる恐れがあります.これの対策の一つとして,デー...
python

テーブルデータ操作ライブラリ pandas(入門編)

よくあるデータの形式として, テーブルデータ時系列データテキストデータ画像データ音声データ映像データ などがありますが,世の中で最も良くあるのは,特に汎用性の高いエクセルのシートで表されるような行列のデータであるテーブルデータと思われます....
Kaggle

Colab 無料版で kaggle 画像コンペ【ドライブ 15 GB でも可】

結論の概要だけ述べますと,「kaggle コンペのデータセットは GCS (Google Cloud Storage) にあるため,コンペデータの GCS を Google Colaboratory から gcsfuse でマウントすること...
スポンサーリンク