Python のPandasについて機能と活用例 などを具体的に解説してください。
Pythonの**Pandas(パンダス)**は、データ分析や加工を行うための「最強のライブラリ」と言っても過言ではありません。Excelでやっているような操作を、Pythonのコードで超高速かつ自動で行えるようにするツールです。
Pandasの核となるのは、**「DataFrame(データフレーム)」**という、行と列を持つ表形式のデータ構造です。
1. Pandasの主な機能
Pandasができることは、主に「データの掃除」と「集計」です。
データの読み込み・書き出し:
CSV, Excel, SQL(データベース), JSONなど、あらゆる形式のデータを1行で読み込めます。
データの抽出・フィルタリング:
「売上が100万円以上のデータだけ抜き出す」「東京都のデータだけ表示する」といった操作が簡単です。
データの加工・クリーニング:
欠損値(空欄)を埋める、重複したデータを消す、特定の文字を置換するなどの「前処理」が得意です。
統計・集計:
合計、平均、最大・最小はもちろん、「支店ごとに売上を集計する(グループ化)」といった高度な分析も一瞬です。
時系列データの処理:
日付データの扱いが非常に強力で、日ごとのデータを月ごとにまとめ直すといった操作が容易です。
2. Pandasの2つの基本構造
Pandasには、覚えるべき「型」が2つあります。
| 型の名前 | 構造 | イメージ |
| Series (シリーズ) | 1次元(1列のみ) | Excelの「1つの列」 |
| DataFrame (データフレーム) | 2次元(縦横の表) | Excelの「シートそのもの」 |
3. 具体的な活用例:売上データの分析
例えば、手元に1年分の「売上リスト(CSV)」があるとします。Pandasを使えば、以下のような流れで分析を自動化できます。
① データの読み込み
import pandas as pd
# CSVファイルを読み込んでデータフレームにする
df = pd.read_csv('sales_data.csv')
② データの「掃除」(前処理)
「金額」の列に空欄がある場合、そこを0で埋めたり、不要な列を削除したりします。
df = df.fillna(0) # 空欄を0で埋める
df = df.drop(columns=['メモ']) # 不要な列を消す
③ 特定の条件で絞り込む
「2025年以降」かつ「カテゴリが家電」の商品だけを表示します。
target_data = df[(df['date'] >= '2025-01-01') & (df['category'] == '家電')]
④ グループごとの集計
「店舗ごと」の「売上合計」を算出します。
summary = df.groupby('store_name')['amount'].sum()
4. どのような場面で使われるか?
ビジネス分析:
膨大な顧客データや販売履歴から、売れ筋商品や優良顧客を特定する。
AI・機械学習の前処理:
AIに学習させる前に、バラバラなデータを綺麗な形に整える(最も多い用途です)。
Excel作業の自動化:
毎日行っている「複数のExcelを合体させて集計し、グラフを作る」という作業を数秒で終わらせる。
5. Pandasを学ぶメリット
Excelの限界を超えられる: 数十万〜数百万行のデータでもサクサク動きます。
再現性がある: コードを保存しておけば、来月の集計もボタン一つで同じ手順で行えます。
他のライブラリとの連携: グラフ作成の「Matplotlib」や機械学習の「Scikit-learn」と相性が抜群です。
📋
Pandasは「習うより慣れろ」のライブラリです。もしよろしければ、**「特定のCSVファイルを読み込んで、列ごとの平均を出すコード」**など、具体的なサンプルコードを作成してみましょうか?
コメント
コメントを投稿