概要とサンプルコード
Pythonには、csvモジュールが標準で提供されており、これを使うことで、CSVファイルを読み込むことができます。
CSVファイルを読み込む基本的な手順は次のようになります。
csvモジュールをインポートする
CSVファイルを開く
CSVファイルからデータを読み込む
CSVファイルを閉じる
次に、CSVファイルを読み込むためのサンプルコードを示します。
import csv # CSVファイルを開く with open('sample.csv', 'r') as f: # CSVファイルを読み込む reader = csv.reader(f) # ヘッダーを読み込む header = next(reader) # データを読み込む for row in reader: print(row) # CSVファイルは自動的に閉じられる
上のコードでは、CSVファイルを開いている部分で、with文を使っています。
これを使うことで、withブロックを抜けた時点で自動的にファイルが閉じられるので、明示的にファイルを閉じる必要がありません。
このコードでは、csv.reader()を使って、CSVファイルを読み込んでいます。これを使うことで、CSVファイルを行単位で読み込むことができます。
さらに、for文を使って、データを1行ずつ読み込んでいます。各行は、リストとして取得されます。
これで、CSVファイルを読み込むことができます。
また、もし、CSVファイルにヘッダーがある場合は、next()関数を使って、最初の1行(ヘッダー)を読み飛ばすことができます。
pandasライブラリを用いてCSVファイルを読み込む方法
他にも、CSVファイルを読み込む方法として、pandasライブラリを使う方法があります。
pandasを使うと、より高度なデータ処理ができるため、より多くのケースで使われることがあります。pandasを使う場合は、次のようにします。
import pandas as pd # CSVファイルを読み込む df = pd.read_csv('sample.csv') # データを表示する print(df)
上のコードでは、pandasのread_csv()関数を使って、CSVファイルを読み込んでいます。
この関数を使うことで、CSVファイルをpandasのデータフレームとして読み込むことができます。
読み込んだデータフレームは、dfという変数に代入されます。
データフレームは、行と列を持った2次元のデータ構造であり、NumPy配列に似ています。
データフレームでは、各列には、同じデータ型を持つデータを格納することができます。
pandasを使うことで、CSVファイルのデータを、さまざまな形式で処理することができます。例えば、次のようにして、特定の列のみを取り出すことができます。
# 'Name'列のみを取り出す name_column = df['Name'] # 'Age'列のみを取り出す age_column = df['Age']
また、pandasを使うことで、データを集計したり、フィルタリングしたりすることができます。例えば、次のようにして、’Age’列が30以上の行のみを取り出すことができます。
# 'Age'列が30以上の行のみを取り出す filtered_df = df[df['Age'] >= 30]
このように、pandasを使うことで、CSVファイルのデータをより簡単に処理することができます。
コメント