No.7

第7回 データサイエンス

  • 住みやすいエリアをデータから探すということで、データの中にある
    '名称', 'カテゴリー', 'アドレス', 'アクセス', '路線','駅', 'バス停', '乗換時間', 'バス',
    '徒歩', '車', '合計時間', '築年数','構造', '階数', '家賃', '管理費', '敷金', '礼金', '間取り', '面積'
    の21項目の中から合計時間と家賃に注目して分析してみた。

  • 手順としては、平均家賃の低い10の路線と平均合計時間の短い10の路線を調べる。

  • その二つのランキングに共通して出て来る路線。湘南新宿ライン高海と相鉄本線の二路線。
    二つの路線を比べると、家賃の平均に関してはそこまで変わらないが、合計時間の平均を
    比べると、湘南新宿ライン高海のほうが短いため湘南新宿ライン高海の駅に絞ってみていく。

    グラフからわかるように、比較的家賃が低く、物件数も多くあることから戸塚駅周辺のエリアを
    お勧めできると考えられる。
  • ソースコード
  1. import pandas as pd # データ分析に用いるライブラリ
  2. import matplotlib.pyplot as plt # グラフ表示に用いるライブラリ
  3. pd.set_option('display.unicode.east_asian_width', True) # 表示のずれを少し緩和
  4. plt.rcParams['font.family'] = 'IPAexGothic' # グラフ表示におけるフォントの指定
  5. plt.rcParams['font.size']=4 # グラフに表示される文字のサイズ指定
  6. data_path = "data.csv" # データを読み込む
  7. df_data = pd.read_csv(data_path, encoding="utf-8-sig")
  8. print(df_data.columns) # 項目一覧
  9. print(df_data["家賃"].describe())
  10. print(df_data.groupby("路線").mean().loc[:,"家賃"].sort_values()[:10]) # 平均家賃の低い路線トップテンを表示
  11. df_data.groupby("路線").mean().loc[:,"家賃"].sort_values()[:10].plot.bar(figsize = (10, 8)) # グラフサイズの指定(大きくすると文字が小さくな
  12. plt.subplots_adjust(left=0.02, right=0.98,bottom=0.3)
  13. plt.show()
  14. print(df_data.groupby("路線").mean().loc[:,"合計時間"].sort_values()[:10]) # 平均合計時間の短い路線トップテンを表示
  15. df_data.groupby("路線").mean().loc[:,"合計時間"].sort_values()[:10].plot.bar(figsize = (10, 8)) # グラフサイズの指定(大きくすると文字が小さくな
  16. plt.subplots_adjust(left=0.02, right=0.98,bottom=0.3)
  17. plt.show()
  18. mask = (df_data["路線"] == "湘南新宿ライン高海") # 湘南新宿ライン高梅に路線を限定
  19. print(df_data[mask])
  20. axes = df_data[mask].loc[:, "家賃"].hist(by=df_data[mask].loc[:, "駅"]) # 駅と家賃のヒストグラム
  21. plt.show()

  • 11月16日のグループワーク
グループワークで使用した PDF