Sistem Prediksi
Demand Taksi Online New York

Aplikasi cerdas berbasis web yang mengintegrasikan 5 algoritma machine learning dan deep learning untuk memprediksi kepadatan order taksi secara real-time berdasarkan analisis spasio-temporal data NYC.

LSTM

RNN / LSTM

Deep Learning Arsitektur Urutan Temporal

ANN

Artificial NN

Multi-layer Dense TensorFlow Framework

KM

K-Means + LR

Clustering Spasial dengan Linear Regression

LR

Linear Regression

Model Statistik Baseline Super Cepat

BP

Manual Backprop

Custom NumPy Loop Neural Network

Simulator Prediksi Real-time

Isi parameter di bawah untuk memproses prediksi demand order secara instan melalui 5 kecerdasan model.

Silakan isi formulir dan tekan tombol hitung untuk melihat keluaran grafik interaktif.

Analisis Performa Komparatif

Grafik interaktif performa akurasi error (MAE, RMSE) dan koefisien R² berdasarkan pelatihan terminal.

Confusion Matrix

Training Loss Curve

Tabel Perbandingan Semua Model

Algoritma MAE RMSE R² Score MAPE Waktu Training
LSTM 0.2030 0.2437 0.0766 22.78% 18.92s
ANN 0.1900 0.2462 0.0572 20.25% 20.13s
KMeans 0.2170 0.2503 0.0258 24.44% 53.85s
Linear Regression 0.2172 0.2503 0.0256 24.45% 0.02s
Backprop (Manual) 0.3069 0.3892 -1.3556 35.85% 1.51s

About Project

Analisis & Prediksi Spasio-Temporal Demand Taksi Online

Projek ini berfokus pada pengembangan sistem cerdas berbasis Data Pipeline dan Machine Learning/Deep Learning untuk mengestimasi volume permintaan (order count) taksi online secara real-time. Dengan memanfaatkan dataset historis NYC Taxi, sistem mampu menangkap pola perilaku mobilitas urban berdasarkan fluktuasi waktu (temporal) dan posisi geografis (spasial). Hasil prediksi ini sangat berguna untuk manajemen armada, minimalisasi waktu tunggu, serta optimalisasi alokasi pengemudi di area padat.

Alur Kerja Sistem (01_preprocessing.py)

  • Data Loading & Sampling: Memuat dataset mentah NYC.csv dan melakukan sampling acak terdistribusi untuk efisiensi performa komputasi.
  • Handle Missing Values: Pengisian otomatis nilai yang hilang (missing values) menggunakan nilai median untuk kolom numerik dan modus untuk kolom kategorikal.
  • Feature Engineering Temporal: Parsing format waktu string menjadi objek datetime terstruktur untuk mengekstraksi komponen jam, hari, bulan, pekan, serta flag dinamis seperti is_weekend, is_rush_hour, dan pengelompokan ordinal time_segment.
  • Feature Engineering Spasial: Kalkulasi Geodesik menggunakan rumus formula jarak Haversine berdasarkan koordinat GPS asal dan tujuan untuk menentukan jarak spasial murni (trip_distance_km).
  • Outlier Removal: Pembersihan data anomali berdasarkan batas durasi perjalanan, kapasitas penumpang, kecepatan ekstrim, serta pembatasan wilayah geografis (NYC Bounding Box).
  • Target Aggregation & Normalisasi: Mengakumulasikan jumlah orderan nyata per jam berdasarkan pembagian skala grid koordinat spasial. Transformasi logaritmik (log_order_count) diterapkan untuk mengatasi skewness sebelum discaling menggunakan Z-score StandardScaler.

Arsitektur 5 Model Prediksi (02_training_evaluation.py)

Long Short-Term Memory (LSTM) Deep Learning

Arsitektur jaringan saraf tiruan sekuensial (RNN) khusus yang dirancang untuk menangkap pola dependensi jangka panjang. Sebelum training, data direshape menjadi struktur deret waktu untuk mempelajari tren fluktuasi demand dari jam ke jam, menghasilkan performa tren ($R^2$) tertinggi dibanding model lain.

Artificial Neural Network (ANN) Deep Learning

Model jaringan saraf tiruan dengan lapisan tersembunyi berlapis padat (Multi-layer Fully Connected Dense) menggunakan konfigurasi susunan [256, 128, 64] neuron. Dilengkapi fungsi aktivasi ReLU dan lapisan Dropout untuk memetakan korelasi fitur non-linear yang kompleks secara stabil.

K-Means Clustering + LR Hybrid Model

Pendekatan pembelajaran tanpa pengawasan (unsupervised learning) untuk mengelompokkan data ke dalam klaster spasio-temporal berdasarkan nilai kemiripan lokasi geografis GPS dan jam penjemputan. Label hasil pengelompokan terbaik kemudian digunakan sebagai fitur baru untuk memperkuat akurasi regresi.

Linear Regression Baseline

Model statistik linear tradisional yang digunakan sebagai tolok ukur utama sistem (baseline model). Algoritma ini bekerja dengan memetakan hubungan linear konstan antar variabel prediktor. Memiliki keunggulan waktu latih tercepat ($0.02\text{ detik}$) namun kurang fleksibel untuk pola anomali perkotaan.

Backpropagation Manual (Custom NumPy NN) Theoretical Study

Jaringan saraf tiruan multilapis yang dibangun sepenuhnya dari dasar (from scratch) menggunakan array matriks NumPy tanpa framework external (TensorFlow/PyTorch). Kode mencakup pembuatan siklus lingkaran forward pass untuk aktivasi ReLU, kalkulasi error loss, serta proses backward pass (turunan berantai gradient descent) demi kebutuhan pembuktian teoritis akademis informatika.