AI Sesli İçerik Düzenleyici
Podcast/video sesini yükle, AI 'ee', 'yani', uzun sessizlikleri kesiyor + temiz ses indiriyorsun.
Kimin derdi bu?
Gerçek bir insan, gerçek bir acı. Kafanda canlandır.
- Kim
- Podcast yapanlar, video yaratıcıları, kurs hocaları — ses post-prod 30dk/dk
- Canı yanan yer
- Filler word kesme manuel iş; Adobe Audition öğrenme eğrisi yüksek
- Şu an nasıl yapıyor
- Descript $24/ay (transkript iyi ama sade kesim için pahalı), elle Audition
6 saate sığar mı?
Bootcamp modunda sıkıştırılmış senaryo.
M — 8-12 saat. Whisper word-timestamp + filler detect + FFmpeg cut.
Ne ile inşa edeceksin?
Sıfırdan yazmayacaksın — bu parçaları birleştireceksin.
Hangi parçalar?
Her parça ayrı bir commit. Sırayla yakala.
- 1Ses upload (mp3/wav)
- 2Whisper word-level transkript
- 3Filler word detection (TR+EN)
- 4Sessizlik trim (>1.5sn)
- 5Önizleme dalga formu
- 6Export (mp3 + transkript)
Piyasada kimler var?
Rakip değil, referans. Sen onlardan küçük, hızlı ve yakın olacaksın.
Neden evet, neden hayır?
Kısa bir gerçeklik testi.
Sade niche, kesim → temiz ses tek iş; düşük öğrenme eğrisi
Cleanvoice rakibi var; differansiyasyon TR optimize
Para nereden gelir?
Bir çerçeve, değil kesin plan. İlk 100 kullanıcıya odaklan.
- Fiyat
- $15/ay (5 saat), $39/ay (sınırsız)
- Hedef ARR
- 180 kullanıcı × $22 = $3.9k MRR
- Model
- Subscription
Claude Code'a ver
Aşağıdaki prompt'u olduğu gibi kopyala, Claude Code'a yapıştır. Stack, veri modeli, 6 saatlik inşa sırası ve başarı kriterleri içinde.
# AI Sesli İçerik Düzenleyici
**Ne inşa ediyoruz:** Ses dosyasını yüklediğinde Whisper word-timestamp ile filler kelimeleri ("ee", "yani", "şey") ve uzun sessizlikleri tespit edip FFmpeg ile kesen ve temiz ses indirten araç.
**Kullanıcının işi (JTBD):** 45 dakikalık podcast'imi 5 dakikada filler'lardan ve sessizliklerden temizleyip yayına hazır indirebilmek istiyorum.
---
## Stack
- Next.js 15 App Router
- Tailwind + shadcn/ui + Wavesurfer.js
- Supabase Postgres + storage
- Whisper word-timestamp (groq veya openai)
- Render worker FFmpeg
- Deploy: Vercel + Render
## Veri modeli
```sql
create table audio_files (
id uuid primary key default gen_random_uuid(),
user_id uuid references auth.users not null,
filename text, original_url text, processed_url text,
duration_seconds int, status text default 'queued',
filler_count int, silence_trim_seconds int,
created_at timestamptz default now()
);
create table cuts (
id uuid primary key default gen_random_uuid(),
audio_file_id uuid references audio_files on delete cascade,
cut_type text check (cut_type in ('filler','silence')),
start_ms int, end_ms int, kept boolean default true
);
```
## Ana akışlar
1. Ses upload (max 100MB MVP).
2. Worker Whisper word-level → transkript + word timestamps.
3. Filler liste TR+EN ile match → cut adayları.
4. Sessizlik > 1.5sn ayrı pass.
5. Önizleme dalga formu, kullanıcı her cut'ı tek tek toggle.
6. FFmpeg ile final mp3 oluştur, indir.
## 6 saatlik inşa sırası
- 0:00–1:00 — Scaffold + auth + upload
- 1:00–2:30 — Whisper + word-level transkript
- 2:30–3:30 — Filler detection + silence detect
- 3:30–4:30 — Wavesurfer önizleme + toggle
- 4:30–5:30 — FFmpeg pipeline (Render worker)
- 5:30–6:00 — Vercel deploy
## Başarı kriteri
- [ ] 30sn örnek dosya işleniyor
- [ ] TR'de en az 5 filler kategorisi tespit ediliyor
- [ ] Sessizlik >1.5sn cut adayı görünüyor
- [ ] Kullanıcı bireysel toggle yapabiliyor
- [ ] Final mp3 indirilebiliyor
## Dikkat
- TR filler list: "ee", "ıı", "yani", "işte", "şey", "hani", "böyle". Geniş kapsam.
- Whisper word timestamp Groq'ta hızlı + ucuz; OpenAI Whisper'da yavaş.
- "Aşırı kesim" tehlikesi — varsayılan eşik konservatif.
- Stereo audio ayrı kanal olabilir (host vs guest); MVP mono.Bu sana uymadı mı?
Hepsini görThumbnail yüklüyorsun, AI 3 varyasyon üretiyor + YouTube başarı paternlerine göre tıklanma oranı tahmini veriyor.
Küçük markalar için micro-influencer bulma + kontak + kampanya takip aracı (Instagram/TikTok odaklı).
Uzun video yükle, AI 10 farklı viral-ready short (TikTok/Reels/Shorts) kesiyor, caption + hashtag de hazır.