return both en and fr in transcriptio

2026-02-04 18:06:48 +00:00 · 2023-08-28 14:25:44 +05:30
parent 3878c98357
commit 49d6e2d1dc
6 changed files with 45 additions and 26 deletions
--- a/server/gpu/modal/reflector_transcriber.py
+++ b/server/gpu/modal/reflector_transcriber.py
@@ -6,6 +6,7 @@ Reflector GPU backend - transcriber
 import os
 import tempfile
 from fastapi import File
 from modal import Image, Secret, Stub, asgi_app, method
 from pydantic import BaseModel
@@ -18,7 +19,7 @@ WHISPER_CACHE_DIR: str = "/cache/whisper"
 # Translation Model
 TRANSLATION_MODEL = "facebook/m2m100_418M"
-stub = Stub(name="reflector-transcriber")
+stub = Stub(name="reflector-lang")
 def download_whisper():
@@ -129,6 +130,8 @@ class Whisper:
                translation = result[0].strip()
                multilingual_transcript[target_language] = translation
            print(multilingual_transcript)
            return {
                "text": multilingual_transcript,
                "words": words
@@ -149,7 +152,9 @@ class Whisper:
 )
@asgi_app()
 def web():
-    from fastapi import Depends, FastAPI, Form, HTTPException, UploadFile, status
+    from typing import List
    from fastapi import Body, Depends, FastAPI, Form, HTTPException, UploadFile, status
    from fastapi.security import OAuth2PasswordBearer
    from typing_extensions import Annotated
@@ -174,9 +179,9 @@ def web():
    @app.post("/transcribe", dependencies=[Depends(apikey_auth)])
    async def transcribe(
        file: UploadFile,
        timestamp: Annotated[float, Form()] = 0,
        source_language: Annotated[str, Form()] = "en",
-        target_language: Annotated[str, Form()] = "en"
+        target_language: Annotated[str, Form()] = "fr",
        timestamp: Annotated[float, Form()] = 0.0
    ) -> TranscriptResponse:
        audio_data = await file.read()
        audio_suffix = file.filename.split(".")[-1]
--- a/server/reflector/processors/audio_transcript_modal.py
+++ b/server/reflector/processors/audio_transcript_modal.py
@@ -58,7 +58,10 @@ class AudioTranscriptModalProcessor(AudioTranscriptProcessor):
            # Update code here once this is possible.
            # i.e) extract from context/session objects
            source_language = "en"
-            target_language = "en"
+
            # TODO: target lang is set to "fr" for demo purposes
            # Revert back once language selection is implemented
            target_language = "fr"
            languages = TranslationLanguages()
            # Only way to set the target should be the UI element like dropdown.
@@ -74,7 +77,7 @@ class AudioTranscriptModalProcessor(AudioTranscriptProcessor):
                files=files,
                timeout=self.timeout,
                headers=self.headers,
-                json=json_payload,
+                data=json_payload,
            )
            self.logger.debug(
@@ -84,12 +87,14 @@ class AudioTranscriptModalProcessor(AudioTranscriptProcessor):
            result = response.json()
            # Sanity check for translation status in the result
            translation = ""
            if target_language in result["text"]:
-                text = result["text"][target_language]
+                translation = result["text"][target_language]
            else:
            text = result["text"][source_language]
            transcript = Transcript(
                text=text,
                translation=translation,
                words=[
                    Word(
                        text=word["text"],
--- a/server/reflector/processors/transcript_liner.py
+++ b/server/reflector/processors/transcript_liner.py
@@ -34,12 +34,12 @@ class TranscriptLinerProcessor(Processor):
            if "." not in word.text:
                continue
            partial.translation = self.transcript.translation
            # emit line
            await self.emit(partial)
            # create new transcript
            partial = Transcript(words=[])
        self.transcript = partial
    async def _flush(self):
--- a/server/reflector/processors/types.py
+++ b/server/reflector/processors/types.py
@@ -47,6 +47,7 @@ class Word(BaseModel):
 class Transcript(BaseModel):
    text: str = ""
    translation: str = ""
    words: list[Word] = None
    @property
@@ -84,7 +85,7 @@ class Transcript(BaseModel):
        words = [
            Word(text=word.text, start=word.start, end=word.end) for word in self.words
        ]
-        return Transcript(text=self.text, words=words)
+        return Transcript(text=self.text, translation=self.translation, words=words)
 class TitleSummary(BaseModel):
--- a/server/reflector/views/rtc_offer.py
+++ b/server/reflector/views/rtc_offer.py
@@ -1,25 +1,27 @@
 import asyncio
 from fastapi import Request, APIRouter
 from reflector.events import subscribers_shutdown
 from pydantic import BaseModel
 from reflector.logger import logger
 from aiortc import RTCPeerConnection, RTCSessionDescription, MediaStreamTrack
 from json import loads, dumps
 from enum import StrEnum
 from json import dumps, loads
 from pathlib import Path
 import av
 from aiortc import MediaStreamTrack, RTCPeerConnection, RTCSessionDescription
 from fastapi import APIRouter, Request
 from pydantic import BaseModel
 from reflector.events import subscribers_shutdown
 from reflector.logger import logger
 from reflector.processors import (
    Pipeline,
    AudioChunkerProcessor,
    AudioFileWriterProcessor,
    AudioMergeProcessor,
    AudioTranscriptAutoProcessor,
-    AudioFileWriterProcessor,
+    FinalSummary,
    Pipeline,
    TitleSummary,
    Transcript,
    TranscriptFinalSummaryProcessor,
    TranscriptLinerProcessor,
    TranscriptTopicDetectorProcessor,
    TranscriptFinalSummaryProcessor,
    Transcript,
    TitleSummary,
    FinalSummary,
 )
 sessions = []
@@ -108,6 +110,7 @@ async def rtc_offer_base(
            result = {
                "cmd": "SHOW_TRANSCRIPTION",
                "text": transcript.text,
                "translation": transcript.translation,
            }
            ctx.data_channel.send(dumps(result))
--- a/server/reflector/views/transcripts.py
+++ b/server/reflector/views/transcripts.py
@@ -7,7 +7,6 @@ from typing import Annotated, Optional
 from uuid import uuid4
 import av
 import reflector.auth as auth
 from fastapi import (
    APIRouter,
    Depends,
@@ -18,11 +17,13 @@ from fastapi import (
 )
 from fastapi_pagination import Page, paginate
 from pydantic import BaseModel, Field
 from starlette.concurrency import run_in_threadpool
 import reflector.auth as auth
 from reflector.db import database, transcripts
 from reflector.logger import logger
 from reflector.settings import settings
 from reflector.utils.audio_waveform import get_audio_waveform
 from starlette.concurrency import run_in_threadpool
 from ._range_requests_response import range_requests_response
 from .rtc_offer import PipelineEvent, RtcOffer, rtc_offer_base
@@ -49,6 +50,7 @@ class AudioWaveform(BaseModel):
 class TranscriptText(BaseModel):
    text: str
    translation: str
 class TranscriptTopic(BaseModel):
@@ -491,7 +493,10 @@ async def handle_rtc_event(event: PipelineEvent, args, data):
    # FIXME don't do copy
    if event == PipelineEvent.TRANSCRIPT:
-        resp = transcript.add_event(event=event, data=TranscriptText(text=data.text))
+        resp = transcript.add_event(
            event=event,
            data=TranscriptText(text=data.text, translation=data.translation),
        )
        await transcripts_controller.update(
            transcript,
            {