fix: waveform can generate NaN in json database (#481)

* refactor: fixes transcript duration type, NaN in waveform, and prepare for postgres migration * fix: ensure we don't have NaN in waveform * fix: missing assertionerror Co-authored-by: pr-agent-monadical[bot] <198624643+pr-agent-monadical[bot]@users.noreply.github.com> * fix: potential empty array --------- Co-authored-by: pr-agent-monadical[bot] <198624643+pr-agent-monadical[bot]@users.noreply.github.com>
2026-02-04 09:56:47 +00:00 · 2025-07-15 20:46:19 -06:00
parent 9deb717e5b
commit f3ae187274
7 changed files with 177 additions and 13 deletions
--- a/server/migrations/env.py
+++ b/server/migrations/env.py
@@ -24,6 +24,10 @@ target_metadata = metadata
 # ... etc.
 # don't use asyncpg for the moment
 settings.DATABASE_URL = settings.DATABASE_URL.replace("+asyncpg", "")
 def run_migrations_offline() -> None:
    """Run migrations in 'offline' mode.
--- a/server/migrations/versions/2cf0b60a9d34_fix_transcript_duration_type.py
+++ b/server/migrations/versions/2cf0b60a9d34_fix_transcript_duration_type.py
@@ -0,0 +1,40 @@
 """fix transcript duration type
 Revision ID: 2cf0b60a9d34
 Revises: ccd68dc784ff
 Create Date: 2025-07-15 16:53:40.397394
 """
 from typing import Sequence, Union
 from alembic import op
 import sqlalchemy as sa
 # revision identifiers, used by Alembic.
 revision: str = '2cf0b60a9d34'
 down_revision: Union[str, None] = 'ccd68dc784ff'
 branch_labels: Union[str, Sequence[str], None] = None
 depends_on: Union[str, Sequence[str], None] = None
 def upgrade() -> None:
    # ### commands auto generated by Alembic - please adjust! ###
    with op.batch_alter_table('transcript', schema=None) as batch_op:
        batch_op.alter_column('duration',
               existing_type=sa.INTEGER(),
               type_=sa.Float(),
               existing_nullable=True)
    # ### end Alembic commands ###
 def downgrade() -> None:
    # ### commands auto generated by Alembic - please adjust! ###
    with op.batch_alter_table('transcript', schema=None) as batch_op:
        batch_op.alter_column('duration',
               existing_type=sa.Float(),
               type_=sa.INTEGER(),
               existing_nullable=True)
    # ### end Alembic commands ###
--- a/server/migrations/versions/88d292678ba2_fix_transcript_json_nan_values.py
+++ b/server/migrations/versions/88d292678ba2_fix_transcript_json_nan_values.py
@@ -0,0 +1,73 @@
 """fix_transcript_json_nan_values
 Revision ID: 88d292678ba2
 Revises: 2cf0b60a9d34
 Create Date: 2025-07-15 19:30:19.876332
 """
 from typing import Sequence, Union
 from alembic import op
 import sqlalchemy as sa
 # revision identifiers, used by Alembic.
 revision: str = "88d292678ba2"
 down_revision: Union[str, None] = "2cf0b60a9d34"
 branch_labels: Union[str, Sequence[str], None] = None
 depends_on: Union[str, Sequence[str], None] = None
 def upgrade() -> None:
    import json
    import re
    from sqlalchemy import text
    # Get database connection
    conn = op.get_bind()
    # Fetch all transcript records with events data
    result = conn.execute(
        text("SELECT id, events FROM transcript WHERE events IS NOT NULL")
    )
    def fix_nan(obj):
        if isinstance(obj, dict):
            for key, value in obj.items():
                if isinstance(value, (dict, list)):
                    fix_nan(value)
                elif isinstance(value, float) and value != value:
                    obj[key] = None
        elif isinstance(obj, list):
            for i in range(len(obj)):
                if isinstance(obj[i], (dict, list)):
                    fix_nan(obj[i])
                elif isinstance(obj[i], float) and obj[i] != obj[i]:
                    obj[i] = None
    for transcript_id, events in result:
        if not events:
            continue
        if "NaN" not in events:
            continue
        try:
            jevents = json.loads(events)
            fix_nan(jevents)
            fixed_events = json.dumps(jevents)
            assert "NaN" not in fixed_events
        except (json.JSONDecodeError, AssertionError) as e:
            print(f"Warning: Invalid JSON for transcript {transcript_id}, skipping: {e}")
            continue
        # Update the record with fixed JSON
        conn.execute(
            text("UPDATE transcript SET events = :events WHERE id = :id"),
            {"events": fixed_events, "id": transcript_id},
        )
 def downgrade() -> None:
    # No downgrade needed - this is a data fix
    pass
--- a/server/migrations/versions/a9c9c229ee36_transcript_composite_index.py
+++ b/server/migrations/versions/a9c9c229ee36_transcript_composite_index.py
@@ -0,0 +1,39 @@
 """transcript composite index
 Revision ID: a9c9c229ee36
 Revises: 88d292678ba2
 Create Date: 2025-07-15 20:09:40.253018
 """
 from typing import Sequence, Union
 from alembic import op
 import sqlalchemy as sa
 from sqlalchemy.dialects import postgresql
 # revision identifiers, used by Alembic.
 revision: str = "a9c9c229ee36"
 down_revision: Union[str, None] = "88d292678ba2"
 branch_labels: Union[str, Sequence[str], None] = None
 depends_on: Union[str, Sequence[str], None] = None
 def upgrade() -> None:
    # ### commands auto generated by Alembic - please adjust! ###
    with op.batch_alter_table("transcript", schema=None) as batch_op:
        batch_op.create_index(
            "idx_transcript_user_id_recording_id",
            ["user_id", "recording_id"],
            unique=False,
        )
    # ### end Alembic commands ###
 def downgrade() -> None:
    # ### commands auto generated by Alembic - please adjust! ###
    with op.batch_alter_table("transcript", schema=None) as batch_op:
        batch_op.drop_index("idx_transcript_user_id_recording_id")
    # ### end Alembic commands ###
--- a/server/reflector/db/init.py
+++ b/server/reflector/db/init.py
@@ -12,9 +12,10 @@ import reflector.db.recordings  # noqa
 import reflector.db.rooms  # noqa
 import reflector.db.transcripts  # noqa
-engine = sqlalchemy.create_engine(
+kwargs = {}
-    settings.DATABASE_URL, connect_args={"check_same_thread": False}
+if "sqlite" in settings.DATABASE_URL:
-)
+    kwargs["connect_args"] = {"check_same_thread": False}
 engine = sqlalchemy.create_engine(settings.DATABASE_URL, **kwargs)
@subscribers_startup.append
--- a/server/reflector/db/transcripts.py
+++ b/server/reflector/db/transcripts.py
@@ -32,16 +32,16 @@ transcripts = sqlalchemy.Table(
    sqlalchemy.Column("name", sqlalchemy.String),
    sqlalchemy.Column("status", sqlalchemy.String),
    sqlalchemy.Column("locked", sqlalchemy.Boolean),
-    sqlalchemy.Column("duration", sqlalchemy.Integer),
+    sqlalchemy.Column("duration", sqlalchemy.Float),
    sqlalchemy.Column("created_at", sqlalchemy.DateTime),
-    sqlalchemy.Column("title", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("title", sqlalchemy.String),
-    sqlalchemy.Column("short_summary", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("short_summary", sqlalchemy.String),
-    sqlalchemy.Column("long_summary", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("long_summary", sqlalchemy.String),
    sqlalchemy.Column("topics", sqlalchemy.JSON),
    sqlalchemy.Column("events", sqlalchemy.JSON),
    sqlalchemy.Column("participants", sqlalchemy.JSON),
-    sqlalchemy.Column("source_language", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("source_language", sqlalchemy.String),
-    sqlalchemy.Column("target_language", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("target_language", sqlalchemy.String),
    sqlalchemy.Column(
        "reviewed", sqlalchemy.Boolean, nullable=False, server_default=false()
    ),
@@ -63,8 +63,8 @@ transcripts = sqlalchemy.Table(
        "meeting_id",
        sqlalchemy.String,
    ),
-    sqlalchemy.Column("recording_id", sqlalchemy.String, nullable=True),
+    sqlalchemy.Column("recording_id", sqlalchemy.String),
-    sqlalchemy.Column("zulip_message_id", sqlalchemy.Integer, nullable=True),
+    sqlalchemy.Column("zulip_message_id", sqlalchemy.Integer),
    sqlalchemy.Column(
        "source_kind",
        Enum(SourceKind, values_callable=lambda obj: [e.value for e in obj]),
@@ -73,10 +73,11 @@ transcripts = sqlalchemy.Table(
    # indicative field: whether associated audio is deleted
    # the main "audio deleted" is the presence of the audio itself / consents not-given
    # same field could've been in recording/meeting, and it's maybe even ok to dupe it at need
-    sqlalchemy.Column("audio_deleted", sqlalchemy.Boolean, nullable=True),
+    sqlalchemy.Column("audio_deleted", sqlalchemy.Boolean),
    sqlalchemy.Index("idx_transcript_recording_id", "recording_id"),
    sqlalchemy.Index("idx_transcript_user_id", "user_id"),
    sqlalchemy.Index("idx_transcript_created_at", "created_at"),
    sqlalchemy.Index("idx_transcript_user_id_recording_id", "user_id", "recording_id"),
 )
@@ -336,6 +337,7 @@ class TranscriptController:
            .join(meetings, recordings.c.meeting_id == meetings.c.id, isouter=True)
            .join(rooms, meetings.c.room_id == rooms.c.id, isouter=True)
        )
        if user_id:
            query = query.where(
                or_(transcripts.c.user_id == user_id, rooms.c.is_shared)
@@ -377,6 +379,8 @@ class TranscriptController:
        if filter_recording:
            query = query.filter(transcripts.c.status != "recording")
        # print(query.compile(compile_kwargs={"literal_binds": True}))
        if return_query:
            return query
--- a/server/reflector/utils/audio_waveform.py
+++ b/server/reflector/utils/audio_waveform.py
@@ -57,7 +57,10 @@ def get_audio_waveform(path: Path | str, segments_count: int = 256) -> list[int]
    # number of decimals to use when rounding the peak value
    digits = 2
-    volumes = np.round(volumes / volumes.max(), digits)
+    if len(volumes) > 0 and volumes.max() > 0:
        volumes = np.round(volumes / volumes.max(), digits)
    else:
        volumes = np.zeros_like(volumes) if len(volumes) > 0 else np.array([])
    return volumes.tolist()