From 953e51ef9f084a41047008a20f01864cedbd0945 Mon Sep 17 00:00:00 2001
From: Mathieu Virbel <mat@meltingrocks.com>
Date: Tue, 10 Oct 2023 14:57:16 +0200
Subject: [PATCH] export danswer as text file

---
 .gitignore                              |  1 +
 server/reflector/tools/exportdanswer.py | 65 +++++++++++++++++++++++++
 2 files changed, 66 insertions(+)
 create mode 100644 server/reflector/tools/exportdanswer.py

diff --git a/.gitignore b/.gitignore
index 26db7bf3..a43e88f7 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,4 @@
 .DS_Store
 server/.env
 .env
+server/exportdanswer
diff --git a/server/reflector/tools/exportdanswer.py b/server/reflector/tools/exportdanswer.py
new file mode 100644
index 00000000..e5925ba9
--- /dev/null
+++ b/server/reflector/tools/exportdanswer.py
@@ -0,0 +1,65 @@
+import json
+import pathlib
+
+
+async def export_db(filename: str) -> None:
+    from reflector.settings import settings
+
+    filename = pathlib.Path(filename).resolve()
+    settings.DATABASE_URL = f"sqlite:///{filename}"
+
+    from reflector.db import database, transcripts
+
+    await database.connect()
+    transcripts = await database.fetch_all(transcripts.select())
+    await database.disconnect()
+
+    def export_transcript(transcript, output_dir):
+        for topic in transcript.topics:
+            metadata = {
+                "link": f"https://reflector.media/transcripts/{transcript.id}#topic:{topic['id']},timestamp:{topic['timestamp']}",
+                "rfl_id": transcript.id,
+                "rfl_topic_id": topic["id"],
+                "rfl_topic_timestamp": topic["timestamp"],
+                "rfl_topic_title": topic["title"],
+            }
+            j_metadata = json.dumps(metadata)
+
+            # export transcript
+            output = output_dir / f"{transcript.id}-topic-{topic['id']}.txt"
+            with open(output, "w", encoding="utf8") as fd:
+                fd.write(f"#DANSWER_METADATA={j_metadata}\n")
+                fd.write("\n")
+                fd.write(f"# {topic['title']} [{topic['timestamp']}]\n")
+                fd.write("\n")
+                fd.write(f"{topic['transcript']}\n")
+
+            # export summary
+            output = output_dir / f"{transcript.id}-summary.txt"
+            metadata = {
+                "link": f"https://reflector.media/transcripts/{transcript.id}",
+                "rfl_id": transcript.id,
+            }
+
+            j_metadata = json.dumps(metadata)
+            with open(output, "w", encoding="utf8") as fd:
+                fd.write(f"#DANSWER_METADATA={j_metadata}\n")
+                fd.write("\n")
+                fd.write("# Summary\n")
+                fd.write("\n")
+                fd.write(f"{transcript.long_summary}\n")
+
+    output_dir = pathlib.Path("exportdanswer")
+    for transcript in transcripts:
+        export_transcript(transcript, output_dir)
+
+
+if __name__ == "__main__":
+    import argparse
+    import asyncio
+
+    parser = argparse.ArgumentParser()
+    parser.add_argument("database", help="Sqlite Database file")
+    args = parser.parse_args()
+
+    asyncio.run(export_db(args.database))