TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Sistema Trading SAC Enterprise. Sharpe 3.73 y retorno +66.73% (T2). Incluye optimización de memoria (-50% RAM), arquitectura multi-exchange y web de presentacion con InfoBot experto en documentacion.

Categoría: Inteligencia Artificial / FinTech

Publicado: 18 de noviembre de 2025

Actualizado: 18 de noviembre de 2025

Orden: #0

Ver Proyecto Repositorio

Galería del Proyecto

Imagen 1 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Imagen 2 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Imagen 3 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Imagen 4 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Tecnologías Utilizadas

Python 3.11

PyTorch & CUDA

Stable-Baselines3 (SAC)

Gymnasium

Docker & Docker Compose

FastAPI

PostgreSQL & Redis

CCXT (Multi-exchange)

Sobre el Proyecto

Descripción del Proyecto

TrueQuantAI es un sistema de ingeniería de software de nivel financiero diseñado para operar en mercados de criptomonedas 24/7 utilizando Aprendizaje por Refuerzo (Reinforcement Learning). El núcleo del sistema utiliza el algoritmo SAC (Soft Actor-Critic) implementado sobre Stable-Baselines3, diferenciándose de los bots tradicionales por su capacidad de aprendizaje continuo y adaptación a nuevos regímenes de mercado.

Este proyecto representa la culminación de la fase de "Transfer Learning" (Entrenamiento T2), donde el modelo demostró una capacidad de adaptación superior, convergiendo 2.7 veces más rápido que en iteraciones anteriores gracias a la reutilización de pesos neuronales pre-entrenados.

Hitos Técnicos y Métricas Reales (Validación T2)

El sistema ha sido validado mediante backtesting riguroso sobre datos históricos, logrando métricas que superan los estándares de la industria:

Sharpe Ratio: 3.73 (Nivel "Élite", superando ampliamente el objetivo base de 2.0).
Retorno Total: +66.73% durante el periodo de validación.
Gestión de Riesgo: A pesar de la alta rentabilidad, el Max Drawdown se contuvo en un 12.70%, respetando los límites estrictos de seguridad del capital.

Arquitectura e Ingeniería de Software

El sistema se construyó bajo una política de "Cero Errores" y validación estricta, implementando soluciones de bajo nivel para problemas de infraestructura crítica:

Optimización de Memoria Enterprise: Implementación personalizada de carga diferida (memory mapping) basada en el Issue #37 de Stable-Baselines3. Esto logró reducir el uso de RAM del Replay Buffer de 21 GB a 11 GB (-50%), permitiendo entrenamientos masivos en hardware accesible sin fallos de memoria.
Arquitectura Multi-Exchange: Diseño modular compatible con Binance, Bybit y Alpaca mediante la librería CCXT, permitiendo operaciones en múltiples mercados simultáneamente.

Interfaz y Usabilidad: TrueQuantAI.com

Para complementar el motor de trading, se ha desarrollado una plataforma web completa (https://truequantai.com) que actúa como centro de control y transparencia:

Dashboard Profesional: Visualización de métricas en tiempo real, control de emergencia y logs de operación.
InfoBot Especializado: Un asistente de IA integrado en la web, entrenado específicamente con los 148,000+ caracteres de la documentación técnica del proyecto. Este bot es capaz de responder preguntas técnicas complejas sobre la arquitectura y los entrenamientos del sistema, ofreciendo una auditoría interactiva a los usuarios.

Información Técnica

Slug del proyecto:

truequantai-sistema-de-trading-institucional-con-reinforcement-learning-sac

ID del proyecto:

vw82P2oAflwL4XxbhiET

Estado:Publicado

Posición en lista:Orden #0

Documentación Específica del Proyecto

Evidencia de Rendimiento (T1 vs T2)

El sistema utiliza Transfer Learning para mejorar su rendimiento. Esta tabla muestra la comparativa real extraída de los logs de entrenamiento entre el modelo inicial (T1) y el modelo final (T2):

Métrica	T1 (Fresh Start)	T2 (Transfer Learning)	Mejora
Sharpe Ratio	2.70	3.73	+38%
Retorno Total	+61.46%	+66.73%	+5.27%
Convergencia	Lenta (120K steps)	Rápida (45K steps)	2.7x más rápido
Arranque (Reward)	-478 (Pérdida)	+68 (Ganancia)	Eliminación de pérdidas tempranas

Datos verificados en el archivo de análisis 05_COMPARACION_T1_vs_T2.md.

Ingeniería y Calidad

1. Optimización de Memoria (Memory Mapping)

Para superar limitaciones de hardware en el Training T3, implementé una solución basada en mmap para el Replay Buffer del agente SAC.

Problema: El buffer creció a 21.95 GB, causando SystemError en la deserialización estándar.
Solución: Implementación de optimize_memory_usage=True con carga diferida.
Resultado: Reducción de RAM operativa en un 88% (de 21.95 GB a 2.62 GB reales) [Fuente: OPTIMIZE_MEMORY_USAGE_03NOV2025.md].

2. Pipeline de Validación "Cero Errores"

El código sigue estándares ISO 25010 y prácticas CMMI Nivel 5:

130 archivos Python auditados individualmente.
Política estricta de 0 errores y 0 warnings en linter antes de cada commit.
Prohibición de código muerto, placeholders o funciones "mock" en producción.

Desafíos Técnicos y Resolución de Problemas Críticos

Durante el escalado del sistema para el Entrenamiento T3, me enfrenté a cuellos de botella críticos que requirieron soluciones de ingeniería a bajo nivel.

1. Optimización de Memoria en el Replay Buffer

El Desafío: Al intentar cargar el Replay Buffer del entrenamiento T2 para continuar con T3, el proceso colapsaba. El archivo pesaba 21.95 GB, excediendo la memoria RAM disponible y provocando un SystemError durante la deserialización.
La Solución: Implementé la optimización optimize_memory_usage=True en el agente SAC. Esta técnica elimina la redundancia en el almacenamiento de observaciones (next_observations), modificando la estructura interna del buffer para reutilizar datos secuenciales.
El Resultado: Se logró una reducción del 50% en el consumo de memoria del buffer (de ~21 GB a ~11 GB), permitiendo su carga exitosa en la RAM disponible y la continuidad del entrenamiento sin errores.

2. Corrección del Cálculo de PnL en Cierres Parciales

El Desafío: Tras 800k timesteps, el backtest mostraba un retorno negativo (-2.90%) y un Win Rate del 0%. El diagnóstico reveló que el 98% de los trades tenían PnL = 0.
La Causa: El motor de backtesting solo registraba ganancias cuando la posición se cerraba totalmente, ignorando las estrategias avanzadas del bot de "toma de beneficios parciales".
La Solución: Reescribí el módulo pnl_calculator.py para detectar diferenciales de posición y calcular el PnL proporcional en tiempo real.
El Resultado: Inmediatamente tras el hotfix, el backtest reflejó la realidad de la estrategia: un retorno positivo y un Win Rate real del 25.97%, confirmando la viabilidad del modelo.

Plataforma Web y Asistente IA (InfoBot)

Más allá del motor de trading, he desarrollado un ecosistema web para la visualización y transparencia del proyecto, accesible en TrueQuantAI.com.

InfoBot: Auditoría Técnica Conversacional

Dado el volumen de documentación técnica generado, implementé un InfoBot especializado. A diferencia de un chatbot genérico, este asistente:

Base de Conocimiento: Está entrenado exclusivamente con los archivos Markdown del repositorio (logs de entrenamiento, arquitectura, decisiones de diseño).
Función: Permite a reclutadores y usuarios auditar el proyecto haciendo preguntas técnicas complejas (ej: "¿Cómo gestionas el overfitting en el T2?") y recibir respuestas precisas basadas en la documentación real.
Transparencia: Actúa como una capa de verificación, demostrando que no hay "cajas negras" en el sistema.

Dashboard de Visualización

Interfaz web desarrollada para la observabilidad del sistema:

Monitorización de Métricas: Gráficas de rendimiento (Sharpe, Drawdown) y estado del portafolio.
Logs de Operación: Visualización del registro de actividad y decisiones del modelo en tiempo real.
Estado del Sistema: Indicadores de salud de los servicios (Docker, Base de Datos, API).

Compartir este Conocimiento

Si este proyecto aporta valor o podría inspirar a otros, considera difundirlo en tu red profesional.