Logo Apisdom
InicioAPIsProyectosServiciosBlog
Volver a Proyectos

TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Sistema Trading SAC Enterprise. Sharpe 3.73 y retorno +66.73% (T2). Incluye optimización de memoria (-50% RAM), arquitectura multi-exchange y web de presentacion con InfoBot experto en documentacion.

Imagen principal de TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)
Categoría: Inteligencia Artificial / FinTech
Publicado: 18 de noviembre de 2025
Actualizado: 18 de noviembre de 2025
Orden: #0
Ver Proyecto Repositorio

Galería del Proyecto

Imagen 1 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)
Imagen 2 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)
Imagen 3 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)
Imagen 4 del proyecto TrueQuantAI: Sistema de Trading Institucional con Reinforcement Learning (SAC)

Tecnologías Utilizadas

Python 3.11
PyTorch & CUDA
Stable-Baselines3 (SAC)
Gymnasium
Docker & Docker Compose
FastAPI
PostgreSQL & Redis
CCXT (Multi-exchange)

Sobre el Proyecto

Cargando contenido...

Información Técnica

Slug del proyecto:

truequantai-sistema-de-trading-institucional-con-reinforcement-learning-sac

ID del proyecto:

vw82P2oAflwL4XxbhiET

Estado:Publicado
Posición en lista:Orden #0

Documentación Específica del Proyecto

Evidencia de Rendimiento (T1 vs T2)
Cargando contenido...
Ingeniería y Calidad
Cargando contenido...
Desafíos Técnicos y Resolución de Problemas Críticos
Cargando contenido...
Plataforma Web y Asistente IA (InfoBot)
Cargando contenido...

Compartir este Conocimiento

Si este proyecto aporta valor o podría inspirar a otros, considera difundirlo en tu red profesional.

Logo Apisdom

Potenciando el futuro con APIs de Inteligencia Artificial y desarrollo de software a medida.

  • Términos de Servicio
  • Política de Privacidad
  • Política de Cookies
  • Política de Pagos
  • Aviso Legal
  • APIs y Precios
  • Documentación
  • Blog
  • Proyectos
  • Servicios
  • FAQ
  • Contacto: admin@apisdom.com
Contribuir
Logo Apisdom

Potenciando el futuro con APIs de Inteligencia Artificial y desarrollo de software a medida.

Redes
Políticas
  • Términos de Servicio
  • Política de Privacidad
  • Política de Cookies
  • Política de Pagos
  • Aviso Legal
Enlaces Rápidos
  • APIs y Precios
  • Documentación
  • Blog
  • Proyectos
  • Servicios
  • FAQ
Contacto
  • Email: admin@apisdom.com
  • Juan Luis
Contribuir

Contribuye al desarrollo

© 2026 Apisdom. Todos los derechos reservados.

Desarrollado con Next.js

    Descripción del Proyecto

    TrueQuantAI es un sistema de ingeniería de software de nivel financiero diseñado para operar en mercados de criptomonedas 24/7 utilizando Aprendizaje por Refuerzo (Reinforcement Learning). El núcleo del sistema utiliza el algoritmo SAC (Soft Actor-Critic) implementado sobre Stable-Baselines3, diferenciándose de los bots tradicionales por su capacidad de aprendizaje continuo y adaptación a nuevos regímenes de mercado.

    Este proyecto representa la culminación de la fase de "Transfer Learning" (Entrenamiento T2), donde el modelo demostró una capacidad de adaptación superior, convergiendo 2.7 veces más rápido que en iteraciones anteriores gracias a la reutilización de pesos neuronales pre-entrenados.

    Hitos Técnicos y Métricas Reales (Validación T2)

    El sistema ha sido validado mediante backtesting riguroso sobre datos históricos, logrando métricas que superan los estándares de la industria:

    • Sharpe Ratio: 3.73 (Nivel "Élite", superando ampliamente el objetivo base de 2.0).
    • Retorno Total: +66.73% durante el periodo de validación.
    • Gestión de Riesgo: A pesar de la alta rentabilidad, el Max Drawdown se contuvo en un 12.70%, respetando los límites estrictos de seguridad del capital.

    Arquitectura e Ingeniería de Software

    El sistema se construyó bajo una política de "Cero Errores" y validación estricta, implementando soluciones de bajo nivel para problemas de infraestructura crítica:

    1. Optimización de Memoria Enterprise: Implementación personalizada de carga diferida (memory mapping) basada en el Issue #37 de Stable-Baselines3. Esto logró reducir el uso de RAM del Replay Buffer de 21 GB a 11 GB (-50%), permitiendo entrenamientos masivos en hardware accesible sin fallos de memoria.
    2. Arquitectura Multi-Exchange: Diseño modular compatible con Binance, Bybit y Alpaca mediante la librería CCXT, permitiendo operaciones en múltiples mercados simultáneamente.

    Interfaz y Usabilidad: TrueQuantAI.com

    Para complementar el motor de trading, se ha desarrollado una plataforma web completa (https://truequantai.com) que actúa como centro de control y transparencia:

    • Dashboard Profesional: Visualización de métricas en tiempo real, control de emergencia y logs de operación.
    • InfoBot Especializado: Un asistente de IA integrado en la web, entrenado específicamente con los 148,000+ caracteres de la documentación técnica del proyecto. Este bot es capaz de responder preguntas técnicas complejas sobre la arquitectura y los entrenamientos del sistema, ofreciendo una auditoría interactiva a los usuarios.

    El sistema utiliza Transfer Learning para mejorar su rendimiento. Esta tabla muestra la comparativa real extraída de los logs de entrenamiento entre el modelo inicial (T1) y el modelo final (T2):

    MétricaT1 (Fresh Start)T2 (Transfer Learning)Mejora
    Sharpe Ratio2.703.73+38%
    Retorno Total+61.46%+66.73%+5.27%
    ConvergenciaLenta (120K steps)Rápida (45K steps)2.7x más rápido
    Arranque (Reward)-478 (Pérdida)+68 (Ganancia)Eliminación de pérdidas tempranas

    Datos verificados en el archivo de análisis 05_COMPARACION_T1_vs_T2.md.

    1. Optimización de Memoria (Memory Mapping)

    Para superar limitaciones de hardware en el Training T3, implementé una solución basada en mmap para el Replay Buffer del agente SAC.

    • Problema: El buffer creció a 21.95 GB, causando SystemError en la deserialización estándar.
    • Solución: Implementación de optimize_memory_usage=True con carga diferida.
    • Resultado: Reducción de RAM operativa en un 88% (de 21.95 GB a 2.62 GB reales) [Fuente: OPTIMIZE_MEMORY_USAGE_03NOV2025.md].

    2. Pipeline de Validación "Cero Errores"

    El código sigue estándares ISO 25010 y prácticas CMMI Nivel 5:

    • 130 archivos Python auditados individualmente.
    • Política estricta de 0 errores y 0 warnings en linter antes de cada commit.
    • Prohibición de código muerto, placeholders o funciones "mock" en producción.

    Durante el escalado del sistema para el Entrenamiento T3, me enfrenté a cuellos de botella críticos que requirieron soluciones de ingeniería a bajo nivel.

    1. Optimización de Memoria en el Replay Buffer

    • El Desafío: Al intentar cargar el Replay Buffer del entrenamiento T2 para continuar con T3, el proceso colapsaba. El archivo pesaba 21.95 GB, excediendo la memoria RAM disponible y provocando un SystemError durante la deserialización.
    • La Solución: Implementé la optimización optimize_memory_usage=True en el agente SAC. Esta técnica elimina la redundancia en el almacenamiento de observaciones (next_observations), modificando la estructura interna del buffer para reutilizar datos secuenciales.
    • El Resultado: Se logró una reducción del 50% en el consumo de memoria del buffer (de ~21 GB a ~11 GB), permitiendo su carga exitosa en la RAM disponible y la continuidad del entrenamiento sin errores.

    2. Corrección del Cálculo de PnL en Cierres Parciales

    • El Desafío: Tras 800k timesteps, el backtest mostraba un retorno negativo (-2.90%) y un Win Rate del 0%. El diagnóstico reveló que el 98% de los trades tenían PnL = 0.
    • La Causa: El motor de backtesting solo registraba ganancias cuando la posición se cerraba totalmente, ignorando las estrategias avanzadas del bot de "toma de beneficios parciales".
    • La Solución: Reescribí el módulo pnl_calculator.py para detectar diferenciales de posición y calcular el PnL proporcional en tiempo real.
    • El Resultado: Inmediatamente tras el hotfix, el backtest reflejó la realidad de la estrategia: un retorno positivo y un Win Rate real del 25.97%, confirmando la viabilidad del modelo.

    Más allá del motor de trading, he desarrollado un ecosistema web para la visualización y transparencia del proyecto, accesible en TrueQuantAI.com.

    InfoBot: Auditoría Técnica Conversacional

    Dado el volumen de documentación técnica generado, implementé un InfoBot especializado. A diferencia de un chatbot genérico, este asistente:

    • Base de Conocimiento: Está entrenado exclusivamente con los archivos Markdown del repositorio (logs de entrenamiento, arquitectura, decisiones de diseño).
    • Función: Permite a reclutadores y usuarios auditar el proyecto haciendo preguntas técnicas complejas (ej: "¿Cómo gestionas el overfitting en el T2?") y recibir respuestas precisas basadas en la documentación real.
    • Transparencia: Actúa como una capa de verificación, demostrando que no hay "cajas negras" en el sistema.

    Dashboard de Visualización

    Interfaz web desarrollada para la observabilidad del sistema:

    • Monitorización de Métricas: Gráficas de rendimiento (Sharpe, Drawdown) y estado del portafolio.
    • Logs de Operación: Visualización del registro de actividad y decisiones del modelo en tiempo real.
    • Estado del Sistema: Indicadores de salud de los servicios (Docker, Base de Datos, API).