Abierto a roles de AI Engineer · EU / USA · remoto

Juan David Suárez Sánchez — AI Engineer.

La diferencia entre un sistema de IA que funciona y uno que falla rara vez está en el modelo. Está en el retrieval, en la evaluación, en los guardrails y en la observabilidad.

9
Projects targeting AI Engineering 2026
12
Definition-of-Done blocks per project
≥100
Eval cases with manual ground truth, per project
100%
Dockerized, traced, with public demo
01 · Mi metodología técnica

Mi enfoque al construir sistemas de IA

A lo largo de mi experiencia trabajando en sistemas de IA, un patrón se hace evidente: los problemas técnicos generalmente provienen de malas prácticas en alguno de estos puntos clave.

Mapa de capacidades · auto-evaluado
Retrieval Agent loops Fine-tuning Evaluación Observabilidad Deploy y producción

La diferencia entre prototipo y producción.

Construir sistemas de IA en producción no se trata de evitar las fallas, sino de estar preparado para ellas. Esa es la diferencia entre un prototipo y un sistema listo para producción. Esa preparación se materializa técnicamente con trazabilidad, fallbacks, eval suites, observabilidad y guardrails.

Confiabilidad

Un sistema de IA en producción no se evalúa por su mejor respuesta sino por su peor falla. Las decisiones irreversibles (pagar, enviar, escalar) necesitan chequeos de confidence explícitos antes de ejecutarse, no después.

Elección de modelo

Usar el modelo más caro para cada tarea es un error de ingeniería, no de presupuesto. Un clasificador pequeño fine-tuneado resuelve el 80% de las tareas a un costo y latencia varios órdenes de magnitud menores. El modelo frontera se reserva para el 20% que realmente lo necesita.

Retrieval

La búsqueda vectorial pura no escala a producción. Los sistemas que funcionan combinan BM25, embeddings densos y reranking, evaluados continuamente contra un set de queries con ground truth manual.

Evaluación

Un sistema de IA sin eval suite es un sistema que no sabés si está mejorando o empeorando. Las métricas no son un entregable separado del código, son parte del código.

Agent loops

Un agente que decide solo sin chequeos es un agente que falla solo. Los loops plan-execute-reflect funcionan cuando cada paso es observable, cada tool call tiene retries acotados, y cada decisión irreversible pasa por un nodo de validación explícito.

Deploy y producción

El código que funciona en local pero no se puede desplegar es código incompleto. La distancia entre prototipo y producción se cierra con Docker desde el día uno, validación de schemas en cada endpoint, configuración externalizada, y observabilidad implementada desde el primer request del sistema.

02 · Proyectos

Algunos casos de estudio en los que he trabajado

En conjunto, los proyectos cubren el espectro técnico que un AI Engineer enfrenta hoy: retrieval avanzado, agentes autónomos, fine-tuning, procesamiento de documentos, computer use, code review, knowledge graphs, safety y voice AI.

01 ● Demo en vivo

Conversational E-commerce Assistant

Hybrid retrieval · Reranking · Multi-turn cart agent

Customers search a 50K-product catalog in natural language, manage carts, request refunds. The system decides when to escalate to a human.

Use case: Rappi, Mercado Libre, Walmart, Instacart, Amazon
QdrantpgvectorChromaBM25 + RRFCohere RerankClaude Sonnet 4.5LangGraphRAGASStreamlit
Instacart Market Basket (Kaggle, 3.4M orders)
02 ● Demo en vivo

Customer Support Triage Agent

DistilBERT fine-tuned with LoRA · Similar-ticket retrieval · Confidence-gated auto-resolve

Tickets arrive via email/Slack/chat. The system classifies intent and priority, retrieves similar resolved tickets, drafts a solution, and decides: auto-resolve, suggest, or escalate.

Use case: Intercom, Zendesk, Freshdesk, HubSpot
DistilBERT + PEFTHuggingFace HubQdrantClaude Sonnet 4.5LangGraphNext.js + shadcnLangSmith
Bitext (27K intents) + Twitter Customer Support (3M)
03 ● Demo en vivo

B2B Sales Intelligence Agent

Planner-executor-reflector agent loop · Web search · Personalized outreach

Receives a list of target companies, researches each on public web and news, builds a structured profile, generates personalized cold outreach. Measures lift over template-only and single-pass baselines.

Use case: Apollo.io, Clay.com, Outreach.io
Claude Sonnet 4.5TavilyHackerNews APIselectolaxPydantic v2LangGraphNext.js
YC Companies (~5K with metadata)
04 ● Demo en vivo

Document Intelligence Pipeline

Layout analysis · OCR · Claude Vision fallback · Per-field confidence

Extracts structured data from complex PDFs: contracts, financial reports, medical forms, scanned forms with tables and multi-column layouts. Auto-approves high-confidence; routes low-confidence to human review.

Use case: Hyperscience, Rossum, Klarity
unstructured 0.16Tesseract / PaddleOCRClaude VisionCamelotTable TransformerPydantic v2Next.js + PDF viewer
FUNSD (199 forms) + DocVQA (12.7K docs) + PubLayNet (360K pages)
05 ● Demo en vivo

Computer Use Agent

Anthropic Computer Use API · Virtualized Ubuntu VM · Action-verification loop

Operates a virtualized desktop by reading screenshots and emitting clicks/keystrokes. Automates back-office workflows in legacy systems that don't expose APIs.

Use case: RPA for banking/insurance, legacy-system extraction
Claude Sonnet 4.5 (computer_use tool)Ubuntu 22.04 + XvfbxdotoolVNCLangGraphNext.js + VNC viewer
Custom eval (20 tasks) + OSWorld + WebArena benchmarks
06 ● Demo en vivo

Code Review Agent

tree-sitter AST · Multi-aspect parallel analyzers · GitHub Action

Reviews pull requests inline: detects bugs, flags security patterns, identifies missing tests, suggests performance improvements. Filters by severity to avoid drowning the developer.

Use case: Cursor, Codium, Sourcegraph Cody, Codacy
Claude Sonnet 4.5tree-sitterruff + mypysemgrepPyGithubLangGraphNext.js + diff viewer
SWE-bench Lite (300 issues) + CodeReviewer (642K diff/review pairs)
07 ● Demo en vivo

AI Safety & Red Teaming Framework

OWASP LLM Top 10 coverage · Adversarial attack suite · Guardrails layer

Evaluates other LLM-based systems for vulnerabilities: prompt injection, jailbreaks, PII leakage, hallucinations. Implements guardrails and produces security audit reports.

Use case: Robust Intelligence, Lakera, Protect AI, HiddenLayer
guardrails-ai / NeMoPresidio (PII)garak (NVIDIA)giskardprotectai/debertaNext.js dashboard
HarmBench (400) + JailbreakBench (100) + ToxicChat (10K)
08 ● Demo en vivo

GraphRAG over SEC EDGAR

Knowledge graph from 10-K filings · Cypher traversal · Hybrid graph + vector retrieval

Answers complex multi-hop questions over S&P 500 ecosystem: who supplies whom, who sits on competing boards, which companies share regulatory exposure. Microsoft GraphRAG technique applied to public financials.

Use case: Visible Alpha, Tegus, AlphaSense, M&A advisory
Neo4j 5 + APOC + GDSneo4j-graphragClaude Sonnet 4.5Voyage AIPydantic v2Next.js + react-force-graph-2d
SEC EDGAR 10-K filings (S&P 500, last 5 years, ~10K docs)
09 ● Demo en vivo

Voice AI Conversational Agent

Whisper STT · Claude reasoning · ElevenLabs TTS · Sub-second turn latency

Telephony customer service: caller talks, system transcribes, reasons, retrieves from KB, synthesizes natural voice response. Target: under 800ms end-to-end per turn to feel conversational.

Use case: Bland AI, Vapi, Retell, Hume — booking/support/commerce by voice
Whisper-large-v3Claude Sonnet 4.5ElevenLabs / XTTS-v2LiveKit / Twiliosilero-vadLangGraphNext.js + WebRTC
Mozilla Common Voice + LibriSpeech + Spoken-SQuAD + MultiWOZ 2.4
03 · Stack

Las herramientas con las que construyo

Mi stack técnico agrupado en ocho capas, que cubren todo el ciclo de construcción de un sistema de IA.

Σ
Modelos y proveedores
Claude (Anthropic SDK)OpenAI APIVoyage AItext-embedding-3Cohere Rerank v3WhisperElevenLabs
λ
Orquestación de agentes
LangGraphLangChainLlamaIndexMCPAnthropic Computer UseClaude Codetool usefunction callingstructured outputs
Retrieval y bases de datos
QdrantpgvectorChromaPineconeNeo4j 5 + APOCGraphRAG (Microsoft)neo4j-graphragPostgreSQL 16RedisBM25RRF fusion
Training, evaluación y observabilidad
HuggingFace TransformersPEFTLoRAUnslothWeights & BiasesRAGASPromptfooDeepEvalInspect AILangSmithLangfuse
Especialidades
Document AI · unstructuredTesseractPaddleOCRCamelotTable TransformerClaude VisionVoice · LiveKitsilero-vadXTTS-v2Code AI · tree-sitterruffmypysemgrepPyGithubSafety · guardrails-aiNeMoPresidiogarakgiskard
⟨/⟩
Backend, infraestructura y cloud
Python 3.12FastAPI (async + SSE)Pydantic v2Dockerdocker-composeGitHub ActionsNext.js 14React 18TypeScriptTailwindshadcn/uireact-flowreact-force-graphrechartsD3GCPAWSAzureVercelRailwayFly.io
Fundamentos matemáticos
Lógica formalCálculoÁlgebra linealProbabilidadEstadística
Metodologías y prácticas
AgileScrumKanbanGit workflowscode reviewCI/CD
04 · Sobre mí

The person behind the repos

Short version below. The rest lives in the code.

Juan David Suárez Sánchez — Computer Science / Systems Engineering, Universidad Nacional de Colombia. Based in Bogotá, building for remote teams in EU and USA.

I build AI systems with the discipline of a backend engineer: typed boundaries, observability, evaluation loops, Docker from day one. Most "agents" you'll find online are demos. The work in this portfolio is engineered for what happens after the demo — the Monday morning when a customer hands you a real document and a real deadline.

Reliability under failure is the single most-asked-about property in AI hiring loops in 2025–2026. Every project here is built to answer one version of that question.

— my own thesis, written on day one

I'm currently open to Full-Stack AI Engineer and AI Platform Engineer roles — remote-first, willing to relocate for the right team. Comfortable with a paid take-home, a live system-design session, or a code walkthrough of any project here.

Outside the IDE: I read papers from Anthropic, Microsoft Research, and DeepMind weekly. I keep notes on what's actually shippable vs. what's still research-grade.

3
Languages spoken
15+
Agent roles designed
4
Vector stores used
README revisions
How I learn · recent papers I keep returning to
  • LoRA: Low-Rank Adaptation of Large Language ModelsMicrosoft
  • From Local to Global: A GraphRAG Approach to QAMicrosoft Research
  • Contextual RetrievalAnthropic
  • OWASP LLM Top 10 (2025)OWASP
  • Robust Speech Recognition via Large-Scale Weak SupervisionOpenAI · Whisper
  • SWE-bench: Can LLMs Resolve Real-World GitHub Issues?Princeton
05 · Experiencia

Trayectoria profesional

Cuatro roles construyendo y entrenando sistemas de IA, desde modelos ML clásicos hasta plataformas LLM en producción.

AI Platform Engineer

Sep 2025 — Presente · 9 mos
Irrelevant · Full-time · Colombia · Remote

Lidero el área de tecnología de la empresa, gestionando el equipo técnico y trabajando directamente con clientes para diseñar, orquestar y desplegar soluciones de inteligencia artificial.

  • Diseño de arquitectura con Large Language Models (OpenAI API, Anthropic API) orquestados con LangChain y LangGraph.
  • Construcción de AI Agents y sistemas multi-agente con tool calling, function calling y MCP (Model Context Protocol).
  • Implementación de sistemas RAG (Retrieval-Augmented Generation) con embeddings y búsqueda semántica.
  • Desarrollo de servicios en Python con FastAPI y deploy en GCP con Docker.
  • Comunicación directa con cliente desde discovery hasta sistema en producción.
Large Language Models · LangChain & LangGraph · +29 skills

Computer Science Expert — AI Training

May 2024 — Aug 2025 · 1 yr 4 mos
Scale AI · Full-time · United States · Remote

Año y medio especializado en la capa de calidad y evaluación del training de Large Language Models para mejorar los modelos de frontera.

  • Diseño de prompts complejos aplicando Prompt Engineering avanzado: chain-of-thought, few-shot prompting y structured outputs.
  • Desarrollo y optimización de código Python integrado en pipelines de training de LLMs.
  • Aplicación de rúbricas multi-punto para LLM Evaluation en contextos altamente subjetivos.
  • Análisis y aseguramiento de calidad de datasets para training de modelos.
Aprendizaje automático · SQL · +14 skills

Machine Learning Engineer

Jun 2022 — Apr 2024 · 1 yr 11 mos
Anyone AI · Full-time · United States · Remote

Casi dos años combinando construcción y deploy de modelos de IA en producción con formación a otros profesionales en estas tecnologías. Recorrí la transición de Machine Learning clásico hacia sistemas de Generative AI.

  • Diseño, entrenamiento y deploy en producción de modelos de Machine Learning y sistemas basados en Large Language Models.
  • Formación de profesionales en LLMs, LangChain, AI Agents y RAG, conectando técnicas con sus fundamentos matemáticos.
  • Construcción de aplicaciones con OpenAI API y Anthropic API usando Python.
  • Implementación de data pipelines, evaluación de modelos y deploy con Docker.
Analytics · Git · +39 skills

Machine Learning Engineer

Jun 2021 — May 2022 · 1 yr
Bs Energy And Automation SAS · Full-time · Bogotá, Colombia · On-site

Primer rol profesional aplicando Machine Learning a sistemas industriales en los sectores de energía y comunicaciones, bajo restricciones reales de hardware y costo.

  • Desarrollo de modelos en Python para predicción de demanda energética y detección de anomalías en redes de comunicaciones.
  • Análisis y selección de algoritmos apropiados para cada problema específico, evaluando su efectividad en contextos aplicados.
  • Diseño de estrategias para mejorar la precisión de modelos mediante análisis de errores y ajuste de parámetros.
  • Optimización de modelos para entornos con restricciones de hardware, asegurando rendimiento eficiente sin comprometer calidad.
Analytics · Git · +14 skills
06 · Educación

Formación

Formación universitaria

Física y Matemáticas
Universidad Nacional de Colombia · Bogotá

Certificaciones y especializaciones

  • Specialization in Building AI Agents with LLMs · Anyone AI
  • Intensive Diploma in Academic Research and Publication · Universidad Nacional de Colombia · Dec 2023
  • Aprende a programar con Python · Especialización · Universidad Austral, Buenos Aires
  • Analíticas de Datos con Pandas · Tecnológico de Monterrey
  • Curso Completo de Bases de Datos SQL y MySQL · Udemy

Let's build something that holds up in production.

If you're hiring for AI engineering in EU or USA and you've read this far, I'd love to talk. I'll do a paid take-home, a live system-design session, or walk you through any project on this page over a call.

Available · EU / USA · remote Bogotá, Colombia · UTC−5 Reply within 24h