Conversational E-commerce Assistant
Hybrid retrieval · Reranking · Multi-turn cart agent
Customers search a 50K-product catalog in natural language, manage carts, request refunds. The system decides when to escalate to a human.
La diferencia entre un sistema de IA que funciona y uno que falla rara vez está en el modelo. Está en el retrieval, en la evaluación, en los guardrails y en la observabilidad.
Seis ejes de IA en producción auto-evaluados, con la convicción que cada uno respalda.
La mayoría de "portafolios de IA" son un chatbot en Streamlit. Los nueve proyectos aquí responden una pregunta que un hiring manager va a hacer en la entrevista: "¿cómo falla, y cómo se da cuenta de que falló?"
El radar es auto-evaluado contra una rúbrica: cada eje sube cuando el proyecto correspondiente tiene un orquestador funcionando, un eval real, y una justificación escrita de por qué se escogió esa arquitectura sobre la alternativa obvia. Ningún eje está en 10/10 — todos los proyectos tienen TODO list.
Un sistema de IA en producción no se evalúa por su mejor respuesta sino por su peor falla. Las decisiones irreversibles (pagar, enviar, escalar) necesitan chequeos de confidence explícitos antes de ejecutarse, no después.
Usar el modelo más caro para cada tarea es un error de ingeniería, no de presupuesto. Un clasificador pequeño fine-tuneado resuelve el 80% de las tareas a un costo y latencia varios órdenes de magnitud menores. El modelo frontera se reserva para el 20% que realmente lo necesita.
La búsqueda vectorial pura no escala a producción. Los sistemas que funcionan combinan BM25, embeddings densos y reranking, evaluados continuamente contra un set de queries con ground truth manual.
Un sistema de IA sin eval suite es un sistema que no sabés si está mejorando o empeorando. Las métricas no son un entregable separado del código, son parte del código.
Un agente que decide solo sin chequeos es un agente que falla solo. Los loops plan-execute-reflect funcionan cuando cada paso es observable, cada tool call tiene retries acotados, y cada decisión irreversible pasa por un nodo de validación explícito.
El código que funciona en local pero no se puede desplegar es código incompleto. La distancia entre prototipo y producción se cierra con Docker desde el día uno, validación de schemas en cada endpoint, configuración externalizada, y observabilidad implementada desde el primer request del sistema.
Cada proyecto está construido sobre un dataset público, evaluado contra ground truth manual con métricas estándar de la industria (RAGAS, F1, WER), comparado contra al menos dos baselines, y desplegado con observability completa.
Hybrid retrieval · Reranking · Multi-turn cart agent
Customers search a 50K-product catalog in natural language, manage carts, request refunds. The system decides when to escalate to a human.
DistilBERT fine-tuned with LoRA · Similar-ticket retrieval · Confidence-gated auto-resolve
Tickets arrive via email/Slack/chat. The system classifies intent and priority, retrieves similar resolved tickets, drafts a solution, and decides: auto-resolve, suggest, or escalate.
Planner-executor-reflector agent loop · Web search · Personalized outreach
Receives a list of target companies, researches each on public web and news, builds a structured profile, generates personalized cold outreach. Measures lift over template-only and single-pass baselines.
Layout analysis · OCR · Claude Vision fallback · Per-field confidence
Extracts structured data from complex PDFs: contracts, financial reports, medical forms, scanned forms with tables and multi-column layouts. Auto-approves high-confidence; routes low-confidence to human review.
Anthropic Computer Use API · Virtualized Ubuntu VM · Action-verification loop
Operates a virtualized desktop by reading screenshots and emitting clicks/keystrokes. Automates back-office workflows in legacy systems that don't expose APIs.
tree-sitter AST · Multi-aspect parallel analyzers · GitHub Action
Reviews pull requests inline: detects bugs, flags security patterns, identifies missing tests, suggests performance improvements. Filters by severity to avoid drowning the developer.
OWASP LLM Top 10 coverage · Adversarial attack suite · Guardrails layer
Evaluates other LLM-based systems for vulnerabilities: prompt injection, jailbreaks, PII leakage, hallucinations. Implements guardrails and produces security audit reports.
Knowledge graph from 10-K filings · Cypher traversal · Hybrid graph + vector retrieval
Answers complex multi-hop questions over S&P 500 ecosystem: who supplies whom, who sits on competing boards, which companies share regulatory exposure. Microsoft GraphRAG technique applied to public financials.
Whisper STT · Claude reasoning · ElevenLabs TTS · Sub-second turn latency
Telephony customer service: caller talks, system transcribes, reasons, retrieves from KB, synthesizes natural voice response. Target: under 800ms end-to-end per turn to feel conversational.
Ocho capas, desde los modelos hasta las metodologías. Los nombres son lo que uso realmente en los nueve proyectos; los detalles de cómo se combinan están en cada repo.
Short version below. The rest lives in the code.
Juan David Suárez Sánchez — Computer Science / Systems Engineering, Universidad Nacional de Colombia. Based in Bogotá, building for remote teams in EU and USA.
I build AI systems with the discipline of a backend engineer: typed boundaries, observability, evaluation loops, Docker from day one. Most "agents" you'll find online are demos. The work in this portfolio is engineered for what happens after the demo — the Monday morning when a customer hands you a real document and a real deadline.
Reliability under failure is the single most-asked-about property in AI hiring loops in 2025–2026. Every project here is built to answer one version of that question.
— my own thesis, written on day oneI'm currently open to Full-Stack AI Engineer and AI Platform Engineer roles — remote-first, willing to relocate for the right team. Comfortable with a paid take-home, a live system-design session, or a code walkthrough of any project here.
Outside the IDE: I read papers from Anthropic, Microsoft Research, and DeepMind weekly. I keep notes on what's actually shippable vs. what's still research-grade.
If you're hiring for AI engineering in EU or USA and you've read this far, I'd love to talk. I'll do a paid take-home, a live system-design session, or walk you through any project on this page over a call.