# Dominando los MDP: Por qué tu IA necesita la propiedad de Markov para tener éxito ## Summary Esta guía explora la transición desde problemas simples de bandidos multi-brazo hasta el marco robusto de los Procesos de Decisión de Markov (MDP). Define la propiedad de Markov —la suposición de que el futuro depende solo del estado presente— y explica por qué la representación del estado es la elección de diseño más crítica en el aprendizaje por refuerzo (RL). El artículo también aborda las limitaciones de esta propiedad, introduciendo el concepto de Procesos de Decisión de Markov Parcialmente Observables (POMDP) para escenarios donde el estado completo está oculto. ## Content {t+1}$, condicionada a todo el historial, se reduce a una distribución condicionada solo al estado actual, $S_t$, y a la acción tomada, $A_t$. Formalmente: P(S_{t+1} | S_t, A_t) = P(S_{t+1} --- Source: Kodawire (ES)