Distribuciones continuas
Se enumeran a continuación algunas de las distribuciones de probabilidad continuas más empleadas, incluyendo el enlace a la página de Wolfram Alpha donde se describen en detalle.
- Distribución uniforme
- Distribución triangular
- Distribución normal
- Distribución exponencial
- Distribución gamma
- Distribución lognormal
- Distribución de Weibull
- Distribución beta
Con las distribuciones continuas, lo primero que hay que determinar es si necesitamos una función acotada o no. Las distribuciones uniforme, triangular y beta están acotadas por los dos lados, es decir, establecen unos valore máximo y mínimo que vamos a poder generar. En el caso de la distribución beta, inicialmente entre 0 y 1, aunque puede escalarse y desplazarse con algunas transformaciones sencillas.
Las distribuciones exponencial, gamma y Weibull son siempre mayores o iguales que 0; mientras la lognormal es estrictamente mayor que 0. A priori, no sirven para representar v. a. que puedan tener valores negativos aunque siempre es posible desplazarlas para contemplar diferentes escenarios acotados en valores menores que 0.
La distribución normal no está acotada y hay que tener precaución al usarla en situaciones donde la v. a. que estamos modelando sí lo está. Por ejemplo, utilizar la distribución normal para modelar la altura o el peso de un conjunto de individuos es bastante habitual, ya que es muy difícil que se genere, por azar, una altura o peso negativas. Sin embargo, hay que tener cautela con v. a. donde la media sea cercana a 0, o donde la desviación estándar sea del mismo o superior orden de magnitud que la media, ya que la probabilidad de que se generen valores negativos es muy alta.
Reflexión
Supón que tienes la media y desviación estándar de una v. a. que siempre debe ser positiva, y quieres modelarla como una distribución normal. Una opción para controlar que no se obtengan resultados anómalos sería descartar los valores negativos generados. También podríamos asumir que son 0 o, incluso, usar siempre el valor absoluto del valor generado.
¿Soluciona esto el problema? ¿Conlleva alguna otra complicación?
Si analizamos las distribuciones de probabilidad por sus usos más frecuentes, nos encontramos que la uniforme es la distribución de la máxima incertidumbre, usada únicamente cuando sólo podemos establecer un valor mínimo y máximo, pero no sabemos nada de la distribución de la v. a. dentro de ese intervalo.
La distribución triangular se utiliza cuando eres capaz de obtener de un experto el menor valor, mayor valor y valor más frecuente asociado a una v. a., lo que permite una representación un poco más rica de la realidad que la que se consigue con una distribución uniforme. A pesar de la sencillez de su parametrización, muchos expertos desaconsejan su uso, debido a sus pobres propiedades matemáticas.
La distribución normal es la opción por defecto para casi cualquier situación, ya que es muy fácil calcular sus parámetros (media y desviación estándar) y, por el teorema central del límite, es una buena aproximación para cualquier fenómeno que sea resultado de una suma de factores. En general, puede ser adecuada para cualquier v. a. que tenga el 70% de los datos a una distancia inferior a la desviación estándar con respecto a la media. Hay que recordar que es simétrica, por lo que se comporta exactamente igual a ambos lados de la media, y tener cuidado con las situaciones que ya hemos visto donde deseamos una v. a. acotada en 0.
Las distribuciones exponencial, Weibull y gamma son opciones habituales para modelar tiempos de servicio o tiempos entre llegadas. La distribución exponencial tiene la moda en el origen (0), mientras gamma y Weibull pueden tenerla en cualquier otro punto ≥ 0. Por su parte, la distribución de Weibull es más flexible al parametrizar la velocidad con que la cola declina, mientras tanto gamma como exponencial presentan una cola larga.
La distribución gamma también es una opción habitual para modelar costes. En estos casos, la aproximación habitual es calcular los parámetros de esta distribución a partir de la media y desviación estándar de los costes.
La distribución lognormal se emplea para modelar, por ejemplo, el retorno de una inversión a largo plazo, el tiempo de proceso en una línea de producción teniendo en cuenta averías, o el tiempo hasta fallos de un dispositivo.
La distribución de Weibull es muy usada en modelos de supervivencia, tanto de una población como de un dispositivo (tiempo hasta fallo).
La distribución beta es una buena alternativa a la distribución uniforme o la triangular cuando se dispone de más información sobre una v. a. acotada. Es habitual su uso, por ejemplo, para representar la probabilidad de que ocurra un suceso, ya que los parámetros de esta distribución (alfa y beta) pueden estimarse a partir del número de individuos a los que les ha ocurrido (alfa) o no (beta) el suceso.
Autoevaluación: escoge la mejor opción para modelar las siguientes situaciones
Obra publicada con Licencia Creative Commons Reconocimiento No comercial Compartir igual 3.0