Capítulo 9
PROYECCIONES II - CORRELACIÓN MÚLTIPLE
Introducción
Con la Revolución Digital, el análisis predictivo busca resultados futuros utilizando datos del pasado; los modelos utilizan diferentes metodologías con un objetivo general muy similar; algunos son específicas de clasificación (los resultados del modelo son binarios; un sí o un no, en forma de 0 y 1) y otras de regresión que permiten predecir un valor que puede aplicarse a un evento desconocido del pasado, del presente o del futuro.
La Revolución Digital aporta el BIG DATA con abundancia de variables estructuradas, como tablas de datos, y no estructuradas, como textos, imágenes o vídeos y brinda nuevas posibilidades para la predicción y trae a un cambio de disposición. Ahora se construyen flexibles y heterogéneas con capacidad demostrada de prever bien, datos diferentes de los utilizados para estimarlas; el predictor final utilizado combina distintos modelos, procedimientos y tipos de datos.
Árboles de Decisión, Redes Neuronales, Máquinas de Vectores de Soporte, Análisis Bayesiano, Regresión Logística, Regresión Lineal, Series Temporales y Data Mining, K-Vecinos más Cercanos, Ensemble Models, Potenciación del Gradiente, Modelos de Respuesta Incremental, reemplazan, introduciendo múltiples parámetros extraídos de Big Data, con muchas ventajas, los modelos tradicionalmente utilizados por la estadística.
Big Data Analytics es la tecnología utilizada para analizar una enorme cantidad de datos estructurados y no estructurados que son reunidos, organizados e interpretados por un software, transformándolos en información útil para la toma de decisiones y para generar ideas sobre tendencias de mercado. Además, contribuye a la generación de ideas de nuevos productos y servicios, atracción de clientes, comprensión de la audiencia, seguridad y más beneficios para tomar decisiones estratégicas.
1. APLICACIÓN A VENTAS
En la inmensa mayoría de los casos, el presupuesto de ventas obedece a la combinación de un gran número de variables, entre las cuales podemos mencionar: el ingreso familiar disponible, el nivel de empleo de la economía, las tasas de interés, la elasticidad de la demanda, las políticas gubernamentales, los gustos y costumbres de los consumidores, etc. Para éstos casos existe un modelo de regresión y correlación múltiple que se ilustra en el siguiente ejemplo, cuya construcción se indica paso a paso:
La compañía ZZZZ & necesita realizar una proyección de las ventas para el próximo quinquenio y dispone de la siguiente información, con la cual puede preparar una matriz.
Sea Y, variable dependiente (ventas en pesos constantes), las cuales dependen de otras variables independientes, que para el caso son: ingreso mensual, la tasa de interés y el nivel de empleo
X1: ingreso mensual disponible.
X2: tasa de interés.
X3 : nivel de empleo.
Año | ventas en millones Y | ingreso mensual en millones de $ X1 | tasa de interés (%) X2 | nivel de empleo (%) X3 |
1 | 1.800 | 2.0 | 48.0 | 92.0 |
2 | 2.000 | 2.0 | 42.0 | 92.5 |
3 | 2.320 | 2.4 | 39.4 | 92.6 |
4 | 2.540 | 2.6 | 37.3 | 93.1 |
5 | 2.712 | 2.7 | 32.8 | 93.6 |
6 | 2.850 | 2.9 | 29.0 | 93.9 |
7 | 3.020 | 3.2 | 26.3 | 94.0 |
8 | 3.430 | 3.5 | 22.0 | 94.3 |
9 | 3.600 | 3.7 | 21.2 | 94.7 |
10 | 3.800 | 3.9 | 20.0 | 94.8 |
11 | 3.960 | 4.1 | 19.8 | 95.0 |
12 | 4.200 | 4.4 | 19.5 | 95.2 |
Nota: información que corresponde a los doce años anteriores. Para preparar el modelo de regresión se utiliza el software Excel, brindado por la Suite de Microsoft, cuyos casos vamos indicando:
PASO 1: entrar al programa Excel y preparar la matriz con la información disponible:
PASO 2: atrasar las variables independientes. La regresión múltiple, debe ser realizada con los valores del período previo. En este paso deberá anexar tres columnas en las cuales figuren para el período uno, los datos del período cero; para el período dos, los datos del período uno; para el período tres, los datos del período dos y así sucesivamente; para una matriz de n filas, se necesitan (n+1).
PASO 3: cálculo de la línea de regresión.
Ingrese al menú "Herramientas" (Tools), y luego al submenú "Análisis de datos" (Data analysis).
Si Excel no posee la opción Análisis de datos, ingrese al menú "Herramientas" y luego al submenú "complementos", allí seleccione la opción "Herramientas para análisis", y dé clic en aceptar.
Haga clic en la opción "Análisis de datos", ésta muestra un cuadro de diálogo, y allí seleccione la opción "regresión".
Haga clic en "Aceptar", y observe el siguiente cuadro:
En la casilla "Rango Y de entrada": ingrese los datos de la variable dependiente, que para el ejemplo son las ventas, (no es necesario cerrar el cuadro "Regresión", basta con señalar los datos de ventas, utilizando el clic izquierdo del mouse) así:
Luego, en la casilla "Rango X de entrada", ingrese los datos de las variables independientes (ver recuadro), utilizando el mouse y las guías rojas de la derecha:
Como puede observarse, en el círculo superior, el nivel de confianza que se le ha pedido es del 95%, es decir, el máximo error de la proyección de los datos aceptado es del 5%; además note que se encuentra seleccionada la opción "En una hoja nueva", circulo inferior izquierdo. Con lo que el resultado de los datos se muestra en una hoja de Excel, la cual se obtiene dando clic en "aceptar". El nivel de confianza depende de la voluntad del analista, se recomienda trabajar con niveles del 95% o superiores.
PASO 4: interpretación de los resultados:
El coeficiente de correlación múltiple, indica el porcentaje de las ventas totales de la compañía que son explicadas por una relación combinada de las variables independientes (salario, tasa de Interés y nivel de empleo), en el ejemplo del 99.8%.
El coeficiente de determinación del 99.6%, indica el nivel de ajuste del modelo, es decir, mientras más cercano a 1 es el valor de R2 mayor es la cantidad de la variación total que puede explicarse por medio de los términos que aparecen en el modelo.
El R2 ajustado es una medida que incluye con mayor precisión las variaciones y que el modelo calcula en forma directa, ajustando o corrigiendo por el número de variables explicativas.
El margen de error equivale a la desviación típica, lo cual indica que en el 95% de los casos cada una de las observaciones se encuentran entre el valor esperado más o menos: 51.8.
Observaciones, es el número de períodos analizados, (12); recuerde que para efectos prácticos se trabaja con (n+1) observaciones, es decir (13).
PASO 5: preparación de la ecuación.
Tomando el intercepto (-5282,68), y los coeficientes de X1 (772,86); X2 (-10,47) y X3 (68,31) se procede a elaborar la ecuación de regresión múltiple:
Y = - 5282,687201 + 772.8693637 X1 - 10,47165995 X2 + 68.31834232 X3
PASO 6: prueba del modelo. Se hace mediante la verificación de la precisión del ajuste, como se ilustra a continuación:
Año | ventas | salario | tasa de int. (%) | tasa de empleo (%) | y estimado | [(Y - y) / Y]% |
1 | 1800,0 | 1,8 | 48,5 | 91,0 | 1817,5713 | -0,98 |
2 | 2000,0 | 2,0 | 48,0 | 92,0 | 2045,69934 | -2,28 |
3 | 2320,0 | 2,2 | 42,0 | 92,5 | 2297,26235 | 0,98 |
4 | 2540,0 | 2,4 | 39,4 | 92,6 | 2485,89437 | 2,13 |
5 | 2712,0 | 2,6 | 37,3 | 93,1 | 2696,6179 | 0,57 |
6 | 2850,0 | 2,7 | 32,8 | 93,6 | 2855,18648 | -0,18 |
7 | 3020,0 | 2,9 | 29,0 | 93,9 | 3070,04816 | -1,66 |
8 | 3430,0 | 3,2 | 26,3 | 94,0 | 3337,01428 | 2,71 |
9 | 3600,0 | 3,5 | 22,0 | 94,3 | 3634,39873 | -0,96 |
10 | 3800,0 | 3,7 | 21,2 | 94,7 | 3824,67727 | -0,65 |
11 | 3960,0 | 3,9 | 20,0 | 94,8 | 3998,64897 | -0,98 |
12 | 4200,0 | 4,1 | 19,8 | 95,0 | 4168,98084 | 0,74 |
Se puede ver que el modelo se ajusta perfectamente, y por tanto es aplicable para la predicción de valores futuros. Gráficamente se observan las ventas reales y estimadas para la ecuación de regresión calculada utilizando la ecuación resultante. Visualizamos el grado de ajuste:
A continuación se procede a preparar una proyección de ventas para los próximos cinco años con las proyecciones macroeconómicas, que suministra el gobierno:
Año | salario | tasa de interés (%) |
tasa de |
ventas proyectadas |
13 | 4,3 | 20,5 | 94,6 | 13 |
14 | 4,35 | 22,3 | 94 | 14 |
15 | 4,4 | 23,8 | 93,7 | 15 |
16 | 4,45 | 26,4 | 92,8 | 16 |
17 | 4,5 | 29 | 90 | 17 |
Se resuelve la ecuación resultante de aplicar el del modelo de regresión múltiple:
Y = - 5282,687201 + 772.8693637 X1 - 10,47165995 X2 + 68.31834232 X3
Año | salario | tasa de interes (%) |
tasa de empleo (%) |
ventas proyectadas |
% de variación |
Y estimada |
13 | 4,30 | 20,50 | 94,60 | 4288,90 | -2,117 | 4288,90 |
14 | 4,35 | 22,30 | 94,00 | 4267,70 | -0,494 | 4267,70 |
15 | 4,40 | 23,80 | 93,70 | 4270,14 | 0,057 | 4270,14 |
16 | 4,45 | 26,40 | 92,80 | 4220,07 | -1,173 | 4220,07 |
17 | 4,50 | 29,00 | 90,00 | 4040,20 | -4,262 | 4040,20 |
Interpretación: para el año 13, según el modelo, las ventas estimadas oscilan entre [4288,90 – 51,84] y [4288,90 + 51,84], es decir entre [$4237 y $4340, millones de pesos], con un nivel de confianza de 95%. Los valores son los estimados pesimista y optimista y el valor medio la opción más probable.
La gráfica integrada de los valores de ventas reales (los 12 primeros períodos) más los valores proyectados (los cinco períodos posteriores, del 13 al 17) muestra el posible comportamiento de las ventas bajo el modelo econométrico, base para discusión y análisis utilizando criterios de tipo cualitativo complementando con el buen juicio del equipo ejecutivo para pasar a elaborar el plan de generación de valor y proyectar el .