Analisis Predictivo con Power BI

By Pablo Moreno posted 10 days ago

  

Es cierto que Power BI es una aplicacion bastante versatile a la hora de visualizar y analizar datos, y aunque se menciona en varios blogs y white papers las capacidadesd de analisis predictivo o Machine Learning (al margen de usar el R script), aqui presento un compendio de las funcionalidades que ya existen para tal fin sin necesidad de usar codigo en R o ningun otro codigo.

En cuanto a los metodos o funcionalidades de analisis predictivo, vamos a distinguir entre las capacidades 'propias de Power BI' y las visualizaciones que actualmente estan disponibles en el ‘AppStore’ de Microsoft para Power BI.

No es la intencion de este blog de describir o explicar para que sirven cada uno de estos metodos, pero si hacer un compendio de los mismos.

Capacidades propias de Power BI

Forecasting (Exponential Smooth)

La funcion de Forecasting en Power BI le permite hacer predicciones sobre series temporales (unicamente sobre series temporales). Esta funcionalidad usa el algoritmo ‘exponential smooth’ (supervised learning), y se encuentra disponible en el panel de ‘analytics’ del grafico de linea; siempre y cuando la variable principal es temporal (formato ‘date’).

Con esta funcionalidad se pueden definer los puntos a predecir (que seran en el mismo formato que la variable temporal (dias, meses, etc…). Ademas, permite atrasar la prediccion ignorando cierta cantidad de puntos; definer el intervalo de confianza de la prediccion (probalidad de la prediccion); y definir el ciclo temporal de base para que se aplique el algoritmo.

Para mayor detalle pueden ver aqui

blog1.png
Clustering

En Noviembre de 2016 se introdujo esta funcionalidad de Machine Learning (unsupervised learning), que se incorpora en los ‘scatter plots’.

Es decir, una vez que se se representa un grafico scatter (solo functional con variables continuas, no con discretas o fechas), existe la opcion de ‘Automatically find clusters’ en ‘More options’ del grafico (los 3 puntos “…” de la esquina superior derecha).

Para mayor detalles pueden ver aqui

blog_2.jpg
blog2a.jpg

Visualizaciones disponibles de Power BI en (AppSource)

 

Association Rules

En este visual (unsupervised learning), las relaciones se detectan y visualizan automáticamente. El usuario puede controlar y ordenar las reglas de salida utilizando las medidas de significación más conocidas: soporte, confianza y sustentación. Este visual admite varios métodos para la visualización de reglas de asociación. Puede controlar los parámetros del algoritmo y los atributos visuales para adaptarlos a sus necesidades.

Las reglas de asociación son declaraciones “if / then” que ayudan a descubrir relaciones interesantes entre variables en bases de datos grandes. El ejemplo simple de una regla de asociación es "si un cliente compra un café, es 80% probable que también compre azúcar".

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion del visual aqui

blog3.png

Prediccion con Redes Neurales

 Predicción usando Red Neural -por MAQ Software- implementa una "Red Neural Artificial" (sobre una serie temporal) para aprender de datos históricos y predecir valores futuros.

Este visual utiliza una red de avance de una sola capa con entradas retrasadas para procesar valores de series de tiempo. Las dependencias del paquete R (autoinstalado): forecast, plotly, zoo, xts.

El pronóstico mediante el uso de la red neuronal es útil para pronosticar presupuestos, ventas, demanda o inventario.

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui

blog4.png

Prediccion con ARIMA

La previsión de series temporales es el uso de un modelo para predecir valores futuros basados en valores observados previamente.

Es una de las principales herramientas de cualquier analista de negocios utilizado para predecir la demanda y el inventario, el presupuesto, las cuotas de ventas, las campañas de marketing y las compras.

Los instrumentos visuales actuales son conocidos por el método Autoregressive Integrated Moving Average (ARIMA) para la predicción. Los modelos ARIMA son una clase general de modelos para pronosticar una serie de tiempo que se puede hacer que sea "estacionaria".

Si bien los modelos de exponential smooth se basan en una descripción de la tendencia y estacionalidad en los datos; los modelos ARIMA tienen como objetivo describir las autocorrelaciones en los datos.

Se pueden usar modelos estacionales y no estacionales. Puede controlar los parámetros del algoritmo y los atributos visuales para adaptarlos a sus necesidades.

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui

blog5.png
Prediccion con Exponential Smooth

Es una de las principales herramientas de cualquier analista de negocios utilizado para predecir la demanda y el inventario, el presupuesto, las cuotas de ventas, las campañas de marketing y las compras. Los pronósticos precisos conducen a mejores decisiones. Implementos visuales actuales método de suavizado exponencial bien conocido para la previsión. La predicción se basa en el modelado de tendencia y estacionalidad. Puede controlar los parámetros del algoritmo y los atributos visuales para adaptarlos a sus necesidades.

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui

blog6.png

Prediccion con TBATS

Imagine que sus datos están influenciados por dos factores de estacionalidad. Por ejemplo, un vendedor de helados espera un cierto patrón de estacionalidad que fluctúa diariamente y semanalmente.

El modelo TBATS es un modelo de serie temporal para series que exhiben múltiples estacionalidades.

Puede controlar los atributos visuales del modelo TBATS para satisfacer sus necesidades.

Así es como funciona:

Defina el campo "Fecha" requerido (del tipo "fecha" o "fecha / hora")

Definir el campo "Valor" requerido (numérico)

Seleccione las estacionalidades requeridas en "Configuración de pronóstico"

Utilice numerosos controles de formato para refinar la apariencia visual de la trama

Las dependencias del paquete R (que se instalan automáticamente): zoo, scales, reshape2, ggplot2, plotly, forecast, lubridate, htmlwidgets, XML

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui

blog7.png

Clustering con Outliers (valores extremos)

El Clustering le ayuda a encontrar grupos de similitud en sus datos y es una de las tareas más comunes en Data Science. Encontrar los "valores atípicos", que son las observaciones en sus datos aislados del resto de las observaciones, a menudo es una tarea de análisis no fácil por sí misma.

Explica por qué la agrupación basada en la densidad, que encuentra grupos de similitud y valores atípicos en sus datos de forma simultánea, es uno de los algoritmos de agrupamiento más comunes.

Puede controlar los parámetros del algoritmo y los atributos visuales para adaptarlos a sus necesidades.

Así es como funciona:

Defina los campos que se usarán en la agrupación (dos o más variables numéricas)

Opcionalmente, proporcione las etiquetas que se mostrarán en la parte superior de cada observación

Si la dimensionalidad de los datos es mayor que dos, considere el preprocesamiento de datos

El algoritmo DBSCAN requiere 2 parámetros para controlar la granularidad de los clústeres. Pueden ser configurados manualmente por el usuario (recomendado) o automáticamente por algoritmo subyacente

Cuando esté satisfecho con la salida de agrupamiento, use numerosos controles de formato para refinar la apariencia visual de la trama

Dependencias del paquete R (autoinstalado): escalas, fpc, coche, dbscan

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui

 blog8.png

Arbol de decision

Los árboles de decisión son probablemente una de las herramientas de apoyo a las decisiones más comunes y fáciles de entender.

El aprendizaje del árbol de decisiones encuentra automáticamente los criterios de decisión importantes a considerar y utiliza la representación visual más intuitiva y explícita.

La visión actual implementa las herramientas populares y ampliamente utilizadas de particiones recursivas para la construcción del árbol de decisión. Cada hoja del árbol está etiquetada con una clase y una distribución de probabilidad sobre las clases. Además de esto, utilizamos la validación cruzada para estimar el rendimiento estadístico del árbol de decisión.

Si la variable objetivo es categórica o tiene pocos valores posibles, se construye el "Árbol de clasificación", mientras que si la variable objetivo es numérica, el resultado de la vista visual es "Árbol de regresión".

Debe tener R instalado en su equipo. Puede instalar R aqui

Mas informacion de este visual aqui


blog9.png

Espero que este documento les sirva de utilidad.

No olviden usar varias funciones o algoritmos para el mismo analisis; compare los resultados y estudie las variaciones. Esto le dara una mayor y major vision del analisis de sus datos.

Permalink