Data Science

Análisis Estadístico de Datos

Nuestra firma provee el servicio de análisis estadístico de datos. Utilizamos todas las técnicas estadísticas y herramientas de análisis, desde la estadística descriptiva, hasta las técnicas más complejas. Como especialistas, les aportaremos la solución estadística a la medida de sus proyectos y necesidades.

Análisis cuantitativo: análisis e interpretación del conjunto de estadísticos descriptivos y representación gráfica de sus resultados.

Análisis estadístico de variables múltiples: En NEURONET conocemos en profundidad las diversas técnicas estadísticas que permiten explicar las relaciones entre variables, individuos. Sintetizar las representaciones (análisis factorial), clasificar la información y resultados: análisis en componentes principales, análisis factorial de correspondencias, análisis factorial discriminante, análisis de varianza, de regresión, tipología, segmentación, árbol de decisión, etc.

Análisis cualitativo: tratamiento y análisis de comentarios provenientes de encuestas o de estudios diversos (estudios de satisfacción, de opinión, etc.), elección de los temas principales, creación de índices e indicadores, extracción de comentarios pertinentes, así como la selección del conjunto de análisis, la construcción de los indicadores clave, redacción de síntesis de estudios, etc.

Las ventajas de nuestro servicio

Absoluta confidencialidad por contrato de sus datos y resultados.
Garantía de resultados de síntesis y diagnóstico.
Intervención de un organismo ajeno a su empresa que le garantiza una independencia y objetividad total en los análisis y juicios.
Rapidez y calidad: análisis realizados siempre por profesionales del sector.
Realización de presentaciones e informes para ayudarle a comunicar los resultados de su organización (a la dirección, equipos, clientes, usuarios, etc.)

El proceso de Data Science

A grandes rasgos, lo primero que se debe hacer es importar los datos, ya sea desde archivos, base de datos o una API web.

Una vez importados, es necesario ordenarlos, de una forma que permita un análisis consistente. En pocas palabras, que cada columna sea una variable y cada fila una observación.

Una vez ordenada, es necesario hacer algunas transformaciones. Estas incluyen reducir la muestra a un grupo de interés, crear nuevas variables usando funciones, calculando agregaciones, etc. En la terminología de Data Science, ordenar y transformar se llama habitualmente wrangling (riña o pelea), describiendo lo difícil que es a menudo conseguir que los datos tomen una forma útil para hacer análisis.

Una vez preparados los datos hay dos formas de generar conocimiento: Visualizar y Modelar. Ambas formas tienen sus fortalezas y debilidades complementarias, por lo que un análisis en la vida real consistirá en muchas iteraciones.

Visualización es fundamental en cualquier actividad. Una buena visualización mostrará cosas que no se esperaban o levantará nuevas dudas sobre los datos, también dará pistas si se está haciendo o no preguntas correctas, o incluso si se requieren más datos. Pero no pueden escalarse muy bien ya que requieren de un humano que las interprete.

Modelar es complementario a la visualización. Una vez teniendo preguntas suficientemente precisas, se puede modelar para responderlas. Son fundamentalmente matemáticos así que pueden escalarse bien, pero parten de una suposición. Por lo que no pueden sorprender con respuestas novedosas o inesperadas.

El último paso es comunicar. No importa lo bien que estén los modelos y las visualizaciones, si no es posible comunicar con el resto los resultados con el resto de la organización.

Alrededor de todo lo anterior se encuentra la programación. Esto es automatizar tareas comunes a lo largo de todo el proceso.

Data Science usando R

R es un lenguaje y un entorno estadístico de cálculos y visualización. Es un proyecto de GNU similar al lenguaje S desarrollado por Bell Laboratories. R se considera una implementación diferente de S, y aunque hay diferencias, mucho del código en S puede ser ejecutado en R sin problemas.

El entorno R provee un amplio rango de técnicas estadísticas y gráficas, además, se puede ampliar por medio de packages. R provee una vía open source para la investigación estadística y es un buen entorno para el Data Science, ya que provee distintas vías para importar datos, ordenarlos y transformarlos.

Además, de poseer paquetes para el modelado y visualización, incluso de comunicación utilizando R Markdown, u otros packages que pueden ser ejecutados en R Server o OBIEE 12c, aunque este último no es Open Source.

R se conecta a bases de datos y archivos excel mediante una implementación de ODBC llamada RODBC. Si esto no es suficiente para tareas de importación, es posible usar adicionalmente Pentaho’s Data Integration.

Pentaho’s Data Integration ofrece una interfaz similar a Microsoft Integrations Services para quienes estén familiarizados con ella, siendo una muy buena alternativa open source de integración.

KNIME Analytics Platform

KNIME es una plataforma de minería de datos basada en Eclipse. Es una herramienta gráfica que abarca todo el proceso desde la importación a la visualización.

Además de los módulos base, la plataforma Knime puede ser ampliada con extensiones. Estas extensiones incluyen la ejecución de scripts R, text mining, algoritmos de machine learning Weka. Incluso Knime permite ejecutar códigos escritos en Java, Python o Perl.

Conclusiones

Los datos son el nuevo petróleo de las compañías que a diario generan mucha información. Pero es necesario saber refinar estos recursos y convertirlos en conocimiento. Esto es posible utilizando herramientas de libre dominio, o open source. La barrera económica inicial deja de ser un obstáculo, para enfocarse directamente en la investigación y desarrollo.

Servicios de Data Science

Consultoría DataWarehouse

Detección de fraudes y riesgos

Inteligencia de Negocios

Oracle Business Intelligence