Data Science
Data science es una disciplina que que busca convertir datos en bruto en conocimiento. Wikipedia la define como: "un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva".
Servicios de Data Science
Consultoría DataWarehouse
Las organizaciones manejan y almacenan altos de volúmenes de datos diarios. Extraer información de estos datos es una tarea cada vez más compleja y clave para negocios competitivos. Una solución de la industria de TI a esta problemática es lo que conocemos como DataWarehouse... Ver más
Detección de fraudes y riesgos
En sectores regulados como son los sectores financieros, salud, seguros, retail, seguridad social, la detección de fraudes es esencial. Los actores de estos sectores deben cumplir con muchas regulaciones, medidas de gestión de riesgos y consecuencias monetarias a tratar... Ver más
Inteligencia de Negocios
La competitividad y el futuro de una organización dependen de una buena toma de decisiones. La inteligencia de negocios, o business intelligence, es una herramienta moderna para el descubrimiento de información valiosa a partir de datos almacenados en distintas fuentes... Ver más
Oracle Business Intelligence
Oracle Business Intelligence Enterprise Edition (OBIEE), es la más completa plataforma de reportería, análisis, OLAP, dashboards interactivos y scorecards. Entrega una completa experiencia al usuario final que incluye colaboración, visualización, alertas y más... Ver más
Servicios de Big Data
Los datos se han vuelto omnipresentes con el crecimiento exponencial de las nuevas tecnologías de oferta de datos digitales. Manejar este creciente volumen de datos es el último desafío para las empresas que quieren aprovechar el valor de estos datos para su negocio... Ver más
Análisis Estadístico de Datos
Nuestra firma provee el servicio de análisis estadístico de datos. Utilizamos todas las técnicas estadísticas y herramientas de análisis, desde la estadística descriptiva, hasta las técnicas más complejas. Como especialistas, les aportaremos la solución estadística a la medida de sus proyectos y necesidades.
Análisis cuantitativo: análisis e interpretación del conjunto de estadísticos descriptivos y representación gráfica de sus resultados.
Análisis estadístico de variables múltiples: En NEURONET conocemos en profundidad las diversas técnicas estadísticas que permiten explicar las relaciones entre variables, individuos. Sintetizar las representaciones (análisis factorial), clasificar la información y resultados: análisis en componentes principales, análisis factorial de correspondencias, análisis factorial discriminante, análisis de varianza, de regresión, tipología, segmentación, árbol de decisión, etc.
Análisis cualitativo: tratamiento y análisis de comentarios provenientes de encuestas o de estudios diversos (estudios de satisfacción, de opinión, etc.), elección de los temas principales, creación de índices e indicadores, extracción de comentarios pertinentes, así como la selección del conjunto de análisis, la construcción de los indicadores clave, redacción de síntesis de estudios, etc.
Las ventajas de nuestro servicio
- Absoluta confidencialidad por contrato de sus datos y resultados.
- Garantía de resultados de síntesis y diagnóstico.
- Intervención de un organismo ajeno a su empresa que le garantiza una independencia y objetividad total en los análisis y juicios.
- Rapidez y calidad: análisis realizados siempre por profesionales del sector.
- Realización de presentaciones e informes para ayudarle a comunicar los resultados de su organización (a la dirección, equipos, clientes, usuarios, etc.)
El proceso de Data Science
A grandes rasgos, lo primero que se debe hacer es importar los datos, ya sea desde archivos, base de datos o una API web.
Una vez importados, es necesario ordenarlos, de una forma que permita un análisis consistente. En pocas palabras, que cada columna sea una variable y cada fila una observación.
Una vez ordenada, es necesario hacer algunas transformaciones. Estas incluyen reducir la muestra a un grupo de interés, crear nuevas variables usando funciones, calculando agregaciones, etc. En la terminología de Data Science, ordenar y transformar se llama habitualmente wrangling (riña o pelea), describiendo lo difícil que es a menudo conseguir que los datos tomen una forma útil para hacer análisis.
Una vez preparados los datos hay dos formas de generar conocimiento: Visualizar y Modelar. Ambas formas tienen sus fortalezas y debilidades complementarias, por lo que un análisis en la vida real consistirá en muchas iteraciones.
Visualización es fundamental en cualquier actividad. Una buena visualización mostrará cosas que no se esperaban o levantará nuevas dudas sobre los datos, también dará pistas si se está haciendo o no preguntas correctas, o incluso si se requieren más datos. Pero no pueden escalarse muy bien ya que requieren de un humano que las interprete.
Modelar es complementario a la visualización. Una vez teniendo preguntas suficientemente precisas, se puede modelar para responderlas. Son fundamentalmente matemáticos así que pueden escalarse bien, pero parten de una suposición. Por lo que no pueden sorprender con respuestas novedosas o inesperadas.
El último paso es comunicar. No importa lo bien que estén los modelos y las visualizaciones, si no es posible comunicar con el resto los resultados con el resto de la organización.
Alrededor de todo lo anterior se encuentra la programación. Esto es automatizar tareas comunes a lo largo de todo el proceso.
Data Science usando R
R es un lenguaje y un entorno estadístico de cálculos y visualización. Es un proyecto de GNU similar al lenguaje S desarrollado por Bell Laboratories. R se considera una implementación diferente de S, y aunque hay diferencias, mucho del código en S puede ser ejecutado en R sin problemas.
El entorno R provee un amplio rango de técnicas estadísticas y gráficas, además, se puede ampliar por medio de packages. R provee una vía open source para la investigación estadística y es un buen entorno para el Data Science, ya que provee distintas vías para importar datos, ordenarlos y transformarlos.
Además, de poseer paquetes para el modelado y visualización, incluso de comunicación utilizando R Markdown, u otros packages que pueden ser ejecutados en R Server o OBIEE 12c, aunque este último no es Open Source.
R se conecta a bases de datos y archivos excel mediante una implementación de ODBC llamada RODBC. Si esto no es suficiente para tareas de importación, es posible usar adicionalmente Pentaho’s Data Integration.
Pentaho’s Data Integration ofrece una interfaz similar a Microsoft Integrations Services para quienes estén familiarizados con ella, siendo una muy buena alternativa open source de integración.
KNIME Analytics Platform
KNIME es una plataforma de minería de datos basada en Eclipse. Es una herramienta gráfica que abarca todo el proceso desde la importación a la visualización.
Además de los módulos base, la plataforma Knime puede ser ampliada con extensiones. Estas extensiones incluyen la ejecución de scripts R, text mining, algoritmos de machine learning Weka. Incluso Knime permite ejecutar códigos escritos en Java, Python o Perl.
Conclusiones
Los datos son el nuevo petróleo de las compañías que a diario generan mucha información. Pero es necesario saber refinar estos recursos y convertirlos en conocimiento. Esto es posible utilizando herramientas de libre dominio, o open source. La barrera económica inicial deja de ser un obstáculo, para enfocarse directamente en la investigación y desarrollo.