Emilio
Diseñofilia

Ciencia de los datos o OSEMN

La ciencia de los datos está definida deacuerdo a sus cinco pasos:

  1. Obtención de datos (Obtain)
  2. Depuración de los datos (Scrubbing)
  3. Explorar los datos
  4. Modelar los datos
  5. Interpretar los datos

En español el acrónimo sería ODEMI

  1. Obtención de datos

Sin datos no hay n ada por hacer en la Ciencia de los datos, así que el primer paso es obtener los datos y estos pueden provenir de distintas fuentes:

  1. Depuración de los datos (Scrubbing)

Es poco común obtener datos perfectos, regularmente en una colección de datos se tienen valores vacíos, inconsistencias, errores, caracteres raros, columnas sin interés alguno, etc. Por ello es que el segundo paso es realizar la depuración de los datos:

El 80% del trabajo en cualquier proyecto de datos es precisamente "limpiar" los datos.

  1. Explorar los datos

Una vez que se han depurados los datos es momento para realizar una exploración sobre estos. Aquí es donde las cosas comienzan a ponerse interesantes.

  1. Modelar los datos

Si deseas explicar los datos y poder realizar predicciones de lo que puede ocurrir entonces necesitas crear un modelo estadístico de los datos. Las técnicas a crear incluyen agrupamientos, clasificación, regresión, y reducción dimensional.

  1. Interpretar los datos

El último y quizá más importante paso del modelo OSEMN es la interpretación de los datos, este paso involucra:

Emilio