Una breve introducción a la ciencia de datos

Según Eric Schmidt, ex director ejecutivo de Google, desde que se originaron las primeras civilizaciones en la Tierra hasta el 2003, se generaron 5 exabytes de información. Hoy en día, esta misma cifra se genera cada dos días. Un evidente crecimiento en la generación de datos es el reflejo de un mundo encaminado a la digitalización, en donde un simple “click” en una red social, genera data. Por minuto, YouTube registra alrededor de 4.5 millones de videos vistos, Facebook 1 millón de inicio de sesiones, Twitter 87500 personas tuiteando, e Instagram cerca de 347222 de “scrollings”. Esto para mencionar solamente las redes sociales de más uso alrededor del mundo.

A pesar de esta masiva creación de datos, la gran parte de estos simplemente se almacenan o bien, se descartan; muy pocos son analizados, perdiéndose así información muy valiosa que tal vez, revelaría tendencias y resultados de suma importancia a nivel mundial. Es por ello que, paralelo a esta nueva era de datos, herramientas computacionales han surgido, y con ellas, personas capaces de utilizar el poder computacional para extraer conocimiento de los datos. Los llamados científicos de datos (data scientists), o personas dedicadas a la Ciencia de datos.

Las personas involucradas en la ciencia de datos, deben ser capaces de desarrollar habilidades que les permitan solucionar problemas a partir de la data, así como también comunicar de manera efectiva dichas soluciones. Sin embargo, la ciencia de datos va más allá que esto; al ser un área tan innovadora y al involucrar innumerables áreas de estudio y destrezas, cuesta darle un concepto concreto y conciso.   

De hecho, la ciencia de datos no es una carrera profesional como tal, sino que es un área que puede involucrar profesionales con perfiles muy diferentes. Economistas, matemáticos, estadísticos, así como también personas involucradas en ciencias básicas y ciencias de la computación. Esto refleja que diversas áreas de estudio necesitan de esta extracción valiosa de información a partir de la data.

Ahora bien; los científicos de datos, como todo científico, deben ser capaces de hacerse preguntas relevantes, encontrar un problema y plantearse los objetivos con los que atacarán dicho problema. Una vez teniendo una pregunta y objetivos claros, el data scientist debe seleccionar a partir de un conjunto de datos, cuáles son necesarios para responder la pregunta planteada. Posterior a esto; deberá llevar a cabo la llamada “limpieza de datos”, que consiste en generar una base de datos sin inconsistencias (valores faltantes, por ejemplo) que les permitan a los programas computacionales desempeñarse correctamente. Una vez hecho esto, el científico de datos debe ejecutar el análisis de los datos con el fin de solucionar el problema inicialmente planteado.

Ante esta solución de problemas a partir de los datos, empresas alrededor del mundo involucran cada vez más en sus equipos de trabajo, especialistas en ciencia de datos, capaces de aumentar las ganancias de las mismas, a partir de los datos que estas han tenido almacenados por años, y a partir de los datos que se generan día a día. Es importante que las compañías entiendan que, para mantener la competitividad en el mercado, se requiere el uso de los datos, y que un buen uso de estos, puede marcar la diferencia entre sus máximos competidores.

En próximos artículos, Neural Coders ejemplificará y explicará más a fondo la aplicación que tiene la ciencia de datos en diversas áreas, la funcionalidad de la data y su análisis. Así como también los beneficios empresariales que conlleva involucrar a científicos de datos en las empresas.


Bibliografía:

Adamov, A. (2014, October). Data mining and analysis in depth. case study of Qafqaz University HTTP server log analysis. In 2014 IEEE 8th International Conference on Application of Information and Communication Technologies (AICT) (pp. 1-4). IEEE.


Agarwal, S. (2018, February). Sudeep.co: Understanding the Data Science Lifecycle. Retrieved from: http://sudeep.co/data-science/Understanding-the-Data

Lewis, L. (2019, March). All Access: 2019: This Is What Happens In An Internet Minute. Retrieved from: https://www.allaccess.com/merge/archive/29580/2019-this-is-what-happens-in-an-internet-minute

365 Data Science. (2019, March). What Do You Need to Become a Data Scientist in 2019? [Youtube]. Retrieved from: https://www.youtube.com/watch?v=UXi8Ml2UoYk&t=203