Blog

Análisis exploratorio de datos en R

Uno de los primeros y más importantes pasos tras la recopilación de datos es el Análisis exploratorio de datos (AED). Esta fase permite al investigador familiarizarse profundamente con la información recopilada antes de aplicar modelos estadísticos o econométricos complejos. Ignorar este paso es como navegar sin mapa; podríamos llegar a algún destino, pero difícilmente será el óptimo y podríamos encontrarnos con sorpresas inesperadas. Este artículo aborda cómo realizar un AED utilizando el potente entorno de software libre R.

El proceso de análisis exploratorio de datos (AED) con R

El AED es una aproximación a la comprensión de los conjuntos de datos; su objetivo principal es resumir sus características principales, a menudo con métodos visuales. No se trata de un conjunto rígido de reglas, sino de una filosofía para examinar los datos. Al realizar un AED en R, buscamos, entre otras cosas:

Detectar errores en los datos.
Comprender la distribución de las variables.
Identificar patrones y relaciones entre variables.
Detectar valores atípicos (outliers).
Informar la selección de modelos estadísticos posteriores.

R, con su vasta colección de paquetes, se presenta como una herramienta excepcionalmente flexible y potente para llevar a cabo estas tareas. A diferencia de otros software estadísticos, la sintaxis basada en comandos de R permite una reproducibilidad y automatización que son altamente valoradas en el ámbito académico y profesional.

Comandos esenciales de R para la exploración inicial

Una vez que hemos importado nuestra base de datos a R (proceso que puede variar según el formato del archivo, utilizando funciones como read.csv(), read.xlsx() del paquete readxl, entre otras), podemos comenzar la exploración inicial con algunas funciones básicas:

str(): Permite visualizar la estructura interna de un objeto R, incluyendo el tipo de datos de cada columna en un data.frame (nuestra base de datos). Es fundamental para verificar si las variables han sido importadas con el tipo correcto (numéricas, caracteres, factores, etc.).
head(): Muestra las primeras filas del conjunto de datos por defecto (las primeras 6). Útil para obtener un vistazo rápido de cómo se ven los datos. Podemos especificar el número de filas a mostrar como argumento (ej. head(datos, 10)).
tail(): Similar a head(), pero muestra las últimas filas del conjunto de datos.
summary(): Proporciona un resumen estadístico para cada columna del data.frame. Para variables numéricas, incluye mínimo, primer cuartil, mediana, media, tercer cuartil y máximo. Para factores, muestra la frecuencia de los primeros niveles. Para otros tipos, puede mostrar el modo o longitud.

Antes de proceder con algunos análisis, a menudo es conveniente adjuntar (attach) la base de datos para poder referenciar las columnas directamente por su nombre, sin necesidad de usar el prefijo del nombre del data.frame y el símbolo $. Sin embargo, se debe usar con precaución para evitar conflictos entre nombres de variables de diferentes objetos adjuntos. La función es attach(nombre_base_datos). Para desadjuntar, se usa detach(nombre_base_datos).

Estadísticas descriptivas y visualización de datos

La obtención de estadísticas descriptivas y la creación de visualizaciones son pilares del AED. Nos permiten entender la distribución y las relaciones de las variables de manera gráfica y numérica.

Variables numéricas:

Para variables numéricas, además del resumen proporcionado por summary(), podemos calcular estadísticas específicas:

mean(): Calcula la media.
sd(): Calcula la desviación estándar.
var(): Calcula la varianza.
median(): Calcula la mediana.
quantile(): Calcula los cuartiles u otros cuantiles especificados.
cor(): Calcula la matriz de correlación entre variables numéricas. Esto nos da una idea de la relación lineal entre pares de variables.

La visualización para variables numéricas incluye:

Histogramas: Muestran la distribución de una sola variable numérica. La función básica es hist(nombre_variable). Podemos ajustar el número de barras (breaks) y añadir títulos o etiquetas.
Gráficos de Caja (Box Plots): Son excelentes para visualizar la distribución de una variable numérica y compararla entre diferentes categorías. Muestran la mediana, los cuartiles y posibles valores atípicos. La función es boxplot(variable_numerica ~ variable_categorica).

Variables categóricas:

Para variables categóricas, el enfoque se centra en las frecuencias y proporciones:

table(): Genera tablas de frecuencia para una o más variables categóricas. table(variable_categorica) nos da la frecuencia de cada nivel. table(variable1, variable2) crea una tabla de contingencia.
prop.table(): Convierte tablas de frecuencia en tablas de proporciones.

La visualización para variables categóricas incluye:

Gráficos de barras: Ideales para mostrar la frecuencia o proporción de cada categoría. La función básica es barplot(table(variable_categorica)).

Al combinar variables en visualizaciones (ej. box plots de una variable numérica por categorías de otra), comenzamos a explorar las relaciones entre ellas.

Ejemplos prácticos en R

Supongamos que tenemos un conjunto de datos llamado datos_investigacion con columnas como Edad (numérica), NivelEducativo (categórica: «Primaria», «Secundaria», «Universidad»), IngresoMensual (numérica) y SatisfaccionLaboral (categórica: «Baja», «Media», «Alta»).

# Exploración inicial
str(datos_investigacion)
head(datos_investigacion)
summary(datos_investigacion)

# Adjuntar el data.frame (usar con precaución)
# attach(datos_investigacion)

# Estadísticas descriptivas para variable numérica
mean(Edad)
sd(IngresoMensual)
cor(datos_investigacion[, c("Edad", "IngresoMensual")]) # Correlación entre edad e ingreso

# Visualización para variable numérica
hist(Edad, main = "Distribución de Edades", xlab = "Edad")
boxplot(IngresoMensual ~ NivelEducativo, main = "Ingreso por Nivel Educativo", xlab = "Nivel Educativo", ylab = "Ingreso Mensual")

# Estadísticas descriptivas para variable categórica
table(NivelEducativo)
prop.table(table(SatisfaccionLaboral))
table(NivelEducativo, SatisfaccionLaboral) # Tabla de contingencia

# Visualización para variable categórica
barplot(table(SatisfaccionLaboral), main = "Distribución de Satisfacción Laboral", xlab = "Nivel de Satisfacción", ylab = "Frecuencia")

# Desadjuntar el data.frame
# detach(datos_investigacion)

Estos comandos y visualizaciones son solo el punto de partida. R ofrece un sinfín de opciones de personalización y paquetes como ggplot2 para crear gráficos mucho más sofisticados y detallados.

Conclusión:

El análisis exploratorio de datos en R es una fase indispensable que sienta las bases para una investigación rigurosa. Permite al investigador conocer a fondo sus datos, identificar posibles problemas y guiar la selección de las técnicas de modelado más adecuadas. Al dedicar tiempo y esfuerzo a explorar los datos de manera sistemática y visual, se aumenta significativamente la probabilidad de obtener resultados válidos y significativos.

Dominar las herramientas de R para el AED es una habilidad invaluable para cualquier estudiante o profesional inmerso en el mundo de la investigación. Te invitamos a practicar con tus propios conjuntos de datos y descubrir los patrones e insights que se esconden en ellos.

Si deseas profundizar en el manejo de R para el análisis de datos y potenciar tus habilidades de investigación, considera explorar los numerosos recursos en línea, cursos especializados y la vasta documentación disponible para los paquetes de R.

Referencias

GeeksforGeeks. (2024, 21 de marzo). Exploratory Data Analysis in R Programming. https://www.geeksforgeeks.org/exploratory-data-analysis-in-r-programming/

Posit. (2022). Data transformation with dplyr [Hoja de referencia]. https://posit.co/wp-content/uploads/2022/10/data-transformation-1.pdf