Reseña de la PARTE 2 del libro Estadística para Dummies, de Deborah J. Rumsey

 PARTE II: NOCIONES DE CÁLCULO NUMÉRICO

Jhon Alexánder Monsalve Flórez

Esta reseña surge de conversaciones sobre el libro mantenidas con ChatGPT



La segunda parte del libro marca el paso de la reflexión crítica a la aplicación técnica: el lector deja de observar los números con sospecha para comenzar a operarlos. Si en la primera parte Rumsey enseñaba a “pensar como un detective estadístico”, en esta ofrece las herramientas concretas del oficio, aquellas que permiten describir, resumir y representar los datos con sentido. Los capítulos 5, 6 y 7 conforman un bloque dedicado a la estadística descriptiva, en el que la autora explica cómo calcular medidas de tendencia central, dispersión y posición, así como a representar información mediante gráficos adecuados para cada tipo de variable.

Desde el punto de vista didáctico, Rumsey conserva su tono accesible y su estilo visualmente pedagógico: cada nuevo concepto aparece acompañado de ejemplos familiares —desde salarios y notas escolares hasta estadísticas deportivas o de transporte—, lo que mantiene la lectura amena y cercana. Sin embargo, esta parte también pone en evidencia los límites del enfoque divulgativo: la simplificación de procedimientos (por ejemplo, en la construcción de histogramas o el cálculo de la mediana para datos agrupados) puede dejar vacíos en lectores que buscan una comprensión más formal.

La Parte II profundiza en tres ejes principales. Primero, en el cálculo numérico (capítulo 5), donde se estudian la media, la mediana, la desviación estándar, los percentiles y el resumen pentanumérico, consolidando las nociones básicas de variabilidad y posición. Segundo, en la representación gráfica de datos categóricos (capítulo 6), donde se revisan los diagramas de sectores y los gráficos de barras, junto con los riesgos de manipulación visual mediante escalas o truncamientos. Y tercero, en la representación gráfica de datos numéricos (capítulo 7), que incorpora histogramas, diagramas de cajas y cronogramas, permitiendo interpretar la forma, la dispersión y la evolución de los datos a lo largo del tiempo.

En conjunto, esta segunda parte cumple una función de puente entre la comprensión conceptual y la práctica estadística. Rumsey muestra que detrás de cada gráfico y de cada número hay decisiones metodológicas, criterios éticos y supuestos teóricos que deben hacerse visibles. Con sus aciertos y omisiones, “Nociones de cálculo numérico” enseña que la estadística no es solo calcular, sino también representar, interpretar y comunicar con honestidad.

Sobre el capítulo 5: “Medias, medianas y más”

El capítulo 5, titulado “Medias, medianas y más”, abre la segunda parte del libro (“Nociones de cálculo numérico”) y marca el paso de la autora desde los ejemplos cotidianos hacia el trabajo con cálculos concretos. Rumsey presenta con un estilo didáctico varios instrumentos de estadística descriptiva: medidas de centralidad, medidas de dispersión y medidas de posición. A lo largo del capítulo, combina fórmulas básicas con ejemplos cercanos (como estadísticas de la NBA o datos poblacionales de Estados Unidos), lo que refuerza el carácter accesible de la obra.

 

Uno de los aspectos más llamativos es que Rumsey sigue relegando a la moda, pues el título solo menciona media y mediana. Esto confirma una decisión pedagógica de centrar el discurso en las medidas más usadas en inferencia, aunque, como se observa en educación, la moda resulta muy útil para variables cualitativas. El capítulo introduce también las tablas de contingencia como recurso para comparar categorías, aunque sin dar el paso hacia pruebas de asociación como el chi-cuadrado. Allí surgió una reflexión crítica: estas tablas sirven para organizar y comparar porcentajes, pero no equivalen a un coeficiente de correlación.

 

En cuanto a medidas de centralidad, Rumsey subraya que “la media no siempre dice toda la verdad” y que la mediana ofrece un centro más robusto ante valores extremos. Sin embargo, afirma tajantemente que “cuando los datos están sesgados a la izquierda, la media es menor que la mediana”. Con un ejemplo de notas escolares (0,0,0,0,30,60,70,70,90), mostramos que en la práctica puede suceder lo contrario: allí la media (35,5) es mayor que la mediana (30). Este contraejemplo revela que la afirmación de Rumsey es una regla general y no una ley universal, lo que enriquece la lectura crítica.

 

La autora dedica varias páginas a la desviación estándar, enfocándose en la fórmula muestral. Presenta sus propiedades básicas y la conecta con la regla empírica (68-95-99,7): en distribuciones normales, el 68% de los datos se encuentra a una desviación de la media, el 95% a dos y el 99,7% a tres. Aunque esta regla es didáctica, aclaramos que solo aplica en escenarios de normalidad. Para distribuciones sesgadas, la herramienta más prudente es la desigualdad de Chebyshev (formulada por Pafnuty Chebyshev en el siglo XIX), que garantiza al menos un 75% de los datos en ±2σ y un 89% en ±3σ, sin importar la forma de la distribución. Rumsey no menciona esta desigualdad, pero incluirla permite ampliar el panorama y reconocer que la regla empírica proviene de los cálculos de la distribución normal estudiada por De Moivre y Gauss, sin un autor único.

 

Más adelante, el capítulo introduce los percentiles como medida de posición relativa. Rumsey explica paso a paso cómo calcularlos, con ejemplos muy claros (como ordenar 25 notas y ubicar el percentil 90). Su estilo es didáctico, aunque anota que “un percentil no es un porcentaje”, lo que resulta contradictorio: los percentiles se definen justamente como porcentajes acumulados de datos (ejemplo: estar en el percentil 80 significa estar por encima del 80% de los compañeros). Rumsey quiso evitar la confusión con “acertar el 80% de un examen”, pero terminó cayendo en una ambigüedad discursiva. Aun así, el ejemplo del examen ACT en EE. UU. es valioso: explica que si se publicaran medias y desviaciones estándar de esas pruebas, habría comparaciones injustas entre cohortes. En cambio, al usar percentiles, cada estudiante conoce su posición relativa frente a su grupo, lo que neutraliza las diferencias de dificultad entre años.

 

El capítulo culmina con un enfoque crítico y social: al mostrar percentiles de ingresos familiares en EE. UU. (2001–2007), Rumsey evidencia cómo los más ricos aumentan sus ingresos a un ritmo mucho mayor que los más pobres. Este ejemplo ilustra cómo los percentiles no solo son técnicas numéricas, sino también ventanas para leer desigualdades sociales. Finalmente, introduce el resumen de cinco números (mínimo, Q1, mediana, Q3 y máximo) y el rango intercuartílico (Q3–Q1), que concentran el 50% de los datos centrales y permiten analizar la dispersión sin verse afectados por valores extremos.

 

Este capítulo consolida la primera inmersión formal en cálculos estadísticos del libro. Rumsey logra explicar con sencillez la media, la mediana, la desviación estándar, los percentiles y el resumen pentanumérico. Sus ejemplos (NBA, ingresos familiares, exámenes) hacen cercano el aprendizaje. Sin embargo, la omisión de la moda, la confusión de notación en la traducción (donde aparece x̅ en lugar de x͂  para la mediana) y la afirmación tajante sobre la media y la mediana en distribuciones sesgadas son puntos que merecen ser señalados críticamente. Con todo, el capítulo cumple con su objetivo: dotar al lector de herramientas descriptivas básicas y, a la vez, mostrar cómo los números permiten ver realidades sociales más amplias.

 

Sobre el capítulo 6: “Representación gráfica de datos categóricos”

El capítulo 6, titulado “Representación gráfica de datos categóricos”, continúa la segunda parte del libro, dedicada a las nociones de cálculo numérico. Es un capítulo eminentemente práctico, en el que Rumsey explica cómo mostrar visualmente la información a través de gráficos de sectores (o diagramas circulares) y gráficos de barras. La autora retoma su tono divulgativo y crítico, invitando al lector a mirar los gráficos con cautela, pues la forma en que se presentan los datos puede condicionar la interpretación de quien los observa.

 

Rumsey comienza con los diagramas de sectores, advirtiendo que los porcentajes de un gráfico solo son válidos para las personas encuestadas y que su representatividad depende del tamaño de la muestra. Aunque su llamado a incluir siempre “n = …” bajo el título es acertado, su explicación resulta incompleta, porque el tamaño por sí solo no garantiza representatividad. Como se aclaró en esta lectura, el factor decisivo es la aleatoriedad del muestreo: una muestra grande pero sesgada sigue siendo poco fiable. El tamaño contribuye a la precisión, no a la representatividad.

 

A continuación, Rumsey presenta el gráfico de barras, señalando su utilidad para comparar categorías. Sin embargo, se limita a estos dos tipos de representación (sectores y barras), lo que deja fuera otros recursos válidos para datos categóricos, como los pictogramas, las barras apiladas o agrupadas, el gráfico de Pareto o los diagramas de mosaico, herramientas que ampliarían el repertorio visual del lector. En este punto, puede decirse que la autora simplifica demasiado la enseñanza visual de la estadística, quizá por motivos didácticos.

 

Uno de los ejemplos más llamativos es el gráfico de barras que muestra los ingresos familiares y gastos en transporte. Rumsey concluye que “aunque quienes ganan más gastan más dólares, el gasto no aumenta en proporción a sus ingresos”. No obstante, al revisar sus propios datos, se observa una inconsistencia: las familias que ganan más de 50.000 dólares gastan 10.400 en transporte, lo que equivale al 20,39% de sus ingresos, un porcentaje mayor que el de los grupos de ingresos medios (15–20%). Es decir, sus propios cálculos contradicen su conclusión general. Este hallazgo demuestra la importancia de leer los gráficos críticamente, sin conformarse con las interpretaciones del autor.

 

Rumsey también explica el fenómeno del truncamiento del eje, advirtiendo que modificar la escala puede alterar la percepción de las diferencias entre barras. Este punto se complementó aquí con una simulación: al representar los mismos datos en una escala de 100 y otra de 500, se evidencia que aumentar la escala aplana las diferencias visuales, lo que puede usarse para suavizar la percepción de cambios. Esta aclaración práctica permite comprender mejor el ejemplo del político que, según la autora, intenta “ocultar” un incremento de delitos modificando la escala.

 

En las páginas finales, Rumsey comenta los gráficos de barras horizontales, menos frecuentes pero igualmente válidos, sobre todo cuando los nombres de las categorías son largos. También retoma la importancia de evaluar los gráficos, ofreciendo pautas útiles: comprobar si los datos se presentan como frecuencias absolutas o relativas y verificar el tamaño de la muestra cuando se muestran porcentajes. Estas recomendaciones apuntan a formar un lector crítico capaz de identificar si un gráfico comunica datos reales o manipulados.

 

Finalmente, el capítulo cierra con una afirmación interesante: Rumsey sostiene que en los diagramas circulares es difícil exagerar una porción para manipular la información. Si bien hoy, con programas como SPSS, R o Excel, eso es cierto —porque los cálculos se automatizan con precisión—, históricamente no lo era. Antes de la era digital, los gráficos se elaboraban a mano con transportador y compás, y era fácil alterar los ángulos o el tamaño de las porciones para influir en la percepción del lector. Por tanto, la digitalización de la estadística no solo trajo comodidad, sino también mayor objetividad gráfica.

El capítulo 6 es un excelente recordatorio de que toda visualización implica una interpretación. Rumsey cumple con su propósito didáctico al enseñar cómo leer e interpretar los gráficos más comunes, aunque se limita a los más básicos. Los ejemplos y advertencias son valiosos, especialmente los relacionados con escalas, truncamientos y tamaños muestrales. No obstante, se echan de menos otros tipos de representaciones categóricas y una reflexión más profunda sobre el diseño visual. En conjunto, el capítulo combina claridad, espíritu crítico y utilidad práctica, y ayuda a que el lector aprenda a mirar los gráficos no como adornos, sino como argumentos visuales que deben ser leídos con rigor.

 

Sobre el capítulo 7: “Representación gráfica de datos numéricos”

El capítulo 7 concluye la segunda parte del libro Estadística para Dummies, titulada Nociones de cálculo numérico, reuniendo tres de las representaciones más relevantes para el análisis descriptivo: los histogramas, los diagramas de cajas y los cronogramas o gráficos de series temporales. Deborah Rumsey mantiene su tono accesible y su estilo pedagógico característico, aunque en esta sección se evidencian vacíos teóricos que afectan la profundidad del tratamiento de los temas.

Cada parte del libro inicia con una caricatura de Rich Tennant, quien aporta un elemento humorístico y crítico. En esta segunda parte, la viñeta muestra a un empleado que, con la boca manchada de tarta de moras, afirma: “He evaluado nuestro último gráfico de tarta. Yo diría que es de moras.” La imagen juega con la ambigüedad entre el gráfico circular —denominado “de tarta” o “de torta”— y una tarta real, lo que establece una metáfora visual coherente con los contenidos de esta sección. El humor de Tennant introduce al lector en los capítulos sobre gráficos recordando que toda representación estadística es, en última instancia, una porción de la realidad.

 

Histogramas

Rumsey define el histograma como el gráfico más adecuado para representar datos numéricos continuos y explica su utilidad para visualizar la forma de la distribución mediante intervalos. No obstante, limita su alcance al presentar el histograma como la única alternativa para datos numéricos, omitiendo que los gráficos de barras también pueden emplearse para representar datos discretos, como edades o calificaciones.

A pesar de mencionar que la media y la mediana pueden deducirse a partir de un histograma, la autora no explica cómo se calculan estos valores cuando los datos se encuentran agrupados, lo que deja un vacío metodológico para el lector. Asimismo, al indicar que la elección de los intervalos puede realizarse a criterio personal, se omite la presentación de métodos básicos como la regla de Sturges o el uso de la raíz cuadrada del número total de observaciones, herramientas sencillas que habrían aportado mayor rigor.

 

Un acierto importante es la advertencia sobre el riesgo de manipulación gráfica. Rumsey muestra cómo la selección de escalas, intervalos y puntos iniciales o finales puede distorsionar la percepción visual de las frecuencias. Sus ejemplos con los datos del Old Faithful Geyser ilustran claramente cómo un número inadecuado de intervalos puede alterar la interpretación de la distribución.

 

Diagramas de cajas

 

En la segunda sección del capítulo, la autora desarrolla el diagrama de cajas o boxplot, destacando su función para representar de forma sintética la posición, dispersión y simetría de los datos. Expone con claridad la importancia del rango intercuartílico (IQR), que representa la variabilidad del 50 % central de los datos, y explica paso a paso el procedimiento de construcción del gráfico.

Rumsey señala con acierto que un lado más largo de la caja no implica mayor cantidad de datos, sino mayor dispersión, y enseña a identificar los valores atípicos mediante la regla de 1,5 × IQR, representándolos con asteriscos o puntos. También insiste en la necesidad de conocer el tamaño de la muestra (n) para una interpretación adecuada.

Sin embargo, el capítulo omite detallar cómo dividir conjuntos amplios de datos en cuartiles y no explica la relación del rango intercuartílico con otros indicadores de variabilidad, como la desviación estándar. A pesar de ello, el apartado constituye una introducción clara a la interpretación gráfica de la dispersión y la detección de valores extremos.

 

Cronogramas o gráficos de series temporales

 

La última parte del capítulo presenta los cronogramas, gráficos que muestran la evolución de una variable a lo largo del tiempo. Rumsey destaca correctamente que el eje horizontal debe representar el tiempo y el eje vertical, la variable observada, y que las líneas que conectan los puntos permiten identificar tendencias y variabilidad.

La autora explica que una línea estable sugiere baja variabilidad, mientras que una muy ondulada indica fluctuaciones significativas. Advierte, además, que es fundamental respetar la escala temporal —por ejemplo, no asignar la misma distancia entre años desiguales— y distinguir entre el número absoluto de casos y las tasas. También recomienda reducir el número de datos mediante promedios cuando la serie es extensa, práctica conocida como suavizado de series (smoothing), que facilita la legibilidad del gráfico.

El capítulo 7, junto con toda la Parte II del libro, constituye una aproximación introductoria al cálculo numérico y la representación gráfica en estadística descriptiva. Aunque la autora mantiene su enfoque didáctico y ofrece ejemplos concretos, el tratamiento de algunos conceptos resulta incompleto y puede generar confusión en lectores principiantes. A pesar de estas limitaciones, Rumsey logra transmitir un mensaje fundamental: los gráficos no solo representan datos, sino también interpretaciones, y su lectura debe ser crítica, cuidadosa y contextual.

La Parte II, en conjunto, enseña que ningún gráfico es absolutamente fiel ni completamente falso: su valor depende de la precisión técnica y la honestidad con que se construya. En este sentido, el texto promueve una alfabetización estadística que combina rigor, claridad y una mirada ética hacia la información visual.

Comentarios