Integrated Public Use Microdata Series International:
census microdata for social and economic research

Síntesis      

En América Latina sobrevive un vasto archivo de microdatos censales, recientemente rescatados, que cubren a partir de 1960, y que se encuentran en formatos de lectura de cómputo. La mayor parte de esos datos, sin embargo, se mantiene inaccesible para los investigadores. Esta propuesta busca contar con soporte económico para crear muestras armonizadas y documentadas de aproximadamente cincuenta y cinco censos de América Latina y el Caribe. Estos micro y metadatos se encontrarían disponibles para la investigación académica y educativa a través de un sistema de diseminación de datos, basado en el uso de la red de internet.

Este proyecto se desarrolla bajo la influencia de inversiones federales previas en infraestructura para las ciencias sociales. Subvenciones otorgadas por el Instituto Nacional de Salud (NIH por sus siglas en inglés) y la Fundación Nacional para la Ciencia (NSF) a los proyectos IPUMS-Internacional han generado las bases para las series de datos de América Latina, financiando en gran medida los costos iniciales. Estos proyectos han respaldado el desarrollo de la limpieza de datos y los procedimientos de generación de muestras, la creación de software para conversión de datos y de divulgación, y el diseño de protocolos para datos y documentación. Hasta el momento se han obtenido archivos de datos sin refinar, documentación interna, y acuerdos de redistribución para los censos de casi todos los países de América Latina.

Con más de 100 millones de registros que cubren un período de cuarenta años, la nueva base de datos permitirá a los científicos sociales realizar análisis comparativos contando con información para toda América Latina a lo largo de cuatro décadas enmarcadas por dramáticos cambios. Las series de datos se traducirán en un cuerpo muy importante para la investigación científica y de desarrollo de políticas públicas en materia de salud, en desarrollo económico, transición demográfica y envejecimiento de la población, migración internacional y muchos otros temas.

Objetivos específicos

Es preciso alcanzar los siguientes objetivos a fin de lograr capitalizar lo invertido anteriormente en y lograr, para los investigadores, una amplia disponibilidad de los datos de América Latina: limpieza de los datos; construir nuevas muestras de archivos internos de censos; desarrollar mecanismos de protección de la confiabilidad de la información (ver apéndice 1); recodificar las variables dentro de sistemas de codificación armonizados ya existentes y desarrollar nuevos diseños de codificación optimizados para el caso de América Latina; asignación de valores para datos insuficientemente o no identificados e inconsistentes; crear un conjunto de variables construidas consistentes entre sí; desarrollar documentación armonizada en idioma inglés; convertir toda la documentación en un sistema estándar de metadatos dentro de la Iniciativa de Documentación de Datos; y mejorar y mantener el sistema de acceso a la base de datos vía Internet. Ver apéndice 2.

Antecedentes e importancia

Los microdatos censales son una fuente de gran valor para la investigación en ciencias sociales. Otras fuentes ¾tales como las encuestas demográficas y de fuerza de trabajo¾ regularmente ofrecen una mayor cobertura por temas y detalles al comparárseles con los datos censales, pero ninguna fuente alternativa ofrece densidades muestrales comparables, profundidad cronológica, y cobertura geográfica como los microdatos censales.

En la mayor parte del mundo, los microdatos censales se encuentran restringidos o no están disponibles, y por lo tanto son escasamente utilizados. En los Estados Unidos y Canada, sin embargo, los microdatos censales se encuentran disponibles a los investigadores desde hace casi cuarenta años y se han convertido en un componente indispensable en la infraestructura de las ciencias sociales. Por ejemplo, los microdatos censales fueron la fuente de datos para diecinueve de los cincuenta y un artículos sobre Estados Unidos y Canadá que aparecieron en los más recientes volúmenes de la revista Demography (2000 y 2001). Aun cuando los Estados Unidos cuenta con abundantes datos de alta calidad, derivados de encuestas, y las más recientes muestras censales datan de una década, los microdatos censales de este país han sido utilizados tres veces más frecuentemente que la siguiente fuente de datos en orden de popularidad. En contraste, a lo largo de los mismos dos años en ningún artículo publicado en Demography relacionado con el mundo en desarrollo se han empleado microdatos censales.

El uso público de las series de microdatos integrados en América Latina ¾que hemos llamado IPUMS-Latin America¾ se edificará en cuatro décadas de trabajo por el Centro Latino Americano y Caribeño de Demografía (CELADE), perteneciente a las Naciones Unidas. Como parte del proyecto IPUMS-Internacional, financiado por la NSF, fueron inventariados todos los datos en los archivos de CELADE, y se han traducido en formatos y medios modernos para garantizar su preservación en el largo plazo. Estos materiales formarán la base de una nueva serie de microdatos censales de América Latina. Podemos afirmar que la disponibilidad de microdatos consistentes para toda América Latina durante un amplio período tendrá un profundo efecto en la práctica de la investigación en ciencias sociales.

Ver Apéndice 3.

Estudios preliminares

Ver Apéndice 4.

·       “Integrated Samples of Colombian Censuses” (Muestras Integradas de Censos Colombianos) (McCaa y Ruggles, NICHD R01 HD35708, 1999-2003).

·       “International Integrated Microdata Accesss System” (Sistema de Acceso a Microdatos Internacionales Integrados) (Ruggles, McCaa, Sobek, Levison, y King, NSF SBR 9907416, 1999-2004.

·       “Integrated Public Use Microdata Series” (Ruggles, NSF 9118299, 1992-1995).

·       “Electronic Dissemination and Support of the IPUMS” (Ruggles y Sobek, NICHD, R01-HD34714, 1996-1999).

 

Diseño de investigación y métodos

Síntesis. (Apéndice 5)El principal objetivo del presente proyecto no es simplemente hacer de los datos censales de América Latina una fuente disponible; hará que sea también una fuente útil. Aun cuando es posible obtener los microdatos censales, resulta un reto desarrollar comparaciones entre países e incluso entre períodos debido a las inconsistencias entre los bancos de datos y la inadecuada documentación de problemas de comparabilidad. Debido a ello, la investigación comparativa en el ámbito internacional basada en estancos de microdatos censales es intentada muy raramente. Este proyecto reducirá las barreras para la investigación internacional mediante la conversión de los microdatos censales en un formato uniforme, proveyendo documentación comprensiva, y poniendo los datos a disposición de los investigadores de forma gratuita, a través de un sistema de acceso basado en la red.

Es nuestra expectativa que IPUMS-América Latina incluya eventualmente al menos ochenta censos de diecisiete países y del Estado asociado de Puerto Rico, y existe la posibilidad de incorporar censos adicionales de otros países. Debido a propósitos de planeación y diseño, debemos trabajar simultáneamente con todos esos censos. Esto asegurará que logremos conciliar el rango completo de variación entre países y años censales al diseñar los sistemas de codificación de variables armonizadas. A lo largo del procesamiento de los datos y la documentación, sin embargo, trabajaremos con grupos de tres o cuatro países a un tiempo. Este acercamiento ¾también empleado para el caso de IPUMS-Internacional¾ permite la liberación oportuna de muestras y evita la complejidad logística que supone el procesamiento de muchos censos simultáneamente.

Acuerdos de divulgación de la información.

Dieciseis países de América Latina se han manifestado de acuerdo en otorgar la licencia para la divulgación de todos los microdatos censales integrados, a partir de 1960 y hasta el 2003, y esperamos que otro país firme el acuerdo en breve. Estos acuerdos representan un enorme cambio en las políticas de las oficinas de estadística latinoamericanas. En el pasado, la mayoría de los microdatos censales en América Latina se encontraban disponibles para tan sólo algunos investigadores afortunados o privilegiados. El poner los datos censales en amplia disponibilidad para propósitos académicos y educativos constituye una contribución fundamental a la infraestructura de las ciencias sociales.

Bajo los términos del acuerdo, las autoridades nacionales de estadística mantienen los derechos sobre los microdatos, pero ceden autoridad al Centro de Población de Minnesota (Minnesota Population Center) para la difusión de los datos a partir de la base de recibir la solicitud hecha por el investigador (véase Acuerdo, Apéndice 10, cláusulas 2-3). Como se ha detallado anteriormente en nuestra discusión respecto a la protección de la confidencialidad, el usuario final se encuentra obligado a hacer uso de los datos exclusivamente con propósitos de investigación académica y educación, respetar la confidencialidad de los respondientes, prevenir el acceso no autorizado a los datos, y citar los datos de forma apropiada. El Centro de Población de Minnesota (Minnesota Population Center) está obligado a compartir los datos integrados y la documentación con las agencias de estadística nacionales, así como a vigilar el cumplimiento de los términos por parte de los usuarios. Los acuerdos firmados son muy generales y uniformes entre los países involucrados; los detalles específicos para cada uno de ellos, tales como costos y densidades de muestra han sido negociados de forma independiente con cada agencia nacional. Bajo un arreglo legal cuidadosamente negociado, los Regentes de la Universidad de Minnesota son los responsables de hacer cumplir los términos de dichos acuerdos. Cualquier diferencia o disputa con agencias estadísticas nacionales será resuelta mediante la autoridad y arbitrio de la Cámara de Comercio de París.

Documentación de la fuente y Datos. (ver Apéndice 6)

Gracias a CELADE y a la División de Estadística de las Naciones Unidas, hemos adquirido ya una colección casi completa de documentación censal, incluyendo cuestionarios, manuales de entrevistador, y manuales de codificación para casi todos los países en América Latina. La colección de documentación de CELADE se encuentra catalogada por país, año censal, y tema. Para cada censo, existen docenas de tópicos, incluyendo todas las versiones de los cuestionarios censales, manuales para entrevistadores, supervisores, instructores, y administradores, instrucciones para la crítica de datos (“Manual para la crítica y la codificación”); manuales de codificación; descripciones de muestras; y encuestas o enumeraciones pos-censales. Hemos adquirido también microdatos a través del CELADE. El cuadro 1 reporta las fuentes de microdatos recuperadas y verificadas por década de los principales países de América Latina y el Caribe. El rescate de los datos, desarrollado por IPUMS-Internacional, casi se ha completado, faltando tan solo dos bases de datos, el censo de 1993 de la República Dominicana y el de 1990 de Trinidad y Tobago. Estos archivos están en proceso de ser validados por el CELADE y se contará con ellos en tiempo.

El cuadro 2 (Apéndice 6) describe los censos que proponemos incorpora en la base de datos. La parte izquierda del cuadro presenta el porcentaje de casos que permanecen para cada censo. En el caso de veintisiete de los censos levantados desde 1970 hasta 1990, se cuentan con datos completos.

El cuadro 3 (Apéndice 6) reporta el número de variables por tipo para la ronda de censos de 1990. Los cuestionarios abreviados o más cortos cuentan con más de cincuenta preguntas censales, mientras que los cuestionarios más largas o extendidos tienen más de cien.

 

Cuadro 1.  Microdatos Recuperados y Verificados por el CELADE para IPUMS-Internacional

(1960-1996), y Censos Adicionales en Preparación (2000-2003)

 

 

 

 

 

 

 

 

 

 

 

 

 

1960s

1970s

1980s

1990s

2000s

 

 

 

 

 

 

Argentina

1960

1970

1980

1991

2001

Bolivia

 

1976

 

1992

2001

Brasil

1960

1970

1980

1991

2000

Chile

1960

1970

1982

1992

2002

Colombia

1964

1973

1985

1993

2003

Costa Rica

1963

1973

1984

 

2000

República Dominicana

1960

1970

1981

1993

2003

Ecuador

1962

1974

1982

1990

2001

El Salvador

1961

1971

 

1992

2002

Guatemala

1964

1973

1981

1994

2002

Haití

 

1971

1982

 

2002

Honduras

1961

1974

1988

 

2001

Jamaica

 

 

1982

1991

2001

México

1960

1970

 

1990

2000

Nicaragua

 

1971

 

1995

 

Panamá

1960

1970

1980

1990

2000

Paraguay

1962

1972

1982

1992

2002

Perú

 

 

 

1993

2003

Puerto Rico

 

1970

1980

1990

2000

Trinidad y Tobago

 

1970

1980

1990

2000

Uruguay

1963

1975

1985

1996

 

Venezuela

1961

1971

1981

1990

2001

 

 

 

 

 

 

Protección de la confidencialidad

La protección de la confidencialidad de los individuos censados es de suma importancia. Por ello, empleamos dos estrategias para salvaguardar la confidencialidad de los microdatos: acuerdos de protección de la confidencialidad y de protecciones estadísticas y técnicas. Empleadas en forma combinada, estas medidas minimizan el riesgo potencial de liberar información sin un compromiso serio de carácter científico en el uso de los datos.

IPUMS-Latino América adoptará el marco de salvaguarda para la distribución de los datos que ha desarrollado IPUMS-Internacional. Difundiremos los microdatos exclusivamente bajo controles estrictos de confidencialidad aprobados por cada una de las oficinas de estadística nacionales. Antes de que los datos sean liberados, los investigadores deberán presentar una solicitud para cada acceso y firmar un acuerdo de licencia electrónica (http://www.ipums.org/cgi-bin/ipumsi/ipumsireg.cgi). Como parte del acuerdo, los investigadores aceptan lo siguiente:

·       Mantener la confidencialidad de las personas, hogares, y otras entidades. Cualquier intento en conocer la identidad de las personas u hogares a partir de los microdatos, es estrictamente prohibido. Es igualmente prohibido afirmar que una persona u hogar ha sido identificada.

·       Implementar medidas de seguridad para prevenir accesos no autorizados a los microdatos censales. Bajo los acuerdos entre IPUMS-Internacional y agencias colaboradoras, la redistribución de los datos a terceras personas se encuentra prohibida.

·       Emplear los microdatos exclusivamente para propósitos de investigación académica y de enseñanza. No se les permitirá a los investigadores el uso de los microdatos para cualquier empresa comercial o generadora de ingresos.

·       Reportar todas las publicaciones que se basen en los datos a IPUMS-Internacional, quien se hará cargo de transmitir la información a la agencia nacional de estadística correspondiente.

Adicionalmente, los investigadores deberán presentar la propuesta de investigación que demuestre la necesidad científica de hacer uso de los microdatos. Cada solicitud de acceso a los datos es cuidadosamente evaluada por un grupo de expertos. Una vez que la solicitud es aprobada, una clave de usuario es activada, permitiendo un acceso controlado a los datos. Los castigos por violaciones a la licencia incluyen la revocación de la misma, el devolver todos los microdatos adquiridos, el presentar una moción de censura a las organizaciones profesionales apropiadas, y la persecución civil bajo los estatutos relevantes en el contexto nacional o internacional. Empleados en el Centro de Población de Minnesota (Minnesota Population Center), quienes trabajan con los microdatos censales, están igualmente obligados a firmar acuerdos para respetar la confidencialidad de los datos.

Salvaguardas técnicos se suman a los controles institucionales citados. Nos encontramos trabajando con las oficinas de estadística de cada país en busca de minimizar el riesgo de distribuir información sobre las personas que respondieron a los cuestionarios. Los detalles de las protecciones de la confidencialidad pueden variar entre los países, pero en todos los casos, los nombres de las personas, así como información geográfica detallada, han sido suprimidas. Adicionalmente, haremos uso de una variedad de diferentes procedimientos técnicos y estadísticos para garantizar la protección de la confidencialidad, incluyendo los siguientes:

·       Intercambiar una fracción no revelada de registros de un distrito administrativo a otro para hacer imposible la positiva identificación de los individuos.

·       Hacer aleatoria la secuencia de hogares dentro de los distritos para ocultar el orden en el que los individuos fueron enumerados.

·       Hacer combinaciones de códigos que revelen características sensitivas o que identifiquen subgrupos de población muy pequeños (por ejemplo, agrupando pequeñas categorías étnicas)

·       Generando códigos superiores e inferiores, y redondeando variables continuas para prevenir la posible identificación de individuos.

Además de estas medidas básicas, evaluaremos continuamente nuevos métodos y tecnología para proteger la confidencialidad de la información (McCaa y Ruggles 2002, Ruggles 200). Las medidas de seguridad para el uso público de microdatos censales son aparentemente perfectas. A lo largo de casi cuatro décadas de uso, no se ha dado una sola violación verificada de confidencialidad ni en los Estados Unidos ni en ningún otro país. Estos procedimientos son diseñados para extender aun más ese record.

Aspectos técnicos.

Para una completa explicación del amplio rango de consideraciones técnicas, véase por favor el Apéndice 7.

·       Diseño de muestras

·       Reformando y corrigiendo errores formales

·       Verificación de consistencia, crítica de datos y asignación de datos no especificados.

·       Homologación

·       Variables construidas

·       Documentación

·       Metadatos en formato de cómputo

·       Divulgación

 

Plan de trabajo. (Apéndice 8).

Asociados. Nuestros acuerdos de divulgación de datos y las cuotas por licencias proveen no sólo los derechos de divulgación, sino también el suministro de materiales auxiliares (tales como manuales de codificación y publicaciones técnicas) y apoyo técnico de parte de personal especializado en las agencias de estadística respectivas. Cuando sea necesario, también completaremos este soporte de especialistas en la materia con otros expertos de la región. Ellos responderán a preguntas sobre procedimientos de conteo y procesamiento de datos pos-enumerativos, la metodología empleada para crear muestras existentes, y problemas de integración específicos (tales como los detalles de variables económicas, educativas, de hogar y geográficas para países seleccionados).

Bibliografía consultada. (Apéndice 9)

 


Apéndice 1. Protección de Sujetos (formato requerido por el NIH)

1.     Riesgo de los sujetos

Participación de Sujetos humanos y características. El estudio de la población consiste de muestras sistemáticas de individuos dentro de sus hogares, quienes son enumerados en los censos nacionales de diecisiete países latinoamericanos y el estado asociado de Puerto Rico, conducidos entre 1960 y el 2003. Las muestras poblacionales son representativas con respecto al género, rangos de edad, condiciones de salud, y composición racial y étnica de cada país. El número total de casos en la base de datos consistirá de aproximadamente 135 millones de registros para individuos.

Fuentes de materiales. El proyecto hará uso de un completo recuento de datos censales de países de América Latina para generar muestras de hogares e individuos. Empleará también microdatos de muestras censales ya existentes de aquellas naciones, cuando sólo existan esos datos de muestras. Los datos han sido archivados por cada nación en la colección del Centro Latinoamericano y del Caribe de Demografía (CELADE), bajo el patrocinio de la Organización de Naciones Unidas. Las muestras de los censos levantados entre el 2000 y el 2003 serán diseñadas por las agencias nacionales de estadística de los países participantes.

Los acuerdos de divulgación han sido negociados y firmados por las agencias nacionales de estadística de cada país participante. Estos acuerdos otorgan la licencia de divulgación de los microdatos censales al Centro de Población de Minnesota (Minnesota Population Center) y a otros centros de distribución autorizados.

Riesgos potenciales. Cada oficina nacional de estadística hará entrega de los archivos que hayan sido ya procesados para garantizar el anonimato de los informantes. Nombres, direcciones, y cualquier otra información potencialmente útil para romper el anonimato, será eliminada antes de que los datos lleguen a Minnesota. Aun cuando los archivos de datos no incluyan nombres de personas o direcciones, dichos archivos contendrán suficientes detalles geográficos y de individuos para lograr la identificación de los informantes, al menos teóricamente hablando. El riesgo potencial que corren los individuos al liberar la información relativa a las características censales, podría incluir responsabilidades legales, riesgo de perder el empleo, o incluso el descrédito profesional.

2.     Adecuación de medidas de protección en contra de riesgos

Contratación y consentimiento informado. El consentimiento informado no es aplicable a los censos nacionales; en todos los países, los residentes están obligados legalmente a responder a las preguntas censales.

Protección en contra de los riesgos. . La protección de la confidencialidad del informante es una de las más altas prioridades del proyecto. Cada nación cuenta con un cuerpo de normas y estándares para garantizar la confidencialidad de la información, y estos estándares varían ligeramente de país a país. Bajo los acuerdos de divulgación firmados, y negociados con cada país, el Centro de Población de Minnesota (MPC) está legalmente obligado a respetar los estándares establecidos por cada país, y a limitar las variables y códigos de variables en las bases de datos especificados por las agencias nacionales de estadística correspondientes.

Como se ha mencionado, las oficinas nacionales de estadística y el CELADE nos harán entrega de los archivos que hayan sido procesados para garantizar el anonimato de los informantes eliminando los nombres, direcciones, e información geográfica de bajo nivel. El Centro de Población de Minnesota (MPC) tomará medidas adicionales para garantizar la confidencialidad de los informantes. Como se ha discutido en la sección correspondiente a la confidencialidad de la información, implementaremos las siguientes medidas: haciendo aleatoria la secuencia de registros de tal forma que no sea posible inferir ninguna información detallada de carácter geográfico a partir de la posición de los registros en el archivo correspondiente; intercambiando una fracción no revelada de registros de un distrito administrativo a otro para hacer imposible la identificación de individuos; combinando códigos que revelen características sensitivas o que identifiquen subgrupos de población muy pequeños (tales como categorías étnicas de grupos poco numerosos); imponiendo códigos inferiores y superiores y redondeando variables continuas (tales como el ingreso). Los empleados del Centro de Población de Minnesota que trabajan directamente con los mocrodatos firman acuerdos para respetar la confidencialidad de los informantes. La efectividad de estas protecciones parece ser garantizada, con base en la experiencia en el uso público de los microdatos censales de los Estados Unidos. A lo largo de las pasadas cuatro décadas, no se ha presentado un solo caso de violación de la confidencialidad en el uso de tales datos (Ruggles 2000).

Adicionalmente a las medidas técnicas de salvaguarda, contamos también con  medidas legales. Como se mencionó previamente, distribuimos y divulgamos los microdatos bajo estrictos controles de la confidencialidad de la información aprobados por cada oficina nacional de estadística. Antes de que los datos sean liberados, los investigadores individuales deben presentar una solicitud de acceso a los datos, y firma un acuerdo de licencia electrónica (http://www.ipums.org/cgi-bin/ipumsi/ipumsireg.cgi). Para tener acceso a los datos, los investigadores deben estar de acuerdo en mantener la confidencialidad de todas las personas, hogares, y cualquier otra entidad. Cualquier intento de acceder a la identidad de personas u hogares se encuentra estrictamente prohibido, así como el afirmar o sostener que una persona u hogar ha sido identificado a través del uso de los datos. Quienes hacen la solicitud se manifiestan de acuerdo en implementar medidas de seguridad para prevenir accesos no autorizados a los datos, y no están autorizados a redistribuir los datos a terceros. El acuerdo de licencia especifica que los microdatos deben ser utilizados exclusivamente para propósitos de investigación académica y de educación, y que no podrán ser utilizados para propósitos comerciales o generadores de ingresos económicos. Cualquier publicación basada en el uso de los datos deberá ser reportada al Centro de Población de Minnesota (MPC), quien hará llegar la información a las agencias nacionales de estadística pertinentes.

Los potenciales investigadores deberán someter una propuesta de proyecto de investigación que demuestre la necesidad científica de hacer uso de los microdatos, y dicha propuesta será evaluada por nuestro cuerpo de especialistas. Una vez que una solicitud es aprobada, una clave de acceso de usuario es activada, permitiendo el acceso controlado a los datos. Las penas por la violación de las licencias incluyen la revocación de la licencia, el retorno de todos los microdatos adquiridos, el presentar una moción de censura a las organizaciones profesionales, y persecución civil bajo los estatutos pertinentes en los ámbitos nacional e internacional.

3. Beneficios potenciales de la investigación propuesta e importancia del conocimiento que se alcanzará con dicho proyecto.

Los beneficios potenciales de la base de datos que se propone generar se encuentran descritos en esta propuesta de investigación. Por ejemplo, un creciente entendimiento de algunos fenómenos como las causas y consecuencias de un descenso en la fecundidad, en el proceso de envejecimiento de la población, y la migración internacional de América Latina a los Estados Unidos tienen beneficios potenciales para todos los miembros de la sociedad latinoamericana, para los ciudadanos de los Estados Unidos, y para los científicos sociales y para los administradores y responsables de políticas en el mundo entero.

 


Apéndice 2. Objetivos Específicos

Hoy día subsiste un vasto archivo virgen de microdatos censales que cubren América Latina en un período que parte de 1960. La mayor parte de esos datos, sin embargo, permanece inaccesible a los investigadores. Esta propuesta busca contar con apoyo económico para crear muestras censales homologadas y documentadas de aproximadamente cincuenta y cinco censos de América Latina y el Caribe. Estos microdatos y metadatos se harán disponibles para el desarrollo de investigaciones académicas y educativas a través de un sistema de divulgación con base en una red de Internet.

Este proyecto refuerza inversiones federales previas en los Estados Unidos, destinadas a la creación de infraestructuras en ciencias sociales. Apoyos económicos recientes por parte de los Institutos Nacionales de Salud y la Fundación Nacional para la Ciencia, han sustentado mucho del trabajo básico para las series de datos de América Latina. En colaboración con el Centro Latinoamericano y Caribeño de Demografía (CELADE) y las agencias nacionales de estadística de cada país, hemos obtenido archivos vírgenes de microdatos, documentación interna, y acuerdos de redistribución para la información censal de virtualmente cada país latinoamericano. Hemos procesado y liberado ya muestras preliminares de ocho censos de México y Colombia, y planeamos la liberación adicional de cinco censos brasileños en el 2004.

Para alcanzar este éxito y crear muestras de microdatos censales para el resto de América Latina, requerimos de fondos económicos adicionales. Los proyectos existentes han cubierto los costos de hallazgo y preservación de los microdatos, así como de la documentación, negociación de acuerdos de divulgación, desarrollo de procedimientos de limpieza de datos y muestreo, creación de conversión de datos y paquetes de cómputo de divulgación de información, y establecimiento de protocolos de diseño para datos y documentación. Como resultado, hemos estimado un costo promedio por censo en el desarrollo de nuevas muestras en midrodatos para América Latina en menos de la mitad del costo incurrido en los países que hemos procesado hasta la fecha.

Antes de que podamos hacer disponibles los datos, es necesario cumplir con nueve tareas adicionales:

1.     “Limpiar” los archivos de datos crudos (i.e., identificar y corregir problemas de formato en los datos; practicar chequeos de consistencia interna; identificar problemas de cobertura mediante la comparación de los datos con las estadísticas publicadas)

2.     Generar muestras del 10 por ciento de los archivos censales originales.

3.     Imponer mecanismos de protección de la confidencialidad de la información (i.e., códigos superiores, intercambio geográfico, disimulando categorías, y generando secuencias aleatorias de hogares dentro de unidades geográficas).

4.     Recodificar variables dentro del sistema de codificación armonizado de IPUMS-Internacional para permitir el desarrollo de análisis comparativos entre países y períodos de tiempo; desarrollo y aplicación de nuevos diseños de codificación armonizados, que sean óptimos para los censos de América Latina.

5.     Rescatar casos no especificados, así como datos inconsistentes, mediante la aplicación de procedimientos de edición con base en consistencia lógica.

6.     Crear una base de variables construidas que tengan consistencia interna, describiendo la composición del hogar, las interrelaciones familiares y el nivel o estatus socioeconómico.

7.     Desarrollar documentación armonizada en idioma inglés (i.e., procedimientos e instrucciones para el conteo censal; procesamiento pos-enumerativo; diseño muestral; documentación a nivel de cada variable en preguntas censales, universo de definiciones, disponibilidad de categorías de variables, y distribuciones de frecuencias; definiciones empleadas de hogar, vivienda, viviendas múltiples o colectivas, y cualquier otra unidad de enumeración; y puntos de comparación entre años censales y países).

8.     Convertir toda la documentación dentro del estándar para metadatos internacional, llamado Iniciativa de Documentación de Datos (Data Documentation Initiative, DDI).

9.     Adaptar, mejorar y mantener el sistema de acceso a datos y metadatos con base en red de Internet.

Los microdatos censales de América Latina representan una extraordinaria fuentepoca explotada aun para el estudio de los cambios económicos y demográficos en la región. Esta es la única región en el mundo que cuenta con tal cantidad de datos censales en tan buen estado. Contando con más de cien millones de registros a lo largo de un período de cuarenta años, los archivos de los microdatos censales de América Latina ofrecerán una amplia visión cronológica y una mayor densidad muestral de lo que datos alternativos como encuestas demográficas y económicos ofrecen. En muchos casos, los censos son también la fuente de información disponible más representativa con relación a características de la población a escala nacional.

El costo de producir estos datos resulta excepcionalmente bajo dentro de los estándares de la investigación en ciencias sociales. Los beneficios, sin embargo, son enormes. Las nuevas bases de datos permitirán a los científicos sociales desarrollar comparaciones entre naciones a lo largo de cuatro décadas de cambios dramáticos. Ello se traducirá también en la creación de un cuerpo sustancial de nuevas investigaciones científicas y de aquellas orientadas al diseño y aplicación de políticas relacionadas con la salud dentro del desarrollo económico, la transición demográfica y el envejecimiento de la población, la migración internacional y muchos otros tópicos.


Apéndice 3. Antecedentes e importancia

Los microdatos censales son una fuente invaluable para la investigación en ciencias sociales. Otras fuentes —tales como las encuestas demográficas y económicas— regularmente ofrecen una cobertura mayor de temas y mayor detalle que los datos censales, pero ninguna fuente alternativa ofrece una densidad muestral comparable, profundidad cronológica, y cobertura geográfica.

Para la mayor parte del mundo, los microdatos censales no se encuentran disponibles o bien su acceso es restringido, y son por lo tanto escasamente utilizados. En los Estados Unidos y Canadá, sin embargo, los microdatos censales han estado disponibles a los investigadores a lo largo de cerca de cuarenta años y ha sido un componente indispensable en la infraestructura de las ciencias sociales. Por ejemplo, los microdatos censales han sido la fuente de datos para diecinueve de los cincuenta y un artículos sobre los Estados Unidos y Canadá que aparecieron publicados en los últimos dos volúmenes de Demography (2000 y 2001). Aun cuando los Estados Unidos cuentan con abundantes datos de encuestas de alta calidad, y las más recientes muestras censales datan de hace una década, los microdatos censales de los Estados Unidos fueron utilizados tres veces más de lo que la siguiente fuente en popularidad fue utilizada. En contraste, durante los mismos dos años, ni un solo artículo en Demography hizo uso de microdatos censales en el mundo en desarrollo.

Las Series de Microdatos Censales Integrados de Uso Público (Integrated Public Use Microdata Series IPUMS-USA) es parcialmente responsable del extendido uso de microdatos censales por demógrafos que se interesan en el estudio de los Estados Unidos. IPUMS-USA, proyecto desarrollado por Steven Ruggles, Metthew Sobek y otros en el Centro de Población de Minnesota (MPC), ha puesto a la disposición de los académicos los microdatos censales en forma gratuita, en un formato armonizado con documentación completa a través de un sistema de acceso de datos amigable para el usuario (Ruggles y Sobek 1997, http://ipums.org/usa). A partir de su puesta en marcha preliminar en 1995, los IPUMS han sido una de las fuentes de datos más ampliamente utilizadas en el mundo entero. Mas de 6,000 investigadores se han registrado para hacer uso del sistema de extracción de datos de IPUMS. La base de usuarios continúa expandiéndose rápidamente, con aproximadamente 2,500 nuevos usuarios registrados durante el pasado año tan solo. En la actualidad, distribuimos aproximadamente 140 gigabytes de datos por mes, o un promedio de 120 megabytes por hora, veinticuatro horas al día. Hemos preparado también aproximadamente 60,000 extractos de datos por peticiones particulares de los datos de IPUMS, a partir de mayo de 1996, y en la actualidad se procesan aproximadamente 2,800 pedidos de extractos de datos por mes. Esta masiva distribución de datos comienza a dar frutos. Aun cuando los IPUMS se encuentran disponibles por sólo seis años, al momento de escribirse lo presente, nuestra lista bibliográfica cuenta con veintiséis libros, setenta y un tesis de doctorado, 207 artículos de investigación publicados, y cientos de artículos de trabajo, presentaciones en conferencias, y reportes de investigación (http://ipums.org/usa/research.html).

En 1998 propusimos extender el paradigma de IPUMS a los censos de Colombia (referencia NIH: R01HD37508). Este proyecto piloto, un trabajo de colaboración con el Departamento Administrativo Nacional de Estadística de Colombia (DANE), fue firmado para demostrar la posibilidad de crear microdatos de acceso público para América Latina. Poco tiempo después de desarrollar la propuesta del proyecto de Colombia, la Fundación Nacional de la Ciencia anunció la creación de un programa especial para “Enriquecer la Infraestructura para las Ciencias Sociales y del Comportamiento Humano” que ofreció soporte económico por una sola ocasión a favor de nuevas iniciativas de mejoramiento de datos. Nosotros propusimos un proyecto de gran escala con carácter internacional que contaba con dos grandes componentes (referencia NSF: SBR9907416). El primer paso fue identificar y preservar los microdatos censales en formato de cómputo que prevalecieran alrededor del mundo para el período 1960-2000. El segundo paso fue seleccionar siete países con una amplia cobertura geográfica y limpiar, armonizar, documentar y divulgar los microdatos para esos países empleando el mismo principio y métodos que inspiraron la base de datos original de IPUMS-USA.

Estos dos proyectos internacionales, conocidos colectivamente como IPUMS-Internacional, han sido un éxito. Ambos proyectos se encuentran ahora en su tercer año e incluso cumpliendo con las metas fijadas antes de lo planeado. Hemos creado un exhaustivo inventario de microdatos hasta ahora identificados, muchos de los cuales se describen en nuestro laureado libro Manual de Microdatos Históricos Internacionales (Handbook of International Historical Microdata, Hall, McCaa, y Thorvaldsen 2000), y hemos logrado la preservación de microdatos de más de cien censos. En mayo del 2002, liberamos nuestro primer grupo de muestras de microdatos censales armonizados en su formato preliminar para Colombia, Francia, Kenia, México, los Estados Unidos y Vietnam (http://ipums.org/international). Planeamos liberar un segundo grupo de muestras armonizadas para Brasil, China, Ghana, Hungría y España en el 2004.

Nuestra primera puesta a los investigadores de muestras de microdatos censales internacionales ha estado disponible por sólo dos semanas al momento de redactar estas lineas, y la publicidad de las muestras se ha dado principalmente de boca en boca. Sin embargo, la reacción de los académicos frente a los nuevos datos, ha sido tan entusiasta que anticipamos que IPUMS-Internacional rivalizará muy pronto por las estadísticas de usuarios con IPUMS-USA. Hemos incluso recibido ya docenas de solicitudes para el acceso a los datos de académicos de los Estados Unidos, Panamá, Noruega, Kenia, Hungría, Suiza y Canadá. Adicionalmente a los investigadores universitarios, la lista de usuarios incluye representantes de cuatro oficinas nacionales de estadística y de la Organización Mundial de la Salud (OMS). Los temas propuestos incluyen análisis de arreglos de supervivencia de ancianos, participación laboral femenina y nivel educativo de la mujer, diferenciales de desigualdad regional, las dimensiones espaciales y demográficas de la violencia en Colombia, la relación entre los factores de enfermedad con educación, migración entre México y los Estados Unidos, y la relación entre matrimonio y educación. Un panel de la Academia Nacional de Ciencias, llamado “Transiciones a la condición adulta en países en desarrollo”, emplea datos de Colombia, Kenia, México y Vietnam. El objetivo de este panel es analizar los resultados del cambio, tales como escolaridad, trabajo, fecundidad y matrimonio como resultado de características como la edad, el género y el hogar.

A pesar de la importante contribución a la ciencia que ha ofrecido IPUMS-Internacional, aun tiene algunas limitaciones. Los fondos obtenidos fueron destinados a la creación de muestras para sólo algunos países alrededor del mundo. Es más, eso países son muy diferentes entre ellos ¾con respecto tanto a sus propias definiciones censales y procedimientos, así como a normas y conductas sociales¾ por lo que la comparación nacional es muy difícil. A fin de lograr la completa capitalización del potencial de los microdatos censales internacionales, es necesario desarrollar una acercamiento regional.

El continente americano es el único lugar en el mundo con el potencial de contar con series de microdatos censales completas para las últimas cuatro décadas. En 1959, el Centro Latinoamericano de Demografía de las Naciones Unidas (CELADE) emprendió un proyecto ambicioso para crear un archivo de microdatos censales para toda América Latina y el Caribe (McCaa y Jaspers 2000). Este proyecto, llamado Operación de Muestras de Censos (OMUECE), buscaba no sólo colectar y preservar microdatos y documentación censales, sino también estandarizar variables seleccionadas en veintinueve censos levantados entre 1960 y 1976. A pesar de restricciones económicas debido al corto presupuesto que obligaron al abandono del proyecto en los principios de los 80, CELADE continuó colectando microdatos censales para las naciones de América Latina[1]. CLADE cuenta ahora con la mayor colección de datos censales en el mundo. Los investigadores han hecho relativamente poco uso de este recurso de microdatos, pionero en su línea, en parte debido a que el CELADE ha tenido que restringir su uso a sus oficinas centrales en Santiago de Chile. Si se desea trabajar fuera de ese lugar, los potenciales usuarios deben obtener permisos individuales de cada oficina nacional de estadística antes de que puedan acceder a los datos.

El uso público de las series de microdatos de América Latina ¾que llamamos IPUMS-América Latina¾ tomará en cuenta los esfuerzos desarrollados por el CELADE, así como la experiencia del proyecto OMUECE. Como parte del proyecto NSF IPUMS-Internacional, todos los datos contenidos en los archivos del CELADE han sido inventariados y convertidos a formatos modernos de cómputo y medios para garantizar su preservación a largo plazo. Estos materiales formarán la base de las nuevas series de microdatos para América Latina. Vaticinamos que la disponibilidad de microdatos que presenten consistencia en la información para toda América Latina tendrá un profundo efecto en la práctica de la investigación en ciencias sociales en un período breve de tiempo. Los párrafos que siguen buscan tan sólo sugerir algunos de los temas de investigación más obvios y relevantes en el quehacer político.

1.     Envejecimiento. Las grandes muestras ofrecidas por los microdatos censales de América Latina son fuentes invaluables para el estudio de la población en edad avanzada, y la amplia perspectiva cronológica de los datos hacen posible el análisis de cohorte (Palloni en prensa, Chackiel 2001, Viveros Madariaga 2001). Además, nuevos métodos de proyección de población anciana requieren de parámetros de múltiples dimensiones que pueden ser obtenidos en forma más completa a partir de grandes muestras de microdatos (por ejemplo, Vaupel, Yi y Zhenglian 1997). Lo que es quizás aun más importante, IPUMS-América Latina abrirá nuevas y novedosas oportunidades para investigaciones en envejecimiento en el plano comparativo entre naciones. Análisis comparativos multinacionales sobre trabajo y retiro o jubilación, por ejemplo, se han convertido ya en valiosos elementos en la toma de decisiones para los planeadores políticos en otras regiones en el mundo (Gruver y Wise 1998, 1999, Johnson 1999; Hermalin y Chan 2000).

2.     Migración. En décadas recientes, América Latina se ha convertido en una región de emigración neta y los Estados Unidos en el principal lugar de destino (De Launey y Tapinos 2001, Canales Cerón 2001). A partir de la década de 1980, muchos censos latinoamericanos han captado información sobre el número de hijos que residen fuera del país de origen. Preguntas sobre migración en retrospectiva ponen hincapié también en las movilizaciones a y desde los Estados Unidos. Acoplar estos datos con los de IPUMS-USA permitirá comparar las características de los residentes latinoamericanos en los Estados Unidos, por país de nacimiento, con aquellos que no hayan migrado en dichos países. La estructura jerárquica de los datos facilita el estudio de los individuos en sus contextos familiares y del hogar, haciendo posible, por ejemplo, investigar a los familiares de padres o madres solteros latinoamericanos, ya sea que residan en los Estados Unidos o en América Latina.

3.     Fecundidad. Desde 1960 hasta el 2001, la tasa global de fecundidad para América Latina ha descendido de un promedio bastante superior a 6 niños por mujer, a 2.8. Esta acelerada transición se ha traducido en un jugoso y prometedor tema de interés para los investigadores académicos (Guzmán y otros 1996), pero aun queda mucho por hacer. IPUMS-América Latina permitirá el estudio de los patrones diferenciales de fecundidad por grupos ocupacionales, región, educación, tamaño de localidad, y una multitud de variables adicionales a niveles de individual, familiar o de comunidades. La riqueza de estos datos incrementará grandemente nuestra capacidad de analizar los determinantes del descenso de la fecundidad en los países en desarrollo. Para las mujeres en edades fértiles, desde la década de 1970 los censos latinoamericanos han reportado consistentemente sobre hijos nacidos vivos, hijos sobrevivientes, y la fecha de nacimiento del último hijo nacido y condición de supervivencia. Adicionalmente, las series de microdatos incorporarán un conjunto de ligas compatibles entre madres e hijos, facilitando el análisis de fecundidad por el método de hijos propios.

4.     Salud pública. Los censos latinoamericanos han captado un amplio rango de información sumamente importante para la salud pública, tal como la disponibilidad de servicios sanitarios, fuente de suministro de agua, tipo de combustible empleado para cocinar, y materiales de construcción de las viviendas (De Vos y Arias 1996). Complementadas con respuestas a preguntas sobre supervivencia infantil y mortalidad, estos datos ofrecen oportunidades excepcionales para resaltar la correlación de la salud pública a niveles local, regional y nacional.

5.     Análisis comparativo de políticas públicas. La disponibilidad de microdatos altamente comparables para veinte países con amplias variaciones en políticas públicas puede abrir inmensas oportunidades para experimentos naturales que favorezcan al desarrollo de nuevas políticas. En los Estados Unidos, esta estrategia ha sido una herramienta muy útil para estimar los efectos de las variaciones de nivel estatal en programas de asistencia pública, acceso a los servicios de cuidado de la salud, y políticas impositivas o de impuestos (por ejemplo, Duncan y Hoffman 1992, Lundbert y Plotnik 1995, Moffitt 1992, Ruggles 1997, Whittington 1993). Modelos similares de efectos fijos pueden ser aplicados a los países de América Latina para estimar el impacto de los cambios políticos en el desarrollo económico, la desigualdad social, la urbanización, y el cambio demográfico.

Estos temas se presentan tan sólo como ejemplos representativos del tipo de investigaciones que pueden extraerse a partir de las series de microdatos integrados para América Latina. Otras áreas de investigación importantes incluyen la demografía de la violencia, consecuencias sociales de las discapacidades físicas, cambios en las composiciones de los hogares y las familias, transformaciones en la estructura ocupacional, urbanización, migración interna, trabajo femenino e infantil, nupcialidad, y educación y la divulgación de los servicios de educación pública. Utilizados en combinación, las cincuenta y cinco bases de datos que cubren cuatro décadas de cataclismo social, de cambios demográficos y económicos, comprenderán nuestra más importante fuente para el estudio de las sociedades latinoamericanas.

El Consejo Nacional de Investigación (National Research Council 2001) ha producido muy recientemente un gran reporte sobre Preparándose para un mundo envejecido: el caso de la investigación comparativa internacional (Preparing for an Aging World: the Case for Cross-National Research). El reporte hace un reclamo destacando la necesidad de contar con fuentes de datos para el análisis internacional y a través del tiempo. Una de las mayores recomendaciones es que “las agencias nacionales e internacionales de apoyo a la investigación deben establecer mecanismos que faciliten la armonización de los datos captados en diferentes países.” Los datos armonizados u homologados permiten el análisis de los diferenciales en perspectiva comparativa internacional en el proceso de envejecimiento y de cambios sociales y económicos concomitantes. El reporte demuestra que “los estudios comparativos en el plano internacional desarrollados con un marco de medidas comparables pueden ser una herramienta mucho más útil para el análisis de las políticas de lo que es el estudio de países aislados.” Una segunda recomendación del NRC es que “La comunidad científica, en el sentido amplio, debe contar con generalizado e irrestricto acceso a los datos.” Los avances científicos y instancias políticas son significativamente mayores cuando una amplia comunidad de usuarios con diversos modelos y perspectivas teóricas accede a la misma base de datos. La iniciativa de IPUMS-América Latina se orienta directamente a resolver las siguientes necesidades: el objetivo central es armonizar micro y metadatos de un amplio rango de países y hacerlos fácilmente accesibles a la comunidad de investigadores a través del uso de Internet.


Apéndice 4. Estudios Preliminares.

Los investigadores principales han establecido impresionantes y buenos antecedentes en completar a tiempo proyectos de gran escala en la creación de infraestructura de datos. Estos proyectos proveen de la experiencia y respaldo esenciales para el desarrollo de IPUMS-América Latina. Se ha cumplido a tiempo con cada proyecto anterior y siempre dentro de los límites del presupuesto económico. Los siguientes estudios seleccionados son especialmente importantes en la presente propuesta de investigación.

·       “Muestras Integradas de los Censos Colombianos” (“Integrated Samples of Colombian Censuses”, McCaa y Ruggles, NICHD R01 HD3578, 1999-2003). Este estudio piloto fue diseñado para demostrar la viabilidad de crear muestras en microdatos censales armonizados para los censos de América Latina. Una versión preliminar de la base de datos, incorporando muestras de los censos de 1964, 1973, 1985 y 1993, fue presentada en mayo del 2002, un año antes de lo programado.

·       “Sistema de Acceso a Microdatos Internacionales Integrados” (“International Integrated Microdata Access System”, Ruggles, McCaa, Sobek, Levison, y King, NSF SBR 9907416, 1999-2004). En colaboración con el CELADE, este proyecto ha generado las bases para la preservación de los microdatos y documentación censales de América Latina. El proyecto también ha servido de base para las negociaciones que hemos realizado con el fin de contar con acuerdos de divulgación con las agencias estadísticas latinoamericanas. La paquetería de cómputo, los procedimientos y el diseño de protocolos desarrollados para este proyecto son aplicables directamente a IPUMS-América Latina. El Proyecto se encuentra muy adelantado en función de lo programado y nos encontramos en condiciones de predecir la producción de un mayor número de muestras de microdatos censales de lo que originalmente habíamos anticipado.

·       “Series de Microdatos Integrados de Uso Público” (Integrated Public Use Microdata Series” Ruggles, NSF 9118299, 1992-1995). Este proyecto compactó las muestras censales en microdatos de los Estados Unidos, del período de 1850 a 1990, en una sola base de datos, sencilla y coherente. Recientemente, de acuerdo con un evaluador de propuestas de investigación del NIH, el proyecto IPUMS-USA fue calificado como “un modelo para la construcción de una base empírica sumamente útil y vital para toda investigación, equivalente en la demografía histórica al proyecto del genoma humano.” Aun cuando los datos para América Latina presentan diferentes retos que los enfrentados al trabajar con las muestras históricas de los Estados Unidos, nuestras estrategias son fruto de las muchas lecciones que hemos aprendido a partir del original proyecto IPUMS.

·       “Divulgación Electrónica y Apoyo de IPUMS” (Electronic Dissemination and Support of the IPUMS” Ruggles y Sobek, NICHD, R01-HD34714, 1996-1999). Este proyecto sentó las bases para el desarrollo de herramientas de divulgación de microdatos y documentación censales, con base en el uso de la red de Internet. La paquetería generada de este proyecto será también empleada para el proyecto IPUMS-América Latina.

Cada uno de los investigadores participantes cuenta también con experiencia y habilidades substanciales en áreas importantes para el proyecto

Robert McCaa ha trabajado en demografía de América Latina por casi treinta años. Es el investigador principal para el estudio piloto de Colombia, base para el presente proyecto de investigación, y co-investigador principal del proyecto IPUMS-Internacional, financiado por la NSF. Su primera publicación fue un volumen editado de cuadros censales para la población censada de Chile en 1940 (McCaa 1972). A lo largo de los últimos quince años, McCaa ha impulsado diversos grandes proyectos sobre microdatos censales históricos, en primer lugar para México (McCaa 1984, 1989, 1991, 1996, 1997). McCaa y sus alumnos han publicado trabajos utilizando las nuevas muestras de microdatos censales para México y Colombia, recientemente puestas en circulación por el proyecto IPUMS-Internacional (McCaa y Mills 1999, McCaa 2000; Vázquez, McCaa y Gutiérrez 2001).

Miriam King es una demógrafa con trece años de experiencia trabajando con microdatos censales, y más recientemente con IPUMS-Internacional. Ha desarrollado investigaciones relacionadas con estructura de hogares y familiares, fecundidad, envejecimiento, sub-enumeración censal, y la construcción social de tópicos de población como problemas sociales. Su nuevo libro, La Medida de la dicha: Debates sobre Población en los Estados Unidos, 1850 a 1930 (The Quantum of Happiness: Population Debates in the United States, 1850 to 1930) aparecerá publicado por Cornell University Press en breve.

Deborah Levison es una economista demógrafa cuya investigación se centra en mercados de trabajo en países en desarrollo. Se especializa en temas interrelacionados de fuerza de trabajo infantil y educación, cuidado infantil pre-escolar, y empleo femenino. Levison ha servido como consultora a la Organización Internacional del Trabajo (International Labor Organization), el Banco Mundial (World Bank) y la UNICEF y tiene gran experiencia en el manejo de microdatos de América Latina. Antes de formar parte del Instituto Humphrey de Políticas Publicas de la Universidad de Minnesota (Humphrey Institute of Public Affairs), Levison participó dos años como pos doctorante en el Centro de Crecimiento Económico de la Universidad Yale (Yale University’s Economic Growth Center). Resultados de su investigación han sido publicados en Labour, Economic Development and Cultural Change, Revista de Econometrica, and Pesquisa e Planejamento Economica.

Steven Ruggles, un demógrafo histórico, ha sido investigador principal en los proyectos previos de IPUMS y de otros proyectos orientados a la creación de muestras nacionales de los censos de Estados Unidos de 1850, 1860, 1870, 1880, 1900, 1910, 1920, y 1930. Sus intereses primordiales descansan en la intersección de la demografía y la familia. Su primer libro, Conexiones Prolongadas: El Surgimiento de la Familia Extendida en Inglaterra y los Estados Unidos en el siglo XIX (Prolonged Connections: the Rise of the Extended Family in Nineteenth-Century England and America) fue galardonado con los premios William J. Goode Award de la Asociación Americana de Sociología (American Sociological Association), y el Allen Sharlin Memorial Award de la Asociación de la Ciencia Social de Historia (Social Science History Association). Actualmente, Steven Ruggles trabaja en la elaboración de un libro sobre fuentes de cambio en la familia de los Estados Unidos a lo largo de los pasados 150 años.

Matthew Sobek es un economista historiador quien trabajó como gerente de proyectos de IPUMS-USA y de IPUMS-Internacional. Sobek trabajó también como editor en jefe de Estadísticas Históricas de los Estados Unidos: Edición del Milenio (Historical Statistics of the United States: Millennial Edition), en prensa y a ser publicado por la Cambridge University Press. Sobek ha publicado ampliamente sobre microdatos censales, divulgación de datos, estructura ocupacional, y estatus socioeconómico. A lo largo del tiempo en el que elaboró su tesis de grado, desarrolló la conciliación de los sistemas de clasificación ocupacional de los Estados Unidos entre 1850 y 1990, al tiempo que desarrolló análisis de los cambios de larga duración en la fuerza laboral y en las jerarquías ocupacionales en los Estados Unidos.


Apéndice 5. Síntesis. Diseño de Investigación y Métodos.

El principal objetivo de este proyecto no es simplemente hacer disponibles los datos censales de América Latina; es también hacerlos útiles. Incluso donde los microdatos pueden ser obtenidos, el desarrollar estudios comparativos entre países o períodos históricos resulta un auténtico reto, debido a las inconsistencias entre las bases de datos y la inadecuada documentación de los problemas de comparabilidad. Debido a esto, la investigación comparativa internacional basada en muestras censales homologadas es muy raramente desarrollada. Este proyecto reducirá las barreras a la investigación internacional al transformar los microdatos censales de distintos países en una base de datos uniforme y homogénea, proveyendo una extensa documentación, y poniendo los datos al alcance de los investigadores interesados de forma totalmente gratuita, mendiante un sistema de acceso con base en la red de Internet.

Esperamos que IUMS-América Latina incluirá eventualmente al menos ochenta censos de diecisiete países y el Puerto Rico (Estado Asociado a los Estados Unidos), y existe la posibilidad de incluir censos adicionales de otros países. Debido a fines de planeación y diseño, debemos trabajar simultáneamente con todos esos censos. Esto asegurará que tengamos la capacidad alojar un rango completo de variaciones entre los países y a lo largo de los años censales al diseñar los sistemas de codificación de variables armonizados. A lo largo del procesamiento de los datos y la documentación, sin embargo, trabajaremos con remesas o grupos de tres o cuatro países al mismo tiempo. Este acercamiento ¾usado también en IPUMS-Internacional¾ permite la conclusión y liberación de las muestras en el tiempo previsto y permite evitar la complejidad logística que supone el procesar muchos censos simultáneamente.

Hemos establecido una secuencia prioritaria con base en prominencia intelectual, calidad de los censos, características técnicas, y la programación de liberación de resultados de los datos censales de la ronda del 2000. La secuencia de procesamiento propuesta es como sigue:

1.     México, Colombia, Brasil

2.     Costa Rica, Panamá, Puerto Rico

3.     Argentina, Chile, Paraguay

4.     Ecuador, Perú, Venezuela

5.     República Dominicana, El Salvador, Guatemala

6.     Honduras, Nicaragua, y si es que asi se lo autorice, Bolivia Cuba, y Uruguay.

 

El primer grupo, compuesto por trece censos de tres países, ha sido financiado por subvenciones previas y será liberado dentro de una fecha programada para principios del 2004. Planeamos la necesidad de desarrollar algún trabajo adicional en estos países como parte del presente proyecto, sin embargo, complementando algunas de las muestras con casos adicionales y mediante la aplicación de nuevos diseños de codificación armonizados óptimos para los censos de América Latina. Los grupos de países restantes requerirán del rango completo del procesamiento de la información, incluyendo la limpieza de los datos, el diseño y obtención de nuevas muestras según sea necesario, proponiendo medidas de protección de confidencialidad de la información, recodificando variables, localizando los datos insuficientemente o no identificados o sin información precisa, creando variables construidas, y escribiendo nueva documentación. Cada uno de estos procesos es descrito con detalle adelante.

Procesaremos tantos grupos de países como sea posible dentro de los cinco años de duración propuesta del proyecto. Con base en nuestra experiencia con Colombia, México, y Brasil, estimamos estar en condiciones de completar el trabajo de los cuatro primeros grupos ¾doce países y cincuenta y cinco censos¾ dentro del tiempo estimado para el presente proyecto.


Apéndice 6. Fuentes de documentación y datos.

Los censos de América Latina cuentan con una gran uniformidad y mayor calidad que los censos de otras partes del mundo en desarrollo. La región comparte una cultura estadística, alimentada por cinco décadas de coordinación metodológica. El comité de Censos de las Américas del Instituto Interamericano de Estadística (COTA) comenzó su trabajo con la ronda de censos de 1950 y continuó con un vigoroso programa de conferencias y seminarios a lo largo de la década de los 90. COTA desarrolló lineamientos ampliamente adoptados internacionalmente tanto para los censos de las rondas de 1970 como para la de 1980. En donde los países consideraron los estándares propuestos ¾con la excepción notable de Brasil¾ se buscaba fundamentalmente mantener la comparabilidad de la información con censos anteriores. El CELADE ha sido también extraordinariamente efectivo en promover el levantamiento de censos de buena calidad en sus talleres, seminarios de entrenamiento y capacitación, publicaciones, y conferencias. A pesar de que COTA no presentó lineamientos para los censos de la década de 1990, el CELADE completó ese requerimiento con reuniones y sugiriendo un diseño de cuestionarios, un grupo de preguntas estándar, y una forma homogénea de presentación de las preguntas censales (CELADE 1989).

Gracias al CELADE y a la División de Estadística de las Naciones Unidas, hemos adquirido ya una muy completa colección de documentación censal, incluyendo cuestionarios, manuales de entrevistadores, y manuales de codificación para casi todos los países de América Latina. Se ha catalogado la colección de documentos del CELADE por país, año censal, y tema. Para cada censo, existen docenas de temas, incluyendo distintas versiones de los mismos cuestionarios; manuales para entrevistadores, supervisores, instructores, y administradores; instrucciones para la edición de datos (Manual para la crítica y la codificación”); manuales de codificación; descripciones de diseño de muestras; y encuestas pos-censales o pos-enumerativas. El censo de 1960 de Panamá, por ejemplo, está documentado por setenta y cinco ingresos en el catálogo: dieciséis documentos relativos al procesamiento de los microdatos, siete diferentes cuestionarios, catorce manuales, veintidós documentos detallando la administración del censo, y dieciséis piezas que reportan las distintas actividades de promoción del censo. Esta colección incluye también resultados de la encuesta pos censal o pos enumerativa y una detallada explicación de la metodología muestral. La extensión y calidad de la documentación disponible para los censos de América Latina es un enorme haber para el proyecto. Contamos también con acceso a metadatos no catalogados generados por el CELADE para la preparación de los microdatos censales de los proyectos OMUECE y REDATAM. Estos incluyen manuales de codificación en formato electrónico de cómputo, registros de distribución, paquetería de conversión y traducción, apuntes de procesamiento de datos, y reportes de conciliación de información.

Hemos adquirido también microdatos a través del CELADE. El cuadro 1 (véase adelante) reporta las fuentes de microdatos recuperadas y verificadas por década, de los principales países de América Latina y el Caribe. La recuperación de datos, financiada por IPUMS-Internacional, se encuentra casi completa, faltando solamente dos bases de datos, el censo de 1993 de la República Dominicana y el censo de 1990 de Trinidad y Tobago. Estos archivos se encuentran aun en proceso de ser validados por el CELADE y llegarán a nuestras manos en tiempo debido.

El cuadro 2 describe los censos que proponemos incorporar en la base de datos. El cuadro incluye los dos países ¾Bolivia y Uruguay¾ que no han firmado aun el acuerdo, así como el del Estado Asociado a los Estados Unidos, Puerto Rico, cuyos datos son del dominio público. El sector izquierdo del cuadro reporta el porcentaje de casos que sobreviven para cada censo. Para veintisiete de los censos levantados a partir de los años de 1970 a los de 1990, hay datos completos. Para los treinta y cinco censos restantes, sólo sobreviven muestras de los microdatos, con rangos de densidad desde el 1 al 25 por ciento. Todas, excepto cuatro, de esas muestras están relacionadas con las rondas de censos de las décadas de 1960 y 1970. La década de 1960 es la parte con mayor debilidad de las series de datos; tan sólo algunas muestras de los datos sobreviven en formato electrónico de computación, y muchas de esas muestras fueron tomadas a escala individual y no son muestras jerárquicas. En tres casos, tenemos acceso a datos más antiguos, no reportados en los cuadros; los censos de Argentina (1869 y 1895), Costa Rica (1904 y 1927), y Puerto Rico (1910 y 1920) nos permitirán desarrollar un análisis del cambio a muy largo plazo (McCaa, Haines y Mulhare 2000).



Table 2.  Densidad de la Fuente de Datos y Tamaños de Muestra Estimados, por País y Década de los Censos

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Densidad de la Fuente de Microdatos (%)

 

Registros Individuales en Muestra (000s)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1960

 

1970

 

1980

 

1990

 

2000

 

1960

 

1970

 

1980

 

1990

 

2000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Argentina

3

 

2

 

2

 

100

 

100

 

500

 

469

 

559

 

3,262

 

3,700

Bolivia

.

 

100

 

.

 

100

 

100

 

.

 

461

 

.

 

642

 

830

Brasil

25

 

25

 

25

 

12

 

10

 

7,028

 

9,252

 

11,752

 

14,205

 

17,000

Chile

1

 

5

 

100

 

100

 

100

 

88

 

443

 

1,133

 

1,335

 

1,520

Colombia

2

 

100

 

100

 

100

 

100

 

350

 

1,989

 

2,643

 

3,275

 

4,000

Costa Rica

6

 

100

 

100

 

.

 

100

 

82

 

187

 

242

 

.

 

360

República Dominicana

7

 

7

 

8

 

100

 

100

 

203

 

272

 

476

 

761

 

840

Ecuador

3

 

17

 

100

 

100

 

100

 

136

 

924

 

835

 

965

 

1,260

El Salvador

1

 

5

 

.

 

100

 

100

 

26

 

176

 

.

 

512

 

630

Guatemala

5

 

5

 

5

 

100

 

100

 

210

 

290

 

302

 

833

 

1,270

Honduras

1

 

10

 

100

 

.

 

100

 

19

 

278

 

425

 

.

 

610

México

1.5

 

1

 

n.a.

 

100

 

100

 

503

 

483

 

.

 

8,028

 

10,100

Nicaragua

n.a.

 

10

 

.

 

100

 

.

 

.

 

189

 

.

 

436

 

.

Panamá

5

 

20

 

100

 

100

 

100

 

54

 

286

 

182

 

233

 

280

Paraguay

5

 

10

 

100

 

100

 

100

 

90

 

234

 

303

 

415

 

550

Perú

n.a.

 

n.a.

 

n.a.

 

100

 

100

 

.

 

.

 

.

 

2,205

 

2,710

Puerto Rico

10

 

3

 

7

 

6

 

6

 

235

 

81

 

224

 

211

 

234

Uruguay

5

 

100

 

100

 

100

 

.

 

128

 

279

 

296

 

316

 

.

Venezuela

2

 

22

 

100

 

30

 

100

 

132

 

1,060

 

1,452

 

1,802

 

2,420

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Total

 

 

 

 

 

 

 

 

 

 

9,784

 

17,353

 

20,824

 

39,436

 

48,314

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

. = No hubo levantamiento censal en esta década; no es posible contar con muestra.

n.a. = Microdatos incompletos o perdidos, pero los censos fueron levantados.


Siempre que se verifique la sobrevivencia de los datos en el período de 1970 a 1990, obtendremos nuevas muestras del diez por ciento, de acuerdo con los procedimientos detallados en la siguiente sección. Para los censos levantados entre el año 2000 y el 2003, se estimarán nuevas muestras sistemáticas del diez por ciento[2]. Previamente a proponer el presente proyecto a los representantes oficiales de las agencias nacionales de estadística en toda América Latina, la mayoría de ellos no tenían planeado el poner a disposición del público interesado los microdatos de los censos de la década del 2000. Incluso, si este proyecto no resulta financiado, es de dudarse que la creación de archivos de consulta abierta sean generados en más de un reducido número de países. El financiamiento que este proyecto pueda ofrecer para la creación de licencias de divulgación auxiliará a las agencias nacionales de estadística a justificar la asignación de personal que cumplan con la tarea de extraer y procesar las muestras de uso público de la ronda censal del 2000 y proveer copias dentro de lo programado a este proyecto; para cada país, la mitad del pago por la licencia será entregada al recibir los microdatos de la ronda del 2000.

El sector derecho del Cuadro 2 reporta los tamaños del total de muestras con que esperamos contar para cada censo. El número total de casos disponibles a lo largo de todos los países gradualmente pasa de alrededor de diez millones en los 60 a casi cincuenta millones en la ronda censal del 2000. Una vez que la base de datos se encuentre completa, incluirá aproximadamente 135 millones de casos.

La importancia de los datos de América Latina no es solo cuestión de tamaño, sino de contenido. Para casi todos los países, un rango completo tanto de variables de hogar como de población, se encuentra disponible a partir de 1960. Los censos de los 60 para América Latina típicamente contienen una docena de preguntas relacionadas con hogares y el doble de dichas preguntas para individuos. Hacia los 90, los censos de América Latina se encuentran entre los más complejos y detallados en el mundo entero. El Cuadro 3 reporta el número de variables por tipo para la ronda de censos de 1990. Los cuestionarios cortos tienen más de cincuenta preguntas censales, mientras que los cuestionarios largos o ampliados tienen más de cien.


 

Cuadro 3.  Número de Variables por País y Tipo:  Ejemplo de la ronda censal de 1990

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Social y

 

 

 

 

Geografía y

 

Caractarísticas

País

Total

 

Demográficos

 

Económicos

 

Migración

 

de la vivienda

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Argentina, 1991

55

 

 

13

 

 

13

 

 

15

 

 

14

 

Bolivia, 1992

78

 

 

27

 

 

16

 

 

16

 

 

19

 

Brasil, 1991

126

 

 

50

 

 

25

 

 

17

 

 

34

 

Chile, 1992

72

 

 

19

 

 

4

 

 

5

 

 

44

 

Colombia, 1993

55

 

 

29

 

 

4

 

 

11

 

 

11

 

República Dominicana, 1993

59

 

 

19

 

 

9

 

 

8

 

 

23

 

Ecuador, 1990

68

 

 

25

 

 

8

 

 

14

 

 

21

 

El Salvador, 1992

90

 

 

37

 

 

8

 

 

15

 

 

30

 

Guatemala, 1994

93

 

 

54

 

 

4

 

 

11

 

 

24

 

Honduras, 1988

72

 

 

43

 

 

7

 

 

14

 

 

15

 

México, 1990

52

 

 

20

 

 

6

 

 

4

 

 

22

 

Nicaragua, 1995

107

 

 

55

 

 

9

 

 

21

 

 

22

 

Panamá, 1990

116

 

 

31

 

 

25

 

 

7

 

 

53

 

Paraguay, 1992

82

 

 

29

 

 

12

 

 

4

 

 

37

 

Perú, 1993

75

 

 

27

 

 

7

 

 

9

 

 

32

 

Puerto Rico, 1990

122

 

 

41

 

 

31

 

 

13

 

 

37

 

Uruguay, 1996

91

 

 

24

 

 

12

 

 

11

 

 

44

 

Venezuela, 1990

82

 

 

26

 

 

13

 

 

5

 

 

38

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Variables socio demográficas son:  edad, sexo, estado civil o marital, relación con la persona de referencia, discapacidades, alfabetismo, asistencia escolar, años de educación, nivel educativo, ethnicidad/raza, ciudadanía, lengua materna, religión, hijos nacidos vivos, hijos sobrevivientes, fecha de nacimiento y estado de supervivencia del último hijo nacido vivo, orfandad padre/madre, defunciones en los últimos doce meses.

Variables economicas: estado de actividad económica, occupación, rama, horas trabajadas, ingreso, condición laboral.

Geografía/migración: lugar de levantamiento censal/residencia (mayor/menor división civil), tamaño del lugar, área rural/urbana, lugar de nacimiento (mayor / menor división civil / país), tiempo de residencia (mayor / menor división civil / país).

Características de la vivienda: tipo de vivienda, materiales de construcción, año de la construcción, tenencia, espacio ocupado, agua, baño y drenaje, electricidad, combustible para concinar, cocina, recámaras, transporte, bienes domésticos, automóvil, televisión, radio, computador, ocupantes y tipo de ocupación.

 

 


Apéndice 7. Aspectos Técnicos.

Diseño muestral. En muchos casos, nuestras fuentes de datos consisten de archivos de microdatos censales internos, completos, que originalmente fueron utilizados para crear los volúmenes censales publicados para cada país. Bajo los acuerdos que hemos firmado con cada país, debemos estimar muestras autoponderadas del diez por ciento de cada uno de esos censos. Nuestro diseño muestral presenta un equilibrio entre la precisión de la muestra y el costo de oportunidad en su desarrollo.

Debido a que muchos temas de análisis muy importantes requieren de información relacionada con múltiples individuos dentro de una misma unidad muestral, las muestras deben ser por conglomerados dentro de los mismos hogares. Entonces, el número de observaciones independientes en cada archivo censal es el número de hogares, y no el número de individuos. Esto tiene implicaciones para la eficiencia de la muestra. El error estándar en muestras por conglomerados de hogares depende tanto del número de conglomerados muestrados como de la homogeneidad de las variables dentro de cada conglomerado (Hanse, Hurwitz y Madow 1953). En el peor de los casos, con homogeneidad perfecta dentro de los conglomerados, el error estándar por variable debería ser inversamente proporcional a la raíz cuadrada del número de conglomerados y no del número de individuos. Para las variables que son heterogéneas dentro de los conglomerados, tales como la edad y el sexo, establecer conglomerados puede tener un mínimo efecto en la precisión de la muestra.

En algunas muestras de microdatos censales, la pérdida de eficiencia resultado de un diseño por conglomerados es equilibrada por una estratificación proporcionalmente ponderada. En particular, desde 1960, la Oficina de Censos de los Estados Unidos ha incrementado la utilización de diseños muestrales estratificados polietápicos[3]. Dichos procedimientos pueden generar muestras auto-ponderadas con bajos niveles de error estándar, particularmente para el caso de raza, tamaño del hogar, y condición de pertenencia a viviendas colectivas. Las principales desventajas del procedimiento seguido por la Oficina de Censos de los Estados Unidos son su complejidad y alto costo. Por ello, nosotros hemos seguido métodos más simples para mejorar la exactitud de las muestras.

La organización de los datos de América Latina nos permitirá crear muestras de alta precisión a bajo costo. A diferencia de los censos recientes en Estados Unidos donde los cuestionarios fueron enviados por servicio de correo, los censos en América Latina son levantados a través de enumeración directa. En cada censo, un entrevistador acudió de casa en casa para entrevistar a los residentes en persona. Un producto incidental que se obtiene con este método de enumeración es que los archivos son ordenados de acuerdo con la secuencia de enumeración dentro de cada distrito o demarcación enumerativa. En la práctica, esto significa que los archivos se encuentran organizados geográficamente dentro de los distritos o demarcaciones correspondientes.

En este proyecto, proponemos la creación y uso de muestras sistemáticas de hogares para capitalizar esta condición el orden geográfico de bajo nivel que tiene la información. Dentro de cada distrito o área de enumeración, nosotros generaremos un punto de inicio aleatorio entre 1 y 10, y luego tomaremos cada décimo hogar. Así, por ejemplo, si el punto inicial es 5, tomaremos el 5º, 15º y 25º hogares, continuando con este procedimiento hasta concluir con el distrito o demarcación correspondiente. Debido a que los archivos se encuentran geográficamente organizados, el tomar cada décimo caso es equivalente a lograr una estratificación geográfica muy fina, con ponderación proporcional. Dado que las características económicas y geográficas se encuentran altamente correlacionadas en las demarcaciones geográficas, la muestra resultante tiene sustancialmente mayor precisión que una muestra aleatoria simple por hogares.

Igualmente, planeamos generar muestras de residentes de unidades mayores en forma separada. Grandes unidades colectivas, tales como las prisiones, hospitales, asilos de ancianos, campamentos de viviendas móviles, y cuarteles militares resulta de especial interés ya que el censo es casi la única fuente potencial para generar microdatos de esas poblaciones. Debido a los efectos de la estratificación, sin embargo, los residentes habituales de largas unidades se encuentran sujetos a errores estándar de gran magnitud si se les trata de la misma forma que a las personas en hogares regulares. La Oficina de Censos de los Estados Unidos y otras agencias estadísticas, atienden éste fenómenos mediante el muestreo de grandes unidades a escala individual en lugar del nivel de unidad de vivienda. Este procedimiento hace posible mantener la representatividad muestral, a la vez que incrementa la eficiencia de la muestra al incrementar el número de observaciones independientes por cada unidad mayor.

Las definiciones de viviendas colectivas y viviendas grupales varían ampliamente de país en país. Como se ha hecho en IPUMS-USA, proponemos una gran definición unitaria que pueda ser empleada en forma consistente en todos los censos. En la práctica, esto significa que la definición debe estar basada por completo en el tamaño de la unidad. Planeamos clasificar como unidades mayores a aquellas con más de treinta personas como residentes. Esta definición nos permitirá identificar los hogares como unidades intactas bajo cualquier definición de hogar empleada tanto en Norteamérica como en América del Sur durante las últimas cuatro décadas.

Para elaborar las muestras dentro de unidades mayores, generaremos un punto de inicio aleatorio entre 1 y 10 al principio de cada distrito o unidad geográfica correspondiente, y entonces se tomarán cada décimo individuo residente dentro de una unidad mayor sucesivamente. Nosotros modificaremos ligeramente este procedimiento cuando nos sea posible identificar un grupo de familiares viviendo dentro de una unidad mayor. Nos interesa preservar las relaciones inter-familiares cuanto sea posible para permitir el análisis de tópicos tales como la fecundidad de hijos propios, matrimonio inter-familiar y composición familiar. Entonces, cuando nos encontremos un grupo de familiares dentro de una unidad mayor, el grupo de la familia entera será considerado como un punto muestral único. Bajo esta estrategia, cada individuo no relacionado familiarmente o bien un grupo de familiares en una unidad mayor, tendrán un 10 por ciento de probabilidades de ser incluidos dentro de la muestra. Para cada individuo no relacionado familiarmente o grupo de familiares en un unidad mayor, se construirá medidas sintéticas del tamaño y composición de la unidad mayor en su totalidad.

Para estimar la eficiencia de este diseño muestral, lo hemos aplicado al censo completo de Colombia de 1973 y hemos calculado los factores de diseño con la estimación de medias del método de replicar sub-muestras (Oficina de Censos de los Estados Unidos 1993, Ruggles 1995). Los factores de diseño representan el radio de error estándar estimado para una variable bajo un diseño muestral específico en relación con los errores estándar que podrían obtenerse de una muestra aleatoria simple del mismo tamaño. Debido a diferencias en los tamaños de los conglomerados y a la heterogeneidad de la población, los factores de diseño no son comparables estrictamente entre países. Como se ve en el Cuadro 4, sin embargo, los factores de diseño para las variables de nivel individual en la muestra de Colombia de 1973 son semejantes a aquellos de las muestras censales producidas por el más elaborado diseño muestral de la muestra de microdatos censales de los Estados Unidos de 1980. Sin embargo, a pesar de los efectos de la estratificación por conglomerados, la precisión muestral para las características individuales es comparable al que se obtiene de una muestra aleatoria simple.

 

Cuadro 4.  Factores de Diseño Seleccionados para las muestras de EUA 1980 y Colombia 1973

 

 

 

 

 

 

 

 

 

Estados Unidos

 

Colombia

 

 

Variable

1980

 

1973

 

 

Edad

1.1

 

1.1

 

 

Sexo

0.7

 

0.9

 

 

Estado matrimonial

0.8

 

0.9

 

 

Asistencia escolar.

1.0

 

1.4

 

 

 

 

 

 

 

Corrección de errores y reformateo de datos. Hemos diseñado un programa sistemático de reformateo y limpieza de cada base de datos. Esto incluye el análisis de la estructura de registros, reformateando los datos dentro de un formato jerárquico estándar, revisión de consistencia interna de la información, y corrección de errores en los datos.

Nuestra experiencia con los proyectos de IPUMS-Internacional nos ha enseñado a esperar una amplia variedad de irregularidades en los formatos de los datos. La limpieza de los datos para hacer de ellos muestras de microdatos más adecuados para el uso público, ha requerido de más tiempo de trabajo intensivo de lo que habíamos anticipado. Las bases de datos más antiguas ¾aquellas que datan de las décadas de 1960 y 1970¾ generalmente ofrecen los mayores problemas, lo cual es consecuencia de las limitaciones en el manejo y preservación de datos en computadora en aquellas décadas. Incluso muestras más recientes, sin embargo, requieren de una inversión económica sustancial a fin de verificar que se encuentran libres de problemas en el formato de los datos. En los diecisiete censos internacionales que hemos procesado hasta la fecha, los problemas en el formato de los datos afectan sólo una pequeña fracción de los casos, no obstante, esto tiene que ser analizado sistemáticamente a fin de producir datos muestrales limpios.

Los archivos de datos originales se encuentran preservados en una notable variedad de formatos. Archivos rectangulares representan el formato más simple, con información geográfica, de vivienda, de hogares y de familias, replicada en cada registro de persona o individual. En los archivos jerárquicos, los microdatos tienen tanto como cuatro tipos de registros entrelazados, identificando los puntos de inicio de cada área geográfica, vivienda y hogar. En estos archivos, cualquier irregularidad en la secuencia numérica de los tipos de registro, puede provocar problemas generalizados en los datos. Los censos ligados están organizados en múltiples tipos de registros guardados en archivos separados, diseñados para estar ligados entre sí por medio de números comunes de identificación (ID). Estos tipos pueden incluir registros de mortalidad, fecundidad y de viviendas colectivas, así como registros de personas, hogares y viviendas. Pequeñas imperfecciones en los números de identificación (ID) pueden causar problemas significativos. Finamente, las muestras de matriz invertida contienen cada variable en un archivo separado. Esta estructura de datos es optimizada para una rápida tabulación, y depende de una secuencia de casos perfecta dentro de cada archivo. Por fortuna, los archivos de matriz inversa se encuentran en excelentes condiciones, aparentemente, y es poco probable que contengan serios problemas.

Hemos comenzado por refortear cada muestra en un formato simple, jerárquico consistente, compuesto de un registro de hogar seguido por registros de personas para cada individuo dentro del hogar. Cualquier información a nivel geográfico o de vivienda se repite en cada registro de hogar. Este proceso de reformatear los datos, queda expuesto muy frecuentemente a problemas que no pueden ser identificados a partir de una revisión detallada de frecuencias o cuadros de variables cruzadas. Entonces, el proceso de reestructuración de los datos es un aspecto integra de diagnóstico y limpieza.

Hemos encontrado que las oficinas nacionales de estadística no siempre verifican la consistencia de los diferentes niveles jerárquicos de los datos censales. Muchos censos tienen inconsistencias en la información entre viviendas, hogares y personas. Hemos encontrado, generalmente, que las distribuciones marginales tanto de características individuales como de hogares son consistentes con lo publicado, mientras que las inconsistencias entre los distintos tipos de registros crean problemas para la construcción de las muestras de microdatos. Estas inconsistencias incluyen hogares con personas perdidas, personas sin información de hogares, y hogares mezclados. A pesar de que estas irregularidades nunca implican a muchos casos, ellas deben ser resueltas. Mediante la completa documentación de la forma de tratar tales problemas para todos los censos, eliminaremos la necesidad de que los usurarios encuentren soluciones ad hoc para los problemas que podrían encontrar durante su investigación de no contar con datos en los que los problemas hayan sido disminuidos al mínimo.

Limitaciones de espacio nos impiden desarrollar una descripción detallada de la amplia variedad de problemas en formato que hemos encontrando, así como explicar las soluciones que hemos ideado. Cada censo es diferente, y por ello hemos hecho uso de cualquier información interna que se encuentre disponible para arribar a una estrategia para la corrección lógica o probabilística de los errores. Dado que nos enfrentaremos con docenas de censos latinoamericanos de diferentes épocas, podemos esperar encontrar problemas que no hemos visto aun, y entonces desarrollaremos nuevas soluciones. Para dar sentido a nuestro acercamiento general a los problemas de formato de datos, sin embargo, describiremos un caso de nuestro proyecto piloto financiado por el NIH en detalle.

En el caso del censo de 1973 de Colombia, comenzamos con los microdatos con el 100 por ciento de la población, usada para crear los cuadros publicados. Los datos se encontraban en archivos separados para hogares y personas. Cuando se compararon los archivos tomando en cuenta el número de identificación del hogar (ID) para verificar la coincidencia, nos encontramos con una serie de errores. En el archivo de hogar, algunos hogares compartían el mismo número de identificación (ID); otros contenían información alterada como parte del ID. En el archivo de personas, había distintos bloques de personas separados con el mismo ID, grupos de dos hogares diferentes, con las personas que los componen mezcladas, hogares de personas separadas por hogares insertados entre ellas, y otras irregularidades. Para construir una muestra limpia del censo colombiano, hemos utilizado una secuencia de procedimientos de diagnóstico para detectar e identificar los registros en los archivos de hogar que pudieran exhibir cualquiera de esos errores en formato. Al final, clasificamos el 2.9 por ciento de los registros de hogar como problemáticos.

Una vez hecho lo anterior, generamos una muestra del 10 por ciento de registros de hogar, de acuerdo con los procedimientos detallados en la sección de diseño muestral en el presente documento. Luego de un principio seleccionado en forma aleatoria dentro de las unidades geográficas, seleccionamos cada décimo hogar en los datos originales. Si el décimo hogar resultaba señalado como un registro malo, lo sustituíamos con el hogar más próximo con el mismo valor de la variable “número de personas”. Este procedimiento es esencialmente igual al método de sustitución de naipes utilizado por la Oficina de Censos de los Estados Unidos para inferir características de hogares con categoría de “no-respuesta”. La muestra de registros de hogar resultante aparejó perfectamente al archivo de personas. Al identificar hogares donantes bajo el criterio de proximidad geográfica para sustituir los hogares con información dañada, nos fue posible mantener la representatividad de la muestra. No existen evidencias de sesgos sistemáticos en la muestra completa del 10 por ciento; en todas las características, la muestra cae dentro de los intervalos de confianza esperados al ser comparada con el conteo total.

Hasta el momento hemos sido capaces de desarrollar a tiempo una solución efectiva para cada irregularidad que hemos encontrado en el formato de los datos. Resulta imposible predecir la magnitud de los problemas de formato en el resto de los censos de América Latina hasta que comencemos de hecho a trabajar con los datos. Dado que la limpieza de estos errores de formato es una labor que consume la mayor cantidad del tiempo destinado al proyecto, ello conduce inevitablemente a la incertidumbre en nuestro calendario en el procesamiento de los datos. Si los problemas que encontremos en América Latina demuestran ser menos demandantes y difíciles que aquellos que hemos visto en IPUMS-Internacional, emplearemos el ahorro de tiempo que de ello se derive, en el procesamiento de censos adicionales.

Verificación de consistencia, edición de datos, y corrección de datos no especificados. Hemos desarrollado una batería de pruebas para asegurar no tener datos con problemas. Mientras que las bases de datos de América Latina son generalmente de alta calidad, muchas nunca han sido verificadas ni todas “limpiadas”. Entre las cosas que verificamos están los hogares sin cabeza de hogar, o con declaración de múltiples cabezas; hogares con múltiples esposas o cónyuges en países en donde la práctica de la poligamia no es legalmente reconocida; hogares o viviendas inaceptablemente grandes; y registros duplicados. Igualmente revisamos las inconsistencias entre registros de hogar y de personas, en las relaciones familiares entre las personas dentro del mismo hogar, y entre las características individuales. Por ejemplo, verificamos las contradicciones entre la edad y la condición laboral, el estado matrimonial, nivel educativo, y asistencia escolar. Cuando los errores en los datos pueden ser identificados sin ninguna duda, señalamos mediante una nota que los datos son inconsistentes.

Una vez que la consistencia de la información ha sido verificada, editamos los valores no especificados o inconsistentes. Los valores no especificados o inconsistentes son rutinariamente reemplazados en datos censales recientes para los Estados Unidos, mediante la aplicación de procedimientos de asignación de consistencia lógica y probabilísticos. Por ejemplo, si el sexo no es especificado, se obtiene a través de inferencia lógica a partir del campo de relación familiar o con base al sexo del cónyuge. Hemos desarrollado paquetería de cómputo para muestras anteriores con el fin de corregir dichos errores de lógica, y ésta puede ser adaptada para cumplir con las necesidades de los archivos censales de América Latina. Todas las correcciones lógicas son identificadas con una señalización apropiada.

Cuando los datos no especificados o inconsistentes no pueden ser reemplazados a través de la edición lógica por computadora, haremos uso de los procedimientos de asignación probabilística diseñados para tal fin en la Oficina de Censos de los Estados Unidos. Para cada variable existe una serie de criterios para asignar la información de un registro empleado para imputar los valores no especificados o inconsistentes. Estos criterios son determinados por medio del análisis de los mejores pronosticadores para cada variable, y pueden variar de censo a censo. Por ejemplo, si la información sobre asistencia escolar es no especificada, entonces es posible sustituir la información con la correspondiente al individuo más cercano en el archivo que comparte la misma edad, sexo, grupo étnico y estatus socioeconómico de los padres. En caso de que no sea posible encontrar un “donante” que sea compatible al cien por cien, el registro que cumpla con la mayor cantidad de criterios será utilizado. El valor “donante” está entonces sujeto a verificaciones de consistencia y es rechazado si se califica como inconveniente. Una señal de calidad de datos identifica los datos reemplazados.

El reemplazo de los datos no especificados o inconsistentes incrementa significativamente la confiabilidad de la estimación muestral y simplifica el uso de las muestras. El reemplazo de datos no especificados no es, sin embargo, rutinariamente incorporado a microdatos que no sean de los Estados Unidos. Tenemos considerable experiencia con estos métodos, en la medida en que los hemos adaptado para editar datos no especificados e inconsistentes en los censos de los Estados Unidos de 1850 a 1920, como parte del proyecto IPUMS-USA (Ruggles y Sobek 1997, volumen 3). Modificaremos los procedimientos para ajustarlos a cada muestra individual en la base de datos de IPUMS-América Latina. Documentaremos en su totalidad nuestros procedimientos de reemplazo y crítica y haremos posible que los usuarios eliminen casos alterados, si así lo desean, mediante una simple selección en el sistema de accesos a los datos.

HarmonizaciónLa construcción de IPUMS-América Latina se hará con base en el trabajo de harmonización ya desarrollado en IPUMS-Internacional. Las muestras censales internacionales emplean diferentes sistemas de clasificación numéricos, y la conciliación de esos códigos es un aspecto de suma importancia en este proyecto. El diseño de variables influencia muchas veces las estrategias analíticas adoptadas por los investigadores, y por ello debemos desarrollar nuestros planes con mucho cuidado.

La Organización de las Naciones Unidas cuenta con dos proyectos de gran escala de harmonización regional de microdatos censales. El primero de ellos fue el proyecto OMUECE descrito anteriormente. Dentro de este proyecto, el CELADE creó versiones estandarizadas de veintinueve censos latinoamericanos levantados entre 1960 y 1976 (McCaa y Jaspers 2000). El segundo proyecto fue desarrollado por la Unidad de Actividades de Población de las Naciones Unidas (United Nations Population Activities Unit, PAU) en Génova (Botev 2000). Este proyecto, actualmente en curso, es una estandarización de microdatos de las rondas censales de 1990 y 2000, de censos de dieciseis países de Europa y Norte América. Estas dos iniciativas han provisto a IPUMS-Internacional de invaluable información. Ellos nos han permitido tomar ventaja de los esfuerzos realizados por las Naciones Unidas y con ello aprender de las experiencias de intentos previos en la harmonización internacional de censos.

Los dos proyectos de la ONU tienen muy distintas filosofías en su diseño, y ninguno de ellos es ideal. El proyecto OMUECE incluyó tan solo el común denominador más bajo de variables disponibles en todos los países. Eso significó que cerca de la mitad de las variables disponibles en los censos originales fueron desechadas, y muchos detalles importantes en dichas variables, tales como ocupación y grupo étnico, fueron eliminadas de la versión armonizada de las bases de datos. La pérdida de detalle afectó tan severamente a las bases de datos que la mayoría de los usuarios optó por trabajar con las muestras originales aun siendo incompatibles entre sí. El proyecto PAU representa el extremo opuesto: en dicho caso no existe ningún intento por estandarizar esquemas de códigos para variables categóricas complejas tales como religión, relaciones familiares, ocupación, grupo étnico, o lengua. Solo las variables más simples, tales como edad, sexo, estado matrimonial, y condición de empleo, son re-codificadas dentro de un esquema común. Las transformaciones de datos dentro del proyecto PAU logran hacer más sencillas las comparaciones internacionales, pero ellas están a medias.

La estrategia diseñada para IPUMS-Internacional es más ambiciosa que la del OMUECE o el PAU. A diferencia del OMUECE, mantenemos todos los detalles provistos en las muestras originales. A diferencia del PAU, proveemos de una base de datos completamente integrada, en la que categorías idénticas en muestras censales distintas reciben siempre los mismo códigos. Empleamos múltiples estrategias para lograr estos objetivos. En algunos casos, las variables originales son compatibles y re-codificarlas dentro de una clasificación común es algo sencillo. En esta circunstancia, la documentación anota cualquier distinción que exista entre censos. Para la mayoría de las variables, sin embargo, es imposible construir una clasificación uniforme simple sin perder información. Algunas muestras proveen muchos más detalles que otras, por lo que el común denominador mínimo de todas las muestras pierde inevitablemente información importante. En estos casos, construimos esquemas de codificación compuestos. El primero o segundo dígitos del código ofrece información disponible en todas las muestras. El siguiente o los dos siguientes ofrecen información adicional disponible en un amplio número de muestras. Finalmente, los últimos dígitos ofrecen detalles raramente disponibles solamente. Versiones futuras de nuestro sistema de acceso a los datos guiarán a los investigadores al nivel de detalle apropiado para comparaciones entre naciones o temporales particulares en los que estén interesados.

Adicionalmente a adecuar los censos latinoamericanos al formato de IPUMS-Internacional, crearemos una variedad de clasificaciones de variables específicas para el proyecto IPUMS-América Latina. En algunos casos, las incompatibilidades entre los continentes son tan grandes que el esquema de codificación compuesto es significativamente más voluminoso que el diseño original de codificación de variables. Las clasificaciones de América Latina tendrán la ventaja de compartir atributos en la estructura social y similitudes en las preguntas censales a través de la región para crear clasificaciones más dinámicas.

Para tomar el ejemplo más simple, el esquema de clasificación para estado matrimonial ilustra este punto. Bajo el diseño de IPUMS-Internacional, el primer dígito de estado matrimonial tiene cuatro categorías: soltero, casado/unido, separado/divorciado/esposo(a) ausente, y viudo(a). Este es el máximo número de categorías consistentemente distinguibles en todas las muestras en la base de datos. La distinción entre divorciado(a) y separado(a) no se mantiene en todas las muestras, así que estas categorías se encuentran combinadas en los primeros dígitos de estado matrimonial, completamente comparables. En el segundo dígito, puede distinguirse a las personas divorciadas y separadas, así como los matrimonios formales de las uniones consensuales. El tercer y último dígito diferencia entre tipos de matrimonios (civil, religioso, poligámico), información disponible sólo en pocos países.

Todas las muestras latinoamericanas distinguen las uniones consensuales de los matrimonios legales o civiles, y las primeras son extremadamente importantes en el contexto latinoamericano. En función de ello, hemos adaptado una versión de la variable estado matrimonial para América Latina con cinco categorías básicas en lugar de cuatro. El sistema de acceso a los datos recomendará esta versión de variables, a menos que el usuario haya especificado interés en comparaciones entre regiones.

Las variables geográficas poseen los mayores retos. Dentro de las limitaciones presupuestarias del presente proyecto, no pretenderemos lograr la harmonización completa en el nivel de información geográfico más bajo disponible. Intentaremos, sin embargo, crear una definición consistente de los mayores distritos metropolitanos. Incluso, siempre que sea posible, proveeremos de mapas de distritos administrativos identificados en los microdatos y en cualquier información geográfica auxiliar disponble.

La mayoría de las transformaciones de datos son simples re-codificaciones de un valor a otro. Como en el caso de IPUMS-USA e IPUMS-Internacional, desarrollaremos matrices de transformación de datos para cada variable que ofrezca información en la localización de la variable original en cada muestra, cada valor original de los datos, y cada nuevo valor de datos estandarizado. Estas matrices se mantendrán en una base de datos relacional estándar. Las actuales operaciones de re-codificación, sin embargo, son realizadas mediante un programa operativo C como un proceso secuencial de grupo, dado que es el proceso más eficiente con respecto tanto a almacenamiento de datos como a rapidez. En muchos casos, es necesario usar información de más de una variable del censo original, para construir una nueva variable compatible. Por ejemplo, podría llegarse a necesitar información tanto de provincias como de sub-distritos para identificar un área metropolitana. Las matrices de transformación de datos pueden manejar dichas transformaciones complejas en algunas ocasiones, pero en otras tendremos que acceder a soluciones de programación adaptadas a las necesidades.

En total, la harmonización requerirá de aproximadamente 850,000 transformaciones de datos. Cada transformación debe ser planeada, ejecutada, verificada, vuelta a verificar, y documentada. Este trabajo representa casi un tercio del total de esfuerzo requerido para el proyecto.

Variables Construidas. Adicionalmente a la re-codificación de variables para maximizar la comparibilidad, llevaremos a cabo un procesamiento adicional para incrementar la utilidad de los datos. Algunos procedimientos son muy simples, tales como la adición de variables compatibles en número serial, año censal, código de país, tamaño de la unidad, y ponderación. Otros son más complicados; a continuación, algunos ejemplos.

Las autoridades censales de América Latina colectan datos sobre hogares y relaciones de individuos dentro de los hogares. Con pocas excepciones, las interrelaciones familiares son preservadas en microdatos. Crearemos variables de nivel individual que describan las relaciones entre los miembros de las familias de tal forma que los investigadores puedan crear medidas especializadas de acuerdo a sus propias necesidades, tales como arreglos de vivienda para los padres ancianos o solteros. Tres indicadores darán la posición dentro del hogar de la madre, el padre y cónyuge (o pareja) del individuo. Estos indicadores se encuentran entre las mayores contribuciones que podemos hacer a las bases de datos. Ellas permiten a los usuarios agregar características de este grupo de registros a los individuos de forma sencilla. Usuarios más exigentes las encontrarán como convenientes herramientas en la construcción de medidas de fecundidad y medidas de características matrimoniales, incluyendo, en el caso de América Latina, uniones consensuales.

Los censos de América Latina raramente contienen información sobre más de diez tipos de relaciones familiares, y la información disponible para organizar los datos ambiguos varía muy poco a lo largo de los censos. En busca de garantizar la consistencia de la información,  muchos investigadores buscarán utilizar las variables de interrelación familiar basados completamente en la información disponible en todas las muestras. Existen ciertas complicaciones, sin embargo, para las cuales la mayor precisión disponible en algunas muestras es requerida. Siguiendo los lineamientos originalmente desarrollados por el proyecto IPUMS-USA, daremos cumplimiento a ambas necesidades mediante el uso de señales en la información. Los indicadores estarán acompañados de señales que indicarán (1) si la liga podría contener la misma información usada, incluso si fuese la mínima; (2) si la liga se hizo solamente debido a información extra disponible en los censos particulares; o (3) si la liga es contradicha por información extra disponible en ese censo.

Construiremos también una variedad de variables compatibles describiendo las características del hogar y la familia a niveles individual y de hogar. Algunos de estos indicadores ¾tales como pertenencia a un grupo familiar, tamaño de la familia, número de hijos propios, número de hijos propios menores de cinco años de edad, y edad de los hijos propios mayor y menor¾ se encuentran ya incorporadas en IPUMS-USA. Para la nueva base de datos, diseñaremos la construcción de nuevas variables para describir la composición del hogar y de la familia en sentido tal que se refleja la diversidad de las familias a lo largo de toda América Latina.

Adicionalmente a las variables que describen las relaciones familiares, construiremos variables que describan el estatus socioeconómico. Relativamente pocos censos de América Latina proveen información directa sobre ingreso económico, por lo que variables de ocupación y de hogar son muy frecuentemente los más importantes indicadores del estatus socioeconómico. En el caso de IPUMS-USA, hemos provisto dos medidas con base en la condición de ocupación para reflejar el estatus socioeconómico. El índice socioeconómico de Duncan y de nivel de ingreso económico. Los investigadores han usado ambas medidas en forma extensiva. Para el nuevo banco de datos nos encontramos investigando sobre indicadores socioeconómicos alternativos basados en información sobre ocupación y hogar, para garantizar su disponibilidad y que sean apropiados para las muestras de latinoamericanas (Sobek 1995, 1996, 1997; Treiman 1977; Nakao y Treas 1992; Ganzeboom y Treiman 1996; Ganzeboom, De Graaf y Treiman 1992)

DocumentaciónEl crear una documentación integrada que sea comprensible es una actividad central del proyecto y se encuentra entre los más grandes retos. Afortunadamente, hemos comenzado con una colección significativa de materiales para este propósito. Con el soporte económico de la subvención otorgada a IPUMS-Internacional, el CELADE ha realizado el inventario, catalogación, y escaneo de un amplio rango de documentos para los censos de América Latina y provisto estos materiales al Centro de Población de Minnesota (Minnesota Population Center (MPC). Hemos adquirido otros metadatos relevantes gracias a la donación del Archivo Histórico de documentación de censos, de la División de Estadística de la Naciones Unidas, hecha al Centro. Finalmente, nuestros acuerdos con cada agencia nacional de estadística proveyen de documentación auxiliar y soporte técnico. Usando estos materiales, crearemos un sistema de documentación basado en la red de Internet que será desarrollada con base en las lecciones y diseño de programas de cómputo de IPUMS-Internacional.

Proporcionaremos también documentación traducida al idioma inglés en cada una de las muestras incluidas en la base de datos. Esta documentación integrada cubrirá los procedimientos e instrucciones de enumeración; corrección de errores y otros procesamientos pos-enumerativos; diseños muestrales; cuestionarios; y análisis de calidad de los datos, tales como las encuestas pos-enumerativas. Adicionalmente a nuestro material en el idioma inglés, el CELADE proveerá de traducciones al español de las páginas más importantes dentro de la documentación. Proporcionaremos también imágenes escaneadas en las versiones originales de los cuestionarios censales, manuales de enumeración, y cualquier otra documentación pertinente.

Al igual que en las bases de datos de IPUMS-USA e IPUMS-Internacional, proporcionaremos una descripción detallada de cada variable, que incluirá definiciones de universo, distribuciones de frecuencia, y códigos de variables. La descripción de las variables más importantes será complementada por una serie de discusiones de comparabilidad describiendo cualquier desviación de censos particulares en comparación con la definición estándar de la variable. Las discusiones de comparabilidad atenderán las diferencias a través del tiempo y entre los países. Como ya lo hemos hecho para todos los censos anteriores, proporcionaremos también acceso directo a las preguntas de los censos tal como fueron redactadas, el manual de enumeración, y copias facsimilares de las formas y cuestionarios censales.

La documentación describirá también todas las transformaciones que hayamos realizados en los datos originales a fin de generar la base integrada. Esta documentación incluirá los códigos de cómputo, las matrices de transformación detallando la re-codificación de variables específicas, y una descripción textual del proceso de manipulación de los datos. Dado que no perderemos información de los cambios hechos a los datos y a la documentación originales, será teóricamente posible para el usuario revertir todas nuestras transformaciones para una variable dada y reconstruir los datos originales. La documentación técnica incluirá también sobre cualquier desviación de los microdatos en relación con los cuadros publicados, factores de diseño, y estadísticas de asignación.

Las series de datos requerirán de un equivalente a un millar de páginas de documentación. Para manipular esta cantidad de información, el sistema de acceso a los metadatos, con base en Internet, limitará el alcance de la información solamente a aquellos elementos relevantes a determinado proyecto de investigación, en la forma que haya sido definida por el investigador. Mediante la construcción dinámica de las páginas de documentación, podremos particularizar la misma a las necesidades específicas de los usuarios. Por ejemplo, si un usuario selecciona los censos solamente para Venezuela, recibirá la oferta de información relevante de las muestras de Venezuela solamente. Las discusiones sobre comparabilidad cubrirán solamente los censos específicos seleccionados por el usuario. De forma similar, generaremos cuadros adaptados a los intereses del usuario, generando distribuciones de frecuencia marginales restringidas a las bases de datos particulares seleccionadas por el investigador. Una vez que incorporemos las ochenta muestras latinoamericanas en la base de datos, esta habilidad para filtrar la información extraña será crítica, permitiéndonos proporcionar la documentación que ofrezca atención a los delicados problemas de comparabilidad sin saturar a los usuarios con información no requerida por ellos.

Metadatos en formato de computadora. En la medida en que desarrollemos la documentación para IPUMS-América Latina, necesitaremos mantenernos atentos al costo que supone el mantenimiento y sostenimiento en el largo plazo. La experiencia del proyecto IPUMS-USA es instructiva a este respecto. La documentación de IPUMS-USA consiste en la actualidad de aproximadamente 2,800 páginas web. La mayoría de estas son páginas estáticas, pero un número creciente son páginas dinámicas construidas en forma automática cuando los usuarios así lo requieren. Este arreglo tiene muchas ventajas, pero también supone la presencia de tres problemas. Primero, debido a que la documentación depende de un sistema y un hardware específicos, el mantenimiento a largo plazo es una preocupación constante. En segundo lugar, el proceso continuo de edición y corrección de páginas web crea supone un asunto serio en relación con el control de las versiones de documentos a publicar en Internet. Finalmente, es una labor difícil el mantener funcional el sistema. Cuando una variable es alterada, por ejemplo, los cambios deben aplicarse en al menos ocho diferentes lugares: tres archivos de definición de datos (para SAS, Stata, y SPSS), tres cuadros utilizados para construir páginas para los sistemas de documentación y extracción  de información, y al menos dos páginas de documentación estáticas en formato HTML. Cualquier discrepancia entre estos archivos puede conducir a problemas en el sistema o a generar confusión en el usuario.

Proponemos enfrentar estos problemas mediante la creación de metadatos en formato de lectura de cómputo para IPUMS-América Latina. Adoptaremos la Iniciativa de Documentación de Datos en su formato estándar para metadatos (DDI, por sus sigla en inglés). El DDI es un estándar no comercial, hardware independiente, neutral que preserva la estructura de contenido y relacional de la documentación en su totalidad. El estándar fue desarrollado por un comité internacional que representó a un amplio rango de instituciones involucradas en la divulgación de datos, incluyendo el Inter-University Consortium for Political and Social Research (ICPSR), la Oficina de Censos de los Estados Unidos, la Oficina de Estadísticas Laborales de los Estados Unidos, y los archivos nacionales de datos del Reino Unido, Noruega, Canadá, Dinamarca, Alemania y Holanda. El trabajo fue financiado por fondos del NSF, deudas del ICPSR, y miles de horas donadas por los participantes. Los resultados de este trabajo, un documento de definición en Formato Extensible Markup (XML), fueron publicados en marzo del 2000 (http://icpsr.org/DDI). Debido a su herencia internacional, el DDI fue diseñado para dar acomodo a idiomas extranjeros, incluyendo los metadatos en español y portugués que son necesarios para este proyecto.

Los archivos líderes en el mundo en conservación de datos desarrolló este estándar para responder a una necesidad critica: el DDI provee un estándar archivístico para la documentación que reduce los costos asociados con la preservación y acceso a los documentos en el largo plazo. Por consecuencia, el sistema cumple con nuestro interés sobre el mantenimiento y sostén de datos y documentación. Tal vez aun más importante, el DDI reducirá los costos de mantenimiento del sistema y disminuirá el potencial de errores en la documentación. En un manual de códigos del DDI, cada aspecto es etiquetado con información acerca de su significado. Un manual de códigos del DDI, por lo tanto, cuenta con una estructura legible en cómputo que permite el procesamiento automático mediante un software de acceso a los datos. Proponemos modificar el sistema de accesos a datos y documentación de IPUMS-Internacional de tal forma que sea conducido por el sistema de metadatos del DDI. Una vez que el nuevo sistema se encuentre funcionando, será posible modificar una variable mediante el cambio en su especificación en una ubicación única. El software propagará entonces el cambio realizado a todo el sistema. Este proceso incrementará la flexibilidad del sistema de acceso a los datos y simplificará enormemente la suma de nuevos archivos de datos y variables.

DivulgaciónEl acceso a los datos es un componente integral del proyecto, la distribución y divulgación efectivas son esenciales si los datos son ampliamente utilizados. La complejidad de la nueva base de datos será más grande que cualquiera otra que hayamos desarrollado o intentado desarrollar hasta la fecha, pero nuestra meta es hacer el acceso tanto a los microdatos como a los metadatos incluso más simple y sencillo de lo que es en nuestros actuales sistemas.

Hemos trabajado en métodos de diseminación electrónica para datos y documentación en ciencias sociales durante casi una década. Hemos desarrollado el más poderoso sistema de extracción de datos con base en sistema de web disponible para acceder a grandes archivos de microdatos. El sistema de acceso de datos de IPUMS-USA fue pionero en la divulgación y distribución de datos a gran escala con base en Internet, y ha servido como modelo para la realización de otros esfuerzos de diseminación de datos en las ciencias sociales. Esta experiencia en investigación proporciona el fundamento para nuestros actuales esfuerzos para mejorar la tecnología para compartir la información.

IPUMS-Internacional se encuentra ahora desarrollando una segunda generación de software de diseminación de datos. El nuevo sistema de acceso a datos proporcionará herramientas avanzadas para navegación en documentos, cuerpos de datos definidos, construcción de variables específicas, y adición de información de contexto. Una versión preliminar de este sistema se encuentra operando para el primer grupo de datos de IPUMS-Internacional. Debido a que la mayor parte del trabajo de diseño necesario fue respaldado por la Fundación Nacional para la Ciencia (NSF), el nuevo sistema puede ser modificado para IPUMS-América Latina a bajo costo, aun cuando requerirá de un poco de trabajo de diseño y de esfuerzos de programación para adaptar y mantener el sistema.

Este sistema seguro de extracción de datos permite a los usuarios unir cuerpos de datos, sub-grupos de población, y seleccionar variables. Debido a que las series de datos latinoamericanas incorporarán más de cien millones de observaciones y cientos de variables provenientes de docenas de censos, la habilidad para unir y crear divisiones de datos resulta crítica. Las funciones de lectura de la documentación son desarrolladas como parte de las herramientas de extracción por lo que los usuarios tienen fácil acceso a documentación comprensiva en la medida en que ellos mismos desarrollen su análisis.

En la medida en que ampliemos el sistema de acceso a los datos de IPUMS-Internacional y lo apliquemos a IPUMS-América Latina, haremos cada esfuerzo posible para garantizar que lo mantendremos en un formato amistoso para el usuario. Incluso, nuestra meta es hacer del nuevo sistema aun más sencillo de usar que el modelo IPUMS-USA. Dada la gran complejidad de la nueva base de datos, sin embargo, deberemos hacer innovaciones para garantizar que el acceso a la información se mantenga sencillo de lograr. Para citar un ejemplo, IPUMS-USA presenta las variables disponibles tan simples como en un listado, ya sea en forma alfabética o bien por temas clasificados. Esto no será práctico durante mucho tiempo más en el nuevo sistema, dado que el número de variables crecerá de aproximadamente 300 (excluyendo los datos de señalización de calidad o “data-quality flags”, específicamente) a aproximadamente 1,500. Entonces, nos encontramos desarrollando nuevas herramientas de navegación para la lista de variables. Los usuarios serán capaces de analizar la lista de variables de acuerdo a palabras clave o áreas temáticas. Serán capaces también de reducir el listado a sólo aquellas variables que aparezcan en todas las muestras bajo estudio o expandirlas para incluir todas las variables en cualquier muestra bajo análisis. Proporcionaremos cuadros simplificados de las variables más frecuentemente solicitadas, en la forma en que sea determinado a través del análisis de las extracciones de datos. En casos en donde existan múltiples variables en una misma área temática ¾tales como las variables de ocupación y rama de actividad¾ escribiremos una breve discusión sobre “uso” de cada variable, explicando cuando puede ser la mejor opción, y cuando variables alternativas podrían resultar mejores.

Con cada extracto, los usuarios tendrán la opción de obtener un grupo completo de textos particularizados de documentación, incluyendo la descripción de las variables relevantes, discusiones de comparabilidad, frecuencias marginales, y manuales de entrevistador. Adicionalmente a la documentación diseñada para la lectura por el ojo humano, generaremos una variedad de metadatos particularizados para la lectura en software de cómputo. Específicamente, ofreceremos la definición de los archivos de datos en formatos de programas de análisis estadístico (SAS, SPSS y Stata) construidos para cada extracción de datos. También crearemos manuales específicos señalados de acuerdo con el estándar de metadatos del DDI.

La maquinaria de extracción está diseñada para tomar entera ventaja de la estructura jerárquica de los datos censales. Ofrecemos a los investigadores la opción de archivos de salida en formatos rectangulares o jerárquicos, y permitimos a los usuarios seleccionar hogares o familias con base en características de nivel individual. Versiones futuras del sistema de acceso de datos de IPUMS-Internacional agregarán dos características adicionales haciendo más simple a los investigadores la explotación de la estructura jerárquica de los datos.

1.     Un procedimiento para anexar las características de las cabezas de hogar, cabezas de familia, cónyuges, madres y padres en cada registro individual. Por ejemplo, el sistema permitirá a los analistas del matrimonio crear nuevas variables que describan la edad del cónyuge o el lugar de nacimiento del cónyuge.

2.     Un procedimiento para conteo de número de personas dentro de cada hogar, familia, o hijos propios para cada padre que tenga una combinación de hasta cuatro características. Por ejemplo, el sistema de acceso de datos será capaz de contar el número de hijas adolescentes en el mercado laboral para cada madre con hijos viviendo en la misma vivienda. El sistema también adicionará características numéricas (por ejemplo, ingresos económicos) dentro de los hogares, familias o hijos propios.

Planeamos para IPUMS-América Latina permitir a los usuarios el replicar los extractos de datos usados en estudios publicados. La habilidad para replicar estudios existentes, es esencial para el desarrollo científico; provee nuestros principales medios de comprensión, evaluación, y construcción a partir de investigaciones pasadas. El actual sistema de extracción de datos de IPUMS-USA permite a los usuarios replicar o modificar sus extractos anteriores. Cuando los usuarios generan un nuevo extracto empleando el actual sistema, reciben un breve manual, basado en sus necesidades, para el manejo del archivo de datos. En el nuevo sistema que estamos desarrollando para IPUMS-Internacional, ese manual contendrá una recomendación bibliográfica, incorporando un número único para el extracto particular. Invitaremos a los usuarios a citar el número extraído para su trabajo publicado. A cualquier usuario autorizado se le permitirá especificar ese número de extracto y obtendrá una copia de la base de datos generada. Entonces, cuando los académicos identifiquen un número de extracto en sus publicaciones, los lectores de esos trabajos serán capaces de crear y “bajar” una copia exacta de los datos empleados por el investigador.


Apéndice 8: Plan de trabajo.

Debido a la significativa intervención de otros proyectos relacionados, los costos de inicio del proyecto serán mínimos y el trabajo puede comenzarse de inmediato. Los microdatos y la documentación están a la mano; hemos negociado acuerdos de divulgación y distribución con casi cada país de América Latina; hemos desarrollado procedimientos efectivos de limpieza de datos y muestreo; hemos escrito mucho de las necesidades en la conversión de dato y en el software de diseminación; y hemos diseñado los protocolos básicos de harmonización tanto para los datos como para la documentación.

Tan pronto como el financiamiento sea asegurado, nuestra mesa directiva comenzará a fijar los planes del proyecto. Hemos calendarizado tentativamente la realización de una reunión de la mesa directiva para enero del 2004 en la ciudad de Panamá, en donde emprenderemos un análisis detallado país por país y ajustaremos el diseño del proyecto. A lo largo del primer año del proyecto, trabajaremos con la documentación de los ochenta censos para identificar problemas imprevistos y para diseñas nuevos sistemas de codificación regionalmente compatibles para las variables principales. Al finalizar el primer año, generaremos un plan comprensivo y detallado para el diseño de la base de datos en su totalidad.

El perfeccionamiento y el desarrollo de sistemas de accesos a datos y documentación ocurrirá a lo largo del proyecto. Planeamos convertir el software de diseminación al estándar de metadatos del DDI para fines del 2005, y añadir el sistema de replicación de extractos y otras características avanzadas en el acceso de datos para el 2007.

El procesamiento de los datos y la documentación tendrá lugar en forma simultánea dentro de caminos paralelos. Estas tareas representan aproximadamente por dieciocho personas-año de esfuerzo desarrollado por asistentes de investigación, programadores, y personal de alto nivel, lo que representa alrededor de dos tercios del esfuerzo total requerido para la realización del proyecto. El primer grupo ¾para Colombia, México y Brasil¾ requiere la menor inversión de esfuerzo, debido a que mucho del trabajo se completará al momento en el que el proyecto de comienzo. Para estos países, necesitaremos tan solo implementar las nuevas variables armonizadas optimas para los censos de América Latina e incorporar nuevas muestras de alta densidad de los censos de México de 1990 y 2000. Esperamos completar este trabajo en junio del 2004.

Los grupos de países restantes demandan un esfuerzo substancialmente mayor, dado que requieren de limpieza, muestreo, desarrollo de medidas de protección a la confidencialidad de la información, re-codificación, asignación de datos no especificados, creación de variables construidas, y escritura de documentación adicional. En consecuencia, planeamos añadir dos miembros más al staff para esta fase del proyecto. Con base en nuestra experiencia con IPUMS-Internacional y en los niveles de personal presupuestado, estimamos que cada grupo de alrededor de tres países cada uno, y catorce censos, requerirá de dieciséis meses de trabajo. A lo largo de los últimos cuatro años del proyecto, entonces, esperamos completar cuatro grupos de países. Esto es una estimación conservadora; si encontramos menos problemas en la calidad de la información de los que hemos encontrado en nuestro trabajo internacional previo, añadiremos más países a la base de datos.

El procesamiento de los grupos dos a cuatro comenzará en el segundo año del proyecto. Planeamos completar el trabajo de los catorce censos de Costa Rica, Panamá, y Puerto Rico en septiembre de 2005. Para nuestro tercer grupo de censos ¾Argentina, Chile, y Paraguay¾ planeamos como fecha de finalización la de enero del 2007. El cuarto grupo, consistente de Ecuador, Perú y Venezuela, se ha programado tentativamente para ser finalizado en mayo del 2008. En cada caso, presentaremos una versión preliminar de los datos, con todas las variables económicas y demográficas principales, y la documentación básica, aproximadamente seis meses previamente a la fecha de presentación final. La secuencia propuesta de países depende en parte de las fechas estimadas de presentación para los resultados censales de la ronda del 2000, y se encuentra por tanto sujeta a cambios imprevistos.

Administración del proyecto y responsabilidadesLa complejidad de esta tarea es sustancial, y en consecuencia, un manejo firme e integrado del proyecto es esencial. Los investigadores principales trabajaran muy cerca en conjunto, con reuniones semanales e interacción cotidiana. Aun cuando todo el staff de especialistas compartirá la responsabilidad de cuestiones relacionadas con diseño, cada uno enfocará su atención en diferentes aspectos de la administración del proyecto, como se detalla a continuación.

·       Robert McCaa es responsable de la coordinación del proyecto y de la coordinación de actividades con el CELADE, las Naciones Unidas, las agencias nacionales de estadística, la mesa de asesores, y los consultores.

·       Matthew Sobek estará a cargo de los procesos de conversión y limpieza de los datos. Igualmente supervisará un programa extensivo de chequeo y garantía de calidad tanto para los datos como para la documentación.

·       Miriam L. King participará en todos los asuntos relacionados con el diseño y evaluará la calidad de las muestras y las variables, investigará los problemas de compatibilidad, y desarrollará la documentación.

·       Steven Ruggles asistirá en la administración del proyecto y en asuntos relacionados con diseño, con especial atención en la tecnología de acceso a los datos.

·       Deborah Levison trabajará en el diseño, planeación y documentación para las variables de educación, fuerza de trabajo y demográficas. También evaluara como estos datos censales podrían complementar y mejorar los datos de encuestas de la región.

·       Susannah Smith, coordinador de los proyectos IPUMS-Internacional, servirá en la misma función para IPUMS-América Latina.

Hemos solicitado también financiamiento para asistentes de investigación graduados y de pos-doctorado. A lo largo de los cinco años de duración del financiamiento, estimamos necesitar cinco años-persona de esfuerzo de parte de estudiantes graduados y ocho años-persona de asistentes de investigación de pos-doctorado. Planeamos contratar personas de habla hispana con preparación en el manejo de métodos demográficos en estas posiciones. Los asistentes de investigación trabajarán en la conversión y limpieza de los datos y prepararán la documentación.

Para el apoyo en programación, descansaremos en el cuerpo de programadores del Centro de Población de Minnesota (MPC). Los proyectos de investigación del Centro de Población de Minnesota comparten personal de doce profesionales en información tecnológica que es experto en cada aspecto relacionado con el software que se requiere para este proyecto, desde el formato XML, al manejo de las bases de datos con inter-fases en red de Internet. Por lo tanto, asignaremos a especialista con la mejor preparación para cada uno de las tareas de programación en cómputo.

 


Apéndice 9.  Bibliografía citada

 

Botev, Nikolai.  2000.  PAU Census Microdata Samples Project. In Handbook of International Historical Microdata for Population Research, edited by Patricia Kelly Hall, Robert McCaa y Gunnar Thorvaldsen. Minneapolis: Minnesota Population Center, pp. 303-17.

Canales Cerón, Alejandro I. 2001. Factores Demográficos del Asentamiento y la Circularidad en la Migración México-Estados Unidos. Notas de Población 28:123-58.

CELADE. 1989.  El Contenido Demográfico de la Boleta de los Censos de Población de la Década del 90. In Censos de Población de 1990: Selección de Documentos del CELADE. Serie A - CELADE, n. 193.  Santiago: CELADE.

Chackiel, Juan. 2001. El Envejecimiento de la Población Latinoamericana. In Sociología del Desarrollo, Políticas Sociales y Democracia: Estudios en Homenaje a Aldo E. Solari, edited by Rolando Franco.  México, D.F.: Siglo Veintiuno/CEPAL, pp. 166-85.

De Launey, Daniel, y George Tapinos. 2001. ¿Se Puede Hablar Realmente de la Globalización de los Flujos Migratorios? Notas de Población 73:15-49.

De Vos, Susan, y Elizabeth Arias. 1996. Using Housing Items to Indicate Socioeconomic Status:  Latin America.  Social Indicators Research 38:53-80.

Duncan, Greg J., y Saul D. Hoffman. 1992.  Welfare Benefits, Economic Opportunities, and Out-of-Wedlock Births among Black Teenage Girls.  Demography 27:519-35.

Ganzeboom, Harry, y Donald Treiman. 1996. Internationally Comparable Measures of Occupational Status for the 1988 International Standard Classification of Occupations.  Social Science Research 25:201-39.

Ganzeboom, Harry, P. De Graaf, y Donald Treiman. 1992. A Standard International Socio-Economic Index of Occupational Status. Social Science Research 21:1-56.

Gruber, Jonathan, y David A. Wise. 1998. Social Security and Retirement: An International Comparison.  American Economic Review Papers and Proceedings  88:158-63.

Gruber, Jonathan, y David A. Wise. 1999. Social Security and Retirement Around the World. Chicago: University of Chicago Press.

Guzmán, José Miguel, Susheela Singh, Germán Rodríguez, y Edith A. Pantelides. 1996. The Fertility Transition in Latin America.  Oxford:  Clarendon Press.

Hall, Patricia Kelly, Robert McCaa, y Gunnar Thorvaldsen. 2000.  Handbook of International Historical Microdata for Population Research.  Minneapolis: Minnesota Population Center.

Hansen, Morris, William Hurwitz, y William Madow. 1953.  Sample Survey Methods and Theory. New York: Wiley.

Hentschel, Jesko. 1998. Combining Census and Survey Data to Study Spatial Dimensions of Poverty: A Case Study of Ecuador.  Washington, D.C.: World Bank, Development Research Group.

Hermalin, Albert. I., y A. Chan. 2000. Work and Retirement among the Older Population in Four Asian Countries: A Comparative Analysis. CAS Research Paper Series no. 22. Singapore: Center for Advanced Studies, National University of Singapore.

Johnson, Paul. 1999. Pension Provision and Pensioners’ Incomes in Ten OECD Countries.  London: Institute for Fiscal Studies.

Lundberg, Shelley, y Robert A. Plotnik. 1995. Adolescent Premarital Childbearing: Do Economic Incentives Matter? Journal of Labor Economics 13:177-200.

McCaa, Robert. 1972. Chile: XI Censo de Población (1940). Recopilación de Cifras Publicadas por la Dirección de Estadística y Censos. Santiago:  Centro Latinoamericano de Demografía.

McCaa, Robert. 1984. Calidad, Clase, and Endogamy in Colonial Mexico: The Case of Parral, 1788-1790. Hispanic American Historical Review 64:477-502.

McCaa, Robert. 1988. Migracion y Sociedad: El caso de Parral Chihuahua, 1777, 1930. In Movimientos de Población en el Centro-Occidente de México, edited by Thomas Calvo y Gustavo Lopez. Mexico City: Centro de Estudios Mexicanos y Centroamericanos, 265-79.

McCaa, Robert. 1989. Isolation or Assimilation? A Log-linear Interpretation of Australian Marriages, 1947-1986. Population Studies 43:155-162.

McCaa, Robert.  1991. La Posición de los Padres, la Inclinación de los Novios, y las Reglas de la Feria Nupcial de Parral, 1770-1814.  Historia Mexicana 40:579-614.

McCaa, Robert. 1996. Matrimonio Infantil, Cemithualtin (Familias Complejas), y el Antiguo Pueblo Nahua. Historia Mexicana 46:3-70.

McCaa, Robert. 1997.  Families and Gender in Mexico: A Methodological Critique and Research Challenge for the End of the Millennium, In IV Conferencia Iberoamericana Sobre Familia: Historia de Familia. Bogotá: Universidad Externado de Colombia Centro de Investigaciones Sobre Dinámica Social, pp. 71-83.

McCaa, Robert.  1997. Latin American Demographic History in the Age of the World Wide Web: National Census Samples as Historical Sources. In Fuentes Utiles para los Estudios de la Población Americana, edited by Dora Celton. Quito: Abya-Yala, pp. 379-84.

McCaa, Robert. 1998. Gender and the Labor Force: What Can We Learn from National Census Microdata for 659,780 Colombian Households—1973, 1985? Seminario Internacional, Programa de Estudios de Género, Mujer y Desarrollo, Bogota, Colombia. May 6-9.

McCaa, Robert. 2000. Familia y Género en México. Crítica Metodológica y Desafío Investigativo para el Fin del Milenio. In Naciones, Gentes y Territorios: Ensayos de Historia e Historiografía Comparada de América Latina y el Caribe, edited by Victor Manuel Uribe Urán, y Luis Javier Ortiz Mesa. Medellín: Editorial Universidad de Antioquia, pp. 103-38.

McCaa, Robert, Michael R. Haines, y Eileen M. Mulhare. 2000. Argentina: First with Public Historical Census Microdata.  In Handbook of International Historical Microdata for Population Research, edited by Patricia Kelly Hall, Robert McCaa, y Gunnar Thorvaldsen. Minneapolis: Minnesota Population Center, pp. 13-22.

McCaa, Robert, y Dirk J. Jaspers-Faijer. 2000. The Standardized Census Sample Operation (OMUECE) of Latin America, 1959-1982 [1995]: a Project of the Latin American Demographic Center (CELADE). In Handbook of International Historical Microdata for Population Research, edited by Patricia Kelly Hall, Robert McCaa, y Gunnar Thorvaldsen.  Minneapolis: Minnesota Population Center, pp. 287-302.

McCaa, Robert, y Heather M. Mills. 1999. Is Education Destroying Indigenous Languages in Chiapas? In Native Language Resistance and Survival in the Americas, edited by Anita Herzfeld. Hermosillo: Universidad de Sonora. 117-36.

McCaa, Robert, y Steven Ruggles. 2002.  The Census in Global Perspective and the Coming Microdata Revolution. In Vol. 13, Nordic Demography:  Trends and Differentials, Scandinavian Population Studies, edited by J. Carling. Oslo: Unipub/Nordic Demographic Society, pp. 7-30.

Moffitt, Robert. 1992. Incentive Effects of the U.S. Welfare System: A Review. Journal of Economic Literature 30:1-61.

Nakao, Keiko, y Judith Treas. 1992. The 1989 Socioeconomic Index of Occupations: Construction from the 1989 Occupational Prestige Scores. GSS Methodological Report No. 74. Chicago: National Opinion Research Center.

National Research Council. 2001. Preparing for an Aging World: The Case for Cross-National Research. Washington, D.C.: National Academy Press.

Palloni, Alberto.  Forthcoming.  Demographic and Health Conditions of Aging in Latin America and the Caribbean.  International Journal of Epidemiology.

Ruggles, Steven. 1995. Sample Designs and Sampling Errors in the Integrated Public Use Microdata Series. Historical Methods 28:40-46.

Ruggles, Steven.  1997.  The Effects of AFDC on American Family Structure, 1940-1990.  Journal of Family History  22:307-25.

Ruggles, Steven. 2000.  Data User’s Perspective on Confidentiality. Of Significance . . . Journal of the Association of Public Data Users 2:1-5.  

Ruggles, Steven, y Matthew Sobek, et. al. 1997.  Integrated Public Use Microdata Series: Version 2.0. Minneapolis: Historical Census Projects, University of Minnesota.

Sobek, Matthew. 1995. The Comparability of Occupations and the Generation of Income Scores. Historical Methods 28:47-51.

Sobek, Matthew. 1996. Work, Status and Income: Men in the American Occupational Structure Since the Nineteenth Century. Social Science History 20:169-207.

Sobek, Matthew. 1997. A Century of Work: Gender, Labor Force Participation, and Occupational Attainment in the United States, 1880-1990. Ph.D. diss., University of Minnesota. 

Treiman, Donald. 1977. Occupational Prestige in Comparative Perspective. New York: Academic Press.

U.S. Bureau of the Census.  1983. Census of Population and Housing, 1980: Public-use Microdata Samples Technical Documentation. Washington, D.C.: GPO.

U.S. Bureau of the Census. 1993. Census of Population and Housing, 1990: Public Use Microdata Samples, Technical Documentation. Washington, D.C.: GPO.

Vásquez, Gabriela, Robert McCaa, y Rodolfo Gutiérrez. 2000. La Mujer Mexicana Económicamente Activa: Son Confiables los Microdatos Censales? Una Prueba a Través de Censos y Encuestas. México y los Estados Unidos, 1970-1990. Papeles de Población 6:151-78.

Vaupel, James, Zeng Yi, y Wang Zhenglian. 1997. A Multi-dimensional Model for Projecting Family Households—With an Illustrative Numerical Application. Mathematical Population Studies 6:187-216.

Viveros Madariaga, Alberto. 2001.  Envejecimiento y Vejez en América Latina y el Caribe: Políticas Públicas y las Acciones de la Sociedad. Serie Población y Desarrollo, n. 22. Santiago: CEPAL.

Whittington, Leslie A. 1993. State Income Tax Policy and Family Size: Fertility and the Dependency Exemption. Public Finance Quarterly 21:378-98.


Apéndice 10.  Carta de Etendimiento con las Agencias Nacionales de Estadística (ejemplo:  Argentina):

Principios de Acuerdo

 

Integrated Public Use Microdata Series International

 

y  El Instituto Nacional de Estadística y Censos de la República Argentina.

 

Objetivo. Esta carta tiene por objetivo especificar los términos y condiciones bajo los cuales los metadatos y microdatos proporcionados por el Instituto Nacional de Estadística y Censos de la República Argentina serán distribuidos por Integrated Public Use Microdata Series International de la Universidad de Minnesota.

 

1.     Propiedad. El Instituto Nacional de Estadística y Censos de la República Argentina es el titular de los derechos de propiedad intelectual (incluido el copyright) de los metadatos y microdatos proporcionados a la Universidad de Minnesota para ser distribuidos por Integrated Public Use Microdata Series International.

 

2.      Uso. Los metadatos y microdatos son proporcionados con las finalidades exclusivas de docencia, investigación académica y publicaciones, y no pueden ser usados con ningúna otra finalidad sin la previa autorización escrita del Instituto Nacional de Estadística y Censos de la República Argentina.

 

3.     Autorización. El potencial usuario que quiera acceder u obtener copias de los microdatos integrados de Argentina desde Integrated Public Use Microdata Series International deberá, en primer lugar, solicitar electrónicamente la autorización identificándose por su nombre (ej. el investigador principal), dirección electrónica e institución. El investigador principal debe exponer el objetivo del proyecto propuesto y aceptar cumplir las regulaciones contenidas en ésto. Una vez aprobado el proyecto, se expedirá una contraseña con la cual los datos podrán ser adquiridos desde los servidores u otros medios de distribución electrónicos mantenidos por Integrated Public Use Microdata Series International, el Instituto Nacional de Estadística y Censos de la República Argentina, u otros distribuidores autorizados. Una vez aprobado, el usuario está autorizado a adquirir los microdatos de Integrated Public Use Microdata Series International u otros distribuidores autorizados. Ningún título u otro derecho será otorgado al usuario.

 

4.     Restricción. A los usuarios se les prohibe usar los datos argentinos adquiridos desde Integrated Public Use Microdata Series International u otro distribuidor autorizado con finalidades comerciales lucrativas, privadas o de otra naturaleza.

 

5.     Confidencialidad. Los usuarios respetarán la absoluta confidencialidad de las personas y los hogares. Cualquier intento por averiguar la identidad de las personas u hogares a partir de los microdatos queda estrictamente prohibido. Afirmar que una persona u hogar ha sido identificado en estos datos queda también prohibido.

 

6.     Seguridad. Los usuarios implementarán medidas de seguridad para prevenir el acceso no autorizado a los microdatos argentinos adquiridos desde Integrated Public Use Microdata Series International o sus colaboradores.

 

 

7.     Publicación. La publicación de los datos y análisis resultantes de la investigación con los metadatos y microdatos argentinos está autorizada en aquellas comunicaciones como trabajos de investigación, revistas científicas y semejantes. Los autores de estas comunicaciones deberán citar al Instituto Nacional de Estadística y Censos de la República Argentina e Integrated Public Use Microdata Series International como fuentes de los microdatos, e indicar que los resultados y comentarios expresados en éstos son exclusivamente del autor/usuario.

 

8.     Compartir. Integrated Public Use Microdata Series International entregará al Instituto Nacional de Estadística y Censos de la República Argentina copias electrónicas de los datos, tanto metadatos como microdatos, así como informes periódicos de los usuarios autorizados.

 

9.     Violaciones. La violación de este contrato puede acarrear reprobación profesional y/o un proceso civil.

 

10.  Jurisdicción. Cualquier discrepancia que pueda surgir debe ser resuelta mediante conciliación, tramitación y  amistosa redacción. Cuando el acuerdo por estos medios resulte imposible, un Tribunal de Conciliación sera convocado para regular sobre el asunto según la ley. Dicho tribunal constará de un árbitro a elegir por sorteo de la lista de Árbitros de la Cámara de Comercio de París. Este acuerdo será regido por, e interpretado de acuerdo a, los principios generalmente aceptados del Derecho Internacional.

 

 

Fecha:__________________________________________________________

 

 

Firma:_________________________________________________________

 

Regentes de la Universidad de Minnesota.

 

By. Kevin McKoskey, Grants Manager, Sponsored Projects Administration.

 

 

Fecha:__________________________________________________________

 

 

Firma:_________________________________________________________

 

Instituto Nacional de Estadística y Censos de la República Argentina

 



[1] A partir de mediados de 1980, el CELADE se ha comprometido en un proyecto para desarrollar programas de cómputo para proveer tabulaciones de microdatos de conteo completo para pequeñas áreas. Este proyecto, llamado Recuperación de Datos para Áreas Pequeñas por Microcomputador (REDATAM), es utilizada por planificadores y analistas gubernamentales a lo largo de toda América Latina y complementa la iniciativa de IPUMS-América Latina al proveer de fácil acceso a datos de pequeñas áreas geográficas a partir de datos censales.

[2] A pesar de que IPMUS-Internacional incluye ya muestras para los cuatro censos supervivientes de México, aumentaremos las muestras de los dos más recientes censos como parte del presente proyecto. La muestra de 1990 en la presente base de datos cubre tan sólo el uno por ciento de la población total; estimaremos una muestra del 10 por ciento para ese año para complementar estos casos. En el caso de México para el año 2000, contamos con una muestra estratificada por conglomerados del diez por ciento con base en áreas de enumeración básicas (áreas geoestadísticas básicas o AGEBS en la terminología censal mexicana) y localidades. Este diseño muestral es útil para análisis de nivel múltiple, pero no ofrece la precisión que podríamos obtener de otro tipo de muestras. Estimaremos entonces una nueva muestra del 10 por ciento, auto-ponderada, para el censo del 2000 de México, con base en los mismos procedimientos que hemos utilizado en otros censos. Debido a que la nueva muestra se hará con base primeramente en los datos derivados del cuestionario corto, tendrá que incluir un número ligeramente menor de variables que la muestra existente. Las dos muestras de 10 por ciento para el censo de México del 2000 tendrán en consecuencia diferentes virtudes, y pondremos ambas al alcance de los investigadores interesados.

[3] En el caso de la muestra de 1980 de los Estados Unidos, por ejemplo, el censo fue divido en 33,000 unidades geográficas, conocidas como áreas ponderadas. Entonces, se utilizó un procedimiento de estimación de razón en tres etapas para asignar los pesos a las unidades muestrales, para representar la proporción de la población total contada en el conteo muestral, para personas con características particulares en cada área ponderada. Las ponderaciones fueron diseñadas para control de 179 características y combinaciones de características, incluyendo tamaño del hogar, presencia de hijos propios, residencia en viviendas colectivas, condición de propiedad de la vivienda, raza y origen hispano detallados, edad, y sexo. La población ponderada fue dividida en 102 estratos, incluyendo la descomposición en razas, origen hispano, condición de propiedad de la vivienda, proporción o radio muestral, y la presencia de hijos propios. Dentro de cada estrato, los casos fueron seleccionados sistemáticamente con una probabilidad de inclusión proporcional a la ponderación (Oficina de Censos de los Estados Unidos 1983: 35-42).