* Nota: abre este archivo en el DO-file editor de stata y correlo.

** Borrando la memoria y haciendo espacio para muchas variables
clear
set matsize 400

** Creando la bitacora y reemplazando alguna existente con el mismo nombre
log using labo24nov, text replace

** Laboratorio de Stata, Noviembre 24, 2004
*******************************************

** Abriendo la base de datos  (cambia la ruta de acceso segun sea el caso)
use "C:\Documents and Settings\computob1\Escritorio\NES92_clean.dta", clear

** Estadistica descriptiva
desc
summ

** Matriz de correlaciones
correlate bushapp *place dist* badecon warok 
tab vote

** Regresiones para predecir la intencion de voto de cada candidato en particular
** La variable VOTE es categorica: 0=bush, 1=clinton, 2=perot
** ...entonces necesitamos generar una dummy para el votoclinton y votobush, respectivamente

gen votclinton = 0
replace votclinton = 1 if vote==1 

gen votbush= 0
replace votbush = 1 if vote==0 

** Ahora si, corremos logits (o probit) para la variable binaria "voto por clinton"
logit votclinton place dist*

** .. para "voto por bush"
logit votbush place dist* 

/*
Ahora, tambien podemos correr regresiones donde busquemos explicar que factores 
afectan la probabilidad de votar por un candidato comparado con la prob de votar por otro mas: 
Ejemplo: "¿si no te parece la guerra, es mas o menos probable que votes por Bush o por Perot, comparado con el grupo que vota por Clinton?"

Esto se hace con un modelo MULTINOMIAL LOGIT (mlogit) donde simultaneamente se calculan un conjunto de parametros para cara valor de la variable categorica VOTO
*/

mlogit vote *place distclinton badecon partyID educ income, basecategory(0)

** La opcion basecategory() se usa para decirle a Stata quien quiero que sea el 
** "comparison group" contra el cual se compararan los coeficientes

** Noten que ahora tenemos dos conjuntos de coeficientes, uno para prob(Votoclinton) y otro para prob(votoPerot)

** Aun asi, podemos hacer pruebas de hipotesis con ambos conjuntos de coeficientes:

test [1]distclinton = [2]distclinton
test [1]party= [2]party

** Los coeficientes de mlogit permiten hacer comparaciones interesantes, como indicar
** como cambia la probabilidad de que apoyes a uno u otro candidato conforme cambia otra variable.

** Esta grafica muestra como cambia la probabilidad de que tu respuesta de 
** Bush_approval sea "0=odiar, 1=medio mal, 2=medio bien, y 3=amar a Bush papa", 
** conforme aumenta la escolaridad de los encuestados:

scatter r1 r2 r3 r4 educ

** A esto le llamamos "predicted probabilities analysis" y lo veran a mas detalle el proximo semestre

** 

/*
Algunos comentarios sobre modelos ANIDADOS y NO ANIDADOS

¿Que es un "Modelo Anidado" (NESTED MODEL)?

Imaginense el MODELO MAS COMPLETO DEL MUNDO...
seria aquel con una variable para cada observacion...
a ese modelo se le llama un MODELO SATURADO... porque tiene MUCHAS
variables... y aunque tenga una R2 muy alta NO NOS SIRVE PARA PREDECIR NADA,
puesto que no generaliza nada.

...partiendo de esa base, todos los modelos donde (k < N) se dice que son un modelo 
restringido de un modelo mas grande... pero muchas veces desconocido...


Ejemplo: Suponiendo que SOLO existen 5 variables observables en el mundo, un modelo no-restringido (o completo) seria algo asi como:

NR) y = alfa + x1 + x2 + x3 + x4 + x5

Y a partir de ese modelo podemos probar varios "modelos restringidos":
a)  y = alfa + x1 + x2 + x3 + x4
b)  y = alfa + x1 + x2 +      x4 + x5   
c)  y = alfa           + x3 + x4 + x5   

Los modelos a, b y c son versiones restringidas del modelo NR, y contra él debe 
compararse su bondad de ajuste. Asi, decimos que a, b y c están anidados en NR.
Ojo, a no esta anidado en b, ni b en c...

Consideren ahora el modelo:

d)  y = alfa + x1 + x2 + x3 + x4 + x5 + x6    
...este modelo es MAS completo que NR--y si lo conociéramos, desde aqui deberia partir
nuestro análisis hasta hallar la versión restringida mas plausible y parsimoniosa.

Por último, este modelo es un problema:
e)  y = alfa + x1 + x2 + x3 + x4 +    + x6  
...PORQUE NO ES un modelo ANIDADO en NR... es decir, el modelo (e) no es ninguna forma restringida del modelo NR... y por lo tanto no se puede comparar la bondad de ajuste de NR con E...
Ojo, el modelo (e) si está anidado en (d)--pero estamos suponiendo que (d) es imposible de estimar.

Hasta la fecha, no existe un metodo estadistico aceptable para comparar modelos no anidados (non-nested)... y por ello, en todos su analisis empiricos les recomiendo partir desde  el modelo más completo que puedan estimar, y bajar de ahi hasta la version con mejor ajuste y parsimonia, es decir, que explique la mayor cantidad de variacion con el menor numero de variables.

*/

log close