# Tarea 2: Estadística para Data Science

Fecha de entrega: 28/06/2022 a las 23:59 PM

Se puede trabajar de manera individual o en grupos de máximo 4 personas. Si trabajas en grupo, igualmente debes entregar la tarea en el buzón de manera individual con tu nombre y los nombres de los otros integrantes del grupo.

En esta tarea vamos a explorar como un estadístico de una muestra aleatoria de datos puede servir como un estimador puntual de un parámetro de una población. Vamos a formar una distribución de muestreo de nuestro estimador y vamos a ir aprendiendo sobre sus propiedades.


## Dataset: Real estate en Ames, Iowa

Vamos a cargar nuestro primer dataset, el detalle de cada transacción de venta de propiedades residenciales en la ciudad de Ames, que fueron registradas entre el 2006 y el 2010. Este set de datos censal va a representar nuestra población de interés. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 

In [None]:
df_url = 'https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase4/ames.csv'

ames = pd.read_csv(df_url)

Veamos las primeras filas de este dataset

In [None]:
ames.head()

Vemos que este dataset tiene muchas variables, con los cuales se podrían hacer análisis muy detallados. Para esta tarea, vamos a tomar en cuenta solo algunas variables: El área habitable construida de la casa sobre el suelo en pies cuadrados (`Gr.Liv.Area`), el precio de venta (`SalePrice`), el area del terreno (`Lot.Area`) y la calidad y condición del sistema de calefacción (`Heating.QC`). Creamos un dataframe con estas columnas:

In [None]:
df = ames[['Gr.Liv.Area','SalePrice','Lot.Area','Heating.QC']]

Y vemos algunas estadísticas descriptivas para cada variable ocupando el método `describe()` y el método `value_counts()`.

In [None]:
df.describe()

In [None]:
df['Heating.QC'].value_counts()

En la variable `Heating.QC`, cada categoría corresponde a lo siguiente:

Ex: Excellent

Gd: Good

TA: Average/Typical

Fa: Fair

Po: Poor

Varias columnas tienen puntos, con lo cual no podemos acceder a una columna ocupando la notación `dataframe.columna`. Vamos a crear una variable `area` aparte del dataframe `df`, la cual será una conversión a metros cuadrados de la variable `Gr.Liv.Area`. En términos métricos un pie cuadrado es un cuadrado de lado 0.3048 metros de largo. Por tanto

In [None]:
sqft_to_sqmt = 0.3048*0.3048
print(sqft_to_sqmt)

Creamos la variable `area` que será el área habitable de las casas de esta población, medida en metros cuadrados.

In [None]:

area = df['Gr.Liv.Area']*sqft_to_sqmt
area

Veamos ahora la distribución del área habitable en nuestra población de casas haciendo un histograma

In [None]:
# Histograma del área habitable

# plt.style.use es para cambiar el estilo del gráfico, 
# se puede ver una referencia acá: https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html
plt.style.use('ggplot') # ggplot es un paquete de gráficos muy popular en R.

# acá podemos variar el tamaño de la figura: (ancho,alto) 
plt.rcParams['figure.figsize'] = (8,5)

plt.hist(area, edgecolor = 'black', linewidth = 1.2)

# plt.axvline grafica una línea vertical, en este caso en la mediana del área
plt.axvline(area.median(), color='black', linestyle='dashed', linewidth=3)
plt.show()

## Pregunta 1:

a) Grafica otro histograma de la variable `area`, de dimensiones (12,5), con columnas de color verde, con 30 bins y en un estilo de la página fivethirtyeight, agregando además de la línea vertical de la mediana otra línea vertical para el promedio, de color rojo y con estilo 'dotted'.

In [None]:
# respuesta


b) Describe esta distribución de población, calculando sus estadísticas descriptivas y comentando sobre el skewness de la distribución. 

In [None]:
# respuesta


**Respuesta:**

## La distribución de muestreo desconocida

En este dataset tenemos acceso a un censo de la población objetivo, pero esto es más bien escaso en la vida real, donde recolectar información de toda la población es habitualmente o muy caro o sencillamente imposible. Dado esto, usualmente tomamos una muestra de la población y la usamos para estudiar las propiedades de esta población.

Para tomar un muestreo, Pandas tiene un método llamado sample (documentación [acá](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) ). Tomemos una muestra de 50 casas vendidas.

In [None]:
sampl1 = area.sample(n = 50,replace=False)
sampl1.describe()

Este comando recolecta una muestra aleatoria simple, sin reemplazo, de la variable `area`, y es asignada a la variable `samp1`. Esto es equivalenta a si fuéramos a la oficina de la ciudad y sacáramos al azar cincuenta archivos de venta.

OJO: cada vez que ejecutamos el método sample, se toma una nueva muestra. Por ejemplo:

In [None]:
print(area.sample(50).mean())
print(area.sample(50).mean())
print(area.sample(50).mean())
print(area.sample(50).mean())

Para que se ocupe la misma "semilla" y se genere la misma muestra al ejecutar nuevamente el mismo comando, podemos utilizar el argumento `random_state` con un número o parámetro fijo cualquiera. 

In [None]:
# Por ejemplo, Fijamos random_state=10, y el promedio de este muestreo será 137.197 
# siempre que ejecutemos este comando

print(area.sample(50,random_state=10).mean())

print(area.sample(50,random_state=10).mean())

# Ahora random_state=12, y el promedio es 128.901

print(area.sample(50,random_state=12).mean())

print(area.sample(50,random_state=12).mean())


## Pregunta 2:
Haz un nuevo muestreo con n=50 y random_state=5 que se llame `sample_area_rs5`. Describe la distribución de la  muestra. ¿Cómo se compara con la distribución de la población? 


In [None]:
# Respuesta


**Respuesta:**



Si queremos estimar el área habitable promedio de las casas vendidas en Ames usando la muestra, nuestra mejor conjetura es la media muestral. 

Dependiendo del muestreo seleccionado, el estimador podría estar un poco más arriba o más abajo del valor real de la media de la población de 139.33 metros cuadrados.

## Pregunta 3

Toma una segunda muestra, también de tamaño 50 y llámala `samp2`.¿Cómo se compara la media de `samp2`con la media de `samp1`, con la media de `sample_area_rs5` y con la media poblacional de `area`? 

In [None]:
# Respuesta



**Respuesta:**

Cada vez que tomamos una nueva muestra aleatoria obtenemos una media muestral distinta. Es útil tener una idea de cuánta variabilidad deberíamos esperar al estimar la media de la población de esta manera. La distribución de las medias muestrales, denominada *distribución muestral*, puede ayudarnos a comprender esta variabilidad. Como en este dataset tenemos acceso a los datos de la población, podemos construir una distribución muestral repitiendo los pasos anteriores muchas veces. Vamos a generar 10000 muestreos y vamos a calcular la media muestral para cada uno de ellos.

Vamos a usar un `for` loop pra generar 2000 muestreos de las áreas de 50 casas, calculando la media de cada muestreo y almacenándolo en una variable llamada `sample_means50`.

In [None]:
sample_means50 = [area.sample(50).mean() for i in range(0, 2000)]

Ojo, al hacer este for loop de esta forma, la variable `sample_means50` es un objeto de tipo `list`.

In [None]:
type(sample_means50)

Por tanto, si queremos ocupar un método de Pandas con esta lista, como por ejemplo `describe`, no me funcionará.

In [None]:
# sample_means50.describe()

Si quisiera ocupar el método `describe`, tendría que crear un nuevo objeto en Pandas y luego aplicar el método `describe` sobre ese objeto.

In [None]:
sm50 = pd.Series(sample_means50)
type(sm50)

In [None]:
sm50.describe()

Ahora, graficamos un histograma para esta nueva variable `sm50`

In [None]:
plt.rcParams['figure.figsize'] = (10,5)
plt.hist(sm50, edgecolor = 'black', linewidth = 1.2, bins =30,alpha=0.8)
plt.show()

## Pregunta 4
¿Cuántos elementos tiene `sm50`? Ocupa el comando `describe` y describe la distribución.


In [None]:
# Respuesta




**Respuesta:**

## Pregunta 5
¿Qué pasaría con la distribución de muestreo si generamos 20000 muestreos de n=50?
Genera un nuevo vector llamado `sample_means50_20000` y conviértelo a una serie de pandas llamada `sm50_20000`,  Ocupa el comando `describe`, grafica un nuevo histograma y describe la nueva distribución. ¿Cómo se compara la distribución de `sm50_20000` con la de `sm50`?

In [None]:
# Respuesta





**Respuesta:**



## Tamaño de la muestra y distribución de muestreo

Debido a que la media muestral es un estimador insesgado, la distribución de muestreo está centrada en el promedio de área habitable verdadero de la población, y la dispersión de la distribución nos indica cuánta variabilidad está inducida al hacer un muestreo de solo 50 ventas.

Para que tengamos una idea del efecto que el tamaño de la muestra tiene en nuestra distribución, construyamos tres muestreos más de distribuciones de muestreos: Una basada en un tamaño de muestra de 10, la otra con un tamaño de 100 y otra con un tamaño de 200.

In [None]:
sample_means10 = [area.sample(10).mean() for i in range(0, 2000)]
sample_means100 = [area.sample(100).mean() for i in range(0, 2000)]
sample_means200 = [area.sample(200).mean() for i in range(0, 2000)]

In [None]:
# convertimos a series de Pandas
sm10 = pd.Series(sample_means10)
sm100 = pd.Series(sample_means100)
sm200 = pd.Series(sample_means200)

Para ver el efecto que distintos tamaños de muestras tienen en la distribución de muestreo, graficamos las tres distribuciones una arriba de la otra

In [None]:
plt.rcParams['figure.figsize'] = (12,5)
plt.hist(sm10, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'blue')
plt.title("Tamaño de muestra 10")
plt.show()
plt.hist(sm50, edgecolor = 'black', linewidth = 1.2, bins = 25)
plt.title("Tamaño de muestra 50")
plt.show()
plt.hist(sm100, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'purple')
plt.title("Tamaño de muestra 100")
plt.show()
plt.hist(sm200, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'green')
plt.title("Tamaño de muestra 200")
plt.show()

Cada gráfico tiene un rango distinto. Para poder hacer una mejor comparación, el rango del eje X debiera ser el mismo para todos los gráficos. Podemos hacer esto graficando todos los histogramas superpuestos, ocupando el argumento `alpha`.

In [None]:
plt.rcParams['figure.figsize'] = (12,5)
plt.hist(sm10, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'blue',alpha=0.4)
plt.hist(sm50, edgecolor = 'black', linewidth = 1.2, bins = 25,alpha=0.4)
plt.hist(sm100, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'purple',alpha=0.4)
plt.hist(sm200, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'green',alpha=0.4)
plt.title("Distribuciones de muestreo con distintos tamaños de muestra")
plt.show()

## Pregunta 6
Cuando el tamaño de la muestra es más grande, ¿qué pasa con el centro? ¿Y con la dispersión?

**Respuesta:**

## Pregunta 7
Hasta ahora trabajamos con el área promedio. Ahora, deberás tratar de estimar la media del precio de venta.

a) Toma un muestreo aleatorio de la variable `SalePrice` de tamaño 10. Usando esta muestra, ¿Cuál es tu estimación puntual de la media de la población? Toma otro muestreo de tamaño 150, y teniendo estos dos muestreos,  ¿Cuál sería tu estimación puntual de la media de la población?

In [None]:
# Respuesta





**Respuesta:**

b) Usa un `for` loop como en las preguntas anteriores para generar 5000 muestreos de los precios de 150 casas, calculando la media de cada muestreo y almacenándolo en una variable llamada `sample_means150`.

In [None]:
# Respuesta




**Respuesta:**

c) Haz un histograma, describe la forma de esta distribución de muestreo y calcula el promedio de la variable `sample_means150`.  Compáralo con el promedio de la población real.

In [None]:
# Respuesta





**Respuesta:**

## Pregunta 8: Correlaciones

a) Calcula la matriz de correlaciones entre las variables `Gr.Liv.Area`, `SalePrice`, `Lot.Area`.

In [None]:
# Respuesta




b) Comenta por qué sería esperable (o no) que el coeficiente de correlación entre el precio de venta y el área habitable es más grande que entre el precio de venta y el área del lote.

**Respuesta:**


Creamos dos dataframes llamados `df_excellent` y `df_other`, que contienen a las ventas de casas con calefacción de calidad *Excellent* y del resto de las calidades respectivamente.

In [None]:
df_excellent = df[df['Heating.QC']=="Ex"]
df_excellent

In [None]:
df_other = df[df['Heating.QC']!="Ex"]
df_other

c) Calcula las matrices de correlación para ambos dataframes df_excellent y df_other, y comenta si los cambios en los coeficientes de correlación entre el precio de venta y el área habitable, y el precio de venta y el área del lote te hacen sentido y qué interpretación podría hacerse al respecto. 

In [None]:
## df_excellent



In [None]:
## df_other



**Respuesta:**