## 3.1 Introducción

### Actividades básicas en el análisis estadístico

1. **Diseño del análisis**: Esta actividad involucra el planeamiento de los detalles para obtener los datos que necesitamos y la generación de la hipótesis a ser evaluada.
$$\newline$$
2. **Exploración de datos**: En esta actividad nos dedicamos a jugar con nuestros datos, los describimos, los resumimos, realizamos gráficos para mirarlos desde distintos ángulos. Esta exploración nos ayuda a asegurarnos que los datos que obtuvimos son completos y que la etapa de diseño fue correcta.
$$\newline$$
3. **Armado del modelo**: En esta actividad intentamos armar un modelo que explique el comportamiento de nuestros datos y pueda llegar a hacer predicciones sobre los mismos. La idea es que el modelo pueda describir las propiedades fundamentales de nuestros datos.
$$\newline$$
4. **Realizar estimaciones**: Aquí vamos a intentar realizar estimaciones basadas en el modelo que armamos anteriormente. También vamos a intentar estimar el tamaño del error que nuestro modelo puede tener en sus predicciones.
$$\newline$$
5. **Contraste de la hipótesis**: Esta actividad es la que va a producir la decisión final sobre si las predicciones del modelo son correctas y ayudarnos a concluir si los datos que poseemos confirman o rechazan la hipótesis que generamos en la actividad 1.

Librerías utilizadas para análisis estadístico

* numpy: El popular paquete matemático de Python, se utiliza tanto que mucha gente ya lo considera parte integral del lenguaje. Nos proporciona algunas funciones estadísticas que podemos aplicar fácilmente sobre los arrays de Numpy.
---
* scipy.stats: Este submodulo del paquete científico Scipy es el complemento perfecto para Numpy, las funciones estadisticas que no encontremos en uno, las podemos encontrar en el otro. $\newline$
* statsmodels: Esta librería nos brinda un gran número de herramientas para explorar datos, estimar modelos estadísticos, realizar pruebas estadísticas y muchas cosas más.
$\newline$
* matplotlib: Es la librería más popular en Python para visualizaciones y gráficos. Ella nos va a permitir realizar los gráficos de las distintas distribuciones de datos.
$\newline$
* seaborn: Esta librería es un complemento ideal de matplotlib para realizar gráficos estadísticos.
$\newline$
* pandas: Esta es la librería más popular para análisis de datos y financieros. Posee algunas funciones muy útiles para realizar estadística descriptiva sobre nuestros datos y nos facilita sobremanera el trabajar con series de tiempo.
$\newline$
* pyMC: pyMC es un módulo de Python que implementa modelos estadísticos bayesianos, incluyendo la cadena de Markov Monte Carlo(MCMC). pyMC ofrece funcionalidades para hacer el análisis bayesiano lo mas simple posible.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

## 3.2 Ejemplo: Ánimo de twitteros

¿Cómo se compara el ánimo de los twitteros por estado?

1. Obtención y limpieza de tuits. Se pueden obtener los datos a través de una API, y la limpieza que se hace es por ejemplo, eliminar caracteres raros, emojis, abreviaciones, etc.

2. Etiquetar los tuits en "positivos", "negativos", "neutros". Utilizan un algoritmo para etiquetar los tuits.

In [None]:
df_twitteros = pd.read_csv('./datos/animo_twitteros_semana.csv')

In [None]:
df_twitteros.groupby('lugar')['indice'].describe()

In [None]:
fig = px.line(df_twitteros, x="fecha", y="indice", color='lugar')
fig.show()

## 3.3 Ejemplo: Precios de venta vivienda

### Preguntas a responder

1. ¿Es posible modelar el valor de la vivienda utilizando sus características?
2. ¿Çómo varía el valor de la vivienda de estado a estado del país?

#### Obtención de los datos

1. Se utilizó web scrapping para obtener precios de ventas de casas y sus características
2. Fue importante mantener el anonimato de la información
3. Hubo una limpieza de información (obtener variables completas, evitar valores nulos, eliminar valores atípicos)

#### Estructura de dataframe

In [None]:
df_vivienda = pd.read_csv('./datos/precios_vivienda.csv')

In [None]:
df_vivienda.sample(3)

1. Si había valores ilógicos dentro de los registros, por ejemplo, casas con precios de 1 peso o con 100 habitaciones, o 1000 baños, se eliminaron los registros.

Cuando tenemos registros atípicos o ilógicos o faltantes se puede hacer lo siguiente:

* Eliminar el registro: solo aplica cuando la cantidad o naturaleza de los datos lo perminta
* Imputación de datos: consiste en asignar un valor para reemplazar datos faltantes, o datos atípicos. Hay varias formas de imputar, por ejemplo, utilizando la media, la mediana o la moda. Otra forma es utilizando conocimientos del negocio.


In [None]:
print('Filas           :',df_vivienda.shape[0])
print('Columnas        :',df_vivienda.shape[1])
print('Valores con NA  :')
print(df_vivienda.isna().sum())

In [None]:
df_vivienda.head(1)

#### Exploración de datos

In [None]:
fig = px.histogram(df_vivienda, x="Precio", nbins=20)
fig.show()

In [None]:
df_vivienda['log_precio'] = np.log(df_vivienda['Precio'])
fig = px.histogram(df_vivienda, x="log_precio", nbins=20)
fig.show()

In [None]:
df_vivienda.columns

In [None]:
fig = px.scatter(df_vivienda[df_vivienda['estados']=='GUERRERO'], x = 'build_area', y = 'log_precio')
fig.show()

In [None]:
df_comp = df_vivienda[(df_vivienda['estados']=='DISTRITO FEDERAL')|(df_vivienda['estados']=='GUERRERO')]
fig = px.box(df_comp, x="estados", y="Precio")
fig.show()

In [None]:
resumen = df_vivienda.groupby(['estados'])['Precio'].describe()

In [None]:
resumen.sort_values('mean')

Cuartiles - Nos da una idea de la distribución de los datos

Q1 - Cuartil uno - 25%
El 25% de los datos caen debajo de ese valor

Q2 - Cuartil dos - 50%
El 50% de los datos caen debajo de ese valor

Q3 - Cuartil tres - 75%
El 75% de los datos caen debajo de ese valor

Datos = [0,0,0,0,0,0,0,0,0,100,1000]

Media:








In [None]:
datos = [0,0,0,0,0,0,0,0,0,100,1000]
datos2 = [100,100,100,100,100,100,100]

In [None]:
print(np.mean(datos))
print(np.mean(datos2))

In [None]:
print(np.quantile(datos, [0.25,0.5,0.75]))
print(np.quantile(datos2, [0.25,0.5,0.75]))

## Modelo de regresión

In [None]:
from scipy.stats import pearsonr
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from scipy import stats

In [None]:
df_vivienda.head(1)

In [None]:
df_vivienda.info()

In [None]:
def tidy_corr_matrix(corr_mat):
    '''
    Función para convertir una matriz de correlación de pandas en formato tidy
    '''
    corr_mat = corr_mat.stack().reset_index()
    corr_mat.columns = ['variable_1','variable_2','r']
    corr_mat = corr_mat.loc[corr_mat['variable_1'] != corr_mat['variable_2'], :]
    corr_mat['abs_r'] = np.abs(corr_mat['r'])
    corr_mat = corr_mat.sort_values('abs_r', ascending=False)

    return(corr_mat)



corr_matrix = df_vivienda.select_dtypes(include=['float64', 'int']).corr(method='pearson')
tidy_corr_matrix(corr_matrix).head(20)

In [None]:
df_vivienda.columns

In [None]:
# División de los datos en train y test
# ==============================================================================
X = df_vivienda[['build_area', 'bedrooms','garages', 'Pisos', 'Publicacion']]
y = df_vivienda['log_precio']

X_train, X_test, y_train, y_test = train_test_split(
                                        X,
                                        y.values.reshape(-1,1),
                                        train_size   = 0.8,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [None]:
# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train,)
modelo = modelo.fit()
print(modelo.summary())

In [None]:
# Intervalos de confianza para los coeficientes del modelo
# ==============================================================================
intervalos_ci = modelo.conf_int(alpha=0.05)
intervalos_ci.columns = ['2.5%', '97.5%']
intervalos_ci

In [None]:
# Diagnóstico errores (residuos) de las predicciones de entrenamiento
# ==============================================================================
y_train = y_train.flatten()
prediccion_train = modelo.predict(exog = X_train)
residuos_train   = prediccion_train - y_train

In [None]:
# Gráficos
# ==============================================================================
fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(9, 8))

axes[0, 0].scatter(y_train, prediccion_train, edgecolors=(0, 0, 0), alpha = 0.4)
axes[0, 0].plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()],
                'k--', color = 'black', lw=2)
axes[0, 0].set_title('Valor predicho vs valor real', fontsize = 10, fontweight = "bold")
axes[0, 0].set_xlabel('Real')
axes[0, 0].set_ylabel('Predicción')
axes[0, 0].tick_params(labelsize = 7)

axes[0, 1].scatter(list(range(len(y_train))), residuos_train,
                   edgecolors=(0, 0, 0), alpha = 0.4)
axes[0, 1].axhline(y = 0, linestyle = '--', color = 'black', lw=2)
axes[0, 1].set_title('Residuos del modelo', fontsize = 10, fontweight = "bold")
axes[0, 1].set_xlabel('id')
axes[0, 1].set_ylabel('Residuo')
axes[0, 1].tick_params(labelsize = 7)

sns.histplot(
    data    = residuos_train,
    stat    = "density",
    kde     = True,
    line_kws= {'linewidth': 1},
    color   = "firebrick",
    alpha   = 0.3,
    ax      = axes[1, 0]
)

axes[1, 0].set_title('Distribución residuos del modelo', fontsize = 10,
                     fontweight = "bold")
axes[1, 0].set_xlabel("Residuo")
axes[1, 0].tick_params(labelsize = 7)


sm.qqplot(
    residuos_train,
    fit   = True,
    line  = 'q',
    ax    = axes[1, 1],
    color = 'firebrick',
    alpha = 0.4,
    lw    = 2
)
axes[1, 1].set_title('Q-Q residuos del modelo', fontsize = 10, fontweight = "bold")
axes[1, 1].tick_params(labelsize = 7)

axes[2, 0].scatter(prediccion_train, residuos_train,
                   edgecolors=(0, 0, 0), alpha = 0.4)
axes[2, 0].axhline(y = 0, linestyle = '--', color = 'black', lw=2)
axes[2, 0].set_title('Residuos del modelo vs predicción', fontsize = 10, fontweight = "bold")
axes[2, 0].set_xlabel('Predicción')
axes[2, 0].set_ylabel('Residuo')
axes[2, 0].tick_params(labelsize = 7)

# Se eliminan los axes vacíos
fig.delaxes(axes[2,1])

fig.tight_layout()
plt.subplots_adjust(top=0.9)
fig.suptitle('Diagnóstico residuos', fontsize = 12, fontweight = "bold");

In [None]:
# Normalidad de los residuos Shapiro-Wilk test
# ==============================================================================
shapiro_test = stats.shapiro(residuos_train)
shapiro_test

In [None]:
# Error de test del modelo
# ==============================================================================
X_test = sm.add_constant(X_test, prepend=True)
predicciones = modelo.predict(exog = X_test)
rmse = mean_squared_error(
        y_true  = y_test,
        y_pred  = predicciones,
        squared = False
       )
print("")
print(f"El error (rmse) de test es: {rmse}")