# **T3_Análisis de dos variable y el Cuarteto de Anscombe**

La representación de datos es una tarea clave del análisis de datos. La utilización de una gráfica adecuada puede hacer que los resultados y conclusiones se comuniquen de una forma adecuada o no. Conocer y manejar diferentes herramientas es clave para poder seleccionar la gráfica adecua en cada ocasión. En esta entrada se va a repasar básicamente las funciones que ofrece la librería Seaborn.

Este tema recorre una gran variedad de temas que pueden ser manipulados con el módulo seaborn para realizar un Análisis Exploratorio de los Datos (EDA).

---

# **CONTENIDOS**

1. El Cuarteto de Anscombe
2. Correlación y Regresión Lineal Simple
    * Normalidad de y
    * Coeficiente de Correlación de Pearson
    * Coeficiente de Correlación de Spearman
    * Coeficiente de Correlación Tau de kendall
3. Importancia de visualizar los datos (Paquetes matplotlib y seaborn)

---

# **[1. El cuarteto de Anscombe](https://es.wikipedia.org/wiki/Cuarteto_de_Anscombe)**

Cada conjunto consiste de once puntos (x, y) y fueron construidos por el estadístico F. J. Anscombe. Francis John "Frank" Anscombe (13 de mayo de 1918 - 17 de octubre de 2001) fue un estadístico inglés.

El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen las mismas propiedades estadísticas, pero que evidentemente son distintas al inspeccionar sus gráficos respectivos.

Un Ejercicio para ver la necesidad de realizar antes de cualquier análisis estadístico una exploración gráfica de los datos.

In [None]:
# Importamos los módulos necesarios
import numpy as np   # Python Numérico, vectores y matrices

In [None]:
# seaborn se utiliza para visualización, es más sofisticado que matplotlib
import seaborn as sns
# https://seaborn.pydata.org/
# https://seaborn.pydata.org/tutorial/regression.html
import matplotlib.pyplot as plt

In [None]:
# Mirar los conjuntos de datos de seaborn
sns.get_dataset_names()

In [None]:
# CUARTETO DE ANSCOMBE
# La función load_dataset de seaborn permite cargar conjuntos de datos
anscombe = sns.load_dataset("anscombe")

In [None]:
type(anscombe)

In [None]:
anscombe.info()

In [None]:
anscombe

In [None]:
anscombe.columns

In [None]:
anscombe.head(3)

In [None]:
anscombe.tail(3)

In [None]:
# La función query() de seaborn permite extraer un subconjunto del dataset original
a1 = anscombe.query("dataset == 'I' ")

In [None]:
a1

In [None]:
a1.info()

In [None]:
# Extraer el dataset == II
a2 = anscombe.query("dataset == 'II' ")

In [None]:
# Extraer el dataset == III
a3 = anscombe.query("dataset == 'III' ")

In [None]:
# Extraer el dataset == IV
a4 = anscombe.query("dataset == 'IV' ")

In [None]:
a1.describe(include="all")

In [None]:
a2.describe()

In [None]:
a3.describe()

In [None]:
a4.describe()

# **2. Correlación y Regresión Lineal Simple**

La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos, conviene destacar algunas diferencias:

1. La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión lineal consiste en generar una ecuación (**modelo**) que, basándose en la relación existente entre ambas variables, permita **predecir** el valor de una a partir de la otra.

2. El cálculo de la correlación entre dos variables es independiente del orden o asignación de cada variable a X e Y, mide únicamente la relación entre ambas **sin considerar dependencias**. En el caso de la regresión lineal, el modelo varía según qué variable se considere dependiente de la otra (**lo cual no implica causa-efecto**).

3. A nivel experimental, la correlación se suele emplear cuando ninguna de las variables se ha controlado, simplemente se han medido ambas y se desea saber si están relacionadas. En el caso de estudios de regresión lineal, es más común que una de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se mida la otra.

4. Por norma general, los estudios de correlación lineal preceden a la generación de modelos de regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.

* Puede ampliar conceptos en este enlace: [Correlación](https://es.wikipedia.org/wiki/Correlaci%C3%B3n)

* También en este otro enlace: [El coeficiente de correlación de Pearson (con ejemplo en Python)](https://medium.com/@hdezfloresmiguelangel/el-coeficiente-de-correlaci%C3%B3n-de-pearson-con-ejemplo-en-python-6e8588f67e35)

In [None]:
# La función corr() de pandas permite calcular el coeficiente de correlación
a1[['x', 'y']].corr(method="pearson")

In [None]:
# Podemos pedir ayuda de la función corr de pandas
a1.corr?

In [None]:
# Graficamos el par x,y del conjunto de datos a1
plt.plot(a1.x,a1.y,"ro")

In [None]:
# calculamos el coeficiente de correlación de pearson entre x,y de a2
a2[['x', 'y']].corr(method="pearson")

In [None]:
# Graficamos el par x,y de a2
plt.plot(a2.x,a2.y,"bo")

In [None]:
# calculamos el coeficiente de correlación de spearman entre x,y de a2
a2[['x', 'y']].corr(method="spearman")

In [None]:
# calculamos el coeficiente de correlación de kendall entre x,y de a2
a2[['x', 'y']].corr(method="kendall")

In [None]:
# calculamos el coeficiente de correlación de pearson entre x,y de a3
a3[['x', 'y']].corr(method="pearson")

In [None]:
# Graficamos el par x,y de a3
plt.plot(a3.x,a3.y,"bo")

In [None]:
# calculamos el coeficiente de correlación de spearman entre x,y de a3
a3[['x', 'y']].corr(method="spearman")

In [None]:
# calculamos el coeficiente de correlación pearson entre x,y de a4
a4[['x', 'y']].corr(method="pearson")

In [None]:
# Graficamos el par x,y d a4
plt.plot(a4.x,a4.y,"ro")

In [None]:
# calculamos el coeficiente de correlación spearman entre x,y de a4
a4[['x', 'y']].corr(method="spearman")

In [None]:
# calculamos el coeficiente de correlación kenall entre x,y de a4
a4[['x', 'y']].corr(method="kendall")

# *Coeficiente de correlación de Pearson y valor p para probar la no correlación*.

---

[scipy.stats.pearsonr(x , y)](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html#r8c6348c62346-3)

---

El [coeficiente de correlación de Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient) mide la relación lineal entre dos conjuntos de datos.

El cálculo del valor p se basa en el supuesto de que cada conjunto de datos se distribuye normalmente. Como otros coeficientes de correlación, éste varía entre -1 y +1, donde 0 implica que no hay correlación. Las correlaciones de -1 o +1 implican una relación lineal exacta. Las correlaciones positivas implican que a medida que aumenta x, también lo hace y. Las correlaciones negativas implican que a medida que x aumenta, y disminuye.

El valor p indica aproximadamente la probabilidad de que un sistema no correlacionado produzca conjuntos de datos que tengan una correlación de Pearson al menos tan extrema como la calculada a partir de estos conjuntos de datos.

In [None]:
from scipy import stats
stats.pearsonr(a1.x, a1.y)
# H0: no hay correlacion

In [None]:
from scipy import stats
stats.pearsonr(a2.x, a2.y)

In [None]:
from scipy import stats
stats.pearsonr(a3.x, a3.y)

In [None]:
from scipy import stats
stats.pearsonr(a4.x, a4.y)

# **Coeficiente de Correlación de Spearman con el valor p asociado**.

---
[scipy.stats.spearmanr( a , b = Ninguno , eje = 0 , nan_policy = 'propagar' )](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html#scipy.stats.spearmanr)
---

El coeficiente de correlación de rango y orden de Spearman es una medida no paramétrica de la monotonicidad de la relación entre dos conjuntos de datos. A diferencia de la correlación de Pearson, **la correlación de Spearman no supone que ambos conjuntos de datos estén distribuidos normalmente**. Como otros coeficientes de correlación, éste varía entre -1 y +1, donde 0 implica que no hay correlación. Las correlaciones de -1 o +1 implican una relación monótona exacta. Las correlaciones positivas implican que a medida que aumenta x, también lo hace y. Las correlaciones negativas implican que a medida que x aumenta, y disminuye.

El valor p indica aproximadamente la probabilidad de que un sistema no correlacionado produzca conjuntos de datos que tengan una correlación de Spearman al menos tan extrema como la calculada a partir de estos conjuntos de datos. Los valores p no son del todo fiables, pero probablemente sean razonables para conjuntos de datos superiores a 500 o más.

In [None]:
from scipy import stats
stats.spearmanr(a1.x,a1.y)

In [None]:
from scipy import stats
stats.spearmanr(a2.x,a2.y)

In [None]:
from scipy import stats
stats.spearmanr(a3.x,a3.y)

In [None]:
from scipy import stats
stats.spearmanr(a4.x,a4.y)

# **tau de Kendall, una medida de correlación para datos ordinales**.

La [tau de Kendall](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html#r4cd1899fa369-1) es una medida de la correspondencia entre dos clasificaciones. Los valores cercanos a 1 indican un fuerte acuerdo, los valores cercanos a -1 indican un fuerte desacuerdo.

Esta es la versión “tau-b” de 1945 del tau de Kendall [1] , que puede explicar los vínculos y que se reduce a la versión “tau-a” de 1938 [2] en ausencia de vínculos.

[1] Maurice G. Kendall, “El tratamiento de los vínculos en los problemas de clasificación”, Biometrika Vol. 33, núm. 3, págs. 239-251. 1945

[2] Maurice G. Kendall, "Una nueva medida de correlación de rango", Biometrika Vol. 30, núm. 1/2, págs. 81-93, 1938.

In [None]:
from scipy import stats
stats.kendalltau(a1.x, a1.y)

In [None]:
from scipy import stats
stats.kendalltau(a2.x, a2.y)

In [None]:
from scipy import stats
stats.kendalltau(a3.x, a3.y)

In [None]:
from scipy import stats
stats.kendalltau(a4.x, a4.y)

#### PRUEBAS DE NORMALIDAD DE LOS DATOS

---

[Distribución normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal)

---

[Test de Shapiro–Wilk](https://es.wikipedia.org/wiki/Test_de_Shapiro%E2%80%93Wilk)

---

[Prueba de Kolmogorov-Smirnov](https://es.wikipedia.org/wiki/Prueba_de_Kolmogorov-Smirnov)

---

[Prueba de Anderson-Darling](https://es.wikipedia.org/wiki/Prueba_de_Anderson-Darling)

---

Comparación De Pruebas De Normalidad
---
[Comparación De Pruebas De Normalidad](http://gfnun.unal.edu.co/fileadmin/content/eventos/simposioestadistica/documentos/memorias/MEMORIAS_2015/Comunicaciones/Est_Matematica/Isaza_Acevedo___Hernandez_Pruebas_Normalidad.pdf)

---

### [scipy.stats.normaltest](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html) para probar la normalidad

---

[Normality Tests in Python/v3](https://plot.ly/python/v3/normality-test/)

In [None]:
import scipy.stats

In [None]:
dir(scipy.stats)

In [None]:
from scipy.stats import shapiro

In [None]:
stat, p = shapiro(a1.y)
# Shapiro-Wilk Test
# H0: SI ES NORMAL

In [None]:
stat, p

Podemos concluir que la variable Y de a1, se distribuye normalmente

In [None]:
# https://plot.ly/python/v3/normality-test/
from scipy.stats import shapiro
stat, p = shapiro(a1.y)
stat,p
# Shapiro-Wilk Test

In [None]:
# Anderson-Darling Test
from scipy.stats import anderson
anderson(a1.y)

In [None]:
# D'Agostino's K2 Test
from scipy.stats import normaltest

stat, p = normaltest(a1.y)
stat,p

In [None]:
# Prueba de shapiro-wilk para el vector y del dataset II
from scipy.stats import shapiro
stat, p = shapiro(a2.y)
stat,p

In [None]:
# Prueba de shapiro-wilk para el vector y del dataset III
from scipy.stats import shapiro
stat, p = shapiro(a3.y)
stat, p

In [None]:
# Prueba de shapiro-wilk para el vector y del dataset IV
from scipy.stats import shapiro
stat, p = shapiro(a4.y)
stat, p

# **3. Importancia de visualizar los datos (Paquetes matplotlib y seaborn)**.

---

[Visualizing statistical relationships: Visualizando relaciones estadísticas](https://seaborn.pydata.org/tutorial/relational.html#relational-tutorial)

---

El análisis estadístico es un proceso para comprender cómo las variables en un conjunto de datos se relacionan entre sí y cómo esas relaciones dependen de otras variables. La visualización puede ser un componente central de este proceso porque, cuando los datos se visualizan correctamente, el sistema visual humano puede ver tendencias y patrones que indican una relación.

Discutiremos tres funciones nacidas en este tutorial. El que más usaremos es **relplot()**. Esta es una función de nivel de figura para visualizar relaciones estadísticas usando dos enfoques comunes: gráficos de dispersión y gráficos de líneas. **relplot()** combina a **FacetGrid** con una de las dos siguientes funciones de nivel de ejes:

---

+ scatterplot()(con kind="scatter"; el valor predeterminado)
+ lineplot()(con kind="line")

---

Como veremos, estas funciones pueden ser bastante esclarecedoras porque utilizan representaciones de datos simples y fáciles de entender que, sin embargo, pueden representar estructuras complejas de conjuntos de datos. Pueden hacerlo porque trazan gráficos bidimensionales que pueden mejorarse mapeando hasta tres variables adicionales utilizando la semántica de matiz, tamaño y estilo.

---

##función relplot()

---

seaborn.relplot

---

**seaborn.relplot**(x=None, y=None, hue=None, size=None, style=None, data=None, row=None, col=None, col_wrap=None, row_order=None, col_order=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, markers=None, dashes=None, style_order=None, legend='brief', kind='scatter', height=5, aspect=1, facet_kws=None, **kwargs)

In [None]:
import seaborn as sns
ans = sns.load_dataset("anscombe")
sns.relplot(x="x",y="y",data=ans)

In [None]:
"""
Si bien los puntos se trazan en dos dimensiones, se puede agregar otra dimensión al
diagrama coloreando los puntos de acuerdo con una tercera variable.
En seaborn, esto se conoce como el uso de un "tono semántico" ("hue semantic"),
porque el color del punto adquiere significado:
"""
sns.relplot(x="x",y="y",hue="dataset", data=ans)

In [None]:
# Visualizando cada par x,y, utilizando el argumento query
sns.relplot(x="x",y="y",data=ans.query("dataset=='I'"))

In [None]:
# la función regplot() Grafica el dato y Ajusta el dato a un modelo de regresión lineal
sns.regplot(x="x", y="y",data=ans.query("dataset == 'I' "  ))

In [None]:
sns.relplot(x="x",y="y",data=ans.query("dataset=='II'"))

In [None]:
sns.regplot(x="x",y="y",data=ans.query("dataset=='II'"))

In [None]:
sns.regplot(x="x",y="y",data=ans.query("dataset=='II'"), order=2)
# Realiza un ajuste de regresión polinomial de orden 2

In [None]:
sns.relplot(x="x",y="y",data=ans.query("dataset=='III'"))

In [None]:
sns.regplot(x="x",y="y",data=ans.query("dataset=='III'"),robust=True,ci=None)
# Se hace regresión robusta cuando se tienen outlier que no se quieren eliminar

[Regresión Robusta en Wikipedia](https://es.wikipedia.org/wiki/Regresi%C3%B3n_robusta)

In [None]:
sns.lmplot(x="x",y="y",data=ans.query("dataset=='III'"),robust=True,ci=None)
# Regresión Robusta: https://es.wikipedia.org/wiki/Regresi%C3%B3n_robusta

In [None]:
sns.relplot(x="x",y="y",data=ans.query("dataset=='IV'"))

In [None]:
sns.regplot(x="x",y="y",data=ans.query("dataset=='IV' "))

In [None]:
sns.lmplot(x="x",y="y",data=ans.query("dataset=='IV'"))

In [None]:
sns.regplot(x="x",y="y",data=ans.query("dataset=='IV'"),robust=True,ci=None)

Ejercicio:
Realice el tutorial de:
[Visualizing linear relationships: Visualizando relaciones lineales](https://seaborn.pydata.org/tutorial/regression.html#regression-tutorial)

---

Visualizando relaciones lineales
Muchos conjuntos de datos contienen múltiples variables cuantitativas, y el objetivo de un análisis a menudo es relacionar esas variables entre sí. Nosotros previamente discutido funciones que pueden lograr esto mostrando la distribución conjunta de dos variables. Sin embargo, puede ser muy útil utilizar modelos estadísticos para estimar una relación simple entre dos conjuntos ruidosos de observaciones. Las funciones discutidas en este capítulo lo harán a través del marco común de regresión lineal.

En el espíritu de Tukey, las gráficas de regresión en seaborn están destinadas principalmente a agregar una guía visual que ayuda a enfatizar los patrones en un conjunto de datos durante los análisis exploratorios de datos. Es decir que **seaborn no es en sí mismo un paquete para el análisis estadístico**.

**Para obtener medidas cuantitativas relacionadas con el ajuste de los modelos de regresión, debe usar** **statsmodels**. Sin embargo, el objetivo de seaborn es hacer que la exploración de un conjunto de datos a través de la visualización sea rápida y fácil, ya que hacerlo es tan importante (si no más) que explorar un conjunto de datos a través de tablas de estadísticas.

---

Funciones para dibujar modelos de regresión lineal

---

Se utilizan dos funciones principales en seaborn para visualizar una relación lineal determinada mediante regresión. Estas funciones, **regplot()** y **lmplot()** están estrechamente relacionadas, y comparten gran parte de su funcionalidad principal. Sin embargo, es importante comprender las formas en que difieren, para que pueda elegir rápidamente la herramienta correcta para un trabajo en particular.

En la invocación simple, ambas funciones dibujan un diagrama de dispersión de dos variables, x y y, entoncers se ajustan al modelo de regresión y~x, se grafica la línea de regresión resultante y un intervalo de confianza del 95% para esa regresión.

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(color_codes=True)
# Carga el conjunto de datos tips que son las propinas de un restaunte
tips = sns.load_dataset("tips")
tips

In [None]:
propinas = tips

In [None]:
propinas.info()

In [None]:
propinas.columns
# La propiedad columns muestra los nombres de las columnas, pero también se
# utiliza para cambiar los nombres de las columnas

In [None]:
columnas = ["cuenta","propina","sexo","fuma","dia","tiempo","personas"]
propinas.columns = columnas

In [None]:
propinas.head(3)

In [None]:
propinas.info()

In [None]:
"""
En la forma mas simple, ambas funciones dibujan un diagrama de dispersión de las
dos variables, x y y, a continuación, se ajustan el modelo de regresión
y la línea de regresión resultante y un intervalo de confianza
del 95% para la regresión y ~ x
"""
sns.regplot(x="cuenta", y="propina", data=propinas);

In [None]:
# Lo mismo utilizando la función lmplot()
sns.lmplot(x="cuenta", y="propina", data=propinas);

You should note that the resulting plots are identical, except that the figure shapes are different. We will explain why this is shortly. For now, the other main difference to know about is that regplot() accepts the x and y variables in a variety of formats including simple numpy arrays, pandas Series objects, or as references to variables in a pandas DataFrame object passed to data. In contrast, lmplot() has data as a required parameter and the x and y variables must be specified as strings. This data format is called “long-form” or “tidy” data. Other than this input flexibility, regplot() possesses a subset of lmplot()’s features, so we will demonstrate them using the latter.

In [None]:
"""
Es posible ajustar una regresión lineal cuando una de las variables toma valores
discretos, sin embargo, el diagrama de dispersión simple producido por este
tipo de conjunto de datos a menudo no es óptimo:
"""
sns.lmplot(x="personas", y="propina", data=propinas);
# size es el número de personas

In [None]:
"""
Una opción es agregar algo de ruido aleatorio ("jitter") a los valores discretos
para que la distribución de esos valores sea más clara. Tenga en cuenta que
la fluctuación de fase se aplica solo a los datos del diagrama de dispersión
y no influye en el ajuste de la línea de regresión:
"""
sns.lmplot(x="personas", y="propina", data=propinas, x_jitter=.1);

In [None]:
"""
Una segunda opción es colapsar sobre las observaciones en cada contenedor
discreto para trazar una estimación de tendencia central junto con un intervalo
de confianza:
"""
sns.lmplot(x="personas", y="propina", data=propinas, x_estimator=np.mean);

#### Adaptación de diferentes tipos de modelos

---

El modelo de regresión lineal simple utilizado anteriormente es muy sencillo de ajustar, sin embargo, no es apropiado para algunos tipos de conjuntos de datos. El conjunto de datos del cuarteto de Anscombe muestra algunos ejemplos en los que la regresión lineal simple proporciona una estimación idéntica de una relación en la que la inspección visual simple muestra claramente las diferencias. Por ejemplo, en el primer caso, la regresión lineal es un buen modelo:

In [None]:
anscombe = sns.load_dataset("anscombe")

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
           ci=None, scatter_kws={"s": 80});

In [None]:
# La relación lineal en el segundo conjunto de datos es la misma,
# pero el gráfico muestra claramente que este no es un buen modelo:

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           ci=None, scatter_kws={"s": 80});

In [None]:
# En presencia de este tipo de relaciones de orden superior,
# lmplot() y regplot() puede ajustarse a un modelo de regresión polinómica
# para explorar tipos simples de tendencias no lineales en el conjunto de datos:

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           order=2, ci=None, scatter_kws={"s": 80});

# Observe el argumento order=2

In [None]:
# Un problema diferente lo plantean las observaciones "atípicas" que se
# desvían por alguna otra razón que no sea la relación principal en estudio:

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'III'"),
           ci=None, scatter_kws={"s": 80});

In [None]:
# En presencia de valores atípicos, puede ser útil ajustar una regresión robusta,
# que utiliza una función de pérdida diferente para reducir los residuos
# relativamente grandes:

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'III'"),
           robust=True, ci=None, scatter_kws={"s": 80});

# **Variables binaria y regresión Logística**

[Regresión Logística](https://es.wikipedia.org/wiki/Regresi%C3%B3n_log%C3%ADstica)

Videos sobre la Justificación de la Regresión Logística:

[Regresion Logistica: Introduccion](https://www.youtube.com/watch?v=gcvml4gwyrg&list=RDCMUCbdsyFBdG0Fmjroqk-ZoPcg&start_radio=1&t=33)



In [None]:
propinas.head(3)

In [None]:
propinon = propinas.propina / propinas.cuenta

In [None]:
propinon

In [None]:
# Creando una variable dicotomica (binaria)
propinon = (propinas.propina / propinas.cuenta)   > 0.1

In [None]:
propinon.head(5)

In [None]:
propinas["propinon"] = (propinas.propina / propinas.cuenta) > 0.1

In [None]:
propinas.head()

In [None]:
# Cuando la variable es binaria, la regresión lineal simple también "funciona"
# pero proporciona predicciones inverosímiles:
import seaborn as sns
tips = sns.load_dataset("tips")

tips["big_tip"] = (tips.tip / tips.total_bill) > .15

sns.lmplot(x="total_bill", y="big_tip", data=tips,
           y_jitter=.03);

# Observe la definición de una nueva variable llamada big_tip, que se agrega
# al conjunto de datos tips. Se ve claramente que es una proporción de las
# propinas (tip) sobre la cuenta total (total_bill), pero categoriza a las que
# son mayores al 15% (> 0.15)

In [None]:
# Observe que la nueva variable es una variable dicotómica con valores
# True aquellas proporciones mayores de 15%
tips.big_tip

In [None]:
# La solución en este caso es ajustar una regresión logística, de modo que la
# línea de regresión muestre la probabilidad estimada de un valor dado de
# y = 1 para un valor dado de x
sns.lmplot(x="total_bill", y="big_tip", data=tips,
           logistic=True, y_jitter=.03);

In [None]:
import seaborn as sns

In [None]:
p = sns.load_dataset("tips")

In [None]:
p.head(3)

In [None]:
p.columns

In [None]:
columnas = ("cuenta","propina","sexo","fuma","dia","hora","personas")

In [None]:
p.columns = columnas

In [None]:
p.head(3)

In [None]:
sns.relplot(x="cuenta",y="propina",data=p)

In [None]:
sns.relplot(x="cuenta",y="propina", hue="sexo",col="hora",data=p)

In [None]:
sns.relplot(x="cuenta",y="propina",hue="hora",row="sexo",data=p)

In [None]:
sns.relplot(x="cuenta",y="propina",hue="sexo",col="hora",row="dia",data=p)

In [None]:
# REGRESIONES LINEALES CON ANSCONMBE Y GRAFICA DE RESIDUALES
a = sns.load_dataset("anscombe")

In [None]:
a.head(3)

In [None]:
sns.regplot(x="x",y="y",data=a.query("dataset=='I' "))

In [None]:
sns.residplot(x="x",y="y",data=a.query("dataset=='I'"))

In [None]:
sns.regplot(x="x",y="y",data=a.query("dataset=='II'"))

In [None]:
sns.residplot(x="x",y="y",data=a.query("dataset=='II'"))

In [None]:
sns.regplot(x="x",y="y",data=a.query("dataset=='II'"),order=2)

In [None]:
sns.residplot(x="x",y="y",data=a.query("dataset=='II'"),order=2)

In [None]:
# Tenga en cuenta que la estimación de la regresión logística es
# considerablemente más computacionalmente intensiva (esto también es cierto
# para la regresión robusta) que la regresión simple, y como el intervalo de
# confianza alrededor de la línea de regresión se calcula utilizando un
# procedimiento de arranque, es posible que desee desactivarlo para una
# más rápido iteración (usando ci=None).

# Un enfoque completamente diferente es ajustar una regresión no paramétrica
# usando un lowess más suave
# [lowess smoother](https://en.wikipedia.org/wiki/Local_regression).
# Este enfoque tiene la menor cantidad de
# supuestos, aunque es computacionalmente intensivo y, por lo tanto,
# los intervalos de confianza actualmente no se calculan en absoluto:
sns.lmplot(x="cuenta", y="propina", data=p,lowess=True);

In [None]:
sns.residplot(x="cuenta", y="propina", data=p,
           lowess=True);

In [None]:
# The residplot() function can be a useful tool for checking whether the simple
# regression model is appropriate for a dataset. It fits and removes a simple
# linear regression and then plots the residual values for each observation.
# Ideally, these values should be randomly scattered around y = 0:

sns.residplot(x="x", y="y", data=a.query("dataset == 'I'"),
              scatter_kws={"s": 10});

#

In [None]:
# If there is structure in the residuals, it suggests that simple linear
# regression is not appropriate:

sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
              scatter_kws={"s": 80});

#### Condicionamiento a otras variables

---

Las gráficas anteriores muestran muchas formas de explorar la relación entre un par de variables. Sin embargo, a menudo, una pregunta más interesante es "¿cómo cambia la relación entre estas dos variables en función de una tercera variable?" Aquí es donde aparece la diferencia entre **regplot()** y **lmplot()**.

Mientras que **regplot()** siempre muestra una relación única, **lmplot()** combina **regplot()** con **FacetGrid** para proporcionar una interfaz fácil para mostrar una regresión lineal en gráficos "facetados" que le permiten explorar interacciones con hasta tres **variables categóricas** adicionales.

---

La mejor manera de separar una relación es trazar ambos niveles en los mismos ejes y usar el color para distinguirlos:
---

In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips);

In [None]:
# In addition to color, it’s possible to use different scatterplot markers
# to make plots the reproduce to black and white better.
# You also have full control over the colors used:

sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips,
           markers=["o", "x"], palette="Set1");

#

In [None]:
# To add another variable, you can draw multiple “facets” which each level
# of the variable appearing in the rows or columns of the grid:

sns.lmplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips);

In [None]:
sns.lmplot(x="total_bill", y="tip", hue="smoker",
           col="time", row="sex", data=tips);

# PARA ESTUDIAR, wikipedia

---

[Regresión lineal](https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal)

# EJERCICIO: Verifique que la variable dependiente cloro esta relacionada linealmente con la variable independiente semanas.

Los datos que se muestran en la siguiente celda, son los datos de Draper y Smith (1998), consisten de n = 44 muestras.

Contiene datos de la cantidad de cloro en muestras de un producto en función del número de semanas desde que se produjo.

Puede descargar el libro [Aquí](https://www.academia.edu/32080496/Applied_Regression_Analysis_Norman_R._Draper_Harry_Smith_.pdf?auto=download)

**Página 505: Chapter 24. an Introduction to Nonlinear Stimation**.

**El dato y la expliación del experimento de la producción de cloro se encuentra en la página 519 en: Table 24.2. Percent of Available Chlorine in a Unit of Product.**

El ejemplo se explica en la página 518 en la sección:
**24.3 An Example** y la ecuación es la 24.3.2.

# [Statgraphics Online](http://statvision.com/statgraphics_online.htm)

STATGRAPHICS Online es un paquete estadístico que se ejecuta dentro de un navegador web. Puede ingresar datos directamente en el editor de datos o leer datos de archivos de texto, archivos de Excel u otros formatos comunes. Los cálculos se realizan de forma remota en un servidor web y los resultados se devuelven a su navegador como HTML con imágenes gráficas incorporadas.

El acceso a Statgraphics Online está disponible mediante la compra de una suscripción mensual. Los suscriptores pueden ingresar sus propios datos, cargar datos desde sus propias computadoras y crear y almacenar scripts. También puede hacer una demostración del programa como invitado, pero estará restringido a analizar solo los conjuntos de datos de muestra proporcionados.

In [None]:
semanas=[8,8,10,10,10,10,12,12,12,12,14,14,14,16,16,16,18,18,
        20,20,20,22,22,22,24,24,24,26,26,26,28,28,30,30,30,32,
        32,34,36,36,38,38,40,42]

cloro = [0.49,0.49,0.48,0.47,0.48,0.47,0.46,0.46,0.45,0.43,0.45,
        0.43,0.43,0.44,0.43,0.43,0.46,0.45,0.42,0.42,0.43,0.41,
        0.41,0.40,0.42,0.40,0.40,0.41,0.40,0.41,0.41,0.40,0.40,
        0.40,0.38,0.41,0.40,0.40,0.41,0.38,0.40,0.40,0.39,0.39]

In [None]:
import seaborn as sns
import scipy.stats
from scipy.stats import shapiro
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Crea un DataFrame de pandas con los vectores semanas y cloro
d = {'semanas': semanas, 'cloro': cloro}
df = pd.DataFrame(data=d)
df

In [None]:
# Guardamos el data frame
df.to_csv("cloro.csv")

In [None]:
dir(scipy.stats)

In [None]:
# Miramos la normalidad de la variable dependiente:cloro
from scipy.stats import shapiro

# Realiza la prueba con la función shapiro
s,p = shapiro(cloro)
# Mira si p es menor que 0.05 se rechaza la normalidad de la variable
if p < 0.05:
    print("La variable cloro NO se distribuye normalmente: p-Valor = ",p)
elif p >= 0.05:
    print("La variable cloro SI se distribuye normalmente: p-Valor = ",p)

In [None]:
# Importo las funciones pearsonr(), spearmanr() y kendalltau() que realizan
# una prueba para ver si hay o no correlación lineal entre dos variables cuantitativas
from scipy.stats import pearsonr, spearmanr, kendalltau

In [None]:
# Devuelve dos valores el segundo valor es la probabilidad
# Si este valor es menor que 0.05 entonces las dos variables
# están correlacionadas
pearsonr(df.semanas,df.cloro)

In [None]:
spearmanr(df.semanas,df.cloro)

In [None]:
kendalltau(df.semanas,df.cloro)

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.corr()

In [None]:
sns.relplot(x="semanas",y="cloro",data=df)

In [None]:
sns.regplot(x="semanas",y="cloro",data=df)

In [None]:
sns.residplot(x="semanas",y="cloro",data=df)

In [None]:
sns.regplot(x="semanas",y="cloro",data=df,order=2)

In [None]:
sns.residplot(x="semanas",y="cloro",data=df,order=2)

In [None]:
sns.regplot(x="semanas",y="cloro",data=df,robust=True)

In [None]:
sns.residplot(x="semanas",y="cloro",data=df,robust=True)

[Ajuste no lineal](https://marceluda.github.io/python-para-fisicos/tuto/analisis/ajuste-no-lineal/)

Se desea ajustar el siguiente modelo a los datos:

$$
chlorine =  a+(0.49-a)*\exp^{(-b*(semanas-8))}
$$

Este modelo, sugerido por un experto en el área, contiene dos incógnitas: a, el valor asintótico basal que se alcanza con valores grandes de weeks, y b, la tasa exponencial de decaimiento.

Puede descargar el libro [Aquí](https://www.academia.edu/32080496/Applied_Regression_Analysis_Norman_R._Draper_Harry_Smith_.pdf?auto=download)

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.optimize import curve_fit

In [None]:
def f(x, a, b):
    return a + (0.49 -a)*np.exp(-b*(x-8))

semanas=[8,8,10,10,10,10,12,12,12,12,14,14,14,16,16,16,18,18,
        20,20,20,22,22,22,24,24,24,26,26,26,28,28,30,30,30,32,
        32,34,36,36,38,38,40,42]

cloro = [0.49,0.49,0.48,0.47,0.48,0.47,0.46,0.46,0.45,0.43,0.45,
        0.43,0.43,0.44,0.43,0.43,0.46,0.45,0.42,0.42,0.43,0.41,
        0.41,0.40,0.42,0.40,0.40,0.41,0.40,0.41,0.41,0.40,0.40,
        0.40,0.38,0.41,0.40,0.40,0.41,0.38,0.40,0.40,0.39,0.39]

x = semanas
y = cloro

res,cov = curve_fit(f,x,y)

print(res)
print(cov)

xx = np.linspace(8,40,50)
fig,axes=plt.subplots()
axes.scatter(x,y)
axes.plot(xx,f(xx,0.39014001,0.1016327))

# **TALLER REGRESION LINEAL Y NO LINEAL CON R**

SUGERENCIAS:
1. Puede utilizar R magit aquí en colaboratory, ó
2. Desarrolle el notebook de R en kaggle para mayor comodidad

**Objetivos**. Ajustar los datos de secado en función del tiempo a modelos lineales y no lineales

**PROCEDIMIENTO**
1. Cargue los datos del dataset “Humedades.xls”
2. Seleccione los datos en Excel de tiempo y humedad para la temperatura de 40 grados y cree un dataset h40
3. Haga lo mismo para las demás temperaturas y cree los datasets h50, h60, h70 y h80
4. Intente ajustar los lineas suponiendo una relación lineal (Recuerde que el secado sigue una caída exponencial de acuerdo a la ley de enfriamiento de Newton)
5. Ajuste a cada uno de los siguientes modelos:

**MODELO DE HENDERSON & PABIS**
$$
r1 <- nls(humedad ~  a * exp(-k * tiempo), trace=TRUE)
$$

**MODELO DE LEWIS (a=1)**
$$
r2 <- nls(humedad ~  exp(-k * tiempo), trace=TRUE)
$$

**MODELO DE PAGE**
$$
r3 <- nls(humedad ~  exp(-k * tiempo^n), trace=TRUE)
$$

**MODELO DE LOS DOS TÉRMINOS**
$$
r4 <- nls(humedad ~  A1*exp(-B * tiempo) + A2*exp(B*tiempo), trace=TRUE)
$$

**MODELO DE PAGE MODIFICADO**
$$
r5 <- nls(humedad ~  exp((k * tiempo)^n), trace=TRUE)
$$

**MODELO DE THOMPSON**
$$
r6 <- nls(humedad ~ a*log(tiempo)+b*(log(tiempo))^2, trace=TRUE)
$$

**MODELO DE WANG Y SINGH**
$$
r7 <- nls(humedad ~ 1+a*tiempo+b*tiempo^2, trace=TRUE)
$$

**hacemos un anova para ver cual modelo se ajusta mejor, significancia de los modelos**

**LA BONDAD DEL AJUSTE SERÁ PARA EL MAYOR R^2 Y LOS MENORES ssr y sse**

a=anova(r1, r2, r3, r4,r7)

**SIGNIFICANCIA DEL MODELO**
**LA BONDAD DEL AJUSTE SERÁ PARA EL MAYOR R² Y LOS MENORES ssr y sse**

**EL CALCULO DE R²: VER MONTGOMERY PAGINA 464**
$$
R^2=SSr/SSt=1-SSe/SSt
$$

$$
r_2r1=1-sum(resid(r1)^2)/sum((humedad-mean(humedad))^2)
$$

**R^2: VER MONTGOMERY  PAGINA 464**

$$
sser1=sum(resid(r1)^2)
$$

$$
sstr1=sum((humedad-mean(humedad))^2)
$$

$$
ssrr1=sstr1-sser1
$$
**VER MONTGOMERY PAGINA 451**

# EJERCICIO: En el conjunto de datos agregados, Verifique que la variable dependiente rcompc (Resistencia a la compresión del concreto en kg/cm2) está relacionada linealmente con la variable independiente rcompa (Resistencia a la compresión del agregado en kg/cm2)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd

In [None]:
# Cargo el archivo de excel
archivo = pd.ExcelFile("/content/drive/MyDrive/2025_SEM_2/1_1_ESTADISTICA_2025_S_2/Datasets_2025_2/DATOS_2025_SEM_2.xlsx")
# Muestro los nombres de las hojas, para ver cómo están escritas
archivo.sheet_names

In [None]:
# Conocido el nombre de la hoja que me interesa la cargo con la función parse()
agregados = archivo.parse("Agregados")

In [None]:
# Si conozco el nombre de la hoja puedo cargarla pasando su nombre
# en el argumento sheet_name=, utilizando la función read_excel de pandas
agregados = pd.read_excel("/content/drive/MyDrive/2025_SEM_2/1_1_ESTADISTICA_2025_S_2/Datasets_2025_2/DATOS_2025_SEM_2.xlsx",sheet_name="Agregados")

In [None]:
# Miro las primeras lineas
agregados.head(3)

In [None]:
# Importo el módulo seaborn
import seaborn as sns

In [None]:
# Trazo el gráfico de dispersión
sns.relplot(x="rcompa",y="rcompc",data=agregados)

In [None]:
# Importo las funciones para probar la normalidad y la correlación
from scipy.stats import shapiro, pearsonr, spearmanr,kendalltau

In [None]:
# Pruebo la hipótesis nula de rcompc es normal
shapiro(agregados.rcompc)

In [None]:
# Pruebo la hipótesis de rcompa y recompc están correlacionadas linealmente
# Uso spearmanr o kendalltau porque no es normal rcompc
spearmanr(agregados.rcompa,agregados.rcompc)

In [None]:
sns.regplot(x="rcompa",y="rcompc",data=agregados)

In [None]:
sns.residplot(x="rcompa",y="rcompc",data=agregados)

In [None]:
sns.regplot(x="rcompa",y="rcompc",data=agregados,robust=True)

In [None]:
sns.residplot(x="rcompa",y="rcompc",data=agregados,robust=True)