<a href="https://colab.research.google.com/github/AngelTroncoso/Analisis_de_Datos_Google/blob/main/Regresion_lineal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Cargar el conjunto de datos
Las primeras líneas de código configuran el entorno de codificación y cargan los datos. Como ya sabrá, puede recurrir a la función import para importar los paquetes necesarios. Utiliza los alias convencionales que necesites. El ejemplo siguiente hace referencia a un conjunto de datos sobre pingüinos disponible a través del paquete seaborn.

In [1]:
# Import packages
import pandas as pd
import seaborn as sns

# Load dataset
penguins = sns.load_dataset("penguins")

# Examine first 5 rows of dataset
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


#Datos limpios
Después de cargar los datos, se limpiaron para crear un subconjunto de datos para los fines de nuestro curso. El ejemplo aísla sólo los pingüinos barbijo del conjunto de datos y elimina las filas con datos que faltan.

El índice del marco de datos se restablece mediante la
función
 reset_index(). Cuando se subconjunta un marco de datos, se conservan los índices originales de las filas. Por ejemplo, supongamos que en las filas 2 y 3 hay pingüinos Adelia o Papúa. Al subconjuntar los datos sólo para los pingüinos de barbijo, su nuevo marco de datos aparecería en la fila 1 y luego en la fila 4, ya que se eliminaron las filas 2 y 3. Al restablecer el índice del marco de datos, los números de fila se convierten en filas 1, 2, 3, etc. El Marco de datos se vuelve más fácil de trabajar en el futuro.

Revise el código siguiente. Te animamos a que ejecutes el código en tu propio notebook.

In [2]:
# Subset just Chinstrap penguins from data set
chinstrap_penguins = penguins[penguins["species"] == "Chinstrap"]

# Reset index of dataframe
chinstrap_penguins.reset_index(inplace = True, drop = True)

# Configuración para la construcción del modelo
Ahora que los datos están limpios, puede trazarlos y construir un modelo de regresión lineal. En primer lugar, extraiga la variable X, bill_depth_mm, y la variable Y, flipper_length_mm, que son su objetivo.

In [3]:
# Subset Data
ols_data = chinstrap_penguins[["bill_depth_mm", "flipper_length_mm"]]

Como este ejemplo utiliza modelos estadísticos, guarde la fórmula de mínimos cuadrados ordinarios como una cadena para que el ordenador pueda entender cómo ejecutar la regresión. La variable Y, flipper_length_mm va primero, seguida de una tilde y el nombre de la variable X, bill_depth_mm.

In [4]:
# Write out formula
ols_formula = "flipper_length_mm ~ bill_depth_mm"

#Construir el modelo
Para construir el modelo, primero tendrá que importar la función ols desde la interfaz statsmodels.formula.api

In [5]:
# Import ols function
from statsmodels.formula.api import ols

A continuación, introduce la fórmula y los datos guardados en la función ols. A continuación, utilice el método fit para ajustar el modelo a los datos. Por último, utilice el método summary para obtener los resultados del modelo de regresión.

In [6]:
# Build OLS, fit model to data
OLS = ols(formula = ols_formula, data = ols_data)
model = OLS.fit()
model.summary()

0,1,2,3
Dep. Variable:,flipper_length_mm,R-squared:,0.337
Model:,OLS,Adj. R-squared:,0.327
Method:,Least Squares,F-statistic:,33.48
Date:,"Mon, 28 Apr 2025",Prob (F-statistic):,2.16e-07
Time:,14:00:40,Log-Likelihood:,-215.62
No. Observations:,68,AIC:,435.2
Df Residuals:,66,BIC:,439.7
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,128.6967,11.623,11.073,0.000,105.492,151.902
bill_depth_mm,3.6441,0.630,5.786,0.000,2.387,4.902

0,1,2,3
Omnibus:,1.35,Durbin-Watson:,1.994
Prob(Omnibus):,0.509,Jarque-Bera (JB):,0.837
Skew:,-0.255,Prob(JB):,0.658
Kurtosis:,3.19,Cond. No.,303.0


#Predicciones
Utilice el método
predict()
 del modelo, pasándole una matriz que contenga los valores de la(s) variable(s) independiente(s):

In [7]:
predictions = model.predict(chinstrap_penguins[["bill_depth_mm"]])

#Residuales
Utilice el atributo resid del modelo:

In [8]:
residuals = model.resid

In [13]:
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
import numpy as np

# Suponiendo que 'pingüinos' es su DataFrame
X = penguins[["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]].copy()  # Creación de una copia para evitar SettingWithCopyWarning
# Reemplace valores infinitos por NaN
X.replace([np.inf, -np.inf], np.nan, inplace=True)
# Quitar filas con los valores que faltan
X.dropna(inplace=True)
# Calcular VIF
vif = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif = zip(X.columns, vif)  # Zip con nombres de columna en lugar de todo el DataFrame
print(list(vif))

[('bill_length_mm', np.float64(114.15567788807301)), ('bill_depth_mm', np.float64(37.030948885319745)), ('flipper_length_mm', np.float64(145.7955929490496))]


# Codificación
Afortunadamente, no necesita calcular manualmente su estadístico de prueba 𝛸2 o determinar P a mano. Para ello, puede utilizar la
función chisquare()
 del paquete scipy.stats de Python. El siguiente código utiliza sus valores observados y esperados para calcular el estadístico de prueba chi-cuadrado y el Valor P. Tenga en cuenta que los grados de libertad se establecen en el número de frecuencias observadas menos uno. Esto puede ajustarse utilizando el parámetro ddof, pero tenga en cuenta que este parámetro representa k - 1 - ddof grados de libertad, donde k es el número de frecuencias observadas. Así que, por defecto, ddof=0 cuando se llama a la función, y el establecimiento de ddof=1 significa que sus grados de libertad se reducen en dos.

In [1]:
import scipy.stats as stats
observations = [650, 570, 420, 480, 510, 380, 490]
expectations = [500, 500, 500, 500, 500, 500, 500]
result = stats.chisquare(f_obs=observations, f_exp=expectations)
result

Power_divergenceResult(statistic=np.float64(97.6), pvalue=np.float64(7.943886923343835e-19))

# Codificación
Puede utilizar la
función chi2_contingency()
 del paquete scipy.stats para obtener el estadístico de prueba 𝛸2 y el Valor P de una prueba deindependencia 𝛸2. La función chi2_contingency() sólo necesita los valores observados; calculará los valores esperados por usted. Aquí está el código Python:

In [2]:
import numpy as np
import scipy.stats as stats
observations = np.array([[850, 450],[1300, 900]])
result = stats.contingency.chi2_contingency(observations, correction=False)
result

Chi2ContingencyResult(statistic=np.float64(13.660757846804358), pvalue=np.float64(0.00021898310129108426), dof=1, expected_freq=array([[ 798.57142857,  501.42857143],
       [1351.42857143,  848.57142857]]))