# Conociendo nuestros datos de pingüinos. 🗺🧭🐧

## Instalar librerías necesarias

```py
!pip install --upgrade pip
!pip install palmerpenguins numpy pandas seaborn matplotlib empiricaldist statsmodels sklearn pyjanitor janitor
```

## Importar librerías

In [9]:
import empiricaldist
import janitor
import matplotlib.pyplot as plt
import numpy as np
import palmerpenguins
import pandas as pd
import scipy.stats
import seaborn as sns
import sklearn.metrics
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats as ss
import session_info

ModuleNotFoundError: No module named 'empiricaldist'

## Establecer apariencia general de los gráficos

In [2]:
%matplotlib inline
sns.set_style(style='whitegrid')
sns.set_context(context='notebook')
plt.rcParams['figure.figsize'] = (11, 9.4)
penguin_color = {

    'Adelie': '#ff6602ff',
    'Gentoo': '#0f7175ff',
    'Chinstrap': '#c65dc9ff'
}

NameError: name 'sns' is not defined

## Cargar los datos

### Utilizando el paquete `palmerpenguins`

#### Datos crudos

In [0]:
df_peng = palmerpenguins.load_penguins_raw()
df_peng

#### Datos previamente procesados

In [None]:
pre_df_peng = palmerpenguins.load_penguins()
pre_df_peng

In [None]:
pre_df_peng.info()

### Utilizando los conjuntos de datos de `seaborn`

In [None]:
sns_pre_df_peng = sns.load_dataset('penguins')
sns_pre_df_peng

### Utilizando la interfaz de `Deepnote`

Links de importación de datos:

- [Conjunto de datos crudos](https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins_raw.csv).
- [Conjunto de datos previamente procesados](https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins.csv).

In [None]:
link_crud_df_peng = pd.read_csv('https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins_raw.csv')
link_crud_df_peng

In [None]:
link_pre_df_peng = pd.read_csv('https://raw.githubusercontent.com/allisonhorst/palmerpenguins/master/inst/extdata/penguins.csv')
link_pre_df_peng

# Colecta y validación de datos

## ¿Qué tipo de dato son las variables del conjunto de datos?

In [None]:
pre_df_peng.dtypes

## ¿Cuántas variables de cada tipo de dato tenemos en el conjunto de datos?

In [None]:
(
    pre_df_peng
    .dtypes
    .value_counts()
)

## ¿Cuántas variables y observaciones tenemos en el conjunto de datos?

In [None]:
pre_df_peng.shape

## ¿Existen valores nulos explícitos en el conjunto de datos?

In [None]:
(
    pre_df_peng
    .isnull()
    .any()
)

## De tener observaciones con valores nulos, ¿cuántas tenemos por cada variable?

In [None]:
(
    pre_df_peng
    .isnull()
    .sum()
)

## ¿Cuántos valores nulos tenemos en total en el conjunto de datos?

In [None]:
(
    pre_df_peng
    .isnull()
    .sum()
    .sum()
)

## ¿Cuál es la proporción de valores nulos por cada variable?

In [None]:
(
    pre_df_peng
    .isnull()
    .melt()
    .pipe(
        lambda df: (
            sns.displot(
                data=df,
                y='variable',
                hue='value',
                multiple='fill',
                aspect=2
            )
        )
    )
)

## ¿Cómo podemos visualizar los valores nulos en todo el conjunto de datos?

In [None]:
(
    pre_df_peng
    .isnull()
    .transpose()
    .pipe(
        lambda df: (
            sns.heatmap(
                data=df
            )
        )
    )
)

## ¿Cuántas observaciones perdemos si eliminamos los datos faltantes?

In [None]:
neo_pre_df_peng = (
    pre_df_peng
    .dropna()
)

neo_pre_df_peng

# Conteos y proporciones

## Preludio: ¿Qué estadísticos describen el conjunto de datos?

### Todas las variables

In [None]:
neo_pre_df_peng.describe(include='all')

### Solo las numéricas

In [None]:
neo_pre_df_peng.describe(include=[np.number])

### Solo categóricas - 1

In [None]:
neo_pre_df_peng.describe(include=object)

### Solo categóricas - 2

In [None]:
(
    neo_pre_df_peng
    .astype({
        'species': 'category',
        'island' : 'category',
        'sex' : 'category'
    })
    .describe(include='category')
)

## ¿Cómo visualizar los conteos?

### Pandas

In [None]:
(
    neo_pre_df_peng
    .species
    .value_counts()
    .plot(
        kind='bar'
    )
)

### Seaborn

In [None]:
sns.catplot(
    data=neo_pre_df_peng,
    x='species',
    kind='count',
    palette=penguin_color
)

In [None]:
(
    neo_pre_df_peng
    .value_counts('species', sort=True)
    .reset_index(name='count')
    .pipe(
        lambda df: (
            sns.barplot(
                data=df,
                x='species',
                y='count',
                palette=penguin_color
            )
        )
    )
)

### ¿Cómo visualizar las proporciones?

In [None]:
(
   neo_pre_df_peng
   .add_column('x','')
   .pipe(
       lambda df: (
           sns.displot(
               data=df,
               x='x',
               hue='species',
               multiple='fill'
           )
       )
   )
)

In [None]:
sns.catplot(
    data=neo_pre_df_peng,
    x='island',
    kind='count'
)

In [None]:
sns.catplot(
    data=neo_pre_df_peng,
    x='sex',
    kind='count'
)

# Medidas de tendencia central

## Media o promedio

In [None]:
neo_pre_df_peng.body_mass_g.mean()

In [None]:
np.mean(neo_pre_df_peng.body_mass_g)

In [None]:
neo_pre_df_peng.mean()

## Mediana

In [None]:
neo_pre_df_peng.median()

## Moda

In [None]:
neo_pre_df_peng.mode()

In [None]:
neo_pre_df_peng.describe(include=object)

# Medidas de dispersión

## ¿Cuál es el valor máximo de las variables?

In [None]:
neo_pre_df_peng.max(numeric_only=True)

## ¿Cuál es el valor mínimo de las variables?

In [None]:
neo_pre_df_peng.min(numeric_only=True)

## ¿Cuál es el rango de las variables?

In [None]:
rango = [neo_pre_df_peng.max(numeric_only=True) - neo_pre_df_peng.min(numeric_only=True)]
rango

## ¿Cuál es la desviación estándar de las variables?

In [None]:
neo_pre_df_peng.std()

In [None]:
neo_pre_df_peng.mean() + neo_pre_df_peng.std()

In [None]:
neo_pre_df_peng.mean() - neo_pre_df_peng.std()

## ¿Cuál es el rango intercuartílico?

In [None]:
neo_pre_df_peng.quantile(0.75)

In [None]:
neo_pre_df_peng.quantile(0.25)

In [None]:
rango_inter = neo_pre_df_peng.quantile(0.75) - neo_pre_df_peng.quantile(0.25)
rango_inter

In [None]:
(
    neo_pre_df_peng
    .quantile(q=[0.75, 0.50, 0.25])
    .transpose()
    .rename_axis('variable')
    .reset_index()
    .assign(
        iqr=lambda df: df[0.75] - df[0.25]
    )
)

## ¿Cómo puedo visualizar la distribución de una variable?

### Histograma

In [None]:
sns.histplot(
    data=neo_pre_df_peng,
    x='body_mass_g'
)

plt.axvline(
    x=neo_pre_df_peng.body_mass_g.mean(),
    color='y'
)

plt.axvline(
    x=neo_pre_df_peng.body_mass_g.median(),
    color='r'
)


### Diagrama de caja / boxplot

In [None]:
sns.boxplot(
    data=neo_pre_df_peng,
    x='body_mass_g'
)

### Limitaciones

In [None]:
def freedman_diaconis_bindwidth(x: pd.Series) -> float:
    """Find optimal bindwidth using Freedman-Diaconis rule."""

    IQR = x.quantile(0.75) - x.quantile(0.25)
    N = x.size

    return 2 * IQR / N ** (1 / 3)

In [None]:
sns.histplot(
    data=neo_pre_df_peng,
    x='body_mass_g',
    binwidth=90
)
plt.axvline(
    x=neo_pre_df_peng.body_mass_g.mean(),
    color='y'
)

plt.axvline(
    x=neo_pre_df_peng.body_mass_g.median(),
    color='r'
)


# Distribuciones: PMFs, CDFs y PDFs

## Funciones de probabilidad de masas (PMFs)

### Utilizando `seaborn`

In [None]:
sns.histplot(
    data=neo_pre_df_peng,
    x='flipper_length_mm',
    binwidth=1,
    stat='probability'
)

plt.show()

### Utilizando `empiricaldist`

In [None]:
neo_flipper_len = empiricaldist.Pmf.from_seq(
    neo_pre_df_peng.flipper_length_mm,
    normalize=True
)

In [None]:
neo_flipper_len.bar()

In [None]:
neo_flipper_len(190) #ya me calcula la probabilidad de tener un pingüino con ese tamaño de ala

In [None]:
neo_pre_df_peng.flipper_length_mm.max()

## Funciones empirícas de probabilidad acumulada (ECDFs)

### Utilizando `seaborn`

In [None]:
sns.ecdfplot(
    data=neo_pre_df_peng,
    x='flipper_length_mm'
)

plt.show()

### Utilizando `empiricaldist`

In [None]:
re_ne_flipp = empiricaldist.Cdf.from_seq(
    neo_pre_df_peng.flipper_length_mm,
    normalize=True
)

re_ne_flipp

In [None]:
re_ne_flipp.plot()

q = 200
p = re_ne_flipp.forward(q)

plt.vlines(
    x=q,
    ymin=0,
    ymax=p,
    colors='black',
    linestyle='dashed'
)

plt.hlines(
    y=p,
    xmin=neo_flipper_len.qs[0],
    xmax=q,
    colors='black',
    linestyle='dashed'
)

plt.plot(q, p, 'ro')

print(q, p)

In [None]:
re_ne_flipp.step()

p_1 = 0.25 
p_2 = 0.75

ps = (0.25, 0.75)
qs = re_ne_flipp.inverse(ps)

plt.vlines(
    x=qs,
    ymin=0,
    ymax=ps,
    colors='black',
    linestyle='dashed'
)

plt.hlines(
    y=ps,
    xmin=neo_flipper_len.qs[0],
    xmax=qs,
    colors='black',
    linestyle='dashed'
)

plt.scatter(
    x=qs,
    y=ps,
    color='red',
    zorder=2
)

plt.show()

### Comparando distribuciones

In [None]:
sns.ecdfplot(
    data=neo_pre_df_peng,
    x='flipper_length_mm',
    hue='species',
    palette=penguin_color
)

plt.show()

## Funciones de densidad de probabilidad

In [None]:
sns.kdeplot(
    data=neo_pre_df_peng,
    x='flipper_length_mm',
    bw_method=0.1
)

plt.show()

In [None]:
stats = neo_pre_df_peng.body_mass_g.describe()
stats

In [None]:
xs = np.linspace(stats['min'], stats['max'])
ys = scipy.stats.norm(stats['mean'], stats['std']).cdf(xs)

plt.plot(xs, ys, color='green', linestyle='dashed')

empiricaldist.Cdf.from_seq(
    neo_pre_df_peng.body_mass_g,
    normalize=True
).plot()

plt.show()

In [None]:
xs = np.linspace(stats['min'], stats['max'])
ys = scipy.stats.norm(stats['mean'], stats['std']).pdf(xs)

plt.plot(xs, ys, color='green', linestyle='dashed')

sns.kdeplot(
    data=neo_pre_df_peng,
    x='body_mass_g'
)

plt.show()

# Ley de los Grandes Números y Teorema del Límite Central

## Ley de los Grandes Números

In [None]:
dice = empiricaldist.Pmf.from_seq([1,2,3,4,5,6])
dice.bar()

In [None]:
for sample_size in (1e2, 1e3, 1e4, 1e5, 1e6):
    sample_size = int(sample_size)
    values = dice.sample(sample_size)
    sample_pmf = empiricaldist.Pmf.from_seq(values)

    plt.figure(figsize=(5,5))
    sample_pmf.bar()

    plt.axhline(y=1/6, color='red', linestyle='dashed')
    plt.ylim([0, 0.50])
    plt.title(f'Sample size: {sample_size}')

## Teorema del Límite Central

In [None]:
neo_pre_df_peng.sex.value_counts(normalize=True)

In [None]:
sex_numeric = neo_pre_df_peng.sex.replace(['male','female'],[1,0])
sex_numeric

In [None]:
number_samples = 1000
sample_size=35

samples_df = pd.DataFrame()

np.random.seed(42)
for i in range(1, number_samples + 1):
    sex_numeric_sample = sex_numeric.sample(sample_size, replace=True).to_numpy()
    sample_name = f'sample_{i}'
    samples_df[sample_name] = sex_numeric_sample

male_population_mean = samples_df.mean().mean()
print(f"Estimated percentage of male penguins in population is: {male_population_mean * 100:.4f}%")

In [None]:
sample_means_binomial = pd.DataFrame(samples_df.mean(), columns=['sample_mean'])
sns.kdeplot(data=sample_means_binomial)
plt.axvline(x=sex_numeric.mean(), color='red', linestyle='dashed')
plt.show()

In [None]:
sample_size_experiment = pd.DataFrame(
    [[i, samples_df.iloc[:, 0:i].mean().mean().mean()] for i in range(1, number_samples + 1)],
    columns=['sample_size', 'estimated_mean']
)

In [None]:
sns.scatterplot(
    data=sample_size_experiment,
    x='sample_size',
    y='estimated_mean'
)

plt.axhline(
    y=sex_numeric.mean(),
    color='red',
    linestyle='dashed'
)

plt.ylim([sex_numeric.mean() - 0.20, sex_numeric.mean() + 0.20])

# Estableciendo relaciones: Gráfica de puntos

In [None]:
sns.scatterplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    style='island'
)

plt.show()

In [None]:
sns.displot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    rug=True
)

plt.show()

In [None]:
sns.displot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    rug=True,
    kind='kde'
)

plt.show()

In [None]:
sns.jointplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species'
)

plt.show()

# Estableciendo relaciones: Gráficos de violín y boxplots

In [None]:
sns.scatterplot(
    data=neo_pre_df_peng,
    x='species',
    y='body_mass_g',
    hue='island'
)

plt.show()

In [None]:
sns.stripplot(
    data=neo_pre_df_peng,
    x='species',
    y='body_mass_g',
    hue='island'
)

In [None]:
sns.boxplot(
    data=neo_pre_df_peng,
    x='species',
    y='body_mass_g'
)

In [None]:
ax = sns.boxplot(
    data=neo_pre_df_peng,
    x='body_mass_g',
    y='species'
)

ax = sns.stripplot(
    data=neo_pre_df_peng,
    x='body_mass_g',
    y='species',
    color='.3'
)

In [None]:
ax = sns.violinplot(
    data=neo_pre_df_peng,
    x='species',
    y='flipper_length_mm',
    color='.8'
)

ax = sns.stripplot(
    data=neo_pre_df_peng,
    x='species',
    y='flipper_length_mm',
    palette=penguin_color
)

plt.show()

In [None]:
sns.swarmplot(
    data=neo_pre_df_peng,
    x='island',
    y='body_mass_g',
    hue='species',
    palette=penguin_color
)

plt.show()

# Estableciendo relaciones: Matrices de correlación

## ¿Existe una correlación lineal entre alguna de nuestras variables?

In [None]:
neo_pre_df_peng.corr()

## ¿Cómo puedo visualizar los coeficientes de correlación?

In [None]:
sns.heatmap(
    data=neo_pre_df_peng.corr(),
    cmap=sns.diverging_palette(20, 230, as_cmap=True),
    center=0,
    vmin=-1,
    vmax=1,
    linewidths=0.5,
    annot=True
)

plt.show()

In [None]:
sns.clustermap(
    data=neo_pre_df_peng.corr(),
    cmap=sns.diverging_palette(20, 230, as_cmap=True),
    center=0,
    vmin=-1,
    vmax=1,
    linewidths=0.5,
    annot=True
)

plt.show()

## ¿Cómo podría representar una variable categórica como númerica discreta?

In [None]:
neo_pre_df_peng = (
    neo_pre_df_peng
    .assign(
        numeric_sex = lambda df:df.sex.replace(['female','male'], [0,1])
    )
)

In [None]:
sns.clustermap(
    data=neo_pre_df_peng.corr(),
    cmap=sns.diverging_palette(20, 230, as_cmap=True),
    center=0,
    vmin=-1,
    vmax=1,
    linewidths=0.5,
    annot=True
)

plt.show()

## ¿Cuál es una limitante de los coeficientes de correlación lineal?

### Solo nos ayuda a determinar la posible existencia de una correlación lineal; sin embargo, su ausenecia no significa que no exista otro tipo de correlación

In [None]:
x = np.linspace(-100, 100, 100)
y = x**2
y += np.random.normal(0, 1000, x.size)

sns.scatterplot(
    x=x, y=y
)

print(np.corrcoef(x,y))

plt.show()

In [None]:
x = np.linspace(-100, 100, 100)
y = x**3
y += np.random.normal(0, 1000, x.size)

sns.scatterplot(
    x=x, y=y
)

print(np.corrcoef(x,y))

plt.show()

In [None]:
sns.scatterplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    style='island'
)

print(np.corrcoef(x,y))
plt.show()

### El coeficiente de correlación no nos habla del impacto de la relación

In [None]:
np.random.seed(42)
x1 = np.linspace(0,100,100)
y1 = 0.1* x1 +3 + np.random.uniform(-2,2,size=x1.size)

sns.scatterplot(x=x1, y=y1)


x2 = np.linspace(0,100,100)
y2 = 0.5* x1 +1 + np.random.uniform(0,60,size=x2.size)

sns.scatterplot(x=x2, y=y2)

plt.legend(["1","2"])

print(np.corrcoef(x1,y1))
print(np.corrcoef(x2,y2))

# Estableciendo relaciones: Análisis de regresión simple

In [None]:
res_1 = scipy.stats.linregress(x=x1, y=y1)
res_2 = scipy.stats.linregress(x=x2, y=y2)

print(res_1, res_2, sep='\n')

In [None]:
sns.scatterplot(x=x1, y=y1)

fx1 = np.array([x1.min(), x1.max()])
fy1 = res_1.intercept + res_1.slope * fx1

plt.plot(fx1, fy1)


sns.scatterplot(x=x2, y=y2)

fx2 = np.array([x2.min(), x2.max()])
fy2 = res_2.intercept + res_2.slope * fx2

plt.plot(fx2, fy2)

plt.legend(["1", "1","2","2"])

plt.show()

In [None]:
sns.scatterplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm'
    )

res_neo_pin = scipy.stats.linregress(
    x=neo_pre_df_peng.bill_length_mm,y=neo_pre_df_peng.bill_depth_mm)

fx1 = np.array([neo_pre_df_peng.bill_length_mm.min(), neo_pre_df_peng.bill_length_mm.max()])
fy1 = res_neo_pin.intercept + res_neo_pin.slope * fx1

plt.plot(fx1,fy1) 

print(res_neo_pin)

plt.show()

In [None]:
sns.lmplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    height=10
    )

plt.show()

# Limitaciones del análisis de regresión simple

## La regresión lineal simple no es simétrica

In [None]:
is_x_01 = neo_pre_df_peng.bill_length_mm
is_y_01 = neo_pre_df_peng.bill_depth_mm

exp_01_x__y = scipy.stats.linregress(x = is_x_01, y = is_y_01)
exp_01_y__x = scipy.stats.linregress(x = is_y_01, y = is_x_01)

print(exp_01_x__y, exp_01_y__x, sep='\n')

In [None]:
sns.scatterplot(
    x=is_x_01,
    y=is_y_01
)

fx__1 = np.array([is_x_01.min(), is_x_01.max()])
fy__1 = exp_01_x__y.intercept + exp_01_x__y.slope * fx__1

plt.plot(fx__1,fy__1)
plt.show()

In [None]:
sns.scatterplot(
    x=is_y_01,
    y=is_x_01
)

fx__2 = np.array([is_y_01.min(), is_y_01.max()])
fy__2 = exp_01_y__x.intercept + exp_01_y__x.slope * fx__2

plt.plot(fx__2,fy__2)
plt.show()

In [None]:
sns.scatterplot(
    x=is_x_01,
    y=is_y_01
)

plt.plot(fx__1,fy__1)
plt.plot(fy__2,fx__2)
plt.show()

## La regresión no nos dice nada sobre la causalidad, pero existen herramientas para separar las relaciones entre múltiples variables

In [None]:
(
    smf.ols(
        formula = 'bill_length_mm ~ bill_depth_mm',
        data = neo_pre_df_peng
    )
    .fit()
    .params
)

In [None]:
(
    smf.ols(
        formula = 'bill_depth_mm ~ bill_length_mm',
        data = neo_pre_df_peng
    )
    .fit()
    .params
)

# Análisis de regresión múltiple

## Olvidé mi báscula para pesar a los pingüinos, ¿cuál sería la mejor forma de capturar ese dato?

### Creando modelos

#### Modelo 1

In [None]:
model_1 = (
    smf.ols(
        formula = 'body_mass_g ~ bill_length_mm',
        data = neo_pre_df_peng
    )
    .fit()
)

model_1.summary()

#### Modelo 2

In [None]:
model_2 = (
    smf.ols(
        formula = 'body_mass_g ~ bill_length_mm + bill_depth_mm',
        data = neo_pre_df_peng
    )
    .fit()
)

model_2.summary()

#### Modelo 3

In [None]:
model_3 = (
    smf.ols(
        formula = 'body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm',
        data = neo_pre_df_peng
    )
    .fit()
)

model_3.summary()

#### Modelo 4

In [None]:
model_4 = (
    smf.ols(
        formula = 'body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm + C(sex)',
        data = neo_pre_df_peng
    )
    .fit()
)

model_4.summary()

#### Modelo 5

In [None]:
model_5 = (
    smf.ols(
        formula = 'body_mass_g ~ flipper_length_mm + C(sex)',
        data = neo_pre_df_peng
    )
    .fit()
)

model_5.summary()

### Visualizando resultados

#### Creación de tabla de resultados

In [None]:
model_result_df = pd.DataFrame(
    dict(
        actual_values = neo_pre_df_peng.body_mass_g,
        predict_model_1 = model_1.predict(),
        predict_model_2 = model_2.predict(),
        predict_model_3 = model_3.predict(),
        predict_model_4 = model_4.predict(),
        predict_model_5 = model_5.predict(),
        species = neo_pre_df_peng.species,
        sex = neo_pre_df_peng.sex
    )
)

model_result_df

#### ECDFs

In [None]:
sns.ecdfplot(
    data=model_result_df
)

plt.show()

In [None]:
sns.ecdfplot(
    data=model_result_df.select_columns(['actual_values', 'predict_model_3'])
)

plt.show()

#### PDFs

In [None]:
sns.kdeplot(
    data=model_result_df
)

plt.show()

In [None]:
sns.kdeplot(
    data=model_result_df,
    cumulative=True
)

plt.show()

#### ¿Qué pudimos haber encontrado antes de hacer los modelos?

In [None]:
sns.lmplot(
    data=neo_pre_df_peng,
    x='flipper_length_mm',
    y='body_mass_g',
    hue='sex',
    height=10
)

plt.show()

# Análisis de regresión logística

## ¿Podemos crear un modelo que nos ayude a definir si un pingüino es macho o hembra?

In [None]:
smf.logit(
    formula='numeric_sex ~ flipper_length_mm + bill_length_mm + bill_depth_mm + C(island)',
    data=neo_pre_df_peng
).fit().summary()

## Exploración de nuestras variables categóricas

In [None]:
neo_pre_df_peng.value_counts(['island','sex']).reset_index(name='count')

## ¿Podemos definir un modelo que nos ayude a identificar si un pingüino pertenece a determinada clase?

In [None]:
neo_pre_df_peng.species.unique()

In [None]:
neo_pre_df_peng = (
    neo_pre_df_peng
    .assign(is_adeline = lambda df:df.species.replace(['Adelie', 'Gentoo', 'Chinstrap'],[1,0,0]))
)

In [None]:
model_is_adelie = smf.logit(
    formula='is_adeline ~ flipper_length_mm + C(sex)',
    data=neo_pre_df_peng
).fit()

model_is_adelie.params

In [None]:
is_adelie_pred = pd.DataFrame(
    dict(
        actual_adelie = neo_pre_df_peng.is_adeline,
        predicted_value = model_is_adelie.predict().round()
    )
)

is_adelie_pred

In [None]:
(
    is_adelie_pred
    .value_counts(['actual_adelie','predicted_value'])
    .reset_index(name='count')
)

In [None]:
print(
    sklearn.metrics.confusion_matrix(
        is_adelie_pred.actual_adelie,
        is_adelie_pred.predicted_value
    )
)

sklearn.metrics.accuracy_score(
        is_adelie_pred.actual_adelie,
        is_adelie_pred.predicted_value  
)

# Paradoja de Simpson

In [None]:
sns.scatterplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y= 'bill_depth_mm'
)

plt.show()

In [None]:
sns.lmplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y= 'bill_depth_mm',
    height=10,
    hue='species'
)

plt.show()

In [None]:
sns.pairplot(
    data=neo_pre_df_peng,
    hue='species'
)

plt.show()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=7e7e97b0-597f-4df7-b58a-24ce7188244b' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>