In [None]:
# Celda 1: Instalación de librerías necesarias
# Ejecuta esto en tu entorno si las librerías no están instaladas.
# !pip install pandas numpy matplotlib seaborn scikit-learn

In [None]:
# Celda 2: Verificación de instalación
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

print("¡Todas las librerías se importaron correctamente!")

In [None]:
# Celda 3: Configuración inicial
import warnings
warnings.filterwarnings('ignore')

# Configurar el estilo de las gráficas
plt.style.use('seaborn')
sns.set_palette("husl")

In [None]:
# Celda 4: Carga y preparación de datos
# Cargar los datos
df = pd.read_csv('fertility_Diagnosis.csv', sep=';')

# Mapear las estaciones a valores más interpretables
season_map = {-1: 'Invierno', -0.33: 'Primavera', 0.33: 'Verano', 1: 'Otoño'}
df['Season_Name'] = df['Season'].map(season_map)

# Mostrar las primeras filas y la información del dataset
print("Primeras filas del dataset:")
print(df.head())
print("\nInformación del dataset:")
print(df.info())

In [None]:
# Celda 5: Análisis Exploratorio de Datos - Primera Gráfica
plt.figure(figsize=(12, 6))
diagnosis_by_season = pd.crosstab(df['Season_Name'], df['Diagnosis'], normalize='index') * 100
diagnosis_by_season.plot(kind='bar', stacked=True)
plt.title('Distribución de Diagnósticos por Estación')
plt.xlabel('Estación')
plt.ylabel('Porcentaje')
plt.legend(title='Diagnóstico', bbox_to_anchor=(1.05, 1))
plt.tight_layout()
plt.show()

In [None]:
# Celda 6: Análisis Exploratorio de Datos - Segunda Gráfica
plt.figure(figsize=(10, 6))
for diagnosis in df['Diagnosis'].unique():
    mask = df['Diagnosis'] == diagnosis
    plt.scatter(df[mask]['Age'], df[mask]['Sitting_hours'], 
               label=f'Diagnóstico {diagnosis}', alpha=0.6)

plt.title('Relación entre Edad y Horas Sentado por Diagnóstico')
plt.xlabel('Edad (normalizada)')
plt.ylabel('Horas Sentado (normalizada)')
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Celda 7: Análisis Exploratorio de Datos - Tercera Gráfica
plt.figure(figsize=(10, 8))
numeric_cols = ['Season', 'Age', 'Childish_diseases', 'Accident_or_trauma',
                'Surgical_intervention', 'High_fevers', 'Alcohol_consumption',
                'Smoking_habit', 'Sitting_hours']
corr_matrix = df[numeric_cols].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlación entre Variables')
plt.tight_layout()
plt.show()

In [None]:
# Celda 8: Análisis Estadístico
print("Estadísticas Descriptivas:")
print(df.describe())

print("\nDistribución de Diagnósticos:")
print(df['Diagnosis'].value_counts(normalize=True) * 100)

In [None]:
# Celda 9: Modelado Predictivo
# Preparar los datos
X = df.drop(['Diagnosis', 'Season_Name'], axis=1)
y = df['Diagnosis']

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

# Evaluar el modelo
y_pred = rf.predict(X_test)

print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

# Importancia de características
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': rf.feature_importances_
}).sort_values('importance', ascending=False)

print("\nImportancia de Variables:")
print(feature_importance)