## 1.  Explorando y normalizando datos de diabetes

In [20]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import RobustScaler
from scipy.stats import zscore
import seaborn as sns



In [2]:
df = pd.read_csv('../csvs/diabetes.csv')

# 2. Calcular estadísticas descriptivas para entender mejor los datos:
# - Media, mediana y desviación estándar de al menos tres columnas numéricas de tu elección.

#Primera columa haciendo la media, mediana y desviación creando otras columnas
df["Ps_mean"] = round(df["Pregnancies"].mean(), 2)
df["Ps_median"] = df["Pregnancies"].median()
df["Ps_desviation"] = round(df["Pregnancies"].std(), 2)

#Segunda columna
bloodPressure_mean = round(df["BloodPressure"].mean(), 2)
bloodPressure_median = round(df["BloodPressure"].median(), 2)
bloodPressure_std = round(df["BloodPressure"].std(), 2)
print("Blood pressure mean: ",bloodPressure_mean)
print("Blood pressure median: ",bloodPressure_median)
print("Blood pressure deviation",bloodPressure_std)

#Tercera columna
skinThickness_mean = round(df["SkinThickness"].mean(), 2)
skinThickness_median = round(df["SkinThickness"].median(), 2)
skinThickness_std = round(df["SkinThickness"].std(), 2)
print("\nSkin thickness mean: ",skinThickness_mean)
print("Skin thickness median: ",skinThickness_median)
print("Skin thickness deviation",skinThickness_std)

# 3. Detectar valores atípicos usando el rango intercuartílico (IQR).

percentil_25 = df["Glucose"].quantile(0.25) 
percentil_75 = df["Glucose"].quantile(0.75)
iqr = percentil_75 - percentil_25
limite_inferior = percentil_25 - 1.5 * iqr
limite_superior = percentil_75 + 1.5 * iqr
print(f"\nLimite superior: {limite_superior}\nLimite inferior: {limite_inferior}")

valores_atipicos = np.array(df['Glucose'])
for i in valores_atipicos:  
    if i > limite_superior or i < limite_inferior: 
        print("Valor atípico: ", i)

# 4. Normalizar una de las variables con Z-score y otra con Min-Max Scaling.

df["Insulin_zscore"] = zscore(df["Insulin"])
scaler = RobustScaler()
df["Insulin_scaler"] = scaler.fit_transform(df[["Insulin"]]) 

# 5. **Clasificar los valores de glucosa** en categorías ("Bajo", "Normal", "Alto") aplicando una función personalizada.

def clasificar_glucosa(valor):
    if valor < 70:
        return "Bajo"
    elif valor < 140:
        return "Normal"
    else:
        return "Alto"

df["categoria_glucosa"] = df["Glucose"].apply(clasificar_glucosa) 


# 6. **Agrupar los pacientes por alguna variable categórica** y calcular el promedio de otra variable dentro de cada grupo.

agrupacion = df.groupby("Age")["BMI"].mean()
print("Promedio de BMI segun la edad: ", round(agrupacion, 2))

df

Blood pressure mean:  69.11
Blood pressure median:  72.0
Blood pressure deviation 19.36

Skin thickness mean:  20.54
Skin thickness median:  23.0
Skin thickness deviation 15.95

Limite superior: 202.125
Limite inferior: 37.125
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Promedio de BMI segun la edad:  Age
21    27.82
22    29.51
23    31.50
24    32.57
25    31.94
26    34.92
27    31.95
28    33.64
29    33.54
30    30.03
31    34.02
32    32.32
33    32.34
34    31.16
35    33.78
36    31.72
37    32.08
38    35.57
39    31.98
40    33.54
41    35.26
42    34.98
43    36.89
44    34.16
45    34.96
46    34.52
47    34.57
48    29.98
49    32.02
50    31.22
51    33.98
52    33.48
53    30.50
54    30.80
55    27.02
56    31.70
57    29.70
58    32.43
59    26.97
60    28.74
61    30.00
62    28.95
63    30.78
64    25.00
65    31.60
66    30.38
67    28.77
68    35.60
69    13.40
70    32.50
72    19.60
81    25.90
Name: BMI, dtype: float

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Ps_mean,Ps_median,Ps_desviation,Insulin_zscore,Insulin_scaler,categoria_glucosa
0,6,148,72,35,0,33.6,0.627,50,1,3.85,3.0,3.37,-0.692891,-0.239686,Alto
1,1,85,66,29,0,26.6,0.351,31,0,3.85,3.0,3.37,-0.692891,-0.239686,Normal
2,8,183,64,0,0,23.3,0.672,32,1,3.85,3.0,3.37,-0.692891,-0.239686,Alto
3,1,89,66,23,94,28.1,0.167,21,0,3.85,3.0,3.37,0.123302,0.499018,Normal
4,0,137,40,35,168,43.1,2.288,33,1,3.85,3.0,3.37,0.765836,1.080550,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0,3.85,3.0,3.37,0.870031,1.174853,Normal
764,2,122,70,27,0,36.8,0.340,27,0,3.85,3.0,3.37,-0.692891,-0.239686,Normal
765,5,121,72,23,112,26.2,0.245,30,0,3.85,3.0,3.37,0.279594,0.640472,Normal
766,1,126,60,0,0,30.1,0.349,47,1,3.85,3.0,3.37,-0.692891,-0.239686,Normal


## 2. Análisis de Ventas en el Boston Housing Dataset

Utilizando el dataset de **Boston Housing**, realiza los siguientes análisis sobre la columna **MEDV** (valor medio de las viviendas en $1000s):
1. **Cálculo de valores extremos**:
    - Obtén el valor **mínimo** y **máximo** de la columna **MEDV**.
    - Calcula el **percentil 25 y 75** de **MEDV**.
    - Calcula el **rango intercuartílico (IQR)** de **MEDV**.
2. **Detección de valores atípicos**:
    - Encuentra los **valores atípicos** usando la regla de 1.5 * IQR.
    - Imprime cuántos valores atípicos hay y cuáles son.
3. **Normalización de precios**:
    - Aplica **RobustScaler** para normalizar la columna **MEDV**.
4. **Clasificación de precios**:
    - Crea una nueva columna que clasifique las viviendas en **"Bajo"**, **"Medio"** o **"Alto"** según los siguientes criterios:
        - "Bajo" si el valor está por debajo del percentil 25.
        - "Medio" si está entre el percentil 25 y 75.
        - "Alto" si está por encima del percentil 75. 

In [3]:

import pandas as pd 
import numpy as np
from sklearn.preprocessing import RobustScaler

df = pd.read_csv("../csvs/BostonHousing.csv")

#Valores mínimo y máximo
minimo = df['medv'].min()
maximo = df['medv'].max()

#Percentiles 25 y 75, IQR
percentil_25 = df["medv"].quantile(0.25)
percentil_75 = df["medv"].quantile(0.75) 
iqr =  percentil_75 - percentil_25 

#Valores atípicos
limite_inferior = percentil_25 - 1.5 * iqr
limite_superior = percentil_75 + 1.5 * iqr
medv = np.array(df['medv'])
atipicos = medv[(medv > limite_superior) | (medv < limite_inferior)] #Este tipo de filtrado requiere operadores lógicos, con numpy no funciona OR

print(f"Valores atípicos ({atipicos.size}): {atipicos}")

#Normalización con RobustScaler
scaler = RobustScaler()
df["medv_normalizado"] = scaler.fit_transform(df[["medv"]]) #el scaler requiere una matriz de 2D, por lo que le he añadido un corchete más y ya

#Columna casíficando por bajo medio o alto
def clasificar_valores (valor):
    if valor < percentil_25:
        return "Bajo"
    elif valor > percentil_25 and valor < percentil_75:
        return "Medio"
    else:
        return "Alto"
#Añado los percentiles al df para comprobar que se están clasificando correctamente.
df["percentil_25"] = percentil_25 
df["percentil_75"] = percentil_75

df["clasificacion_medv"] = df["medv"].apply(clasificar_valores)

df



Valores atípicos (40): [38.7 43.8 41.3 50.  50.  50.  50.  37.2 39.8 37.9 50.  37.  50.  42.3
 48.5 50.  44.8 50.  37.6 46.7 41.7 48.3 42.8 44.  50.  43.1 48.8 50.
 43.5 45.4 46.  50.  37.3 50.  50.  50.  50.  50.   5.   5. ]


Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv,medv_normalizado,percentil_25,percentil_75,clasificacion_medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0,0.351097,17.025,25.0,Medio
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6,0.050157,17.025,25.0,Medio
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1.692790,17.025,25.0,Alto
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1.529781,17.025,25.0,Alto
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2,1.880878,17.025,25.0,Alto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4,0.150470,17.025,25.0,Medio
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6,-0.075235,17.025,25.0,Medio
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9,0.338558,17.025,25.0,Medio
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0,0.100313,17.025,25.0,Medio


## 4. Manipulación de datos con Pandas

In [18]:
from sklearn.datasets import load_breast_cancer

# Cargar el dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Añadir la columna 'target' (maligno o benigno)
df['target'] = data.target

# Mostrar las primeras filas para ver cómo está estructurado el DataFrame
print(df.head())

"""
Ejercicio 1 - Ejercicio 1 - Mergear columnas: Crea un nuevo DataFrame que contenga solo dos columnas de características (por ejemplo, 'mean radius' y 'mean texture'). Crea otro DataFrame que contenga la columna 'target' que indica si el tumor es maligno o benigno. Fusiona ambos DataFrames. Muestra las primeras filas de este nuevo DataFrame. Aprovecha para probar el resto de parámetros vistos en clase. Prueba también a mergear con merge() añadiendo al DataFrame de la columna target otra columna ‘mean_radius’ y utiliza esta columna como clave en los dos DataFrames.
"""

df_caracteristicas = pd.DataFrame({
    "mean radius": [0,0,0,0],
    "mean texture": [0,0,0,0],
})

df_target = pd.DataFrame({
    "target": ["maligno", "benigno", "benigno", "maligno"],
    "mean radius": [1,0,0,0]
})

df_concat = pd.concat([df_caracteristicas, df_target], axis = 1)
df_merge = pd.merge(df_caracteristicas, df_target, how ="inner", on = "mean radius")
print(df_concat)
print("Merge:\n", df_merge)


   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst area  \
0             

## 6. Trabajando con Series en Pandas

In [26]:
# Cargar el dataset Titanic
titanic = sns.load_dataset('titanic')

# Seleccionar la columna 'Age' como Serie
age_series = titanic['age']

# Mostrar las primeras filas de la Serie 'age'
print(age_series.head())

#Ejercicio 1 - Muestra toda la información sobre las columnas y el DataFrame
titanic.info()

#Ejercicio 2 - Acceso a elementos:
print(age_series[0])


0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB
22.