In [2]:
import pandas as pd 
import numpy as np
from sklearn.preprocessing import RobustScaler

## 1.  Explorando y normalizando datos de diabetes

In [1]:
"""
### **Contexto:**

Eres un científico de datos en un equipo de salud que investiga factores de riesgo para la diabetes. Te han entregado un conjunto de datos real que contiene información médica de pacientes, y tu tarea es analizarlo y normalizar algunas de sus variables clave para facilitar la detección de patrones.
### **Objetivos:**

1. **Cargar el dataset** de [Kaggle: Diabetes Data Set](https://www.kaggle.com/datasets/mathchi/diabetes-data-set).
2. **Calcular estadísticas descriptivas** para entender mejor los datos:
    - Media, mediana y desviación estándar de al menos tres columnas numéricas de tu elección.
3. **Detectar valores atípicos** usando el rango intercuartílico (IQR).
4. **Normalizar una de las variables** con Z-score y otra con Min-Max Scaling.
5. **Clasificar los valores de glucosa** en categorías ("Bajo", "Normal", "Alto") aplicando una función personalizada.
6. **Agrupar los pacientes por alguna variable categórica** y calcular el promedio de otra variable dentro de cada grupo. 
"""

'\n### **Contexto:**\n\nEres un científico de datos en un equipo de salud que investiga factores de riesgo para la diabetes. Te han entregado un conjunto de datos real que contiene información médica de pacientes, y tu tarea es analizarlo y normalizar algunas de sus variables clave para facilitar la detección de patrones.\n### **Objetivos:**\n\n1. **Cargar el dataset**\xa0de\xa0[Kaggle: Diabetes\xa0Data\xa0Set](https://www.kaggle.com/datasets/mathchi/diabetes-data-set).\n2. **Calcular estadísticas descriptivas**\xa0para entender mejor los datos:\n    - Media, mediana y desviación estándar de al menos tres columnas numéricas de tu elección.\n3. **Detectar valores atípicos**\xa0usando el rango intercuartílico (IQR).\n4. **Normalizar una de las variables**\xa0con Z-score y otra con Min-Max Scaling.\n5. **Clasificar los valores de glucosa**\xa0en categorías ("Bajo", "Normal", "Alto") aplicando una función personalizada.\n6. **Agrupar los pacientes por alguna variable categórica**\xa0y calc

## 2. Análisis de Ventas en el Boston Housing Dataset

Utilizando el dataset de **Boston Housing**, realiza los siguientes análisis sobre la columna **MEDV** (valor medio de las viviendas en $1000s):
1. **Cálculo de valores extremos**:
    - Obtén el valor **mínimo** y **máximo** de la columna **MEDV**.
    - Calcula el **percentil 25 y 75** de **MEDV**.
    - Calcula el **rango intercuartílico (IQR)** de **MEDV**.
2. **Detección de valores atípicos**:
    - Encuentra los **valores atípicos** usando la regla de 1.5 * IQR.
    - Imprime cuántos valores atípicos hay y cuáles son.
3. **Normalización de precios**:
    - Aplica **RobustScaler** para normalizar la columna **MEDV**.
4. **Clasificación de precios**:
    - Crea una nueva columna que clasifique las viviendas en **"Bajo"**, **"Medio"** o **"Alto"** según los siguientes criterios:
        - "Bajo" si el valor está por debajo del percentil 25.
        - "Medio" si está entre el percentil 25 y 75.
        - "Alto" si está por encima del percentil 75. 
5. **Clasificación por cuartiles**:
    - Usa `qcut` para dividir los precios en **4 categorías** de igual tamaño.

In [None]:
df = pd.read_csv("../csvs/BostonHousing.csv")

#Valores mínimo y máximo
minimo = df['medv'].min()
maximo = df['medv'].max()

#Percentiles 25 y 75, IQR
percentil_25 = df["medv"].quantile(0.25)
percentil_75 = df["medv"].quantile(0.75) 
iqr =  percentil_75 - percentil_25 

#Valores atípicos
limite_inferior = percentil_25 - 1.5 * iqr
limite_superior = percentil_75 + 1.5 * iqr
medv = np.array(df['medv'])
atipicos = medv[(medv > limite_superior) | (medv < limite_inferior)] #Este tipo de filtrado requiere operadores lógicos, con numpy no funciona OR

print(f"Valores atípicos ({atipicos.size}): {atipicos}")

#Normalización con RobustScaler
scaler = RobustScaler()
df["medv_normalizado"] = scaler.fit_transform(df[["medv"]]) #el scaler requiere una matriz de 2D, por lo que le he añadido un corchete más y ya

#Columna casíficando por bajo medio o alto
def clasificar_valores (valor):
    if valor < percentil_25:
        return "Bajo"
    elif valor > percentil_25 and valor < percentil_75:
        return "Medio"
    else:
        return "Alto"
    
#Añado los percentiles al df para comprobar que se están clasificando correctamente.
df["percentil_25"] = percentil_25 
df["percentil_75"] = percentil_75

df["clasificacion_medv"] = df["medv"].apply(clasificar_valores)

df["categorias_medv"] = pd.qcut(df["medv"] ,q=4, labels=["bajo", "medio-bajo", "medio-alto", "alto"])

df

Valores atípicos (40): [38.7 43.8 41.3 50.  50.  50.  50.  37.2 39.8 37.9 50.  37.  50.  42.3
 48.5 50.  44.8 50.  37.6 46.7 41.7 48.3 42.8 44.  50.  43.1 48.8 50.
 43.5 45.4 46.  50.  37.3 50.  50.  50.  50.  50.   5.   5. ]


Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv,medv_normalizado,percentil_25,percentil_75,clasificacion_medv,categorias_medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0,0.351097,17.025,25.0,Medio,medio-alto
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6,0.050157,17.025,25.0,Medio,medio-alto
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1.692790,17.025,25.0,Alto,alto
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1.529781,17.025,25.0,Alto,alto
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2,1.880878,17.025,25.0,Alto,alto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4,0.150470,17.025,25.0,Medio,medio-alto
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6,-0.075235,17.025,25.0,Medio,medio-bajo
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9,0.338558,17.025,25.0,Medio,medio-alto
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0,0.100313,17.025,25.0,Medio,medio-alto


## 3. Dominando Pandas

In [14]:
def cambiar_delimitador(contenido):
    return contenido.replace(",", "\t")

with open("../csvs/Catalog_v2.csv", "r") as file:
    contenido = file.read()

contenido_modificado = cambiar_delimitador(contenido)

with open("Catalog_v2_modificado.csv", "w") as file:
    file.write(contenido_modificado)

print("El archivo ha sido modificado y guardado como Catalog_v2_modificado.csv")

El archivo ha sido modificado y guardado como Catalog_v2_modificado.csv


In [None]:

# Sin parámetro sep, pandas no detecta bien el delimitador por lo que leerá toda la fila como una sola columna (asume que será una , por defecto, por lo que hay que especificárselo con sep)
df_sin_sep = pd.read_csv("Catalog_v2_modificado.csv")
print("Número de columnas sin sep:", df_sin_sep.shape[1]) 

# Con parámetro sep
df_con_sep = pd.read_csv("Catalog_v2_modificado.csv", sep="\t")
print("Número de columnas con sep:", df_con_sep.shape[1])  


Número de columnas sin sep: 1
Número de columnas con sep: 6


1. **Crear dos DataFrames de ejemplo**: Crea los siguientes dos DataFrames `df1` y `df2`:    
2. **Fusionar ambos DataFrames por la columna 'ID'**: Realiza una **fusión interna** de los dos DataFrames utilizando la columna `'ID'` como clave.
3. **Fusionar con una fusión externa**: Realiza una **fusión externa** (tipo `'outer'`) de los DataFrames para conservar todos los registros de ambos DataFrames.
4. **Fusionar con columnas de diferentes nombres**: Crea nuevos DataFrames `df1` y `df2` con columnas de clave diferentes (`'ID_cliente'` y `'ID_usuario'`, respectivamente). Luego, realiza una fusión utilizando estos nombres de columnas diferentes.

In [None]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5],
    'Salario': [25000, 45000, 35000]
})

fusion_interna = pd.merge(df1, df2, how='inner', on='ID')
print(fusion_interna)

fusion_externa = pd.merge(df1,df2, how="outer")
print(fusion_externa)

df_left = pd.DataFrame({
    'ID_cliente': [1,2,3,4],
    'cliente': ['Ana', 'Luis', 'Pedro', 'Marta']
})


df_right = pd.DataFrame({
    'ID_usuario': [4,2,3,9],
    'usuario': ['Ana', 'Luis', 'Pedro', 'Marta']
})

#En este caso, como en left el id 4 lo tiene Marta y en right lo tiene Ana, la fusión reflejará esa inconsistencia, uniendo por ids independientemente del valor que tenga cliente/usuario 
fusion_idsDiferentes = pd.merge(df_left, df_right, how='inner', left_on='ID_cliente', right_on='ID_usuario')
print(fusion_idsDiferentes)

#Para que esto no ocurra, le añadimos a los parametros left y right on tambien el campo cliente/usuario para que el inner nos devuelva la fusión de registros iguales en ambos criterios.
fusion_correcta = pd.merge(df_left, df_right, how='inner', left_on=['ID_cliente', 'cliente'], right_on=['ID_usuario', 'usuario'])
print(fusion_correcta)

df1


   ID Nombre  Salario
0   3  Pedro    25000
1   4  Marta    45000
   ID Nombre  Salario
0   1    Ana      NaN
1   2   Luis      NaN
2   3  Pedro  25000.0
3   4  Marta  45000.0
4   5    NaN  35000.0
   ID_cliente cliente  ID_usuario usuario
0           2    Luis           2    Luis
1           3   Pedro           3   Pedro
2           4   Marta           4     Ana
   ID_cliente cliente  ID_usuario usuario
0           2    Luis           2    Luis
1           3   Pedro           3   Pedro


Unnamed: 0,ID,Nombre
0,1,Ana
1,2,Luis
2,3,Pedro
3,4,Marta


Explorar otros formatos de tabla: Experimenta con diferentes valores para el parámetro tablefmt en la función tabulate, como 'fancy_grid',  'html',  'pipe'  y  'latex' , para visualizar el DataFrame en otros estilos de tabla.

In [38]:
from tabulate import tabulate

df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", "Marta"],
    "Edad": [25, 30, 22, 27],
    "País": ["México", "España", "Argentina", "Colombia"]
})
print("Tabla con formato fancy_grid:")
print(tabulate(df, headers="keys", tablefmt = "fancy_grid"))
print("\nTabla con formato latex:\n")
print(tabulate(df, headers="keys", tablefmt = "latex"))
print("\nTabla con formato pipe:\n")
print(tabulate(df, headers="keys", tablefmt = "pipe"))
print("\nTabla con formato html:\n")
print(tabulate(df, headers="keys", tablefmt = "html"))

Tabla con formato fancy_grid:
╒════╤══════════╤════════╤═══════════╕
│    │ Nombre   │   Edad │ País      │
╞════╪══════════╪════════╪═══════════╡
│  0 │ Ana      │     25 │ México    │
├────┼──────────┼────────┼───────────┤
│  1 │ Luis     │     30 │ España    │
├────┼──────────┼────────┼───────────┤
│  2 │ Pedro    │     22 │ Argentina │
├────┼──────────┼────────┼───────────┤
│  3 │ Marta    │     27 │ Colombia  │
╘════╧══════════╧════════╧═══════════╛

Tabla con formato latex:

\begin{tabular}{rlrl}
\hline
    & Nombre   &   Edad & País      \\
\hline
  0 & Ana      &     25 & México    \\
  1 & Luis     &     30 & España    \\
  2 & Pedro    &     22 & Argentina \\
  3 & Marta    &     27 & Colombia  \\
\hline
\end{tabular}

Tabla con formato pipe:

|    | Nombre   |   Edad | País      |
|---:|:---------|-------:|:----------|
|  0 | Ana      |     25 | México    |
|  1 | Luis     |     30 | España    |
|  2 | Pedro    |     22 | Argentina |
|  3 | Marta    |     27 | Colombia  |

T

## 4. Manipulación de datos con Pandas

1. **Ejercicio 1 - Mergear columnas:** Crea un nuevo DataFrame que contenga solo dos columnas de características (por ejemplo, 'mean radius' y 'mean texture'). Crea otro DataFrame que contenga la columna 'target' que indica si el tumor es maligno o benigno. Fusiona ambos DataFrames. Muestra las primeras filas de este nuevo DataFrame. Aprovecha para probar el resto de parámetros vistos en clase. Prueba también a mergear con merge() añadiendo al DataFrame de la columna target otra columna ‘mean_radius’ y utiliza esta columna como clave en los dos DataFrames.
2. **Ejercicio 2 - Agrupar valores:** Agrupa el DataFrame por la columna 'target' (que indica si el tumor es maligno o benigno) y calcula la media de las características para cada grupo. Muestra el resultado.
3. **Ejercicio 3 - Filtrado con `where()`:** Filtra los datos para mostrar solo los tumores malignos (cuando el valor de 'target' es 0) y muestra las primeras filas de este conjunto filtrado.
4. **Ejercicio 4 - Filtrado con condiciones:** Filtra el DataFrame para mostrar solo los tumores cuyo 'mean radius' sea mayor que 15. Muestra las primeras filas del resultado.

In [None]:
from sklearn.datasets import load_breast_cancer

# Cargar el dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Añadir la columna 'target' (maligno o benigno)
df['target'] = data.target

df2 = pd.DataFrame({
    'mean_radius':[17.99, 20.57, 19.69, 11.42],
    "mean_texture":[10.38, 17.77, 21.25, 20.38]
})
df_target = pd.DataFrame({
    'target': [0, 0, 1, 1],
    'mean_radius':[17.99, 20.57, 19.69, 38.42],
})

#Esto se podría hacer con el merge indicándole que use los índices de los df o con el concat directamente
df_fusionadoSinClave = pd.merge(df2,df_target, how='outer', left_index=True, right_index=True)
print("Fusionado a través de los índices del df:\n",df_fusionadoSinClave)
df_concat = pd.concat([df2,df_target], axis=1)
print("Fusionado con concat\n", df_concat)

df_fusionadoConClave = pd.merge(df2,df_target, how='inner', on='mean_radius')
print("Fusionado con clave:\n",df_fusionadoConClave)

agrupacion1= df.groupby('target')['mean radius'].mean()
agrupacion2= df.groupby('target')['mean texture'].mean()
print(agrupacion1)
print(agrupacion2)

tumores_malignos = df.where()

Fusionado a través de los índices del df:
    mean_radius_x  mean_texture  target  mean_radius_y
0          17.99         10.38       0          17.99
1          20.57         17.77       0          20.57
2          19.69         21.25       1          19.69
3          11.42         20.38       1          38.42
Fusionado con concat
    mean_radius  mean_texture  target  mean_radius
0        17.99         10.38       0        17.99
1        20.57         17.77       0        20.57
2        19.69         21.25       1        19.69
3        11.42         20.38       1        38.42
Fusionado con clave:
    mean_radius  mean_texture  target
0        17.99         10.38       0
1        20.57         17.77       0
2        19.69         21.25       1
target
0    17.462830
1    12.146524
Name: mean radius, dtype: float64
target
0    21.604906
1    17.914762
Name: mean texture, dtype: float64
