In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import RobustScaler
from scipy.stats import zscore
from sklearn.datasets import load_breast_cancer
from tabulate import tabulate

## **1.  Explorando y normalizando datos de diabetes**

### **Contexto:**

Eres un científico de datos en un equipo de salud que investiga factores de riesgo para la diabetes. Te han entregado un conjunto de datos real que contiene información médica de pacientes, y tu tarea es analizarlo y normalizar algunas de sus variables clave para facilitar la detección de patrones.

In [None]:
# 1. Cargar el dataset de Kaggle: Diabetes Data Set.

df = pd.read_csv('diabetes.csv')

# 2. Calcular estadísticas descriptivas para entender mejor los datos:
# - Media, mediana y desviación estándar de al menos tres columnas numéricas de tu elección.

#Primera columa haciendo la media, mediana y desviación creando otras columnas
df["Ps_mean"] = round(df["Pregnancies"].mean(), 2)
df["Ps_median"] = df["Pregnancies"].median()
df["Ps_desviation"] = round(df["Pregnancies"].std(), 2)

#Segunda columna
bloodPressure_mean = round(df["BloodPressure"].mean(), 2)
bloodPressure_median = round(df["BloodPressure"].median(), 2)
bloodPressure_std = round(df["BloodPressure"].std(), 2)
print("Blood pressure mean: ",bloodPressure_mean)
print("Blood pressure median: ",bloodPressure_median)
print("Blood pressure deviation",bloodPressure_std)

#Tercera columna
skinThickness_mean = round(df["SkinThickness"].mean(), 2)
skinThickness_median = round(df["SkinThickness"].median(), 2)
skinThickness_std = round(df["SkinThickness"].std(), 2)
print("\nSkin thickness mean: ",skinThickness_mean)
print("Skin thickness median: ",skinThickness_median)
print("Skin thickness deviation",skinThickness_std)

# 3. Detectar valores atípicos usando el rango intercuartílico (IQR).

percentil_25 = df["Glucose"].quantile(0.25) 
percentil_75 = df["Glucose"].quantile(0.75)
iqr = percentil_75 - percentil_25
limite_inferior = percentil_25 - 1.5 * iqr
limite_superior = percentil_75 + 1.5 * iqr
print(f"\nLimite superior: {limite_superior}\nLimite inferior: {limite_inferior}")

valores_atipicos = np.array(df['Glucose'])
for i in valores_atipicos:  
    if i > limite_superior or i < limite_inferior: 
        print("Valor atípico: ", i)

# 4. Normalizar una de las variables con Z-score y otra con Min-Max Scaling.

df["Insulin_zscore"] = zscore(df["Insulin"])
scaler = RobustScaler()
df["Insulin_scaler"] = scaler.fit_transform(df[["Insulin"]]) 

# 5. **Clasificar los valores de glucosa** en categorías ("Bajo", "Normal", "Alto") aplicando una función personalizada.

def clasificar_glucosa(valor):
    if valor < 70:
        return "Bajo"
    elif valor < 140:
        return "Normal"
    else:
        return "Alto"

df["categoria_glucosa"] = df["Glucose"].apply(clasificar_glucosa) 


# 6. **Agrupar los pacientes por alguna variable categórica** y calcular el promedio de otra variable dentro de cada grupo.

agrupacion = df.groupby("Age")["BMI"].mean()
print("Promedio de BMI segun la edad: ", round(agrupacion, 2))

df

Blood pressure mean:  69.11
Blood pressure median:  72.0
Blood pressure deviation 19.36

Skin thickness mean:  20.54
Skin thickness median:  23.0
Skin thickness deviation 15.95

Limite superior: 202.125
Limite inferior: 37.125
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Valor atípico:  0
Promedio de BMI segun la edad:  Age
21    27.82
22    29.51
23    31.50
24    32.57
25    31.94
26    34.92
27    31.95
28    33.64
29    33.54
30    30.03
31    34.02
32    32.32
33    32.34
34    31.16
35    33.78
36    31.72
37    32.08
38    35.57
39    31.98
40    33.54
41    35.26
42    34.98
43    36.89
44    34.16
45    34.96
46    34.52
47    34.57
48    29.98
49    32.02
50    31.22
51    33.98
52    33.48
53    30.50
54    30.80
55    27.02
56    31.70
57    29.70
58    32.43
59    26.97
60    28.74
61    30.00
62    28.95
63    30.78
64    25.00
65    31.60
66    30.38
67    28.77
68    35.60
69    13.40
70    32.50
72    19.60
81    25.90
Name: BMI, dtype: float

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Ps_mean,Ps_median,Ps_desviation,Insulin_zscore,Insulin_scaler,categoria_glucosa
0,6,148,72,35,0,33.6,0.627,50,1,3.85,3.0,3.37,-0.692891,-0.239686,Alto
1,1,85,66,29,0,26.6,0.351,31,0,3.85,3.0,3.37,-0.692891,-0.239686,Normal
2,8,183,64,0,0,23.3,0.672,32,1,3.85,3.0,3.37,-0.692891,-0.239686,Alto
3,1,89,66,23,94,28.1,0.167,21,0,3.85,3.0,3.37,0.123302,0.499018,Normal
4,0,137,40,35,168,43.1,2.288,33,1,3.85,3.0,3.37,0.765836,1.080550,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0,3.85,3.0,3.37,0.870031,1.174853,Normal
764,2,122,70,27,0,36.8,0.340,27,0,3.85,3.0,3.37,-0.692891,-0.239686,Normal
765,5,121,72,23,112,26.2,0.245,30,0,3.85,3.0,3.37,0.279594,0.640472,Normal
766,1,126,60,0,0,30.1,0.349,47,1,3.85,3.0,3.37,-0.692891,-0.239686,Normal


## **2. Análisis de Ventas en el Boston Housing Dataset**

Utilizando el dataset de **Boston Housing**, realiza los siguientes análisis sobre la columna **MEDV** (valor medio de las viviendas en $1000s):
1. **Cálculo de valores extremos**:
    - Obtén el valor **mínimo** y **máximo** de la columna **MEDV**.
    - Calcula el **percentil 25 y 75** de **MEDV**.
    - Calcula el **rango intercuartílico (IQR)** de **MEDV**.
2. **Detección de valores atípicos**:
    - Encuentra los **valores atípicos** usando la regla de 1.5 * IQR.
    - Imprime cuántos valores atípicos hay y cuáles son.
3. **Normalización de precios**:
    - Aplica **RobustScaler** para normalizar la columna **MEDV**.
4. **Clasificación de precios**:
    - Crea una nueva columna que clasifique las viviendas en **"Bajo"**, **"Medio"** o **"Alto"** según los siguientes criterios:
        - "Bajo" si el valor está por debajo del percentil 25.
        - "Medio" si está entre el percentil 25 y 75.
        - "Alto" si está por encima del percentil 75. 

In [None]:
df = pd.read_csv("BostonHousing.csv")

#Valores mínimo y máximo
minimo = df['medv'].min()
maximo = df['medv'].max()

#Percentiles 25 y 75, IQR
percentil_25 = df["medv"].quantile(0.25)
percentil_75 = df["medv"].quantile(0.75) 
iqr =  percentil_75 - percentil_25 

#Valores atípicos
limite_inferior = percentil_25 - 1.5 * iqr
limite_superior = percentil_75 + 1.5 * iqr
medv = np.array(df['medv'])
atipicos = medv[(medv > limite_superior) | (medv < limite_inferior)] #Este tipo de filtrado requiere operadores lógicos, con numpy no funciona OR

print(f"Valores atípicos ({atipicos.size}): {atipicos}")

#Normalización con RobustScaler
scaler = RobustScaler()
df["medv_normalizado"] = scaler.fit_transform(df[["medv"]]) #el scaler requiere una matriz de 2D, por lo que le he añadido un corchete más y ya

#Columna casíficando por bajo medio o alto
def clasificar_valores (valor):
    if valor < percentil_25:
        return "Bajo"
    elif valor > percentil_25 and valor < percentil_75:
        return "Medio"
    else:
        return "Alto"
#Añado los percentiles al df para comprobar que se están clasificando correctamente.
df["percentil_25"] = percentil_25 
df["percentil_75"] = percentil_75

df["clasificacion_medv"] = df["medv"].apply(clasificar_valores)

df



Valores atípicos (40): [38.7 43.8 41.3 50.  50.  50.  50.  37.2 39.8 37.9 50.  37.  50.  42.3
 48.5 50.  44.8 50.  37.6 46.7 41.7 48.3 42.8 44.  50.  43.1 48.8 50.
 43.5 45.4 46.  50.  37.3 50.  50.  50.  50.  50.   5.   5. ]


Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv,medv_normalizado,percentil_25,percentil_75,clasificacion_medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0,0.351097,17.025,25.0,Medio
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6,0.050157,17.025,25.0,Medio
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1.692790,17.025,25.0,Alto
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1.529781,17.025,25.0,Alto
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2,1.880878,17.025,25.0,Alto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4,0.150470,17.025,25.0,Medio
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6,-0.075235,17.025,25.0,Medio
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9,0.338558,17.025,25.0,Medio
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0,0.100313,17.025,25.0,Medio


## **3. Dominando Pandas I**

### **Parte 1: Modificaciones al cargar el DataFrame**

**1. Cambiar el delimitador de campos**: Imagina que tienes un archivo CSV con delimitador por coma (`,`), pero en su lugar deseas usar tabulaciones (`\t`) para separar los valores. Para simular esta situación, utiliza una función que reemplace las comas por tabulaciones en el contenido del archivo (escoge cualquier CSV que hayas descargado para realizar los ejercicios anteriores. Este paso te permitirá ver cómo el delimitador cambia antes de cargar el archivo.

In [None]:
def cambiar_delimitador(contenido):
    return contenido.replace(",", "\t")

with open("../CSVs/Catalog_v2.csv", "r") as file:
    contenido = file.read()

contenido_modificado = cambiar_delimitador(contenido)

with open("../CSVs/Catalog_v2_modificado.csv", "w") as file:
    file.write(contenido_modificado)

print("El archivo ha sido modificado y guardado como Catalog_v2_modificado.csv")

El archivo ha sido modificado y guardado como Catalog_v2_modificado.csv


**2. Leer el DataFrame con el nuevo delimitador:** Utiliza el parámetro sep para cargar el DataFrame desde la variable archivo_modificado que ahora tiene tabulaciones como delimitador.

In [None]:
data2 = pd.read_csv("../CSVs/Catalog_v2_modificado.csv", sep='\t')
data2

Unnamed: 0,levelType,code,catalogType,name,description,sourceLink
0,CATEGORY,Street Lighting,PRODUCT,Street Lighting,Category code for Street Lighting,http://lighttree.com/Street Lighting
1,CATEGORY,Pedestrian Lighting,PRODUCT,Pedestrian Lighting,Category code for Pedestrian Lighting,http://lighttree.com/Pedestrian Lighting
2,CATEGORY,Traffic Signal Poles,PRODUCT,Traffic Signal Poles,Category code for Traffic Signal Poles,http://lighttree.com/Traffic Signal Poles
3,CATEGORY,Controls,PRODUCT,Controls,Category code for Controls,http://lighttree.com/Controls
4,CATEGORY,Downlights,PRODUCT,Downlights,Category code for Downlights,http://lighttree.com/Downlights
...,...,...,...,...,...,...
57,CATEGORY,Luminaire,ITEM,Luminaire,Category code for Luminaire,http://lighttree.com/Luminaire
58,CATEGORY,Mechanicals,ITEM,Mechanicals,Category code for Mechanicals,http://lighttree.com/Mechanicals
59,CATEGORY,Primary Chassis,ITEM,Primary Chassis,Category code for Primary Chassis,http://lighttree.com/Primary Chassis
60,CATEGORY,Primary Foundation,ITEM,Primary Foundation,Category code for Primary Foundation,http://lighttree.com/Primary Foundation


### **Parte 2: Fusiones de DataFrames**

**1. Crear dos DataFrames de ejemplo:** Crea los siguientes dos DataFrames df1 y df2:

In [None]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5],
    'Salario': [25000, 45000, 35000]
})

**2. Fusionar ambos DataFrames por la columna 'ID':** Realiza una fusión interna de los dos DataFrames utilizando la columna 'ID' como clave.

In [None]:
fusion_interna = pd.merge(df1, df2, how='inner', on="ID")
fusion_interna

Unnamed: 0,ID,Nombre,Salario
0,3,Pedro,25000
1,4,Marta,45000


**3. Fusionar con una fusión externa:** Realiza una fusión externa (tipo 'outer') de los DataFrames para conservar todos los registros de ambos DataFrames.

In [None]:
fusion_externa = pd.merge(df1, df2, how='outer')
fusion_externa

Unnamed: 0,ID,Nombre,Salario
0,1,Ana,
1,2,Luis,
2,3,Pedro,25000.0
3,4,Marta,45000.0
4,5,,35000.0


**4. Fusionar con columnas de diferentes nombres:** Crea nuevos DataFrames df1 y df2 con columnas de clave diferentes ('ID_cliente' y 'ID_usuario', respectivamente). Luego, realiza una fusión utilizando estos nombres de columnas diferentes.

In [None]:
df1 = pd.DataFrame({
    'ID_cliente': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta']
})

df2 = pd.DataFrame({
    'ID_usuario': [3, 4, 5],
    'Salario': [25000, 45000, 35000]
})

fusion_nombres = pd.merge(df1, df2, how='inner', left_on='ID_cliente', right_on='ID_usuario')
fusion_nombres

Unnamed: 0,ID_cliente,Nombre,ID_usuario,Salario
0,3,Pedro,3,25000
1,4,Marta,4,45000


### **Parte 3: Experimentar con formatos adicionales**

**1. Explorar otros formatos de tabla:** Experimenta con diferentes valores para el parámetro tablefmt en la función tabulate, como 'fancy_grid',  'html',  'pipe'  y  'latex' , para visualizar el DataFrame en otros estilos de tabla.

In [None]:
df1 = pd.DataFrame({
    'ID_cliente': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Pedro', 'Marta']
})

print(tabulate(df1, headers='keys', tablefmt='fancy_grid'))
print(tabulate(df1, headers='keys', tablefmt='html'))
print(tabulate(df1, headers='keys', tablefmt='pipe'))
print(tabulate(df1, headers='keys', tablefmt='latex'))

╒════╤══════════════╤══════════╕
│    │   ID_cliente │ Nombre   │
╞════╪══════════════╪══════════╡
│  0 │            1 │ Ana      │
├────┼──────────────┼──────────┤
│  1 │            2 │ Luis     │
├────┼──────────────┼──────────┤
│  2 │            3 │ Pedro    │
├────┼──────────────┼──────────┤
│  3 │            4 │ Marta    │
╘════╧══════════════╧══════════╛
<table>
<thead>
<tr><th style="text-align: right;">  </th><th style="text-align: right;">  ID_cliente</th><th>Nombre  </th></tr>
</thead>
<tbody>
<tr><td style="text-align: right;"> 0</td><td style="text-align: right;">           1</td><td>Ana     </td></tr>
<tr><td style="text-align: right;"> 1</td><td style="text-align: right;">           2</td><td>Luis    </td></tr>
<tr><td style="text-align: right;"> 2</td><td style="text-align: right;">           3</td><td>Pedro   </td></tr>
<tr><td style="text-align: right;"> 3</td><td style="text-align: right;">           4</td><td>Marta   </td></tr>
</tbody>
</table>
|    |   ID_cliente |

## **4. Manipulación de datos con Pandas**

In [2]:
# Cargar el dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Añadir la columna 'target' (maligno o benigno)
df['target'] = data.target

# Mostrar las primeras filas para ver cómo está estructurado el DataFrame
print(df.head())

   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst area  \
0             

**Ejercicio 1 - Mergear columnas:** Crea un nuevo DataFrame que contenga solo dos columnas de características (por ejemplo, 'mean radius' y 'mean texture'). Crea otro DataFrame que contenga la columna 'target' que indica si el tumor es maligno o benigno. Fusiona ambos DataFrames. Muestra las primeras filas de este nuevo DataFrame. Aprovecha para probar el resto de parámetros vistos en clase. Prueba también a mergear con merge() añadiendo al DataFrame de la columna target otra columna ‘mean_radius’ y utiliza esta columna como clave en los dos DataFrames.

In [3]:
df1 = pd.DataFrame({
    'mean_radius': [12.53, 2.19, 3.32, 4.27, 83.42],
    'mean_texture': [12.53, 2.19, 3.32, 4.27, 23.43],
})

df2 = pd.DataFrame({
    'target': ["Maligno", "Benigno", "Benigno", "Benigno", "Benigno"]
})

# Fusionamos los dataFrames usando los indices como clave para la fusión
df_merged = pd.merge(df1, df2, how='outer', right_index=True,  left_index=True)
df_concated = pd.concat([df1, df2],  axis=1)

# Mostramos las dos primeras filas
print("Dos primeras filas:\n ", df_merged.head(2))
print("Dos primeras filas:\n ", df_concated.head(2))

df2["mean_radius"] = [12.53, 2.1, 3.2, 4.27, 83.42]
df2_merged=pd.merge(df1, df2, how="inner", on="mean_radius")

df2_merged


Dos primeras filas:
     mean_radius  mean_texture   target
0        12.53         12.53  Maligno
1         2.19          2.19  Benigno
Dos primeras filas:
     mean_radius  mean_texture   target
0        12.53         12.53  Maligno
1         2.19          2.19  Benigno


Unnamed: 0,mean_radius,mean_texture,target
0,12.53,12.53,Maligno
1,4.27,4.27,Benigno
2,83.42,23.43,Benigno


**Ejercicio 2 - Agrupar valores:** Agrupa el DataFrame por la columna 'target' (que indica si el tumor es maligno o benigno) y calcula la media de las características para cada grupo. Muestra el resultado.

In [4]:
agrupacion = df2_merged.groupby('target')['mean_radius'].mean()
agrupacion

target
Benigno    43.845
Maligno    12.530
Name: mean_radius, dtype: float64

**3. Ejercicio 3 - Filtrado con `where()`:** Filtra los datos para mostrar solo los tumores malignos (cuando el valor de 'target' es 0) y muestra las primeras filas de este conjunto filtrado.


In [6]:
df = pd.DataFrame({
    'target': ["Maligno", "Benigno", "Benigno", "Maligno", "Benigno"],
    'mean_radius': [12.53, 2.19, 3.32, 4.27, 83.42],
    'mean_texture': [12.53, 2.19, 3.32, 4.27, 23.43],
})

df_where = df.where(df['target'] == "Maligno").dropna()
print(df_where.head())
df_where

    target  mean_radius  mean_texture
0  Maligno        12.53         12.53
3  Maligno         4.27          4.27


Unnamed: 0,target,mean_radius,mean_texture
0,Maligno,12.53,12.53
3,Maligno,4.27,4.27


**4. Ejercicio 4 - Filtrado con condiciones:** Filtra el DataFrame para mostrar solo los tumores cuyo 'mean radius' sea mayor que 15. Muestra las primeras filas del resultado.

In [7]:
df_where = df.where(df['mean_radius'] > 15).dropna()
print(df_where.head())
df_where

    target  mean_radius  mean_texture
4  Benigno        83.42         23.43


Unnamed: 0,target,mean_radius,mean_texture
4,Benigno,83.42,23.43


**MiniEjercicio** Crea una columna que especifique el sexo de los empleados. A continuación, agrupa los datos por Departamentos y además por sexo. Especifica etiquetas "hombre" y "mujer" por cada grupo.

In [8]:
import pandas as pd

data = {
    'Departamento': ['Ventas', 'Ventas', 'IT', 'IT', 'RRHH', 'RRHH', 'Ventas'],
    'Empleado': ['Ana', 'Luis', 'Pedro', 'Marta', 'Sofía', 'Carlos', 'David'],
    'Salario': [30000, 50000, 60000, 55000, 40000, 42000, 48000],
    'Edad': [25, 30, 40, 35, 28, 45, 32],
    'Sexo': ['Mujer', 'Hombre', 'Hombre', 'Mujer', 'Mujer', 'Hombre', 'Hombre']
}

df = pd.DataFrame(data)


agrupar = df.groupby(['Departamento','Sexo']).count()
agrupar2 = df.groupby('Departamento')['Sexo'].count()

print(agrupar)
print(agrupar2)


                     Empleado  Salario  Edad
Departamento Sexo                           
IT           Hombre         1        1     1
             Mujer          1        1     1
RRHH         Hombre         1        1     1
             Mujer          1        1     1
Ventas       Hombre         2        2     2
             Mujer          1        1     1
Departamento
IT        2
RRHH      2
Ventas    3
Name: Sexo, dtype: int64


# **5. Manipulación avanzada de índices y selección de datos con Pandas**

**1. Carga el dataset:** Usa el siguiente código para cargar el conjunto de datos iris de scikit-learn y convertirlo en un DataFrame de pandas. Asegúrate de utilizar la columna species como índice.

In [9]:
import pandas as pd
from sklearn.datasets import load_iris

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)

df['species'] = data.target_names[data.target]

df.set_index('species', inplace=True)

print(df.head())

         sepal length (cm)  sepal width (cm)  petal length (cm)  \
species                                                           
setosa                 5.1               3.5                1.4   
setosa                 4.9               3.0                1.4   
setosa                 4.7               3.2                1.3   
setosa                 4.6               3.1                1.5   
setosa                 5.0               3.6                1.4   

         petal width (cm)  
species                    
setosa                0.2  
setosa                0.2  
setosa                0.2  
setosa                0.2  
setosa                0.2  


1. **Ejercicio 1 - Cambiar el índice:**
    - Usa el método `set_index()` para cambiar el índice del DataFrame a la columna 'sepal length (cm)'.
    - Muestra las primeras filas de este DataFrame modificado.

In [None]:
dataframe_modificado = df.set_index('sepal length (cm)')
print(dataframe_modificado.head())

                   sepal width (cm)  petal length (cm)  petal width (cm)
sepal length (cm)                                                       
5.1                             3.5                1.4               0.2
4.9                             3.0                1.4               0.2
4.7                             3.2                1.3               0.2
4.6                             3.1                1.5               0.2
5.0                             3.6                1.4               0.2


2. **Ejercicio 2 - Resetear el índice:**
    - Usa el método `reset_index()` para restablecer el índice a valores por defecto (números enteros).
    - Muestra las primeras filas del DataFrame resultante.

In [None]:
dataframe_resetado = df.reset_index()
print(dataframe_resetado.head())

  species  sepal length (cm)  sepal width (cm)  petal length (cm)  \
0  setosa                5.1               3.5                1.4   
1  setosa                4.9               3.0                1.4   
2  setosa                4.7               3.2                1.3   
3  setosa                4.6               3.1                1.5   
4  setosa                5.0               3.6                1.4   

   petal width (cm)  
0               0.2  
1               0.2  
2               0.2  
3               0.2  
4               0.2  


3. **Ejercicio 3 - Reindexar el DataFrame:**
    - Usa el método `reindex()` para reordenar las filas del DataFrame de manera aleatoria.
    - Muestra las primeras filas después de reindexar.

In [None]:
dataframe_resetado.reindex()
dataframe_resetado

Unnamed: 0,species,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,setosa,5.1,3.5,1.4,0.2
1,setosa,4.9,3.0,1.4,0.2
2,setosa,4.7,3.2,1.3,0.2
3,setosa,4.6,3.1,1.5,0.2
4,setosa,5.0,3.6,1.4,0.2
...,...,...,...,...,...
145,virginica,6.7,3.0,5.2,2.3
146,virginica,6.3,2.5,5.0,1.9
147,virginica,6.5,3.0,5.2,2.0
148,virginica,6.2,3.4,5.4,2.3


4. **Ejercicio 4 - Seleccionar datos con `.loc`, `.iloc`, `.at`, `.iat`:**
    - Usa `.loc[]` para seleccionar todas las filas donde la especie sea "setosa".
    - Usa `.iloc[]` para seleccionar las filas en la posición 10 a 20 y las columnas 2 a 4 (usa índices enteros).
    - Usa `.at[]` para obtener el valor de "sepal width (cm)" en la fila con índice "setosa" y en la primera columna.
    - Usa `.iat[]` para obtener el valor de "sepal length (cm)" en la posición de fila 0 y columna 2.

In [None]:
filas_setosa = df.loc['setosa']
#print(filas_setosa)

filas_posicion = df.iloc[10:20, 2:4]
print(filas_posicion)

valor = df.at['setosa', 'sepal width (cm)']
print("Valor de sepal width (cm) en la fila con índice setosa y en la primera columna.-->", valor.iloc[0])

valor2 = df.iat[0, 2]
print("Valor de sepal length (cm) en la posición de fila 0 y columna 2 --> ", valor2)

5. **Ejercicio 5 - Filtrar columnas con `usecols`:**
    - Utiliza el argumento `usecols` para cargar solo las columnas relacionadas con el "sepal length" y "sepal width" cuando cargues el DataFrame de nuevo.
    - Muestra las primeras filas de este DataFrame reducido.

In [None]:
# solo se usa al cargar archivos CSV o similares. No se puede aplicar directamente a un DataFrame ya existente, por eso lo exportamos a csv.
df.to_csv('../CSVs/nuevo_csv.csv')
df = pd.read_csv('../CSVs/nuevo_csv.csv', usecols=['sepal length (cm)', 'sepal width (cm)'])
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm)
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


# **6. Trabajando con Series en Pandas**

Usaremos el conjunto de datos de ejemplo 'Titanic' disponible en seaborn. El dataset contiene información sobre los pasajeros del Titanic y nos ayudará a practicar con las Series en pandas.

In [10]:
import seaborn as sns
import pandas as pd

# Cargar el dataset Titanic
titanic = sns.load_dataset('titanic')

# Seleccionar la columna 'Age' como Serie
age_series = titanic['age']

# Mostrar las primeras filas de la Serie 'age'
print(age_series.head())

titanic

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


**Ejercicio 1** - Muestra toda la información sobre las columnas y el DataFrame

In [11]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


**Ejercicio 2** - Acceso a elementos:

In [12]:
# Accede al primer y último valor de la Serie 'Age' de Titanic utilizando la indexación por posición. En segundo lugar, accede a ese valor del DataFrame con .iat[fila, columna]
print("Primer valor de la serie 'Age' --> ", age_series[0])
print("Primer valor de la serie 'Age' con iat --> ", age_series.iat[0])

print("Ultimo valor de la serie 'Age' --> ", age_series[890])
print("Ultimo valor de la serie 'Age' con iat --> ", age_series.iat[890])


# Accede al valor correspondiente al índice 10 utilizando el índice de la Serie.
age_series

Primer valor de la serie 'Age' -->  22.0
Primer valor de la serie 'Age' con iat -->  22.0
Ultimo valor de la serie 'Age' -->  32.0
Ultimo valor de la serie 'Age' con iat -->  32.0


0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

**Ejercicio 3 - Operaciones básicas y estadísticas:** Realiza las siguientes operaciones sobre la Serie 'Age':

In [13]:
# - Añade 5 años a todos los valores de la Serie.
nueva_serie = age_series + 5
print(nueva_serie)

# - Multiplica todas las edades de las mujeres por 2.

titanic['age'] = titanic['age'].where(titanic['sex'] == 'male', titanic['age'] * 2)
titanic

# - Calcula la suma, la media, la mediana, el valor mínimo, el valor máximo y la desviación estándar.

0      27.0
1      43.0
2      31.0
3      40.0
4      40.0
       ... 
886    32.0
887    24.0
888     NaN
889    31.0
890    37.0
Name: age, Length: 891, dtype: float64


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,76.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,52.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,70.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,38.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [14]:
# Crear una nueva columna con datos mixtos aleatorios y añadirla al datafra,e titanic. Castear todos los valores numericos y realizar una operacion sencilla como multiplicarlos por 2.

titanic['nueva_aleatorios']= np.random.choice([1, "hola", True, 5], size=len(titanic))

titanic['nueva_columna'] = pd.to_numeric(titanic['nueva_aleatorios'], errors='coerce')
titanic['nueva_aleatorios'] * 2

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,nueva_aleatorios,nueva_columna
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,True,
1,1,1,female,76.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,True,
2,1,3,female,52.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,True,
3,1,1,female,70.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,1,1.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,1,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,5,5.0
887,1,1,female,38.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,hola,
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,5,5.0
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,1,1.0
