# Practica tipos de datos


<h2> Pandas </h2>

NumPy es un paquete de Python diseñado para operaciones matemáticas y científicas eficientes. Su estructura principal es el array multidimensional, que permite almacenar y manipular grandes cantidades de datos numéricos. Además, ofrece funciones para álgebra lineal, generación de números aleatorios, estadísticas, y más.

Las dos estructuras de datos principales en pandas son Series y DataFrames, las cuales permiten manejar y manipular datos tabulares de manera eficiente, incluido leer y escribir archivos desde la memoria con eficiencia. Veamos cómo podemos usar pandas para cargar y tratar datos de un conjunto de datos de cancer de mama.

In [1]:
import pandas as pd

breast_cancer = pd.read_csv('data/breast_cancer.csv')

In [2]:
breast_cancer

Unnamed: 0,x.radius_mean,x.texture_mean,x.perimeter_mean,x.area_mean,x.smoothness_mean,x.compactness_mean,x.concavity_mean,x.concave_pts_mean,x.symmetry_mean,x.fractal_dim_mean,...,x.texture_worst,x.perimeter_worst,x.area_worst,x.smoothness_worst,x.compactness_worst,x.concavity_worst,x.concave_pts_worst,x.symmetry_worst,x.fractal_dim_worst,y
0,13.540,14.36,87.46,566.3,0.09779,0.08129,0.06664,0.047810,0.1885,0.05766,...,19.26,99.70,711.2,0.14400,0.17730,0.23900,0.12880,0.2977,0.07259,B
1,13.080,15.71,85.63,520.0,0.10750,0.12700,0.04568,0.031100,0.1967,0.06811,...,20.49,96.09,630.5,0.13120,0.27760,0.18900,0.07283,0.3184,0.08183,B
2,9.504,12.44,60.34,273.9,0.10240,0.06492,0.02956,0.020760,0.1815,0.06905,...,15.66,65.13,314.9,0.13240,0.11480,0.08867,0.06227,0.2450,0.07773,B
3,13.030,18.42,82.61,523.8,0.08983,0.03766,0.02562,0.029230,0.1467,0.05863,...,22.81,84.46,545.9,0.09701,0.04619,0.04833,0.05013,0.1987,0.06169,B
4,8.196,16.84,51.71,201.9,0.08600,0.05943,0.01588,0.005917,0.1769,0.06503,...,21.96,57.26,242.2,0.12970,0.13570,0.06880,0.02564,0.3105,0.07409,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,20.920,25.09,143.00,1347.0,0.10990,0.22360,0.31740,0.147400,0.2149,0.06879,...,29.41,179.10,1819.0,0.14070,0.41860,0.65990,0.25420,0.2929,0.09873,M
565,21.560,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.138900,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.41070,0.22160,0.2060,0.07115,M
566,20.130,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.097910,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.32150,0.16280,0.2572,0.06637,M
567,16.600,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.053020,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.34030,0.14180,0.2218,0.07820,M


Cada fila en la tabla es una observación, y cada columna es una característica. En nuestro ejemplo, las columnas representan características de los núcleos de celulas tumorales. La última columna representa el objetivo: 'M' significa que la observación corresponde a un tumor maligno, mientras que 'B' indica que el tumor es benigno.

In [3]:
breast_cancer.columns

Index(['x.radius_mean', 'x.texture_mean', 'x.perimeter_mean', 'x.area_mean',
       'x.smoothness_mean', 'x.compactness_mean', 'x.concavity_mean',
       'x.concave_pts_mean', 'x.symmetry_mean', 'x.fractal_dim_mean',
       'x.radius_se', 'x.texture_se', 'x.perimeter_se', 'x.area_se',
       'x.smoothness_se', 'x.compactness_se', 'x.concavity_se',
       'x.concave_pts_se', 'x.symmetry_se', 'x.fractal_dim_se',
       'x.radius_worst', 'x.texture_worst', 'x.perimeter_worst',
       'x.area_worst', 'x.smoothness_worst', 'x.compactness_worst',
       'x.concavity_worst', 'x.concave_pts_worst', 'x.symmetry_worst',
       'x.fractal_dim_worst', 'y'],
      dtype='object')

<h3> Exploración de datos </h3>

In [4]:
# Exploración inicial del dataset
print("Número de filas y columnas:", breast_cancer.shape)  # Tamaño del dataset
print("Primeras 5 filas del dataset:")
print(breast_cancer.head())  # Muestra las primeras 5 filas

# Verificar los tipos de datos en las columnas
print("Tipos de datos de las columnas:")
print(breast_cancer.dtypes)

# Cambiar los nombres de las columnas para que sean más legibles
breast_cancer.columns = breast_cancer.columns.str.replace('x.', '', regex=False)

# Cuántos valores únicos tiene la columna objetivo ('y')
valores_unicos = breast_cancer['y'].unique()
print("Valores únicos en 'y':", valores_unicos)

# Contaje de valores únicos que tiene la columna objetivo ('y')
print(breast_cancer['y'].value_counts())

Número de filas y columnas: (569, 31)
Primeras 5 filas del dataset:
   x.radius_mean  x.texture_mean  x.perimeter_mean  x.area_mean  \
0         13.540           14.36             87.46        566.3   
1         13.080           15.71             85.63        520.0   
2          9.504           12.44             60.34        273.9   
3         13.030           18.42             82.61        523.8   
4          8.196           16.84             51.71        201.9   

   x.smoothness_mean  x.compactness_mean  x.concavity_mean  \
0            0.09779             0.08129           0.06664   
1            0.10750             0.12700           0.04568   
2            0.10240             0.06492           0.02956   
3            0.08983             0.03766           0.02562   
4            0.08600             0.05943           0.01588   

   x.concave_pts_mean  x.symmetry_mean  x.fractal_dim_mean  ...  \
0            0.047810           0.1885             0.05766  ...   
1            0.031100 

<h3> Filtrado y transformación de datos </h3>

In [5]:
# Filtrar datos: Crear un subconjunto con solo los tumores malignos
malignos = breast_cancer[breast_cancer['y'] == 'M'].copy()
print("Número de tumores malignos:", len(malignos))

# Ejemplo de uso de funciones lambda para transformar datos
# Agregar una columna con la relación entre el área y el perímetro
malignos['area_perimeter_ratio'] = malignos.apply(
    lambda row: row['area_mean'] / row['perimeter_mean'] if row['perimeter_mean'] != 0 else 0, axis=1
)
print("Primeras 5 filas con la nueva columna:")
print(malignos[['area_mean', 'perimeter_mean', 'area_perimeter_ratio']].head())

Número de tumores malignos: 212
Primeras 5 filas con la nueva columna:
     area_mean  perimeter_mean  area_perimeter_ratio
357     1001.0          122.80              8.151466
358     1326.0          132.90              9.977427
359     1203.0          130.00              9.253846
360      386.1           77.58              4.976798
361     1297.0          135.10              9.600296


In [9]:
# Función lambda para clasificar tumores como 'grandes' o 'pequeños'
# basado en si su área promedio ('area_mean') es mayor o menor que 700
malignos['size_category'] = malignos['area_perimeter_ratio'].apply(
    lambda area: 'big' if area > 7 else 'small'
)
print(malignos[['area_mean', 'size_category']].head())

malignos['size_category'].value_counts()

     area_mean size_category
357     1001.0           big
358     1326.0           big
359     1203.0           big
360      386.1         small
361     1297.0           big


size_category
big      162
small     50
Name: count, dtype: int64

<h2> Numpy </h2>

NumPy es un paquete de Python diseñado para operaciones matemáticas y científicas eficientes. Su estructura principal es el array multidimensional, que permite almacenar y manipular grandes cantidades de datos numéricos. Además, ofrece funciones para álgebra lineal, generación de números aleatorios, estadísticas, y más.

In [None]:
import numpy as np

### Arrays unidimensionales

Un array unidimensional en Numpy es una secuencia de elementos del mismo tipo.

In [None]:
mi_array = np.array([3, 4, 5], dtype=np.int16)
print(mi_array.dtype)

Dentro de numpy hay diferentes tipos basicos aparte de `int` y `float`.

- `int16`: Enteros de 16 bits (-32,768 a 32,767).
- `int32`: Enteros de 32 bits (-2,000 millones a 2,000 millones). Equivalente a `int`.
- `int64`: Enteros de 64 bits (-9 quintillones a 9 quintillones). Equivalente a `int`.
- `float16`/`float32`/`float64`: Decimales de baja, media y alta precisión.

### Indexación y slicing

Accede a elementos individuales o grupos con índices.

In [None]:
mi_array = np.array([3, 4, 5, 6, 7])
print(mi_array[0])       # Primer elemento
print(mi_array[-1])      # Último elemento
print(mi_array[1:4])     # Subarray: [4, 5, 6]

### Arrays multidimensionales

Matrices en Numpy permiten trabajar con múltiples dimensiones.

In [21]:
mi_matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(mi_matriz[1, 2])  # Elemento en fila 2, columna 3
print(mi_matriz[:, 1])  # Segunda columna

6
[2 5 8]


### Dimensiones

Verifica las dimensiones con `.shape` y `.ndim`.

In [22]:
print(mi_matriz.shape)  # (3, 3): 3 filas y 3 columnas
print(mi_matriz.ndim)   # 2: dos dimensiones

(3, 3)
2


### Crear arrays

Crea arrays de ceros, unos o valores espaciados.

In [23]:
print(np.zeros(5))  # Array de ceros
print(np.ones((2, 3)))  # Matriz 2x3 de unos
print(np.arange(0, 10, 2))  # Valores de 0 a 10, paso 2

[0. 0. 0. 0. 0.]
[[1. 1. 1.]
 [1. 1. 1.]]
[0 2 4 6 8]


### Operaciones básicas con arrays

Realiza operaciones matemáticas directamente.

In [25]:
arr = np.array([1, 2, 3])
print(arr + 10)  # Suma 10 a cada elemento
print(arr * 2)   # Multiplica cada elemento por 2

[11 12 13]
[2 4 6]


### Arrays booleanos

Utiliza condiciones para filtrar valores como mascaras.

In [None]:
arr = np.array([1, 2, 3, 4])
mascara = arr > 2
print(arr[mascara])  # Elementos mayores a 2: [3, 4]

### Universal Functions (ufuncs)

Operan de forma eficiente gracias a las estructuras internas. SON UN EJEMPLO DE PROGRAMACIÓN FUNCIONAL

#### Operaciones matriciales con broadcasting

La difusión ("broadcasting") se refiere a cómo numpy maneja arreglos con diferentes dimensiones durante las operaciones aritméticas, lo que implica ciertas restricciones. El arreglo más pequeño se expande automáticamente para coincidir con la forma del arreglo más grande, de manera que sean compatibles.

In [None]:
# Crear un array de ejemplo
arr = np.array([1, 2, 3, 4, 5])

# Sumar un número a cada elemento
resultado_suma = np.add(arr, 10)
print("Resultado de la suma:", resultado_suma)

# Restar un número a cada elemento
resultado_resta = np.subtract(arr, 3)
print("Resultado de la resta:", resultado_resta)

# Multiplicar cada elemento por un número
resultado_multiplicación = np.multiply(arr, 2)
print("Resultado de la multiplicación:", resultado_multiplicación)

# Dividir cada elemento por un número
resultado_división = np.divide(arr, 2)
print("Resultado de la división:", resultado_división)

#### Calculo de estadísticas básicas.

In [24]:
# Convertir una columna a un array de NumPy
perimeter_array = breast_cancer['perimeter_mean'].values
print("Primeros 5 valores del perímetro (NumPy Array):", perimeter_array[:5])

# Operaciones numéricas: Calcular la media, mediana y desviación estándar del perímetro
media_perimeter = np.mean(perimeter_array)
mediana_perimeter = np.median(perimeter_array)
desviacion_perimeter = np.std(perimeter_array)

print(f"Media del perímetro: {media_perimeter:.2f}")
print(f"Mediana del perímetro: {mediana_perimeter:.2f}")
print(f"Desviación estándar del perímetro: {desviacion_perimeter:.2f}")

# Normaliza los valores de la columna 'area_mean' (escala de 0 a 1)
area_array = breast_cancer['area_mean'].values
area_normalizada = (area_array - np.min(area_array)) / (np.max(area_array) - np.min(area_array))
print("Primeros 5 valores del área normalizada:", area_normalizada[:5])

Primeros 5 valores del perímetro (NumPy Array): [87.46 85.63 60.34 82.61 51.71]
Media del perímetro: 91.97
Mediana del perímetro: 86.24
Desviación estándar del perímetro: 24.28
Primeros 5 valores del área normalizada: [0.17934252 0.15970308 0.05531283 0.16131495 0.024772  ]
