_Generated: 2025-10-24 08:20:32_

# Colab 2 — Consulta y selección de datos con pandas

Funciones y ejemplos para explorar DataFrames y seleccionar columnas.

## Importar librerías y cargar un DataFrame de ejemplo

In [None]:
import pandas as pd
import numpy as np

# Si tienes Colab, carga aquí el dataset Iris o uno propio
# Para ejemplo reproducible usamos el URL del MIT OCW
url = 'https://ocw.mit.edu/courses/15-097-prediction-machine-learning-and-statistics-spring-2012/89d88c5528513adc4002a1618ce2efb0_iris.csv'
df = pd.read_csv(url, names=['sepal_length','sepal_width','petal_length','petal_width','class'])

display(df.head())
print('\nDimensiones:', df.shape)
print('\nTipos de columnas:\n', df.dtypes)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa



Dimensiones: (150, 5)

Tipos de columnas:
 sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
class            object
dtype: object


## 3. Consulta de datos en un DataFrame

Métodos útiles: `head()`, `tail()`, `info()`, `dtypes`, `shape`, `values`.

In [None]:
# Ejemplos
print('head')
print(df.head())
print('\ninfo')
print(df.info())
print('\ndtypes')
print(df.dtypes)
print('\nValores únicos en class:')
print(df['class'].unique())


head
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None

dtypes
sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
class    

## 4. Selección de columnas y eliminación

Ejemplos de selección y eliminación de columnas: `df[['col']]`, `df.drop([...], axis=1)`.

In [None]:
# Selección de columnas
print(df[['sepal_length']].head())
print(df[['sepal_length','sepal_width']].head())

# Eliminar columna (sin modificar df original)
df2 = df.drop(['class'], axis=1)
display(df2.head())

# Eliminar columna in-place (descomentar si quieres modificar df)
# df.drop(['class'], axis=1, inplace=True)


   sepal_length
0           5.1
1           4.9
2           4.7
3           4.6
4           5.0
   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


## Filtrado por condiciones y `merge` para unir ficheros

Ejemplo básico de filtrado y uso de `merge` cuando los datos están en dos ficheros con una columna común.

In [None]:
# Filtrar filas
print('Filas con sepal_length > 5.0:')
display(df[df['sepal_length'] > 5.0].head())

# Ejemplo de merge (simulado)
df_a = pd.DataFrame({'patient_id':[1,2,3],'value':[10,20,30]})
df_b = pd.DataFrame({'patient_id':[1,2,3],'label':[0,1,0]})
merged = pd.merge(df_a, df_b, on='patient_id')
print('\nMerge result:')
display(merged)


Filas con sepal_length > 5.0:


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa



Merge result:


Unnamed: 0,patient_id,value,label
0,1,10,0
1,2,20,1
2,3,30,0


Actividad 1.4

---


Una vez obtenido un DataFrame a partir de cualquiera de los ficheros anteriores, en formato CSV
o ARFF, utiliza el entorno para consultar los valores de los atributos y los valores devueltos por
los métodos anteriores

In [None]:
df1_i = pd.read_csv('/content/Iris.csv')
df1_i[["SepalLengthCm"]]
df1_i[["SepalLengthCm", "SepalWidthCm"]]
df1_i.drop(["Id"], axis=1)



Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## Actividades (del PDF)

- Usa `df[['SepalLengthCm']]` y `df.drop(['Id'], axis=1)` como en el documento para practicar.

## Actividades extra (práctica)

1. Crea un DataFrame con 3 columnas y 10 filas aleatorias y filtra por una condición compuesta (AND / OR).
2. Carga dos ficheros CSV pequeños (puedes duplicar el mismo con otro nombre) y practica `merge` en distintas columnas (`left`, `inner`).
3. Usa `df.sample(5)` y `df.describe()` para obtener estadísticas y ejemplos aleatorios.

1-

In [None]:
import pandas as pd
import numpy as np


# np.random.seed(2)
# df = pd.DataFrame({
#     'A': np.random.randint(1, 100, size=10),
#     'B': np.random.randint(1, 100, size=10),
#     'C': np.random.randint(1, 100, size=10)
# })

# filtro_and = df[(df['A'] > 20) & (df['B'] < 50)]


# print("DataFrame original:")
# print(df)
# print("\nFiltrado con condición AND (A > 20 y B < 50):")
# print(filtro_and)

# df.head()


# Crear un diccionario vacio


DataFrame original:
    A   B   C
0  41  96  68
1  16  76   5
2  73  86  43
3  23  48  52
4  44  64  39
5  83  32  34
6  76  91  59
7   8  21  68
8  35  38  70
9  50  40  89

Filtrado con condición AND (A > 20 y B < 50):
    A   B   C
3  23  48  52
5  83  32  34
8  35  38  70
9  50  40  89


Unnamed: 0,A,B,C
0,41,96,68
1,16,76,5
2,73,86,43
3,23,48,52
4,44,64,39


2-Carga dos ficheros CSV pequeños (puedes duplicar el mismo con otro nombre) y practica `merge` en distintas columnas (`left`, `inner`).

In [None]:
df1 = pd.DataFrame({'lkey': ['Real Madrid', 'Barsa', 'Atletico Madrid', 'Fuenlabrada'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['Real Madrid', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

print(df1,'\n \n',df2)

df1.merge(df2, left_on='lkey', right_on='rkey')

              lkey  value
0      Real Madrid      1
1            Barsa      2
2  Atletico Madrid      3
3      Fuenlabrada      5 
 
           rkey  value
0  Real Madrid      5
1          bar      6
2          baz      7
3          foo      8


Unnamed: 0,lkey,value_x,rkey,value_y
0,Real Madrid,1,Real Madrid,5


3 - Usa df.sample(5) y df.describe() para obtener estadísticas y ejemplos aleatorios.

In [None]:
print('Ejemplos aleatorios : ', df.sample(5))
print('Estadísticas descriptivas : ' , df.describe())

Ejemplos aleatorios :      A   B   C
5  83  32  34
9  50  40  89
8  35  38  70
0  41  96  68
2  73  86  43
Estadísticas descriptivas :                A          B          C
count  10.00000  10.000000  10.000000
mean   44.90000  59.200000  52.700000
std    25.87341  26.939438  23.645765
min     8.00000  21.000000   5.000000
25%    26.00000  38.500000  40.000000
50%    42.50000  56.000000  55.500000
75%    67.25000  83.500000  68.000000
max    83.00000  96.000000  89.000000
