<a href="https://colab.research.google.com/github/JuanCarlosGomezSala/CB/blob/master/Python_Pandas_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **LIBRERIA PANDAS II. DataFrames**

<img src = "https://raw.githubusercontent.com/pandas-dev/pandas/main/web/pandas/static/img/pandas.svg" width = 200></img>

## **INTRODUCCION**


- [Pandas](https://pandas.pydata.org/docs/index.html#) (Panel Data) es la librería de Python más importante para el análisis de datos.

- Esta libreria introduce dos estructuras de datos adicionales:

  + `Series`. Estructura de datos unidimensional con índices (index y name) etiquetados explicitamente..

  + `DataFrame`: Estructura de datos bidimensional, semejante a una tabla o hoja de cálculo, con índices (index y columns) etiquetados explicitamente.

- Introduce tambíén algunas herramientas auxiliares:

  + `Rangos`: Herramientas de apoyo que se utilizan fundamentalmente para organizar y acceder a los datos en `Series` y `DataFrames`.


------------------------------------------------------

In [2]:
# Librerias
import datetime #Modulo de Python base
import numpy as np               #Matematicas, etc.
import pandas as pd              #Manejo de tablas de datos
import matplotlib.pyplot as plt  #Graficos basicos

## **DATAFRAME**

- Una DataFrame es una **estructura de datos bidimensional** (tabular), con filas y columnas  organizadas en forma de tabla:

    - Las **filas** tienen un índice (index) que puede ser numérico o de otro tipo como una fecha.
    - Las **columnas** tienen nombres que funcionan como etiquetas.
  
- **Tipos de datos heterogéneos**: Cada columna puede contener un tipo de dato diferente (por ejemplo, una columna puede ser numérica, otra de texto, y otra de fechas), pero todos los elementos de una columna tienen que se del mismo tipo (tipo de datos homogéneos).

<center><img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="300" height="200"></center>

## CREACION DE UNA DATAFRAME

- Una `DataFrame` se puede crear de varias formas. Explicitamente desde una "lista de listas", a partir de un diccionario, desde un Numpy array, etc., etc., e implicitamente mediante la importación del contenido de un archivo de datos guardado en local, en un repositorio remoto, etc.



### Creación desde una lista anidada (list of lists)

In [3]:
# Creacion de una dataframe a partir de un "list of lists"
lista_de_listas =[
     [datetime.date(2025, 3, 1), 'Desktop', 272, 36.66, False],
     [datetime.date(2025, 3, 2), 'Smartwatch', 274, 37.31, False],
     [datetime.date(2025, 3, 3), 'Smartwatch', 288, 41.91, True],
     [datetime.date(2025, 3, 4), 'Desktop', 387, 42.58, False],
     [datetime.date(2025, 3, 5), 'Tablet', 364, 35.07, False]
     ]

# Nombre de las columnas
columnas = ['Fecha', 'Producto', 'Unidades', 'Precio', 'Rentabilidad']

# Creacion de la DataFrame
pd.DataFrame(lista_de_listas, columns=columnas)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
0,2025-03-01,Desktop,272,36.66,False
1,2025-03-02,Smartwatch,274,37.31,False
2,2025-03-03,Smartwatch,288,41.91,True
3,2025-03-04,Desktop,387,42.58,False
4,2025-03-05,Tablet,364,35.07,False


### Creación desde un diccionario

- En el ejemplo siguiente creamos una DataFrame a partir de un diccionario, que contiene varios pares de nombre (key) y lista (value). Cada "key" representa el nombre de una columna y cada lista los valores de la misma. En este caso, no se específica el index, por lo que se crea por defecto con una serie creciente de números enteros, empezando en cero.

In [4]:
####### Creacion DataFrame a partir de un diccionario

# Numero de observaciones (filas)
n = 10

# Creacion Diccionario con los Datos (pares de "key" y "values")
data = {
    "Fecha": pd.date_range(start="2025-03-01", periods=n, freq="D"),  # Fecha de venta (Datetime)  #Datos temporales
    "Producto": np.random.default_rng(seed = 123).choice( ["Smartphone", "Laptop", "Tablet", "Smartwatch", "Desktop"], size=n),  # Productos (Texto)
    "Unidades": np.random.default_rng(seed= 123).integers(low=250, high=600, size=n),  # Identificadores (Enteros)
    "Precio": np.random.default_rng(seed=123).normal(loc=40, scale=3, size=n).round(2),
    "Rentabilidad": np.random.default_rng(seed= 123).choice([True, False], size=n),  # Rentabilidad (Booleanos)
}

# Creacion de la DF a partir del diccionario de datos
datos = pd.DataFrame(data)
datos.head()

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
0,2025-03-01,Smartphone,255,37.03,True
1,2025-03-02,Smartwatch,488,38.9,False
2,2025-03-03,Tablet,457,43.86,False
3,2025-03-04,Smartphone,268,40.58,True
4,2025-03-05,Desktop,568,42.76,False


## TIPOS DE OPERACIONES

- El aprendizaje de Pandas los vamos a hacer organizando las operaciones en **tipos funcionales** según su finalidad principal:

  - **Lectura y escritura de datos**: Importar o exportar estructuras desde/hacia archivos.

  - **Exploración**: La finalidad de este tipo de operaciones es obtener una visión inicial de la estructura y contenido

  - **Selección y filtrado**: Extraer subconjuntos de filas o columnas  

  - **Transformación**: Modificar estructura, contenido o formato del `DataFrame`

  - **Limpieza y validación**:Corregir errores, tratar nulos y asegurar integridad.  

  - **Agrupación y ventanas móviles**: Calcular estadísticas sobre grupos o secuencias.     

  - **Reorganización / combinación**: Integrar tablas, reestructurar entre formatos largos y anchos.

  - **Visualización**: Representar gráficamente datos numéricos o categóricos.

  - **Rendimiento y optimización**: Reducir consumo de memoria y mejorar velocidad de cálculo.




- No obstante hay que tener en cuenta que se existen solapamientos entre grupos de datos.

### **LECTURA Y ESCRITURA DE DATOS**

-  En general, la creación de una DataFrame se puede hacer importando el contenido de archivos de formatos diferentes (csv, Excel, HTML, etc.) y desde diferentes ubicaciones (unidad local, url de ubicación remota, etc.).

- Archivos de datos en csv: https://vincentarelbundock.github.io/Rdatasets/articles/data.html

In [5]:
# sin datos temporales
url = "https://vincentarelbundock.github.io/Rdatasets/csv/Ecdat/Computers.csv"
# url = "https://vincentarelbundock.github.io/Rdatasets/csv/AER/HMDA.csv"
# url= "https://vincentarelbundock.github.io/Rdatasets/csv/AER/CollegeDistance.csv"
# url = "https://vincentarelbundock.github.io/Rdatasets/csv/AER/CASchools.csv"

#Aeropuertos
# url = "https://raw.githubusercontent.com/datasets/airport-codes/refs/heads/main/data/airport-codes.csv"

# Con datos temporales
# url = "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/AirPassengers.csv"

datos  = pd.read_csv(url)
datos.head()

Unnamed: 0,rownames,price,speed,hd,ram,screen,cd,multi,premium,ads,trend
0,1,1499,25,80,4,14,no,no,yes,94,1
1,2,1795,33,85,2,14,no,no,yes,94,1
2,3,1595,25,170,4,15,no,no,yes,94,1
3,4,1849,25,170,8,14,no,no,no,94,1
4,5,3295,33,340,16,14,no,no,yes,94,1


In [8]:
# Guardado de los datos
# datos.to_csv("Archivo_1.csv")
datos.to_excel("Archivo_1.xlsx")

## **EXPLORACION DE UNA DATAFRAME**

La exploración se refiere al conjunto de operaciones orientadas a inspeccionar la forma general del DataFrame, conocer la tipología de las variables, etc.



**Creacion de una copia de la Dataframe original**


In [None]:
# Copia para conversar los datos originales intactos
df = datos.copy()

### **Atributos**

### `df.values`

**`df.values`**: Este atributo devuelve una Numpy array 2D con los datos de la DataFrame, sin etiquetas de filas ni nombres de columnas, y el tipo de datos (`dtype`)

- El array 2D contiene un "list of lists", donde cada list del array es una fila de la DataFrame, y los elementos de cada list son los valores correspondientes a cada columna.

- `dtype=object`: En este caso, indica que el array contiene tipos de datos distintos (numeros, cadenas de caracteres, etc.), por lo que los cataloga como `object` que es el tipo de datos más general posible.

In [None]:
# Atributo values (valores como un array conteniendo un list anidado)
df.values

array([[Timestamp('2025-03-01 00:00:00'), 'Smartphone', 255, 37.03, True],
       [Timestamp('2025-03-02 00:00:00'), 'Smartwatch', 488, 38.9, False],
       [Timestamp('2025-03-03 00:00:00'), 'Tablet', 457, 43.86, False],
       [Timestamp('2025-03-04 00:00:00'), 'Smartphone', 268, 40.58, True],
       [Timestamp('2025-03-05 00:00:00'), 'Desktop', 568, 42.76, False],
       [Timestamp('2025-03-06 00:00:00'), 'Laptop', 327, 41.73, True],
       [Timestamp('2025-03-07 00:00:00'), 'Laptop', 339, 38.09, True],
       [Timestamp('2025-03-08 00:00:00'), 'Smartphone', 314, 41.63, True],
       [Timestamp('2025-03-09 00:00:00'), 'Laptop', 366, 39.05, True],
       [Timestamp('2025-03-10 00:00:00'), 'Smartphone', 311, 39.03, True]],
      dtype=object)

- El atributo `.values` se aplica tambíen al resto de los atrbutos de una DataFrame.

### `df.index`

- **`dfindex`** devuelve las etiquetas o nombres de las filas (index) de la DataFrame.

- El índice puede ser numérico, de texto o de fechas.

- En el ejemplo, el index es un objeto de Pandas de tipo `RangeIndex` (un tipo de index que representa una secuencia de enteros, normalmente empezando desde 0 y con incrementos de 1).  


In [None]:
# Atributo index
df.index

RangeIndex(start=0, stop=10, step=1)

In [None]:
# Atributo values aplicado a index, devuelve los valores del index
df.index.values

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### `df.columns`

- **`df.columns`** devuelve los nombres de las columnas de la DataFrame en un objeto de Pandas de tipo  `Index` (un tipo generico de index que puede guardar diferente tipo de datos), informando también del tipo de datos que contiene.

- Las columnas pueden tener etiquetas numéricas o de texto.

In [None]:
# Atributo columns (nombres de las columnas)
df.columns

# df.columns.values

Index(['Fecha', 'Producto', 'Unidades', 'Precio', 'Rentabilidad'], dtype='object')

**`df.axes`**: Este atributo devuelve un list con los ejes (axes) de la DataFrame: la etiqueta de las filas (index) y el nombre de las columnas

### `df.dtypes`

- `df.dtypes` devuelve una Series conteniendo el tipo de datos de cada columna de la DataFrame.

In [None]:
# Atributo dtypes (tipo de datos de cada columna)
df.dtypes

# df.dtypes.values

Unnamed: 0,0
Fecha,datetime64[ns]
Producto,object
Unidades,int64
Precio,float64
Rentabilidad,bool


### `df.shape`, `df.size` y `df.ndim`

- **`df.shape`**: Devuelve una tupla con el numero de filas y columnas. Se puede indexar para obtener solo el numero de filas con .shape[0]`, o el de columnas haciendo `shape[1]`.

- **`df.size`**: Devuelve el numero total de elementos (producto del numero de filas por el numero de columnas).

- **`df.ndim`**: El atributo `.ndim` indica la dimensionalidad de un objeto; es decir, si es unidimensional (1D), caso de las Series, o bidimensional (2D) en las DataFrames

In [None]:
print(f"Numero de filas y columnas : {df.shape}")
print(f"Numero total de elementos : {df.size}")
print(f"Numero de dimensiones : {df.ndim}")

Numero de filas y columnas : (10, 5)
Numero total de elementos : 50
Numero de dimensiones : 2


### `df.info`

- El método `.info()` facilita información de la estructura de la DataFrame.

In [None]:
# Estructura de la DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Fecha         10 non-null     datetime64[ns]
 1   Producto      10 non-null     object        
 2   Unidades      10 non-null     int64         
 3   Precio        10 non-null     float64       
 4   Rentabilidad  10 non-null     bool          
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 462.0+ bytes


- El resultado es un resumen de la estructura de la DataFrame, incluyendo:

  - `class`: Indica el tipo de objeto (en este caso una DataFrame).
  - `RangeIndex`: Muestra el número de filas de la DataFrame, indexadas en ese caso de 0 hasta el último elemento (`RangeIndex` es un tipo estandar de indice en Pandas).
  - `Data columns`: Información de las columnas (entre parentesis numero total de columnas). A continuacion devuelve una tabla con información detallada de cada columna:

    - `#`: Representa el índice (numero) de la columna (empezando en 0).
    - `Column`: Nombre de la columna.
    - `Non-Null Count`: Recuento del número de valores no faltantes en la columna.
    - `Dtype`: Tipo de datos de la columna. Pueden ser:
      + `object`: Representa texto o datos mixtos.
      + `int64`: Representa números enteros.
      + `float64`: Representa números con decimales (float).

  - `dtypes`: Resumen del tipo de datos de las columnas, indicando el número de columnas de cada tipo.
  - `memory usage`: Muestra la cantidad de memoria usada por la DataFrame.

In [None]:
# Estructura de la df con parametros personalizados
df.info(show_counts=False, memory_usage=False, verbose=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Columns: 5 entries, Fecha to Rentabilidad
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(1)

### **Visualización de los datos**



La primeras o las últimas filas de una DataFrame se pueden visualizar utilizando los métodos `head()` y `tail()`, respectivamente.

Por defecto, muestran las cinco primeras o ultimas filas. Este valor predeterminado se puede modificar especificando el número de filas con el argumento `n`.

In [None]:
# Visualización de las 5 primeras filas (numero predeterminado)
df.head()

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
0,2025-03-01,Smartphone,255,37.03,True
1,2025-03-02,Smartwatch,488,38.9,False
2,2025-03-03,Tablet,457,43.86,False
3,2025-03-04,Smartphone,268,40.58,True
4,2025-03-05,Desktop,568,42.76,False


In [None]:
# Visualización de las ultimas filas (numero especificado)
df.tail(n=3)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
7,2025-03-08,Smartphone,314,41.63,True
8,2025-03-09,Laptop,366,39.05,True
9,2025-03-10,Smartphone,311,39.03,True


## **SELECCION Y SEGMENTACION**






La selección y segementación se refiere al conjunto de operaciones que permiten extraer subconjuntos de información de un DataFrame o una Series, por su posición, por su etiqueta (nombre de fila o columna), o mediante condiciones lógicas sobre sus valores.

- **Seleccion (Indexing)**: Es el proceso de seleccionar columnas o filas específicas de un DataFrame o Serie utilizando etiquetas o posiciones.

- **Segmentacion (Slicing)**: Es el proceso de seleccionar un rango de datos de un DataFrame o Serie, generalmente con el operador dosp untos `:`.

In [None]:
# Restablecer la base de datos original
df = datos.copy()

# Para diferenciar el nombre de la fila de la posicion vamos a cambiar el index por:
df.index = range(1, len(df)+1)
df.head()

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
4,2025-03-04,Smartphone,268,40.58,True
5,2025-03-05,Desktop,568,42.76,False


### **Seleccion (indexing)**

#### **Seleccion de una columna con el operador punto `.`**


- El operador punto `.` permite extraer una columna específica por su nombre `df.nombre_columna`.

In [None]:
# Acceso/Extraccion de una columa especifica con output una "Serie"
print(type(df.Producto))
df.Producto

<class 'pandas.core.series.Series'>


Unnamed: 0,Producto
1,Smartphone
2,Smartwatch
3,Tablet
4,Smartphone
5,Desktop
6,Laptop
7,Laptop
8,Smartphone
9,Laptop
10,Smartphone


#### **Seleccion de una o de varias columnas con el operador corchetes `[ ]`**


- En el interior del operador corchetes se puede introducir como argumento:

  - Una cadena de caracteres (nombre) para seleccionar una columna específica, `["columna"]`. En este caso el resultado es una nueva Series que contiene solo la fila seleccionada.

  - Un list de cadenas de caracteres con el nombre/s de la/s columna/s seleccionada/s, de forma que tendremos dobles corchetes `[["columna_1", ...."columna_n]]`. En este caso el  resultado es un nuevo DataFrame que contiene solo las columnas seleccionadas.

- **El operador corchetes `[]` da error si se usa como argumento un numero entero**. Pero selecciona una fila si se introduce con dos puntos. Ejemplo, `df[:1]`.

In [None]:
# Acceso/Extraccion de una columa especifica con output una "Serie"
print(type(df["Unidades"]))
df['Unidades']

<class 'pandas.core.series.Series'>


Unnamed: 0,Unidades
1,255
2,488
3,457
4,268
5,568
6,327
7,339
8,314
9,366
10,311


In [None]:
# Seleccion de una columna con un list con el nombre de una columna y output una "DataFrame" (aqui el list de nombres es ["Unidades"])
print(type(df[ ['Unidades'] ]))
df[ ['Unidades'] ]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Unidades
1,255
2,488
3,457
4,268
5,568
6,327
7,339
8,314
9,366
10,311


In [None]:
# Seleccion de varias columnas con un list de nombres ( ['Unidades', 'Precio'])
df2 = df[ ['Unidades', 'Precio'] ]
df2.head()

Unnamed: 0,Unidades,Precio
1,255,37.03
2,488,38.9
3,457,43.86
4,268,40.58
5,568,42.76


#### **Seleccion basada en etiquetas con `.loc[]`**

- El operador `.loc[]` facilita la selección de columnas, filas o de columnas y filas de una DataFrame, usando como argumento entre corchetes el nombre o los nombres de las filas y columnas (etiquetas) en lugar de sus posiciones numéricas.

- La sintaxis general es:

  + para una columna `df.loc[:, "nombre_columna"]` y para varias columnas  `df.loc[:, ["nombre_columna_1","nombre_columna_2",..] ]`
  + para una fila `df.loc["nombre_fila",:]`,y para varias filas  `df.loc[["nombre_fila_1","nombre_fila_2",..] ]`
  + para una fila y una columna `df.loc["nombre_fila", "nombre_columnas"]`, y para varias filas y columnas `df.loc[[nombre_filas], [nombre_columnas]]`.

In [None]:
# Una columna (con los dos puntos antes de la coma seleccionamos todas las filas)
df.loc[:,'Producto']

Unnamed: 0,Producto
1,Smartphone
2,Smartwatch
3,Tablet
4,Smartphone
5,Desktop
6,Laptop
7,Laptop
8,Smartphone
9,Laptop
10,Smartphone


In [None]:
# Varias columnas (con los dos puntos antes de la coma seleccionamos todas las filas)
df.loc[:, ['Producto','Unidades']]

Unnamed: 0,Producto,Unidades
1,Smartphone,255
2,Smartwatch,488
3,Tablet,457
4,Smartphone,268
5,Desktop,568
6,Laptop,327
7,Laptop,339
8,Smartphone,314
9,Laptop,366
10,Smartphone,311


In [None]:
# Extraccion de filas no adyacentes por etiqueta o nombre (con los dos puntos despues de la coma seleccionamos todas las columnas)
df.loc[1, :]

Unnamed: 0,1
Fecha,2025-03-01 00:00:00
Producto,Smartphone
Unidades,255
Precio,37.03
Rentabilidad,True


In [None]:
# Extraccion de filas especificas no adyacentes con un list de etiquetas o nombres (con los dos puntos despues de la coma seleccionamos todas las columnas)
df.loc[[1, 5, 9], :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
5,2025-03-05,Desktop,568,42.76,False
9,2025-03-09,Laptop,366,39.05,True


In [None]:
# Extraccion de filas y columnas especificas con un list de nombres para las filas y un list de nombres para las columnas
df.loc[[1,5,9], ['Producto', 'Unidades', 'Precio']]

Unnamed: 0,Producto,Unidades,Precio
1,Smartphone,255,37.03
5,Desktop,568,42.76
9,Laptop,366,39.05


#### **Seleccion basada en posiciones con `.iloc[]`**

- El operador `.iloc[]` se utiliza para la indexación basada en posiciones (índices numéricos).

- La sintaxis es `df.iloc[numero_fila, numero_columna]` donde nombre_fila y nombre_columna pueden ser: Un entero, una lista de enteros, un rango de enteros (slicing), etc.

- El operador `iloc[]` utiliza índices basados en cero (la primera fila tiene el índice 0, la segunda fila tiene el índice 1, y así sucesivamente).

In [None]:
# Estraccion de UNA filas especifica (el numero representa la posicion, no el nombre)
df.iloc[0, :]

Unnamed: 0,1
Fecha,2025-03-01 00:00:00
Producto,Smartphone
Unidades,255
Precio,37.03
Rentabilidad,True


In [None]:
# Estraccion de varias filas (los numeros representan posiciones No nombres)
df.iloc[[0, 5, 9], :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
6,2025-03-06,Laptop,327,41.73,True
10,2025-03-10,Smartphone,311,39.03,True


In [None]:
# Seleccion de filas y columnas
df.iloc[[0, 3], [0, 2]]

Unnamed: 0,Fecha,Unidades
1,2025-03-01,255
4,2025-03-04,268


#### **Seleccion de un elemento con `.at[]` y `.iat[]`**

- Los operadores `.at[]` y `.iat[]` se utilizan para acceder a un único valor de una DataFrame.



- `df.at["nombre_fila", "nombre_columna"]` accede mediante etiquetas a un único valor en un DataFrame.

In [None]:
# Seleccion de un valor especifico por nombre
df.at[1, 'Precio']

# Idem con iloc
# df.loc[1, "Precio"]

np.float64(37.03)

- `df.iat[posicion_fila, posicion_columna]` accede a un único valor mediante posiciones de fila y columna.

In [None]:
# Seleccion de un valor especifico por posicion
df.iat[0, 3]

# Idem con iloc
# df.iloc[0, 3]

np.float64(37.03)


### **Segmentación (slicing)**

##### **Segmentacion directa con el operador `[]`**


- Se puede hacer slicing directamente con `[]`, usando el operador dos puntos `:`.

- Funciona bien cuando el índex del DataFrame es numérico (Pandas interpreta el "slicing" directo como una selección posicional de filas).

- No funciona bien cuando el index es no numérico.

- **No se puede realizar "slicing" directo de columnas con el operador []**

In [None]:
# Segmentacion directa de filas por posicion
df[0:3]   # selecciona las filas con etiquetas 1, 2 y 3 (posiciones 0,1, 2)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False


In [None]:
# Seleccion desde la primera posicion (incluida) hasta una posicion especifica (excluida)
df[:3]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False


In [None]:
# Seleccion desde la una posicion especifica (incluida) hasta la ultima (incluida)
df[6:]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
7,2025-03-07,Laptop,339,38.09,True
8,2025-03-08,Smartphone,314,41.63,True
9,2025-03-09,Laptop,366,39.05,True
10,2025-03-10,Smartphone,311,39.03,True


In [None]:
# Seleccion desde la prima posicion hasta la ultima, con un salto entre posiciones consecutivas
df[::2]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
3,2025-03-03,Tablet,457,43.86,False
5,2025-03-05,Desktop,568,42.76,False
7,2025-03-07,Laptop,339,38.09,True
9,2025-03-09,Laptop,366,39.05,True


#### **Segmentacion por nombre con `.loc[]`**

- Selección de filas y columnas basada en etiquetas.

- Sintaxis: `df.loc[rango_nombres_filas, rango_nombre_columnas]`. Incluye el final.

In [None]:
# Segmentacion de filas adyacentes por etiqueta (aqui los numeros son nombres) y todas las columnas
df.loc[1:5, :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
4,2025-03-04,Smartphone,268,40.58,True
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Segmentacion de filas adyacentes por etiqueta y varias columnas
df.loc[1:5, 'Producto':'Precio']

Unnamed: 0,Producto,Unidades,Precio
1,Smartphone,255,37.03
2,Smartwatch,488,38.9
3,Tablet,457,43.86
4,Smartphone,268,40.58
5,Desktop,568,42.76


#### **Segmentacion por posicion con `.iloc[]`**

- Selección basada en posiciones (numeros enteros) de filas y columnas.

- Sintaxis: `df.iloc[slice_numerico_filas, slice_numerico_columas]`.

- Incluye la primera posicion y excluye la última.

In [None]:
# Segmentacion de un rango de filas adyacentes por posicion  y de todas las columnas
df.iloc[0:5, :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
4,2025-03-04,Smartphone,268,40.58,True
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Segmentacion de un rango de filas adyacentes por posicion  y de varias columnas
df.iloc[0:5, 0:2]

Unnamed: 0,Fecha,Producto
1,2025-03-01,Smartphone
2,2025-03-02,Smartwatch
3,2025-03-03,Tablet
4,2025-03-04,Smartphone
5,2025-03-05,Desktop


####  **Diferencia entre `.loc[]` y `.iloc[]`**

In [None]:
# Segmentacion por nombre: incluye el primero y el ultimo
df.loc[1:3, :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False


In [None]:
# Segmentacion por posicion: incluye el primero y excluye el ultimo
df.iloc[0:3,:]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False


### **Seleccion condicional**

- La selección condicional consiste en filtrar y seleccionar filas, columnas o ambas, en base a determinadas condiciones.

- La seleccion condicional se puede hacer directamente con `[]` o con nombres con `.loc[]`. No obstante, se recomienda utilizar `.loc[]`.

In [None]:
# Para diferenciar el nombre de la fila de la posicion vamos a hacer
df = datos.copy()
df.index = range(1, len(df)+1) #incluye el primero y expluye el ultimo
df.head()

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
4,2025-03-04,Smartphone,268,40.58,True
5,2025-03-05,Desktop,568,42.76,False


#### **Selección Condicional de Filas**

#####  **Seleccion condicional de filas con `df.loc[]`**


- Se puede hacer:
  + Especificando la condición mediante operados de comporación, lógicos, etc.
  + Especificando la condición con el operador de pertenencia `.isin()`

**Especificando la condiciones con operadores de comparación, lógicos, etc.**

- Es la forma mas utilizada para seleccionar filas que cumplen una condición.

- La condición sobre los valores de una columna (df["Unidades"] > 400), devuelvve una Series de valores lógicos.

- Esta condición se pasa como primer argumento (antes de la coma) en el operador `df.loc[]`, de forma que extrae el subconjunto de la DataFrame donde la serie Booleana toma valor `True`.

In [None]:
# Seleccion de filas con una condicion y de todas las columnas
df.loc[df["Unidades"] > 400, :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Seleccion de filas con una condicion y de varias columnas especificas
df.loc[df['Unidades'] > 400, ['Unidades', 'Precio', 'Rentabilidad']]

Unnamed: 0,Unidades,Precio,Rentabilidad
2,488,38.9,False
3,457,43.86,False
5,568,42.76,False


In [None]:
# Seleccion de filas  con mas de una condicion y de todas las columnas
df.loc[(df["Unidades"] > 400) & (df.Precio < 100), :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Seleccion de filas  con mas de una condicion y de varias columnas
df.loc[(df["Unidades"] > 400) & (df.Precio < 100), ['Unidades', 'Precio', 'Rentabilidad']]

Unnamed: 0,Unidades,Precio,Rentabilidad
2,488,38.9,False
3,457,43.86,False
5,568,42.76,False


**Especificando la condición con el método `.isin()`**

- La función `.isin()` se aplica a una columna y permite filtrar las filas donde la columna contiene valores que pertenecen a una lista (o a otro iterable).

- Devuelve una Serie booleana donde `True`, que indica que el valor en la columna está presente en el conjunto de valores del list búsqueda, y `False` en caso contrario.

- La función `df.loc[]` utiliza esta condición para seleccionar solo las filas donde la condición es True.

- Es la seleccion condicional **adecuada para columnas no numericas**.

In [None]:
# Para diferenciar el nombre de la fila de la posicion vamos a hacer
df = datos.copy()
df.index = range(1, len(df)+1) #incluye el primero y expluye el ultimo
df.head()

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
4,2025-03-04,Smartphone,268,40.58,True
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Seleccion condicional para columnas No numericas con isin
df.loc[df['Producto'].isin(["Smartwatch", "Laptop"]) ]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
6,2025-03-06,Laptop,327,41.73,True
7,2025-03-07,Laptop,339,38.09,True
9,2025-03-09,Laptop,366,39.05,True


In [None]:
# Idem con operadores logicos
df.loc[(df['Producto'] =="Smartwatch") | (df['Producto'] == "Laptop"), :]

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
6,2025-03-06,Laptop,327,41.73,True
7,2025-03-07,Laptop,339,38.09,True
9,2025-03-09,Laptop,366,39.05,True


##### **Seleccion condicional con  `df.query()`**

- La función `.query()` toma como argumento una cadena de caracteres que representa la condición de seleccion, y devuelve las filas que cumplen la condición.

- Dentro de la cadena de caracteres de consulta se pueden usar  operadores de comparación (>, <, ==, !=, >=, <=), operadores lógicos (`and`, `or`, `not`), y otras funciones de Pandas.

In [None]:
# Consulta simple; Cadena de caracteres de consulta: " Unidades > 400) "
df.query(" Unidades > 400 ")

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
3,2025-03-03,Tablet,457,43.86,False
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Consulta compuesta: Cadena de caracteres de consulta: " (Producto == 'Smartphone') & (Unidades > 10) "
df.query(" (Producto == 'Smartphone') & (Unidades > 10) ")

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
4,2025-03-04,Smartphone,268,40.58,True
8,2025-03-08,Smartphone,314,41.63,True
10,2025-03-10,Smartphone,311,39.03,True


In [None]:
# Consulta compuesta: Cadena de caracteres de consulta: " (Producto == 'Smartphone') & (Unidades > 10) "
df.query(" (Producto == 'Smartphone') and (Unidades > 10) ")

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
4,2025-03-04,Smartphone,268,40.58,True
8,2025-03-08,Smartphone,314,41.63,True
10,2025-03-10,Smartphone,311,39.03,True


#### **Selección Condicional de Columnas**

##### **Selección columnas por tipo de datos**

- El método `df.select_dtypes()` se utiliza para seleccionar columnas de una DataFrame en función de su tipo de datos.

- El parámetro `include` es lista de tipos de datos a incluir en la selección. Puede ser: 'int', 'float', 'object', 'bool', etc.


In [None]:
# Seleccion de Variables numericas
df.select_dtypes(include=["int","float"])

Unnamed: 0,Unidades,Precio
1,255,37.03
2,488,38.9
3,457,43.86
4,268,40.58
5,568,42.76
6,327,41.73
7,339,38.09
8,314,41.63
9,366,39.05
10,311,39.03


In [None]:
# Variables categoricas y no numericas
df.select_dtypes(include=["object", "category"])

Unnamed: 0,Producto
1,Smartphone
2,Smartwatch
3,Tablet
4,Smartphone
5,Desktop
6,Laptop
7,Laptop
8,Smartphone
9,Laptop
10,Smartphone


##### **Selección columnas con el metodo `df.columns.str.contains()`**  

Esta función se utiliza para seleccionar columnas  cuyos nombres cumplen una determinada condición.

- La condicion se especifica con el argumento `pat` (pattern), mediante una cadena de caracteres o una expresion regular (regex), a buscar en los nombres de las  columnas.

In [None]:
# Seleccion de columnas no numericas que contienen un "patrón" especificado
df.loc[:, df.columns.str.contains(pat='Pr')]

Unnamed: 0,Producto,Precio
1,Smartphone,37.03
2,Smartwatch,38.9
3,Tablet,43.86
4,Smartphone,40.58
5,Desktop,42.76
6,Laptop,41.73
7,Laptop,38.09
8,Smartphone,41.63
9,Laptop,39.05
10,Smartphone,39.03


##### **Seleccion de columnas con el metodo `df.filter()`**

- El metodo `filter` selecciona una o varias columnas usando su nombre.  

- No selecciona por contenido de las variables u observaciones como hace `query()`.

- Esta funcion tiene cuatro argumentos:

  + `ìtems`: es un list con el nombre de una de varias columnas.  
  
  + `like`: es una cadena de caracteres que se utiliza para filtrar los nombres de las columnas o las etiquetas de índice que contienen la cadena de caracteres especificada.  

  + `regex`: es una expresión regular que se utiliza para filtrar los nombres de las columnas o las etiquetas de índice que coinciden con la expresión regular especificada.

  + `axis`: Es el eje a lo largo del cual se realizará el filtrado. Puede ser 0 para las filas o 1 para las columnas (valor por defecto).



In [None]:
# Seleccion de filas por index (por el index axis=0)
df.filter(items=[1], axis = 0)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True


In [None]:
# Seleccion de filas (por el index axis=0)
df2 = df.set_index("Fecha")
df2.filter(like='09', axis=0)

Unnamed: 0_level_0,Producto,Unidades,Precio,Rentabilidad
Fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2025-03-09,Laptop,366,39.05,True


In [None]:
# Seleccion de columnas (por defecto axis=1)
df.filter(items=['Producto'])
df.filter(items=['Producto','Precio'])

Unnamed: 0,Producto,Precio
1,Smartphone,37.03
2,Smartwatch,38.9
3,Tablet,43.86
4,Smartphone,40.58
5,Desktop,42.76
6,Laptop,41.73
7,Laptop,38.09
8,Smartphone,41.63
9,Laptop,39.05
10,Smartphone,39.03


In [None]:
# Seleccion condidicional de columnas con "like" (por defecto axis=1)
df.filter(like="Pr")

Unnamed: 0,Producto,Precio
1,Smartphone,37.03
2,Smartwatch,38.9
3,Tablet,43.86
4,Smartphone,40.58
5,Desktop,42.76
6,Laptop,41.73
7,Laptop,38.09
8,Smartphone,41.63
9,Laptop,39.05
10,Smartphone,39.03


In [None]:
# Idem con "regex" (columna cuyo nombre empieza por P)
df.filter(regex="^P")

Unnamed: 0,Producto,Precio
1,Smartphone,37.03
2,Smartwatch,38.9
3,Tablet,43.86
4,Smartphone,40.58
5,Desktop,42.76
6,Laptop,41.73
7,Laptop,38.09
8,Smartphone,41.63
9,Laptop,39.05
10,Smartphone,39.03


In [None]:
# Idem Con "filter" y "regex" (columnas cuyo nombre termina en d)
df.filter(regex="d$")

Unnamed: 0,Rentabilidad
1,True
2,False
3,False
4,True
5,False
6,True
7,True
8,True
9,True
10,True


In [None]:
# Idem Con "filter" y "regex" (columnas cuyo nombre contiene la letra d)
df.filter(regex="[d]")

Unnamed: 0,Producto,Unidades,Rentabilidad
1,Smartphone,255,True
2,Smartwatch,488,False
3,Tablet,457,False
4,Smartphone,268,True
5,Desktop,568,False
6,Laptop,327,True
7,Laptop,339,True
8,Smartphone,314,True
9,Laptop,366,True
10,Smartphone,311,True


In [None]:
# Nombre contenga una u otra letra (columnas cuyo nombre contehga las letra o o la u)
df.filter(regex = "[o|u]")

Unnamed: 0,Producto,Precio
1,Smartphone,37.03
2,Smartwatch,38.9
3,Tablet,43.86
4,Smartphone,40.58
5,Desktop,42.76
6,Laptop,41.73
7,Laptop,38.09
8,Smartphone,41.63
9,Laptop,39.05
10,Smartphone,39.03


In [None]:
#Seleccion de columnas que NO contienen un "patrón" (seleccion por exclusion)
df.loc[:, ~df.columns.str.contains(pat='Pr')]

Unnamed: 0,Fecha,Unidades,Rentabilidad
1,2025-03-01,255,True
2,2025-03-02,488,False
3,2025-03-03,457,False
4,2025-03-04,268,True
5,2025-03-05,568,False
6,2025-03-06,327,True
7,2025-03-07,339,True
8,2025-03-08,314,True
9,2025-03-09,366,True
10,2025-03-10,311,True


#### **Seleccion aleatoria de filas o columnas con `df.sample()`**

##### Seleccion aleatoria de filas (observaciones)


De forma predeterminada el método `df.sample()` realiza una  selección aleatoria de filas de un `DataFrame`

In [None]:
# Seleccion aleatoria de n filas (sin repetion e igual probabilidad)
df.sample(n=2)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
1,2025-03-01,Smartphone,255,37.03,True
10,2025-03-10,Smartphone,311,39.03,True


In [None]:
# Idem con semilla (para reproducibilidad)
df.sample(n=5, random_state=12)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
6,2025-03-06,Laptop,327,41.73,True
9,2025-03-09,Laptop,366,39.05,True
8,2025-03-08,Smartphone,314,41.63,True
1,2025-03-01,Smartphone,255,37.03,True
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Muestreo con reemplazamiento (permite repetir filas)
df.sample(n=5, replace=True)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
2,2025-03-02,Smartwatch,488,38.9,False
2,2025-03-02,Smartwatch,488,38.9,False
9,2025-03-09,Laptop,366,39.05,True
4,2025-03-04,Smartphone,268,40.58,True
6,2025-03-06,Laptop,327,41.73,True


In [None]:
 # Selecciona un porcentaje de las filas
 df.sample(frac=0.3)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
7,2025-03-07,Laptop,339,38.09,True
1,2025-03-01,Smartphone,255,37.03,True
5,2025-03-05,Desktop,568,42.76,False


In [None]:
# Seleccion alearia con probabilidades
probabilidades = [0.12976469, 0.07358419, 0.1439561,  0.11692363, 0.01579017, 0.16357691,
 0.12761585, 0.13179482, 0.02148007, 0.07551358]

df.sample(n=5, weights=probabilidades, random_state=1)

Unnamed: 0,Fecha,Producto,Unidades,Precio,Rentabilidad
4,2025-03-04,Smartphone,268,40.58,True
7,2025-03-07,Laptop,339,38.09,True
1,2025-03-01,Smartphone,255,37.03,True
3,2025-03-03,Tablet,457,43.86,False
2,2025-03-02,Smartwatch,488,38.9,False


-----------------------------

##### Seleccion aleatoria de columnas

- Se hace de la misma forma pero con `axis=1`

In [None]:
df.sample(n=2, axis=1, random_state=1)

Unnamed: 0,Unidades,Producto
1,255,Smartphone
2,488,Smartwatch
3,457,Tablet
4,268,Smartphone
5,568,Desktop
6,327,Laptop
7,339,Laptop
8,314,Smartphone
9,366,Laptop
10,311,Smartphone
