# Consultas previas

## Separación de columnas con rango

En muchas situaciones reales, la información puede venir condensada en una sola columna en forma de rangos, como "Precio Mínimo - Precio Máximo" por servicio. Para analizar estos datos de forma efectiva, es necesario separar esta columna en dos nuevas: una para el valor mínimo y otra para el máximo.

Imaginemos que estamos analizando los precios cobrados por servicios de asesoría freelance publicados en línea. Los rangos pueden aparecer así:

    "200-350"

    "180-300"

    "150-250"

Para realizar análisis estadísticos útiles (como promedios o visualizaciones), necesitamos extraer ambos extremos del rango y convertirlos en columnas independientes.

La función apply() de Pandas permite aplicar una función personalizada a cada fila o elemento de una columna. Es una herramienta muy flexible y poderosa para transformar datos.

En este caso, queremos aplicar una función que reciba cada cadena con un rango de precios, la divida en dos partes y las convierta en números separados para luego almacenarlos en nuevas columnas.


Primero, construimos un DataFrame simulado con precios por hora en formato de rango:

In [7]:
import pandas as pd

# Datos simulados: precios por hora de servicios profesionales
datos = {
    'Rango Precio por Hora': [
        '200-350', '180-300', '150-250', '220-400',
        '170-310', '160-290', '190-340', '210-360',
        '175-305', '165-280'
    ]
}

dfp = pd.DataFrame(datos)
dfp


Unnamed: 0,Rango Precio por Hora
0,200-350
1,180-300
2,150-250
3,220-400
4,170-310
5,160-290
6,190-340
7,210-360
8,175-305
9,165-280


### El método `.split()`

En Python, el método `.split()` se utiliza para **dividir cadenas de texto** en partes, usando un carácter como separador. Esto es muy útil cuando una columna contiene datos combinados, como rangos, nombres completos o formatos estructurados.


In [8]:
# Dividir un nombre completo
nombre_completo = "Juan Pérez"
nombre_completo_dividido=nombre_completo.split(" ")
print(nombre_completo_dividido)

# Dividir un rango numérico
rango_precio = "200-350"
rango_precio_dividido=rango_precio.split("-")
print(rango_precio_dividido)


# Extraer componentes de una fecha
fecha = "2024/06/12"
año, mes, día = fecha.split("/")
print(año, mes, día)

['Juan', 'Pérez']
['200', '350']
2024 06 12


### Detección de duplicados con .duplicated()

Si queremos detectar primero cuáles filas están repetidas, usamos .duplicated(), que devuelve una serie booleana indicando si la fila ya fue vista antes:

In [9]:
import pandas as pd

# Crear un DataFrame de prueba con algunas filas duplicadas
dfpruebas = pd.DataFrame({
    'Código': [101, 102, 103, 101, 104, 102, 105],
    'Categoría': ['A', 'B', 'C', 'A', 'D', 'B', 'E']
})

dfpruebas


Unnamed: 0,Código,Categoría
0,101,A
1,102,B
2,103,C
3,101,A
4,104,D
5,102,B
6,105,E


In [10]:
dfpruebas.duplicated()

0    False
1    False
2    False
3     True
4    False
5     True
6    False
dtype: bool

In [11]:
dfpruebas[dfpruebas.duplicated()]

Unnamed: 0,Código,Categoría
3,101,A
5,102,B


In [12]:
dfpruebas

Unnamed: 0,Código,Categoría
0,101,A
1,102,B
2,103,C
3,101,A
4,104,D
5,102,B
6,105,E


### Eliminación de filas duplicadas
Podemos usar .drop_duplicates() para eliminar filas repetidas (donde todas las columnas tienen exactamente los mismos valores):

In [13]:
df_sin_duplicados = dfpruebas.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Código,Categoría
0,101,A
1,102,B
2,103,C
4,104,D
6,105,E


# Trabajo con datetime: Se declara el df

In [14]:
import pandas as pd

# Crear un diccionario con los datos
data = {
    "nombre": ["Ana", "Luis", "Pedro", "María", "Carlos", "Sofía", "Elena", "Juan", "Diego", "Valeria"],
    "fecha_compra": ["2024-01-15", "15/02/2024", "2024-03-10", "10-04-2024", "05-05-2024",
                     "2024/06/20", "07/07/2024", "2024-08-25 14:30", "2024-09-30 18:45", "2024-10-10"],
    "categoria": ["A", "B", "A", "C", "B", "A", "C", "B", "C", "A"],
    "monto_compra": [150.50, 80.75, 220.30, 95.00, 110.20, 135.00, 99.99, 180.75, 160.40, 145.60],
    "productos_comprados": [3, 1, 4, 2, 2, 3, 1, 5, 4, 3],
    "comentario": ["Excelente compra", "muy bueno", "Regular, esperaba más", "malo", "excelente",
                   "Malo", "Buena calidad", "excelente", "no está mal", "REGULAR"]
}

# Crear el DataFrame
df = pd.DataFrame(data)
df


Unnamed: 0,nombre,fecha_compra,categoria,monto_compra,productos_comprados,comentario
0,Ana,2024-01-15,A,150.5,3,Excelente compra
1,Luis,15/02/2024,B,80.75,1,muy bueno
2,Pedro,2024-03-10,A,220.3,4,"Regular, esperaba más"
3,María,10-04-2024,C,95.0,2,malo
4,Carlos,05-05-2024,B,110.2,2,excelente
5,Sofía,2024/06/20,A,135.0,3,Malo
6,Elena,07/07/2024,C,99.99,1,Buena calidad
7,Juan,2024-08-25 14:30,B,180.75,5,excelente
8,Diego,2024-09-30 18:45,C,160.4,4,no está mal
9,Valeria,2024-10-10,A,145.6,3,REGULAR


In [15]:
df.dtypes

nombre                  object
fecha_compra            object
categoria               object
monto_compra           float64
productos_comprados      int64
comentario              object
dtype: object

In [16]:
print(df.dtypes)  # Ver todos los tipos de datos del DataFrame


nombre                  object
fecha_compra            object
categoria               object
monto_compra           float64
productos_comprados      int64
comentario              object
dtype: object


##  DF a operar

In [17]:
df["fecha_compra"]


0          2024-01-15
1          15/02/2024
2          2024-03-10
3          10-04-2024
4          05-05-2024
5          2024/06/20
6          07/07/2024
7    2024-08-25 14:30
8    2024-09-30 18:45
9          2024-10-10
Name: fecha_compra, dtype: object

Esto va a dar error

In [18]:
pd.to_datetime(df["fecha_compra"])

ValueError: time data "15/02/2024" doesn't match format "%Y-%m-%d", at position 1. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

# Datetime

## Primero

In [19]:
pd.to_datetime(df["fecha_compra"], errors="coerce" )

0   2024-01-15
1          NaT
2   2024-03-10
3          NaT
4          NaT
5          NaT
6          NaT
7          NaT
8          NaT
9   2024-10-10
Name: fecha_compra, dtype: datetime64[ns]

## Segundo

In [20]:
pd.to_datetime(
    df["fecha_compra"], format="%d-%m-%Y", errors="coerce"
)

0          NaT
1          NaT
2          NaT
3   2024-04-10
4   2024-05-05
5          NaT
6          NaT
7          NaT
8          NaT
9          NaT
Name: fecha_compra, dtype: datetime64[ns]

## Tercero

In [21]:
pd.to_datetime(
    df["fecha_compra"], format="%d/%m/%Y", errors="coerce"
)

0          NaT
1   2024-02-15
2          NaT
3          NaT
4          NaT
5          NaT
6   2024-07-07
7          NaT
8          NaT
9          NaT
Name: fecha_compra, dtype: datetime64[ns]

## Cuarto

In [22]:
pd.to_datetime(
    df["fecha_compra"], format="%Y/%m/%d", errors="coerce"
)

0          NaT
1          NaT
2          NaT
3          NaT
4          NaT
5   2024-06-20
6          NaT
7          NaT
8          NaT
9          NaT
Name: fecha_compra, dtype: datetime64[ns]

## Quinto

In [23]:
pd.to_datetime(
    df["fecha_compra"], format="%Y-%m-%d %H:%M", errors="coerce"
)

0                   NaT
1                   NaT
2                   NaT
3                   NaT
4                   NaT
5                   NaT
6                   NaT
7   2024-08-25 14:30:00
8   2024-09-30 18:45:00
9                   NaT
Name: fecha_compra, dtype: datetime64[ns]

### format="mixed"

In [24]:
df["fecha_compra2"] = pd.to_datetime(df["fecha_compra"], errors="coerce", format="mixed")
df["fecha_compra2"]

0   2024-01-15 00:00:00
1   2024-02-15 00:00:00
2   2024-03-10 00:00:00
3   2024-10-04 00:00:00
4   2024-05-05 00:00:00
5   2024-06-20 00:00:00
6   2024-07-07 00:00:00
7   2024-08-25 14:30:00
8   2024-09-30 18:45:00
9   2024-10-10 00:00:00
Name: fecha_compra2, dtype: datetime64[ns]

## Acceso con dt.year dt.month dt.day

In [25]:
df2 = pd.DataFrame({
    'year': df["fecha_compra2"].dt.year,
    'month': df["fecha_compra2"].dt.month,
    'day': df["fecha_compra2"].dt.day,
    'hour': df["fecha_compra2"].dt.hour,
    'minute': df["fecha_compra2"].dt.minute
})
df2

Unnamed: 0,year,month,day,hour,minute
0,2024,1,15,0,0
1,2024,2,15,0,0
2,2024,3,10,0,0
3,2024,10,4,0,0
4,2024,5,5,0,0
5,2024,6,20,0,0
6,2024,7,7,0,0
7,2024,8,25,14,30
8,2024,9,30,18,45
9,2024,10,10,0,0


In [26]:
df

Unnamed: 0,nombre,fecha_compra,categoria,monto_compra,productos_comprados,comentario,fecha_compra2
0,Ana,2024-01-15,A,150.5,3,Excelente compra,2024-01-15 00:00:00
1,Luis,15/02/2024,B,80.75,1,muy bueno,2024-02-15 00:00:00
2,Pedro,2024-03-10,A,220.3,4,"Regular, esperaba más",2024-03-10 00:00:00
3,María,10-04-2024,C,95.0,2,malo,2024-10-04 00:00:00
4,Carlos,05-05-2024,B,110.2,2,excelente,2024-05-05 00:00:00
5,Sofía,2024/06/20,A,135.0,3,Malo,2024-06-20 00:00:00
6,Elena,07/07/2024,C,99.99,1,Buena calidad,2024-07-07 00:00:00
7,Juan,2024-08-25 14:30,B,180.75,5,excelente,2024-08-25 14:30:00
8,Diego,2024-09-30 18:45,C,160.4,4,no está mal,2024-09-30 18:45:00
9,Valeria,2024-10-10,A,145.6,3,REGULAR,2024-10-10 00:00:00


# Operaciones con NP.WHERE

La función np.where() de NumPy permite aplicar una condición lógica sobre una columna y asignar diferentes valores según si la condición es verdadera o falsa.

Esto significa:

* Si el valor de "productos_comprados" es mayor que 3 → se asigna "Muchos".
* Si no lo es → se asigna "Pocos".



In [28]:
import numpy as np
df["tipo_espera"] = np.where(df["productos_comprados"] > 3, "Muchos", "Pocos")
df["tipo_espera"]

0     Pocos
1     Pocos
2    Muchos
3     Pocos
4     Pocos
5     Pocos
6     Pocos
7    Muchos
8    Muchos
9     Pocos
Name: tipo_espera, dtype: object

# Operaciones con cut

In [29]:
df["monto_compra"]

0    150.50
1     80.75
2    220.30
3     95.00
4    110.20
5    135.00
6     99.99
7    180.75
8    160.40
9    145.60
Name: monto_compra, dtype: float64

bins=[0, 100, 170, float("inf")]
* Entre 0 y 100         --> Bajo
* Entre 100 y 170       --> Medio
* Entre 170 e infinito  --> Alto

In [30]:
df["rango_gasto"] = pd.cut(df["monto_compra"],
                           bins=[0, 100, 170, float("inf")],
                           labels=["Bajo", "Medio", "Alto"])
df[["rango_gasto","monto_compra"]]



Unnamed: 0,rango_gasto,monto_compra
0,Medio,150.5
1,Bajo,80.75
2,Alto,220.3
3,Bajo,95.0
4,Medio,110.2
5,Medio,135.0
6,Bajo,99.99
7,Alto,180.75
8,Medio,160.4
9,Medio,145.6


In [31]:
df["rango_gasto_numerico"] = pd.cut(df["monto_compra"],
                           [0.1, 100, 170, float("inf")],
                           labels=False,right=False )
df[["rango_gasto_numerico","monto_compra"]]

Unnamed: 0,rango_gasto_numerico,monto_compra
0,1,150.5
1,0,80.75
2,2,220.3
3,0,95.0
4,1,110.2
5,1,135.0
6,0,99.99
7,2,180.75
8,1,160.4
9,1,145.6


In [32]:
df["rango_gasto_numerico"] = pd.cut(df["monto_compra"],
                                     [0.1, 100, 170, float("inf")],
                                     labels=["1", "2", "3"])

df["rango_gasto_numerico"] = df["rango_gasto_numerico"].astype(float)

df[["rango_gasto_numerico","monto_compra"]]

Unnamed: 0,rango_gasto_numerico,monto_compra
0,2.0,150.5
1,1.0,80.75
2,3.0,220.3
3,1.0,95.0
4,2.0,110.2
5,2.0,135.0
6,1.0,99.99
7,3.0,180.75
8,2.0,160.4
9,2.0,145.6


In [33]:
df.dtypes

nombre                          object
fecha_compra                    object
categoria                       object
monto_compra                   float64
productos_comprados              int64
comentario                      object
fecha_compra2           datetime64[ns]
tipo_espera                     object
rango_gasto                   category
rango_gasto_numerico           float64
dtype: object

In [34]:
s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'])
s

a     2
b     4
c     6
d     8
e    10
dtype: int64

In [35]:

# pd.cut(s, [0, 2, 4, 6, 8, 10], labels=False, retbins=True, right=False)

a = pd.cut(df["monto_compra"],[0.1, 100, 200, 300, 400,500],labels=False, retbins=True, right=False )
a

(0    1
 1    0
 2    2
 3    0
 4    1
 5    1
 6    0
 7    1
 8    1
 9    1
 Name: monto_compra, dtype: int64,
 array([1.e-01, 1.e+02, 2.e+02, 3.e+02, 4.e+02, 5.e+02]))

## One Hot Encoding

### Propiedades de `pd.get_dummies()`

`pd.get_dummies()` es una función de Pandas que permite transformar columnas categóricas en representaciones numéricas binarias. A continuación, se explican sus parámetros principales:

### 📌 **Parámetros principales**

1. **`data`** (obligatorio)  
   - Es el DataFrame o la Serie que contiene las columnas categóricas que queremos codificar.

2. **`columns`** (opcional)  
   - Lista de nombres de columnas que queremos transformar.  
   - Si no se especifica, convierte **todas** las columnas categóricas.

3. **`drop_first`** (opcional, `False` por defecto)  
   - Si `True`, elimina una categoría por cada columna para evitar **multicolinealidad**.  
   - Si `False`, mantiene todas las categorías.

4. **`dtype`** (opcional, `np.uint8` o `int` recomendado)  
   - Especifica el tipo de dato de las nuevas columnas binarias.  
   - Puede ayudar a **optimizar memoria** si usamos `dtype="uint8"` en lugar de `int64`.

5. **`prefix`** (opcional)  
   - Agrega un prefijo a los nombres de las nuevas columnas.  
   - Puede ser una lista o un diccionario `{columna: prefijo}`.

6. **`prefix_sep`** (opcional, por defecto `_`)  
   - Define el separador entre el prefijo y el nombre de la categoría.

7. **`dummy_na`** (opcional, `False` por defecto)  
   - Si `True`, crea una columna extra para representar valores **NaN** (faltantes).

8. **`sparse`** (opcional, `False` por defecto)  
   - Si `True`, devuelve una matriz dispersa en lugar de un DataFrame, útil para ahorrar memoria con muchas categorías.

---


In [36]:
df

Unnamed: 0,nombre,fecha_compra,categoria,monto_compra,productos_comprados,comentario,fecha_compra2,tipo_espera,rango_gasto,rango_gasto_numerico
0,Ana,2024-01-15,A,150.5,3,Excelente compra,2024-01-15 00:00:00,Pocos,Medio,2.0
1,Luis,15/02/2024,B,80.75,1,muy bueno,2024-02-15 00:00:00,Pocos,Bajo,1.0
2,Pedro,2024-03-10,A,220.3,4,"Regular, esperaba más",2024-03-10 00:00:00,Muchos,Alto,3.0
3,María,10-04-2024,C,95.0,2,malo,2024-10-04 00:00:00,Pocos,Bajo,1.0
4,Carlos,05-05-2024,B,110.2,2,excelente,2024-05-05 00:00:00,Pocos,Medio,2.0
5,Sofía,2024/06/20,A,135.0,3,Malo,2024-06-20 00:00:00,Pocos,Medio,2.0
6,Elena,07/07/2024,C,99.99,1,Buena calidad,2024-07-07 00:00:00,Pocos,Bajo,1.0
7,Juan,2024-08-25 14:30,B,180.75,5,excelente,2024-08-25 14:30:00,Muchos,Alto,3.0
8,Diego,2024-09-30 18:45,C,160.4,4,no está mal,2024-09-30 18:45:00,Muchos,Medio,2.0
9,Valeria,2024-10-10,A,145.6,3,REGULAR,2024-10-10 00:00:00,Pocos,Medio,2.0


In [37]:
# Guardamos la columna original categoria en categoria_original, porque get_dummies la borra por defecto
df["categoria_original"] = df["categoria"]

df = pd.get_dummies(df, columns=["categoria"])

#df[["rango_gasto","monto_compra"]]
df.filter(like="categoria_")

Unnamed: 0,categoria_original,categoria_A,categoria_B,categoria_C
0,A,True,False,False
1,B,False,True,False
2,A,True,False,False
3,C,False,False,True
4,B,False,True,False
5,A,True,False,False
6,C,False,False,True
7,B,False,True,False
8,C,False,False,True
9,A,True,False,False


In [38]:
df

Unnamed: 0,nombre,fecha_compra,monto_compra,productos_comprados,comentario,fecha_compra2,tipo_espera,rango_gasto,rango_gasto_numerico,categoria_original,categoria_A,categoria_B,categoria_C
0,Ana,2024-01-15,150.5,3,Excelente compra,2024-01-15 00:00:00,Pocos,Medio,2.0,A,True,False,False
1,Luis,15/02/2024,80.75,1,muy bueno,2024-02-15 00:00:00,Pocos,Bajo,1.0,B,False,True,False
2,Pedro,2024-03-10,220.3,4,"Regular, esperaba más",2024-03-10 00:00:00,Muchos,Alto,3.0,A,True,False,False
3,María,10-04-2024,95.0,2,malo,2024-10-04 00:00:00,Pocos,Bajo,1.0,C,False,False,True
4,Carlos,05-05-2024,110.2,2,excelente,2024-05-05 00:00:00,Pocos,Medio,2.0,B,False,True,False
5,Sofía,2024/06/20,135.0,3,Malo,2024-06-20 00:00:00,Pocos,Medio,2.0,A,True,False,False
6,Elena,07/07/2024,99.99,1,Buena calidad,2024-07-07 00:00:00,Pocos,Bajo,1.0,C,False,False,True
7,Juan,2024-08-25 14:30,180.75,5,excelente,2024-08-25 14:30:00,Muchos,Alto,3.0,B,False,True,False
8,Diego,2024-09-30 18:45,160.4,4,no está mal,2024-09-30 18:45:00,Muchos,Medio,2.0,C,False,False,True
9,Valeria,2024-10-10,145.6,3,REGULAR,2024-10-10 00:00:00,Pocos,Medio,2.0,A,True,False,False
