# Uso de DataFrame

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Diciembre de 2024  
**Versión:** 1.0  

---

## Descripción

Este notebook ofrece un ejemplo del uso de una de las estrucuras de datos más poderosas en análisis de datos: el *DataFrame*.

Se revisa, de forma preliminar, las opciones de tratamiento de valores nulos y duplicados.

Finalmente, revisa algunas operaciones entre FataFrames.

---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- pandas (2.2.2)
- numpy (1.26.4)

Para verificar la versión instalada ejecutar usando el siguiente comando, usando la librería de la cual quieres saber la versión:

```bash
import pandas as pd
print(pd.__version__)
````

In [1]:
import pandas as pd
import numpy as np

from datetime import datetime

# Valores duplicados en columna

In [8]:
# Crear un DataFrame de ejemplo
datos = {'Nombre': ['Juan', 'Ana', 'Luis', 'Marta', 'Carlos'],
        'Edad': [25, 45, 22, 30, 15],
        'Ciudad': ['Concepción', 'Punta Arenas', 'Puerto Varas', 'punta arenas', 'punta Arenas']}

data = pd.DataFrame(datos)

# Visualizar el DataFrame original
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,45,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,punta arenas
4,Carlos,15,punta Arenas


In [9]:
# Obtención de los valores únicos de una columna - Alternativa 1
data.Ciudad.unique()

array(['Concepción', 'Punta Arenas', 'Puerto Varas', 'punta arenas',
       'punta Arenas'], dtype=object)

In [10]:
# Obtención de los valores únicos de una columna - Alternativa 2
np.unique(data.Ciudad)

array(['Concepción', 'Puerto Varas', 'Punta Arenas', 'punta Arenas',
       'punta arenas'], dtype=object)

In [11]:
# Reemplaza los valores por un valor estándar, en este caso, el valor en mayúsculas
data.Ciudad = data.Ciudad.apply(lambda valor : valor.upper())
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,CONCEPCIÓN
1,Ana,45,PUNTA ARENAS
2,Luis,22,PUERTO VARAS
3,Marta,30,PUNTA ARENAS
4,Carlos,15,PUNTA ARENAS


# Valores nulos

In [20]:
# Crear un DataFrame de ejemplo
datos = {'Nombre': ['Juan', 'Ana', 'Luis', 'Marta', 'Carlos'],
        'Edad': [25, np.nan, 22, 30, 28],
        'Ciudad': ['Concepción', 'Punta Arenas', 'Puerto Varas', np.nan, 'Punta Arenas']}

data = pd.DataFrame(datos)

# Visualizar el DataFrame original
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25.0,Concepción
1,Ana,,Punta Arenas
2,Luis,22.0,Puerto Varas
3,Marta,30.0,
4,Carlos,28.0,Punta Arenas


In [13]:
# Alternativa 1 para detección de nulos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nombre  5 non-null      object 
 1   Edad    4 non-null      float64
 2   Ciudad  4 non-null      object 
dtypes: float64(1), object(2)
memory usage: 248.0+ bytes


In [14]:
# Alternativa 2 para detección de nulos
data.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,1
Ciudad,1


In [15]:
# Tratamiento de los valores nulos de la columna numérica
promedio_edad = np.mean(data.Edad)
data.Edad = data.Edad.fillna(promedio_edad)
# Vuelve a mostrar los datos
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25.0,Concepción
1,Ana,26.25,Punta Arenas
2,Luis,22.0,Puerto Varas
3,Marta,30.0,
4,Carlos,28.0,Punta Arenas


In [22]:
# Obtiene el valor más repetido (moda)
moda = data.Ciudad.mode()[0]
# Reemplaza los nulos de la columna
data.Ciudad = data.Ciudad.fillna(moda)
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25.0,Concepción
1,Ana,,Punta Arenas
2,Luis,22.0,Puerto Varas
3,Marta,30.0,Punta Arenas
4,Carlos,28.0,Punta Arenas


# Agrupación y resumen

In [23]:
# Crea el DataFrame de ejemplo
datos = {'Nombre': ['Juan', 'Ana', 'Luis', 'Marta', 'Carlos', 'Norberto', 'Fernanda', 'Andrea'],
        'Edad': [25, 28, 22, 30, 28, 74, 50, 44],
        'Ciudad': ['Concepción', 'Punta Arenas', 'Puerto Varas', "Punta Arenas", 'Conocepción',
                   'Viña del Mar', 'Villarica', 'Viña del Mar']}
data_agrupacion = pd.DataFrame(datos)

# Muestra el DataFrame
display(data_agrupacion)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Conocepción
5,Norberto,74,Viña del Mar
6,Fernanda,50,Villarica
7,Andrea,44,Viña del Mar


In [24]:
# Agrupa por Ciudad, considerando la cantidad de observaciones por Ciudad
data_agrupacion.groupby("Ciudad").size()

Unnamed: 0_level_0,0
Ciudad,Unnamed: 1_level_1
Concepción,1
Conocepción,1
Puerto Varas,1
Punta Arenas,2
Villarica,1
Viña del Mar,2


In [25]:
# Obtiene el promedio de edad por ciudad
data_agrupacion.groupby("Ciudad")["Edad"].mean().round(0)

Unnamed: 0_level_0,Edad
Ciudad,Unnamed: 1_level_1
Concepción,25.0
Conocepción,28.0
Puerto Varas,22.0
Punta Arenas,29.0
Villarica,50.0
Viña del Mar,59.0


In [26]:
# Obtiene la edad máxima por ciudad
data_agrupacion.groupby("Ciudad")["Edad"].max()

Unnamed: 0_level_0,Edad
Ciudad,Unnamed: 1_level_1
Concepción,25
Conocepción,28
Puerto Varas,22
Punta Arenas,30
Villarica,50
Viña del Mar,74


In [28]:
# Obtiene un resumen de algunas medidas de la edad por ciudad
data_agrupacion.groupby("Ciudad")["Edad"].agg(["min", "max", "mean"]).round(0)


Unnamed: 0_level_0,min,max,mean
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Concepción,25,25,25.0
Conocepción,28,28,28.0
Puerto Varas,22,22,22.0
Punta Arenas,28,30,29.0
Villarica,50,50,50.0
Viña del Mar,44,74,59.0


# Operaciones estadísticas

In [29]:
display(data_agrupacion)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Conocepción
5,Norberto,74,Viña del Mar
6,Fernanda,50,Villarica
7,Andrea,44,Viña del Mar


In [30]:
# Realizar una operación estadística
media_edad = data_agrupacion['Edad'].mean()
print(media_edad)

37.625


In [31]:
# Obtiene un resumen de las medidas estadísticas
data_agrupacion.describe()

Unnamed: 0,Edad
count,8.0
mean,37.625
std,17.581951
min,22.0
25%,27.25
50%,29.0
75%,45.5
max,74.0


In [32]:
# Obtiene las medidas estadìsticas de las variables cualitativas
data_agrupacion.describe(include=np.object_)

Unnamed: 0,Nombre,Ciudad
count,8,8
unique,8,6
top,Juan,Punta Arenas
freq,1,2


# Combinación de DataFrames

In [33]:
# Crear dos DataFrames de ejemplo
datos = {'Nombre': ['Juan', 'Ana', 'Luis', 'Marta', 'Carlos'],
        'Edad': [25, 28, 22, 30, 28],
        'Ciudad': ['Concepción', 'Punta Arenas', 'Puerto Varas', "Punta Arenas", 'Punta Arenas']}

datos_nuevos = {'Nombre': ['Miguel', 'Andrea', 'Esteban', 'Paola'],
        'Edad': [35, 38, 32, 35],
        'Ciudad': ['Viña del Mar', 'Concepción', 'Puerto Varas', "Punta Arenas"]}

data = pd.DataFrame(datos)
new_data = pd.DataFrame(datos_nuevos)

# Visualiza los DataFrame
display(data)
display(new_data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas


Unnamed: 0,Nombre,Edad,Ciudad
0,Miguel,35,Viña del Mar
1,Andrea,38,Concepción
2,Esteban,32,Puerto Varas
3,Paola,35,Punta Arenas


In [34]:
# Concatena ambos DataFrame
pd.concat([data, new_data], ignore_index=True)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas
5,Miguel,35,Viña del Mar
6,Andrea,38,Concepción
7,Esteban,32,Puerto Varas
8,Paola,35,Punta Arenas


In [35]:
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas


In [36]:
# Crear dos DataFrames
data_names = pd.DataFrame({'id': [3, 4], 'nombre': ["leche", "café"]})
data_prices = pd.DataFrame({'id': [4, 3], 'precio': [6990, 3990]})

display(data_names)
display(data_prices)

Unnamed: 0,id,nombre
0,3,leche
1,4,café


Unnamed: 0,id,precio
0,4,6990
1,3,3990


In [37]:
# Al concatenar los dataframes se obtiene un resultado incorrecto
data_full = pd.concat([data_names, data_prices], ignore_index=True)
display(data_full)

Unnamed: 0,id,nombre,precio
0,3,leche,
1,4,café,
2,4,,6990.0
3,3,,3990.0


In [38]:
# Concatena los dataframes a lo largo del eje de las colunmnas
data_full = pd.merge(data_names, data_prices, on="id")
display(data_full)

Unnamed: 0,id,nombre,precio
0,3,leche,3990
1,4,café,6990


# Manipulación de fechas y tiempo

In [40]:
date_range = pd.date_range(start='2024/06/29', end='2024/12/24', freq='h')
date_range

DatetimeIndex(['2024-06-29 00:00:00', '2024-06-29 01:00:00',
               '2024-06-29 02:00:00', '2024-06-29 03:00:00',
               '2024-06-29 04:00:00', '2024-06-29 05:00:00',
               '2024-06-29 06:00:00', '2024-06-29 07:00:00',
               '2024-06-29 08:00:00', '2024-06-29 09:00:00',
               ...
               '2024-12-23 15:00:00', '2024-12-23 16:00:00',
               '2024-12-23 17:00:00', '2024-12-23 18:00:00',
               '2024-12-23 19:00:00', '2024-12-23 20:00:00',
               '2024-12-23 21:00:00', '2024-12-23 22:00:00',
               '2024-12-23 23:00:00', '2024-12-24 00:00:00'],
              dtype='datetime64[ns]', length=4273, freq='h')

In [41]:
# Crea el DataFrame con los datos generados
data_date = pd.DataFrame(date_range, columns=["fecha"])
display(data_date)

Unnamed: 0,fecha
0,2024-06-29 00:00:00
1,2024-06-29 01:00:00
2,2024-06-29 02:00:00
3,2024-06-29 03:00:00
4,2024-06-29 04:00:00
...,...
4268,2024-12-23 20:00:00
4269,2024-12-23 21:00:00
4270,2024-12-23 22:00:00
4271,2024-12-23 23:00:00


In [42]:
# Genera una columna que indica la senana y mes de la fecha
data_date['mes'] = data_date.fecha.apply(lambda f : f.strftime("%B"))
data_date['semana'] = data_date.fecha.apply(lambda f : f.strftime('%W'))
# Visualzia el DataFrame
display(data_date)

Unnamed: 0,fecha,mes,semana
0,2024-06-29 00:00:00,June,26
1,2024-06-29 01:00:00,June,26
2,2024-06-29 02:00:00,June,26
3,2024-06-29 03:00:00,June,26
4,2024-06-29 04:00:00,June,26
...,...,...,...
4268,2024-12-23 20:00:00,December,52
4269,2024-12-23 21:00:00,December,52
4270,2024-12-23 22:00:00,December,52
4271,2024-12-23 23:00:00,December,52


# Guardando resultados

In [43]:
# Guarda el contenido del DataFrame en un archivo
data_date.to_csv("fechas.csv")

# Manejo de datos categóricos

In [44]:
# Crear un DataFrame con datos categóricos
datos = {'Nombre': ['Juan', 'Ana', 'Luis', 'Marta', 'Carlos', 'Miguel', 'Andrea', 'Esteban', 'Paola'],
        'Edad': [25, 28, 22, 30, 28, 35, 38, 32, 35],
        'Ciudad': ['Concepción', 'Punta Arenas', 'Puerto Varas', "Punta Arenas", 'Punta Arenas',
                   'Viña del Mar', 'Concepción', 'Puerto Varas', "Punta Arenas"]}

data = pd.DataFrame(datos)
display(data)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Ana,28,Punta Arenas
2,Luis,22,Puerto Varas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas
5,Miguel,35,Viña del Mar
6,Andrea,38,Concepción
7,Esteban,32,Puerto Varas
8,Paola,35,Punta Arenas


In [45]:
# Verifica el tipo de datos de las columnas
data.dtypes

Unnamed: 0,0
Nombre,object
Edad,int64
Ciudad,object


In [46]:
# Convertir la columna 'Ciudad' a categoría
data['Ciudad'] = pd.Categorical(data['Ciudad'])

# Vuelve a verificar el tipo de dato de las columnas
data.dtypes

Unnamed: 0,0
Nombre,object
Edad,int64
Ciudad,category


In [47]:
data.Ciudad.describe()

Unnamed: 0,Ciudad
count,9
unique,4
top,Punta Arenas
freq,4


In [48]:
# Filtrar el DataFrame por la ciudad 'Punta Arenas'
filtro_ciudad = data[data['Ciudad'] == 'Punta Arenas']

# Mostrar el DataFrame filtrado
display(filtro_ciudad)

Unnamed: 0,Nombre,Edad,Ciudad
1,Ana,28,Punta Arenas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas
8,Paola,35,Punta Arenas


In [49]:
# Ordenar el DataFrame por la columna 'Ciudad'
data_ordenado = data.sort_values(by='Ciudad')

# Mostrar el DataFrame ordenado
display(data_ordenado)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
6,Andrea,38,Concepción
2,Luis,22,Puerto Varas
7,Esteban,32,Puerto Varas
1,Ana,28,Punta Arenas
3,Marta,30,Punta Arenas
4,Carlos,28,Punta Arenas
8,Paola,35,Punta Arenas
5,Miguel,35,Viña del Mar


In [50]:
# Ordenar el DataFrame por la columna 'Ciudad' ignorando los índices iniciales
data_ordenado = data.sort_values(by='Ciudad', ignore_index=True)

# Mostrar el DataFrame ordenado
display(data_ordenado)

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Concepción
1,Andrea,38,Concepción
2,Luis,22,Puerto Varas
3,Esteban,32,Puerto Varas
4,Ana,28,Punta Arenas
5,Marta,30,Punta Arenas
6,Carlos,28,Punta Arenas
7,Paola,35,Punta Arenas
8,Miguel,35,Viña del Mar
