In [None]:
# Pandas
# Dataframe : Estructura de datos de pandas, muy similar a una tabla o hoja de excel donde tendras
# Filas y Columas

In [None]:
# Importamos la librería pandas
import pandas as pd

# Tipos de estructuras de datos en Python:
# Lista: []
# Diccionario: {}
# Tupla: ()

# Creamos una lista de listas con datos de ejemplo
data = [['Juan', 25], ['Pedro', 34], ['Luis', 45]]

# Creamos un DataFrame de pandas a partir de la lista de listas
# Asignamos nombres a las columnas: 'Nombre' y 'Edad'
df = pd.DataFrame(data, columns=['Nombre', 'Edad'])


In [5]:
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Pedro,34
2,Luis,45


In [None]:
# Creamos un DataFrame a partir de un diccionario.
# Las claves del diccionario serán los nombres de las columnas,
# y los valores deben ser listas con los datos correspondientes a cada columna.
data = {
    'Nombre': ['Juan', 'Pedro', 'Luis'],
    'Edad': [25, 26, 34]
}

# Generamos el DataFrame utilizando pandas
df = pd.DataFrame(data)


In [7]:
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Pedro,26
2,Luis,34


In [11]:
# Leemos un archivo CSV ubicado en la ruta indicada.
# El resultado es un DataFrame con los datos cargados desde el archivo.
df = pd.read_csv('./utils/data/data.csv')

# Mostramos el contenido del DataFrame
df


Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [12]:
# Leemos un archivo sin extensión y con separador distinto a la coma.
# En este caso, el archivo usa '|' como delimitador entre columnas.
df = pd.read_csv('./utils/data/data', sep='|')

# Mostramos el contenido del DataFrame
df

# Nota:
# Si no se especifica el separador, pandas asume que es una coma (','),
# por lo que mostrará todo en una sola columna si el archivo usa otro delimitador.
# 'delimiter' es equivalente a 'sep', pero 'sep' es el parámetro recomendado y evaluado primero.


Unnamed: 0,nombre,edad,ciudad
0,Juan,,Madrid
1,María,30.0,Barcelona
2,Pedro,35.0,Sevilla


In [None]:
# Leemos un archivo CSV que no tiene cabecera (nombres de columnas en la primera fila).
# Usamos el parámetro `header=None` para indicarle a pandas que no hay fila de encabezado.
# Luego, definimos manualmente los nombres de las columnas con el parámetro `names`.
df = pd.read_csv('./utils/data/data_without_header', 
                 sep=',', 
                 header=None,                # Indica que el archivo no tiene fila de cabecera
                 names=['Nombre', 'Edad', 'Ciudad'])  # Define los nombres de las columnas

# Mostramos el contenido del DataFrame
df


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [14]:
# Leemos un archivo JSON y lo cargamos en un DataFrame de pandas.
# pandas detecta automáticamente la estructura del archivo JSON.
df = pd.read_json('./utils/data/data.json')

# Mostramos el contenido del DataFrame
df


Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


# Metodos con Dataframe

In [16]:
# Obtener estadistricas Descriptivas de un dataframe
df.describe()

Unnamed: 0,edad
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


In [None]:
# Muestra de datos arriba
df.head(5) 

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [20]:
# Muestra de datos abajo
df.tail(2) 

Unnamed: 0,nombre,edad,ciudad
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [22]:
# Listar los nombres de las columnas
df.columns


Index(['nombre', 'edad', 'ciudad'], dtype='object')

In [23]:
# Obtener los indices
df.index

RangeIndex(start=0, stop=3, step=1)

In [26]:
# Otras Funciones count, python te recomienda algunas 
df.count()

nombre    3
edad      3
ciudad    3
dtype: int64

# Acceder a Valores con Dataframe

In [33]:
# Seleccionar una columna
df['ciudad']

# Seleccionar mas de una columna
df[['ciudad', 'edad']]


Unnamed: 0,ciudad,edad
0,Madrid,25
1,Barcelona,30
2,Sevilla,35


In [44]:
# Seleccionar una fila por índice (en este caso, la fila con índice 0)
print(df.loc[0])

# Seleccionar múltiples filas especificando una lista de índices (0 y 2)
print("#### \n")
print(df.loc[[0, 2]])

# Seleccionar filas que cumplen una condición (filas donde la edad es mayor a 30)
print("#### \n")
print(df[df['edad'] > 30])


nombre      Juan
edad          25
ciudad    Madrid
Name: 0, dtype: object
#### 

  nombre  edad   ciudad
0   Juan    25   Madrid
2  Pedro    35  Sevilla
#### 

  nombre  edad   ciudad
2  Pedro    35  Sevilla


# Agregaciones

In [45]:
# Agrupar datos por una columna y aplicar funciones de agregación

# Creamos un diccionario con los datos
data = {
    'Grupo': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Valor': [10, 20, 15, 25, 12, 18]
}

# Convertimos el diccionario en un DataFrame
df = pd.DataFrame(data)

# Calculamos el promedio del valor por grupo
promedio_por_grupo = df.groupby('Grupo').mean()
print(promedio_por_grupo)

# Calculamos la suma del valor por grupo
suma_por_grupo = df.groupby('Grupo').sum()
print(suma_por_grupo)


           Valor
Grupo           
A      12.333333
B      21.000000
       Valor
Grupo       
A         37
B         63


In [None]:
# Leemos un archivo sin extensión y con separador distinto a la coma.
df = pd.read_csv('./utils/data/data', sep='|')

# Mostramos el contenido del DataFrame
df


Unnamed: 0,nombre,edad,ciudad
0,Juan,,Madrid
1,María,30.0,Barcelona
2,Pedro,35.0,Sevilla


In [54]:
# Eliminar filas que contienen valores faltantes (NaN)
df_sin_na = df.dropna()
print(df_sin_na)

print('\n')

# Reemplazar los valores faltantes en todo el DataFrame con un valor específico (en este caso, 0)
df_completo = df.fillna(value=0)
print(df_completo)

print('\n')

# Eliminar solo las filas donde la columna 'ciudad' tenga valores faltantes
df_sin_na = df.dropna(subset=['ciudad'])
print(df_sin_na)

print('\n')

# Reemplazar los valores faltantes únicamente en la columna 'edad' con 0
df_completo_filtrado = df['edad'].fillna(value=0)
print(df_completo_filtrado)


  nombre  edad     ciudad
1  María  30.0  Barcelona
2  Pedro  35.0    Sevilla


  nombre  edad     ciudad
0   Juan   0.0     Madrid
1  María  30.0  Barcelona
2  Pedro  35.0    Sevilla


  nombre  edad     ciudad
0   Juan   NaN     Madrid
1  María  30.0  Barcelona
2  Pedro  35.0    Sevilla


0     0.0
1    30.0
2    35.0
Name: edad, dtype: float64


# Funciones en un Dataframe
la clase pasada vimos como crear funciones, ahora veremos como trabajar con esas funciones definidas en dataframe.

In [55]:
# Creamos un diccionario con dos claves: 'A' y 'B'
# Cada clave contiene una lista de valores numéricos
data = {
    'A': [1, 2, 3, 4],
    'B': [6, 7, 8, 9]
}

# Convertimos el diccionario en un DataFrame de pandas
df = pd.DataFrame(data)


In [59]:
# Creamos una nueva columna 'A_doble' multiplicando por 2 los valores de la columna 'A'
# Usamos una función lambda aplicada a cada elemento con .apply()
# Usarás lambda en Python cuando necesites una función pequeña, rápida y desechable (en una sola linea)
df['A_doble'] = df['A'].apply(lambda x: x * 2)

# Mostramos el DataFrame resultante
df


Unnamed: 0,A,B,A_doble,A_doble2
0,1,6,2,2
1,2,7,4,4
2,3,8,6,6
3,4,9,8,8


In [60]:
# Definimos una función que multiplica por 2 un valor dado
def multiplo2(x):
    return x * 2

# Aplicamos la función 'multiplo2' a la columna 'A' usando .apply()
# El resultado se guarda en una nueva columna llamada 'A_doble2'
df['A_doble2'] = df['A'].apply(multiplo2)

# Mostramos el DataFrame resultante
df


Unnamed: 0,A,B,A_doble,A_doble2
0,1,6,2,2
1,2,7,4,4
2,3,8,6,6
3,4,9,8,8


In [61]:
# Creamos una nueva columna 'suma' que contiene la suma de las columnas 'A' y 'B'
# Usamos .apply() con axis=1 para aplicar la función fila por fila
df['suma'] = df.apply(lambda row: row['A'] + row['B'], axis=1)

# Mostramos el DataFrame resultante
df


Unnamed: 0,A,B,A_doble,A_doble2,suma
0,1,6,2,2,7
1,2,7,4,4,9
2,3,8,6,6,11
3,4,9,8,8,13


In [62]:
def suma(row):
    return  row['A'] + row['B']

# Aplicamos la función definida a cada fila usando axis=1
df['suma2'] = df.apply(suma, axis=1)

# Mostramos el DataFrame resultante
df


Unnamed: 0,A,B,A_doble,A_doble2,suma,suma2
0,1,6,2,2,7,7
1,2,7,4,4,9,9
2,3,8,6,6,11,11
3,4,9,8,8,13,13
