Introducción a Pandas

¿Qué es Pandas?
Pandas es una biblioteca de código abierto de Python que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar. Su nombre es una combinación de «panel data» y «Python data analysis library». Pandas es ideal para trabajar con datos tabulares y series temporales.

 

Instalación y Configuración

Si no tienes Pandas instalado, puedes instalarlo utilizando pip:

pip install pandas


import pandas as pd
Asegúrate de importar Pandas en tu entorno de trabajo para empezar a usar sus funcionalidades.

 


Estructuras de Datos en Pandas

Pandas introduce dos estructuras de datos principales: Series y DataFrames.

Series: Una Serie es una estructura de datos unidimensional que puede contener cualquier tipo de datos. Es similar a un array de NumPy, pero con etiquetas de índice que permiten un acceso más conveniente a los datos.

Creación de una Serie: Puedes crear una Serie a partir de una lista, un array de NumPy, un diccionario o un valor escalar.

In [None]:
import pandas as pd

# Creando una Serie a partir de una lista
lista = [1, 2, 3, 4, 5]
serie = pd.Series(lista)
print(serie)

# Creando una Serie a partir de un diccionario
diccionario = {'a': 10, 'b': 20, 'c': 30}
serie_dicc = pd.Series(diccionario)
print(serie_dicc)

# Creando una Serie a partir de un valor escalar
valor_escalar = 5
serie_escalar = pd.Series(valor_escalar, index=['x', 'y', 'z'])

print(serie_escalar)

Acceso a los Elementos de una Serie: 

Puedes acceder a los elementos de una Serie utilizando índices.

In [None]:
# Acceso por índice
print(serie[0])  # Primer elemento

# Acceso por etiqueta
print(serie_dicc['a'])  # Elemento con etiqueta 'a'

Métodos y Operaciones en Series: 

Las Series tienen una variedad de métodos útiles para realizar operaciones como suma, resta, multiplicación y división.

In [None]:
import pandas as pd

# Creando una Serie a partir de una lista
lista = [1, 2, 3, 4, 5]
serie = pd.Series(lista)

# Realizando operaciones con la serie creada
print("Serie original:")
print(serie)

# Suma de 10 a cada valor
print("\nSuma de 10 a cada valor:")
print(serie + 10)

# Multiplicación por 2
print("\nMultiplicación por 2:")
print(serie * 2)

# Resta de 1 a cada valor
print("\nResta de 1 a cada valor:")
print(serie - 1)

# División por 2
print("\nDivisión por 2:")
print(serie / 2)


DataFrame: 

Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos o una hoja de cálculo. Un DataFrame tiene ejes etiquetados (filas y columnas) y puede contener diferentes tipos de datos (numéricos, cadenas, etc.).

Creación de un DataFrame: 

Puedes crear un DataFrame a partir de un diccionario de listas, un array de NumPy, una lista de diccionarios o una Serie de Pandas.

In [None]:
import pandas as pd

# Creando un DataFrame a partir de un diccionario de listas
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20]
}
df = pd.DataFrame(data)
print(df)

# Creando un DataFrame a partir de un array de NumPy
import numpy as np

array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df_array = pd.DataFrame(array, columns=['A', 'B', 'C'])
print(df_array)

# Creando un DataFrame a partir de una lista de diccionarios
lista_dicc = [
    {'Producto': 'Manzanas', 'Ventas': 50},
    {'Producto': 'Naranjas', 'Ventas': 30},
    {'Producto': 'Bananas', 'Ventas': 20}
]
df_lista_dicc = pd.DataFrame(lista_dicc)
print(df_lista_dicc)

Acceso a los Elementos de un DataFrame: 

Puedes acceder a los datos de un DataFrame de varias maneras, incluyendo la notación de corchetes, el método .loc y el método .iloc.

In [10]:
# Acceso a columnas
print(df['Producto'])  # Acceder a una columna
print(df[['Producto', 'Ventas']])  # Acceder a múltiples columnas

# Acceso a filas por índice
print(df.loc[0])  # Primera fila
print(df.iloc[1])  # Segunda fila

# Acceso a un elemento específico
print(df.loc[0, 'Producto'])  # Primera fila, columna 'Producto'
print(df.iloc[1, 1])  # Segunda fila, segunda columna

0    Manzanas
1    Naranjas
2     Bananas
Name: Producto, dtype: object
   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20
Producto    Manzanas
Ventas            50
Name: 0, dtype: object
Producto    Naranjas
Ventas            30
Name: 1, dtype: object
Manzanas
30


Métodos y Operaciones en DataFrames: 

Los DataFrames tienen muchos métodos útiles para realizar operaciones como agregar filas, eliminar columnas, filtrar datos y más.

In [11]:
# Agregar una nueva columna
df['Precio'] = [0.5, 0.75, 0.3]
print(df)

# Eliminar una columna
df = df.drop('Precio', axis=1)
print(df)

# Filtrar datos
filtro = df['Ventas'] > 20
df_filtrado = df[filtro]
print(df_filtrado)

   Producto  Ventas  Precio
0  Manzanas      50    0.50
1  Naranjas      30    0.75
2   Bananas      20    0.30
   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20
   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
