# **Introducción a pandas**

Vamos a introducirnos en los conceptos claves la librería pandas, una de las herramientas fundamentales de Python para el análisis de datos.

Pandas está diseñado para trabajar con datos tabulares y series temporales de manera eficiente y flexible.

In [1]:
import pandas as pd # el alma de todo, la librería que concentra la magia.

# **1) Estructuras de datos principales**

**Series**

Objeto unidimensional, similar a un array pero con etiquetas de índice.

**DataFrame**

Objeto bidimensional con filas y columnas etiquetadas.
Se puede ver como un diccionario de Series que comparten un mismo índice.

In [2]:
# ejemplo de Series.
s = pd.Series([4, 7, -5, 3], index=["a", "b", "c", "d"])
print(s)
# Se accede tanto por posición como por etiqueta (s["a"], s[0]).

a    4
b    7
c   -5
d    3
dtype: int64


In [3]:
# ejemplo de DataFrame
precipitaciones = {"Ciudad": ["Resistencia", "Fontana", "Barranqueras"],
        "Año": [2023, 2024, 2025],
        "Mm": [102, 110, 99]}
df = pd.DataFrame(precipitaciones)
print(df)

         Ciudad   Año   Mm
0   Resistencia  2023  102
1       Fontana  2024  110
2  Barranqueras  2025   99


# **2) Índices y alineación de datos**

Los índices permiten seleccionar, alinear y reordenar datos fácilmente.

Las operaciones matemáticas entre Series y DataFrame alinean automáticamente por índice.

In [4]:
s1 = pd.Series([1, 2, 3], index=["a", "b", "c"])
s2 = pd.Series([4, 5, 6], index=["b", "c", "d"])
print(s1 + s2)  # alineación automática

a    NaN
b    6.0
c    8.0
d    NaN
dtype: float64


# **3) Selección y filtrado**

**Métodos:**

df["columna"] → selecciona una columna (como Series).

df.loc[filas, columnas] → selección por etiqueta.

df.iloc[filas, columnas] → selección por posición.

In [6]:
# Ejemplo de filtrado booleano:

df[df["Mm"] > 100]

Unnamed: 0,Ciudad,Año,Mm
0,Resistencia,2023,102
1,Fontana,2024,110


# **4) Operaciones y funciones**

**Métodos estadísticos:** .sum(), .mean(), .describe().

**Funciones de transformación:** .apply().

**Ordenamiento:** .sort_index() y .sort_values().

In [7]:
print(df["Mm"].mean())       # promedio
print(df.sort_values("Año")) # ordenar por columna

103.66666666666667
         Ciudad   Año   Mm
0   Resistencia  2023  102
1       Fontana  2024  110
2  Barranqueras  2025   99


# **5) Manejo de datos faltantes**

Valores faltantes son representados como NaN.

**Métodos comunes:**

df.isna() → detecta nulos.

df.dropna() → elimina filas/columnas con nulos.

df.fillna(valor) → reemplaza nulos.

# **6) Operaciones con índices jerárquicos (MultiIndex)**

Permiten trabajar con datos multidimensionales en un DataFrame bidimensional.

Útiles para agrupar y desagregar.

In [8]:
# Ejemplo de uso MultiIndex

arrays = [
    ["bar", "bar", "baz", "baz"],
    ["one", "two", "one", "two"]
]
index = pd.MultiIndex.from_arrays(arrays, names=("first", "second"))
df = pd.DataFrame({"A": range(4), "B": range(4, 8)}, index=index)
print(df)

              A  B
first second      
bar   one     0  4
      two     1  5
baz   one     2  6
      two     3  7


# **7) Entrada y salida de datos**

pd.read_csv() y df.to_csv() para trabajar con CSV.

pd.read_excel(), df.to_excel() para Excel.

pd.read_sql() para bases de datos SQL.

# **Conclusión**

Pandas facilita la manipulación y análisis de datos estructurados.

El DataFrame es el objeto central para representar datos tabulares.

Operaciones como merge, groupby, selección avanzada, manejo de nulos y estadísticas rápidas son esenciales para el análisis exploratorio. Estas herramientas se aplican de forma directa en proyectos reales.