### Tutorial completo de Pandas en Python

#### Introducción

Pandas es una biblioteca esencial para el análisis y manipulación de datos en Python. Permite trabajar con estructuras de datos como:

    - Series: una columna
    - DataFrame: una tabla con filas y columnas

In [9]:
import pandas as pd

1. Series

In [10]:
# Crear una Serie
s = pd.Series([10, 20, 30, 40])
print(s)

# Con etiquetas personalizadas
s2 = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(s2)

0    10
1    20
2    30
3    40
dtype: int64
a    10
b    20
c    30
dtype: int64


2. DataFrames

In [11]:
# Crear un DataFrame desde un diccionario
datos = {
    "Nombre": ["Ana", "Luis", "Pedro"],
    "Edad": [30, 25, 40],
    "Ciudad": ["Santiago", "Concepción", "Concepción"]
}

df = pd.DataFrame(datos)
print(df)


  Nombre  Edad      Ciudad
0    Ana    30    Santiago
1   Luis    25  Concepción
2  Pedro    40  Concepción


3.  Inspección básica

In [12]:
print(df.shape)          # filas y columnas
print(df.columns)        # nombres de columnas
df.info()         # tipo de datos y memoria
df.describe()     # estadísticas descriptivas

(3, 3)
Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


Unnamed: 0,Edad
count,3.0
mean,31.666667
std,7.637626
min,25.0
25%,27.5
50%,30.0
75%,35.0
max,40.0


4. Selección y filtrado

In [13]:
# Selección de columna
print(df["Edad"])

# Selección de fila por índice
print(df.loc[0])        # por etiqueta
print(df.iloc[1])       # por posición

# Filtrado por condición
print(df[df["Edad"] > 30])


0    30
1    25
2    40
Name: Edad, dtype: int64
Nombre         Ana
Edad            30
Ciudad    Santiago
Name: 0, dtype: object
Nombre          Luis
Edad              25
Ciudad    Concepción
Name: 1, dtype: object
  Nombre  Edad      Ciudad
2  Pedro    40  Concepción


5. Agregar columnas nuevas

In [14]:
# Crear nueva columna
df["Mayor de Edad"] = df["Edad"] >= 18

# Columna calculada
df["Edad al cuadrado"] = df["Edad"] ** 2

df.head()

Unnamed: 0,Nombre,Edad,Ciudad,Mayor de Edad,Edad al cuadrado
0,Ana,30,Santiago,True,900
1,Luis,25,Concepción,True,625
2,Pedro,40,Concepción,True,1600


6. Ordenar datos

In [15]:
# Ordenar por columna
df.sort_values(by="Edad", ascending=False)

Unnamed: 0,Nombre,Edad,Ciudad,Mayor de Edad,Edad al cuadrado
2,Pedro,40,Concepción,True,1600
0,Ana,30,Santiago,True,900
1,Luis,25,Concepción,True,625


7. Agrupamiento (groupby)

In [17]:
# Promedio de edad por ciudad
df.groupby("Ciudad")["Edad"].mean()

Ciudad
Concepción    32.5
Santiago      30.0
Name: Edad, dtype: float64

In [18]:
# Contar elementos
df.groupby("Ciudad").size()

Ciudad
Concepción    2
Santiago      1
dtype: int64

8. Detección de valores faltantes

In [19]:
# Revisar valores nulos
df.isna().sum()

Nombre              0
Edad                0
Ciudad              0
Mayor de Edad       0
Edad al cuadrado    0
dtype: int64

In [20]:
# Rellenar nulos
df.fillna(0)

Unnamed: 0,Nombre,Edad,Ciudad,Mayor de Edad,Edad al cuadrado
0,Ana,30,Santiago,True,900
1,Luis,25,Concepción,True,625
2,Pedro,40,Concepción,True,1600


In [21]:
# Eliminar filas con nulos
df.dropna()

Unnamed: 0,Nombre,Edad,Ciudad,Mayor de Edad,Edad al cuadrado
0,Ana,30,Santiago,True,900
1,Luis,25,Concepción,True,625
2,Pedro,40,Concepción,True,1600


9. Filtrado avanzado y condiciones múltiples

In [22]:
# Edad mayor a 25 y ciudad Santiago
df[(df["Edad"] > 25) & (df["Ciudad"] == "Santiago")]

Unnamed: 0,Nombre,Edad,Ciudad,Mayor de Edad,Edad al cuadrado
0,Ana,30,Santiago,True,900


10. Limpieza y renombrado de columnas

In [24]:
# Renombrar columnas
df.rename(columns={"Ciudad": "Comuna"}, inplace=True)

# Cambiar nombres a minúscula
df.columns = df.columns.str.lower()
df

Unnamed: 0,nombre,edad,comuna,mayor de edad,edad al cuadrado
0,Ana,30,Santiago,True,900
1,Luis,25,Concepción,True,625
2,Pedro,40,Concepción,True,1600


11. Detección de outliers (valores atípicos)

In [25]:
# Detectar outliers usando rango intercuartílico (IQR)
Q1 = df["edad"].quantile(0.25)
Q3 = df["edad"].quantile(0.75)
IQR = Q3 - Q1

outliers = df[(df["edad"] < Q1 - 1.5 * IQR) | (df["edad"] > Q3 + 1.5 * IQR)]
print(outliers)

Empty DataFrame
Columns: [nombre, edad, comuna, mayor de edad, edad al cuadrado]
Index: []


In [28]:
# Detectar outliers usando z-score

from scipy.stats import zscore
df["z_score"] = zscore(df["edad"])
df_outliers = df[df["z_score"].abs() > 3]
df_outliers

Unnamed: 0,nombre,edad,comuna,mayor de edad,edad al cuadrado,z_score


12. Aplicar funciones con .apply()

In [29]:
# Función personalizada
def clasificar_edad(edad):
    if edad < 18:
        return "Menor"
    elif edad < 60:
        return "Adulto"
    else:
        return "Adulto mayor"

df["grupo_edad"] = df["edad"].apply(clasificar_edad)
df


Unnamed: 0,nombre,edad,comuna,mayor de edad,edad al cuadrado,z_score,grupo_edad
0,Ana,30,Santiago,True,900,-0.267261,Adulto
1,Luis,25,Concepción,True,625,-1.069045,Adulto
2,Pedro,40,Concepción,True,1600,1.336306,Adulto


13. Uso de lambda (funciones anónimas)

In [30]:
# Crear una nueva columna con lambda
df["edad_modificada"] = df["edad"].apply(lambda x: x * 1.1 if x < 30 else x)
df

Unnamed: 0,nombre,edad,comuna,mayor de edad,edad al cuadrado,z_score,grupo_edad,edad_modificada
0,Ana,30,Santiago,True,900,-0.267261,Adulto,30.0
1,Luis,25,Concepción,True,625,-1.069045,Adulto,27.5
2,Pedro,40,Concepción,True,1600,1.336306,Adulto,40.0


14. Ejemplo combinado avanzado

In [31]:
# 1. Filtrar mayores de 25 años
# 2. Agregar columna si es joven o adulto
# 3. Agrupar por ciudad y mostrar promedio

df_filtrado = df[df["edad"] > 25].copy()
df_filtrado["grupo"] = df_filtrado["edad"].apply(lambda x: "joven" if x < 35 else "adulto")
resultado = df_filtrado.groupby(["ciudad", "grupo"])["edad"].mean()
resultado

ciudad    30.0
grupo     40.0
Name: edad, dtype: float64

15. Exportar

In [32]:
df.to_csv("resultado.csv", index=False)