# Tutorial Básico de Pandas en Python
En este tutorial aprenderás las funciones más comunes de la biblioteca **Pandas** para análisis de datos.

### Instalación de Pandas
Si no tienes instalado pandas, puedes instalarlo con el siguiente comando:
```
!pip install pandas
```


In [1]:
# Importamos la biblioteca
import pandas as pd

# Otras bibliotecas útiles
import numpy as np


## 1. Crear un DataFrame
Un **DataFrame** es una tabla de datos, similar a una hoja de cálculo de Excel.

In [2]:
# Creamos un DataFrame básico
datos = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Laura'],
    'Edad': [23, 45, 34, 29],
    'Ciudad': ['Santiago', 'Valparaíso', 'Concepción', 'Temuco']
}

df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


## 2. Leer y guardar archivos
Podemos leer y escribir archivos CSV, Excel y otros formatos comunes.

In [3]:
# Leer un archivo CSV (descomentar si tienes un archivo CSV para leer)
# df = pd.read_csv('archivo.csv')

# Guardar el DataFrame como un archivo CSV
df.to_csv('archivo_guardado.csv', index=False)
df

## 3. Inspección de los datos
Es importante revisar el contenido de los datos para entender mejor su estructura.

In [3]:
# Ver las primeras filas del DataFrame
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


In [4]:
# Ver las últimas filas
df.tail()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


In [5]:
# Obtener un resumen rápido de las columnas y el tipo de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Ciudad  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes


In [6]:
# Obtener estadísticas descriptivas de las columnas numéricas
df.describe()

Unnamed: 0,Edad
count,4.0
mean,32.75
std,9.322911
min,23.0
25%,27.5
50%,31.5
75%,36.75
max,45.0


## 4. Selección de columnas
Podemos seleccionar una o más columnas de un DataFrame.

In [7]:
# Seleccionar una columna
df['Nombre']

0       Ana
1      Luis
2    Carlos
3     Laura
Name: Nombre, dtype: object

In [12]:
# Seleccionar varias columnas
dff = df[['Nombre', 'Edad']]
dff

Unnamed: 0,Nombre,Edad
0,Ana,23
1,Luis,45
2,Carlos,34
3,Laura,29


## 5. Filtrado de filas
Podemos filtrar filas utilizando condiciones.

In [15]:
# Filtrar personas con más de 30 años
df[df['Edad'] > 30]

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,45,Valparaíso
2,Carlos,34,Concepción


## 6. Operaciones con columnas
Podemos crear, modificar o eliminar columnas en el DataFrame.

In [16]:
# Crear una nueva columna (por ejemplo, el año de nacimiento)
df['Año_Nacimiento'] = 2024 - df['Edad']
df

Unnamed: 0,Nombre,Edad,Ciudad,Año_Nacimiento
0,Ana,23,Santiago,2001
1,Luis,45,Valparaíso,1979
2,Carlos,34,Concepción,1990
3,Laura,29,Temuco,1995


In [17]:
# Eliminar una columna
df = df.drop('Año_Nacimiento', axis=1)
# axis=1 columnas
# axis=0 filas
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


## 7. Agrupación de datos
Podemos agrupar los datos para realizar agregaciones, como sumar o promediar.

In [18]:
# Agrupar por 'Ciudad' y obtener la edad promedio
df.groupby('Ciudad')['Edad'].mean()

Ciudad
Concepción    34.0
Santiago      23.0
Temuco        29.0
Valparaíso    45.0
Name: Edad, dtype: float64

## 8. Manejo de valores nulos
Pandas ofrece varias funciones para tratar datos faltantes.

In [19]:
# Revisar si hay valores nulos
df.isnull().sum()

Nombre    0
Edad      0
Ciudad    0
dtype: int64

In [20]:
# Llenar valores nulos con un valor específico
df.fillna(0)

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


In [21]:
# Eliminar filas con valores nulos
df.dropna()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Santiago
1,Luis,45,Valparaíso
2,Carlos,34,Concepción
3,Laura,29,Temuco


## 9. Merge (unir) DataFrames
Podemos combinar dos DataFrames utilizando una columna común.

In [24]:
# Creamos otro DataFrame
datos_extra = {
    'Nombre': ['Luis', 'Ana', 'Carlos', 'Laura'],
# Cambiè el orden de los nombre y sigue funcionando correctamente...
    'Salario': [3000, 4000, 3500, 2800]
}

df_extra = pd.DataFrame(datos_extra)

# Unimos ambos DataFrames por la columna 'Nombre'
df_completo = pd.merge(df, df_extra, on='Nombre')
df_completo

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Santiago,4000
1,Luis,45,Valparaíso,3000
2,Carlos,34,Concepción,3500
3,Laura,29,Temuco,2800


## 10. Exportar el DataFrame a un archivo Excel
Finalmente, podemos guardar nuestros resultados en un archivo de Excel.

In [18]:
# Exportar a Excel
df_completo.to_excel('archivo_resultado.xlsx', index=False)
# index=False, hace que no se guarde la primera columna con indices 0, 1, 2, etc. Por defecto es True
