### Introducción a Pandas en Python

Pandas es una de las bibliotecas más utilizadas para el análisis de datos en Python. Te permite manipular y analizar datos de manera eficiente utilizando estructuras como DataFrames y Series.

#### 1. ¿Qué es un DataFrame?
Un **DataFrame** es una estructura de datos similar a una tabla en Excel o una base de datos, donde las columnas pueden ser de diferentes tipos de datos (números, cadenas, etc.).

**Ejemplo de creación de un DataFrame:**

In [None]:
import pandas as pd

# Crear un DataFrame desde un diccionario
data = {'Nombre': ['Juan', 'María', 'Luis', 'Ana'],
        'Edad': [23, 45, 34, 22],
        'Ciudad': ['Panamá', 'Colón', 'David', 'Santiago']}
df = pd.DataFrame(data)

In [None]:
# Mostrar el DataFrame
print(df)

  Nombre  Edad    Ciudad
0   Juan    23    Panamá
1  María    45     Colón
2   Luis    34     David
3    Ana    22  Santiago


#### 2. Leer archivos CSV
Una de las funciones más poderosas de Pandas es la capacidad de leer y escribir archivos de diferentes formatos, como CSV (Comma-Separated Values).

In [None]:
import pandas as pd
penguins = pd.read_csv('https://raw.githubusercontent.com/JuanFranco-hub/Python-Tutorial-for-ML/main/Datos/penguins_lter.csv')

In [None]:
penguins

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A1,Yes,11/11/07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A2,Yes,11/11/07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
339,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N38A2,No,12/1/09,,,,,,,,
340,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,
341,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,
342,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,


#### 3. Exploración de datos

Cuando trabajas con datasets, es importante poder inspeccionarlos rápidamente. Aquí hay algunas funciones útiles:

- `df.head()` – Muestra las primeras 5 filas.
- `df.info()` – Muestra información general del DataFrame.
- `df.describe()` – Proporciona estadísticas descriptivas (solo para columnas numéricas).

In [None]:
# Muestra las primeras 5 filas.
penguins.head()

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A1,Yes,11/11/07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A2,Yes,11/11/07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,


In [None]:
# Mostrar información del dataset
penguins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 17 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   studyName            344 non-null    object 
 1   Sample Number        344 non-null    int64  
 2   Species              344 non-null    object 
 3   Region               344 non-null    object 
 4   Island               344 non-null    object 
 5   Stage                344 non-null    object 
 6   Individual ID        344 non-null    object 
 7   Clutch Completion    344 non-null    object 
 8   Date Egg             344 non-null    object 
 9   Culmen Length (mm)   342 non-null    float64
 10  Culmen Depth (mm)    342 non-null    float64
 11  Flipper Length (mm)  342 non-null    float64
 12  Body Mass (g)        342 non-null    float64
 13  Sex                  334 non-null    object 
 14  Delta 15 N (o/oo)    330 non-null    float64
 15  Delta 13 C (o/oo)    331 non-null    flo

In [None]:
# Mostrar estadísticas descriptivas
penguins.describe()

Unnamed: 0,Sample Number,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Delta 15 N (o/oo),Delta 13 C (o/oo)
count,344.0,342.0,342.0,342.0,342.0,330.0,331.0
mean,63.151163,43.92193,17.15117,200.915205,4201.754386,8.733382,-25.686292
std,40.430199,5.459584,1.974793,14.061714,801.954536,0.55177,0.793961
min,1.0,32.1,13.1,172.0,2700.0,7.6322,-27.01854
25%,29.0,39.225,15.6,190.0,3550.0,8.29989,-26.320305
50%,58.0,44.45,17.3,197.0,4050.0,8.652405,-25.83352
75%,95.25,48.5,18.7,213.0,4750.0,9.172123,-25.06205
max,152.0,59.6,21.5,231.0,6300.0,10.02544,-23.78767


#### 4. Selección de Datos

Para seleccionar una columna específica o un subconjunto de filas en un DataFrame, puedes usar corchetes o las funciones `.loc[]` y `.iloc[]`.


In [None]:
# Seleccionar una columna
nombres = df['Nombre']
print(nombres)

0     Juan
1    María
2     Luis
3      Ana
Name: Nombre, dtype: object


In [None]:
# Seleccionar una fila específica usando el índice:
fila_1 = df.iloc[0]
print(fila_1)

Nombre      Juan
Edad          23
Ciudad    Panamá
Name: 0, dtype: object


In [None]:
# Selección por condiciones:
mayores_30 = df[df['Edad'] > 30]
print(mayores_30)

  Nombre  Edad Ciudad
1  María    45  Colón
2   Luis    34  David


#### 5. Filtrado y Manipulación de Datos

Pandas permite aplicar condiciones a los datos para filtrar solo lo que necesitas. Supongamos que tenemos una columna de edades y queremos filtrar a las personas que tienen más de 30 años.

In [None]:
# Filtrar filas donde la edad es mayor a 30
df_mayores_30 = df[df['Edad'] > 30]
print(df_mayores_30)

  Nombre  Edad Ciudad
1  María    45  Colón
2   Luis    34  David


### Operaciones comunes en Pandas

#### 6. Agrupación de datos

Una de las características más útiles de Pandas es la capacidad de agrupar datos para realizar operaciones agregadas como la suma, promedio, etc.

In [None]:
# Agrupar datos por la columna 'Ciudad' y calcular la edad promedio
grupo_ciudad = df.groupby('Ciudad')['Edad'].mean()
print(grupo_ciudad)

Ciudad
Colón       45.0
David       34.0
Panamá      23.0
Santiago    22.0
Name: Edad, dtype: float64


#### 7. Funciones `melt` y `pivot`

- **`melt`** permite reestructurar un DataFrame, pasando de un formato ancho a uno largo. Es útil para manipular datos de series temporales, por ejemplo.


In [None]:
# Ejemplo de melt
df_melted = pd.melt(df, id_vars=['Ciudad'], value_vars=['Edad'], var_name='Variable', value_name='Valor')
print(df_melted)

     Ciudad Variable  Valor
0    Panamá     Edad     23
1     Colón     Edad     45
2     David     Edad     34
3  Santiago     Edad     22


- **`pivot`** permite transformar de vuelta el DataFrame desde un formato largo a uno ancho, ideal cuando necesitas mostrar datos agregados.


In [None]:
# Ejemplo de pivot
df_pivot = df_melted.pivot(index='Ciudad', columns='Variable', values='Valor')
print(df_pivot)

Variable  Edad
Ciudad        
Colón       45
David       34
Panamá      23
Santiago    22


### 8. Manejo de valores faltantes

En la mayoría de los casos, los datasets reales contienen valores faltantes (NaN, que significa "Not a Number"). Pandas tiene múltiples formas de identificar, eliminar o reemplazar esos valores.

In [None]:
# Identificar valores faltantes en todo el DataFrame
print(df.isnull().sum())

Esto te mostrará cuántos valores faltan en cada columna del DataFrame.


#### Eliminación de valores faltantes:

A veces, puede ser necesario eliminar filas o columnas con valores faltantes:

In [None]:
# Eliminar filas que tengan cualquier valor NaN
df_sin_nan = df.dropna()

# Eliminar columnas que tengan cualquier valor NaN
df_sin_nan_columnas = df.dropna(axis=1)

#### Rellenar valores faltantes:

Otra opción es reemplazar los valores faltantes con un valor específico, como la media, la mediana o un valor por defecto.

In [None]:
# Rellenar valores faltantes con la media de la columna
df_rellenado = df.fillna(df.mean())

# Rellenar con un valor específico
df_rellenado_especifico = df.fillna(0

### 9. Manejo de fechas

Trabajar con fechas es fundamental en muchos análisis de datos. Pandas hace esto fácil con la función `pd.to_datetime`.

In [None]:
# Supongamos que tenemos una columna 'Fecha' en formato de cadena
df['Fecha'] = pd.to_datetime(df['Fecha'])

# Ahora puedes realizar operaciones de fecha
print(df['Fecha'].dt.year)

#### Filtrar por rango de fechas:


In [None]:
# Filtrar filas que estén entre dos fechas
inicio = '2020-01-01'
fin = '2020-12-31'
df_fechas_filtradas = df[(df['Fecha'] >= inicio) & (df['Fecha'] <= fin)]
print(df_fechas_filtradas)

### 10. Ordenar datos

Ordenar datos en un DataFrame es una operación básica pero poderosa. Puedes ordenar tanto por una columna como por varias.

In [None]:
# Ordenar por una columna
df_ordenado = df.sort_values(by='Edad', ascending=False)
print(df_ordenado)

# Ordenar por varias columnas
df_ordenado_multi = df.sort_values(by=['Ciudad', 'Edad'], ascending=[True, False])
print(df_ordenado_multi)

### 11. Aplicar funciones a los datos

Una de las herramientas más potentes de Pandas es la capacidad de aplicar funciones a filas o columnas completas. Esto se hace utilizando `apply()`.

#### Aplicar una función a una columna:

In [None]:
def clasificar_edad(edad):
    if edad < 18:
        return 'Menor'
    elif edad <= 65:
        return 'Adulto'
    else:
        return 'Mayor'

# Aplicar la función a la columna 'Edad'
df['Clasificación Edad'] = df['Edad'].apply(clasificar_edad)
print(df)

  Nombre  Edad    Ciudad Clasificación Edad
0   Juan    23    Panamá             Adulto
1  María    45     Colón             Adulto
2   Luis    34     David             Adulto
3    Ana    22  Santiago             Adulto


#### Aplicar una función a varias columnas (con `lambda`):

In [None]:
# Calcular el IMC a partir de dos columnas: Peso y Altura
df['IMC'] = df.apply(lambda row: row['Peso'] / (row['Altura']**2), axis=1)
print(df)

### 12. Unir DataFrames

A menudo necesitarás combinar varios DataFrames. Pandas ofrece varias formas de hacerlo, dependiendo de la estructura de los datos.

#### Concatenar DataFrames

Si tienes varios DataFrames con las mismas columnas, puedes unirlos uno debajo del otro utilizando `concat`.

In [None]:
# Supongamos que tenemos dos DataFrames
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# Concatenar los DataFrames
df_concatenado = pd.concat([df1, df2], ignore_index=True)
print(df_concatenado)

   A  B
0  1  3
1  2  4
2  5  7
3  6  8


#### Merge (unión tipo SQL)

Si necesitas unir DataFrames por una o más columnas, similar a un `JOIN` en SQL, puedes usar `merge`.


In [None]:
# Supongamos que tenemos dos DataFrames con una columna en común
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Ana', 'Juan', 'Luis']})
df2 = pd.DataFrame({'ID': [1, 2, 4], 'Edad': [23, 45, 22]})

# Unir DataFrames por la columna 'ID'
df_merged = pd.merge(df1, df2, on='ID', how='inner')  # También puedes usar 'left', 'right', 'outer'
print(df_merged)

   ID Nombre  Edad
0   1    Ana    23
1   2   Juan    45


### 13. Visualización rápida con Pandas

Aunque Pandas no es una biblioteca de visualización en sí misma, te permite generar gráficos rápidos para explorar los datos. Pandas se integra con Matplotlib para crear gráficos de forma sencilla.

#### Crear un gráfico de línea:

In [None]:
# Crear un gráfico de la columna 'Edad' por 'Nombre'
df.plot(x='Nombre', y='Edad', kind='line')

#### Crear un gráfico de barras:

In [None]:
# Crear un gráfico de barras
df.plot(x='Nombre', y='Edad', kind='bar')

### 14. Guardar y exportar datos

Finalmente, es importante saber cómo guardar los resultados de tu análisis. Pandas permite exportar tus DataFrames a múltiples formatos, siendo el CSV el más común.

In [None]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('resultado.csv', index=False)

# Guardar en otros formatos como Excel
df.to_excel('resultado.xlsx', index=False)