### Introducción a Pandas

Pandas es una biblioteca esencial para la manipulación y análisis de datos en Python. Ofrece estructuras de datos y herramientas de alto rendimiento diseñadas para trabajar con datos etiquetados o relacionales de manera sencilla y eficiente.

## ¿Por qué usar Pandas?

- Facilita la manipulación de grandes conjuntos de datos.
- Ofrece estructuras de datos intuitivas como Series y DataFrames.
- Integra capacidades de visualización.
- Es ampliamente utilizado en análisis de datos, ciencia de datos y aprendizaje automático.

A lo largo de esta clase, aprenderemos a utilizar Pandas para cargar, explorar y manipular datos. Para comenzar a usar Pandas en Google Colab, primero debemos importar la biblioteca.

In [None]:
# Importar bibliotecas necesarias
import pandas as pd

## Estructuras de Datos en Pandas

Pandas ofrece dos estructuras de datos principales para trabajar con datos: **Series** y **DataFrames**. Estas estructuras son altamente flexibles y permiten una manipulación eficiente de los datos, desde la limpieza y transformación hasta el análisis y visualización.

### Series

Una Serie es una estructura de datos unidimensional similar a una columna en una tabla. Es útil para almacenar y manipular datos unidimensionales.

In [None]:
serie = pd.Series([1, 2, 3, 4, 5])
print(serie)

In [None]:
type(serie)

### DataFrames

Un DataFrame es una estructura de datos bidimensional que se asemeja a una tabla. Es útil para almacenar y manipular datos tabulares.

In [None]:
# Crear un DataFrame de ejemplo con más registros y diversidad
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hank', 'Ivy', 'Jack', 'Karen', 'Leo', 'Mona', 'Nina', 'Oscar'],
    'Edad': [25, 30, 35, 40, 22, 28, 35, None, 45, 30, 22, 40, 29, None, 30],
    'Ciudad': ['Nueva York', 'Los Ángeles', 'Nueva York', 'San Francisco', 'Chicago', 'Nueva York', 'Los Ángeles', 'San Francisco', 'Chicago', 'Nueva York', 'Nueva York', 'Chicago', 'Los Ángeles', 'Nueva York', 'San Francisco'],
    'Empleado': [True, False, True, True, False, True, False, True, True, False, False, True, True, False, True]
}
df = pd.DataFrame(data)
print(df)

In [None]:
# Otra forma de visualizar un dataframe en una libreta
df

In [None]:
# Ver la parte de arriba
df.head()

In [None]:
# Ver la parte de abajo
df.tail()

## Operaciones Básicas en Pandas

### Selección de Columnas

Podemos seleccionar una columna específica de un DataFrame utilizando el nombre de la columna entre corchetes. También podemos seleccionar múltiples columnas pasando una lista de nombres de columnas.

In [None]:
# Seleccionar una columna
df['Nombre']

In [None]:
# Seleccionar múltiples columnas
df[['Nombre', 'Edad', 'Ciudad']]

### Filtrado de Datos

Podemos filtrar los datos en un DataFrame utilizando condiciones. Las condiciones se especifican dentro de los corchetes y devuelven un DataFrame que satisface esas condiciones.

In [None]:
filtro = df['Edad'] > 30

In [None]:
filtro

In [None]:
# Filtrar datos basado en una condición
df[filtro]

In [None]:
# Filtrar datos con múltiples condiciones
# Por ejemplo, seleccionar todas las filas donde la edad es mayor a 30 y la ciudad es 'Chicago'
filtro=(df['Edad'] > 30) & (df['Ciudad'] == 'Chicago')
df[filtro]

### Uso de loc y iloc

`loc` se utiliza para seleccionar filas y columnas por etiquetas o una condición booleana, mientras que `iloc` se utiliza para seleccionar filas y columnas por posiciones enteras (índices).

In [None]:
df.head(2)

In [None]:
# Seleccionar una fila por etiqueta utilizando loc
df.loc[0]

In [None]:
# Seleccionar múltiples filas y columnas por etiquetas utilizando loc
df.loc[0:4, ['Nombre', 'Ciudad']]

In [None]:
# Seleccionar una fila por posición utilizando iloc
df.iloc[0]

In [None]:
# Seleccionar múltiples filas y columnas por posiciones utilizando iloc
df.iloc[0:4, [0, 2]]

### Modificación de Datos

Podemos agregar y eliminar columnas, así como modificar valores en el DataFrame.

In [None]:
# Agregar una nueva columna
df['País'] = 'USA'
df

In [None]:
# Eliminar una columna
df = df.drop(columns=['País'])
df

### Manejo de Valores Nulos

Pandas ofrece funciones para identificar y tratar valores nulos.

In [None]:
df.isnull()

In [None]:
# Identificar valores nulos
df.isnull().sum()

In [None]:
# Llenar valores nulos con un valor específico
df['Edad'] = df['Edad'].fillna(df['Edad'].mean())
df

In [None]:
# Verificar valores nulos
df.isnull().sum()

## Exploración de Datos

Pandas proporciona funciones útiles para explorar y entender mejor nuestros datos.

### Describiendo Datos

Podemos obtener información básica y estadísticas descriptivas de nuestro DataFrame.

In [None]:
# Obtener información del DataFrame
df.info()

In [None]:
# Obtener estadísticas descriptivas
df.describe()

### Estadísticas Descriptivas

Calcular estadísticas básicas como medias y medianas.

In [None]:
# Calcular la media de una columna
print(df['Edad'].mean())

In [None]:
# Calcular la mediana de una columna
print(df['Edad'].median())

### Visualización de Datos

Podemos crear visualizaciones básicas utilizando Pandas y Seaborn.

In [None]:
df['Ciudad'].value_counts()

In [None]:
# Crear un gráfico de barras de la columna 'Ciudad'
df['Ciudad'].value_counts().plot(kind='bar')

In [None]:
# Crear un histograma de la columna 'Edad'
df['Edad'].plot(kind='hist')

## Operaciones Avanzadas en Pandas

### Agrupación de Datos

Utilizar `groupby` para agrupar datos y realizar operaciones agregadas.

In [None]:
df.head(2)

In [None]:
# Agrupar datos por 'Ciudad' y calcular la media de 'Edad'
df.groupby('Ciudad')['Edad'].mean()

### Aplicación de Funciones

La función `apply` en Pandas permite aplicar una función a lo largo de un eje del DataFrame (filas o columnas). Esto es útil para realizar operaciones personalizadas en los datos.

In [None]:
# Definir una función estándar
def incrementar_edad(x):
    return x + 10

# Aplicar la función a la columna 'Edad' usando apply
df['Edad_incrementada'] = df['Edad'].apply(incrementar_edad)
df[['Nombre', 'Edad', 'Edad_incrementada']].head()

### Introducción a las Funciones Lambda

Las funciones `lambda` en Python son pequeñas funciones anónimas que se definen en una sola línea utilizando la palabra clave `lambda`. Son útiles para operaciones rápidas y simples. Podemos usar funciones `lambda` con `apply` para lograr el mismo resultado que con una función estándar.

In [None]:
# Aplicar una función a una columna
# Aplicar una función lambda a la columna 'Edad' usando apply
df['Edad_incrementada_lambda'] = df['Edad'].apply(lambda x: x + 10)
print(df[['Nombre', 'Edad', 'Edad_incrementada_lambda']].head())

### Combinación y Fusión de DataFrames

En Pandas, existen varias funciones para combinar y fusionar DataFrames, cada una con sus propias ventajas y casos de uso. Las principales funciones son `merge`, `concat` y `join`.

#### `merge`

La función `merge` se utiliza para combinar dos DataFrames en función de las columnas comunes o índices.

In [None]:
# Crear DataFrames de ejemplo
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Nombre': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Edad': [25, 30, 35]})

In [None]:
df1

In [None]:
df2

In [None]:
# Fusionar DataFrames por columna 'ID'
df_merged = pd.merge(df1, df2, on='ID')
df_merged

#### `concat`

La función `concat` se utiliza para concatenar dos o más DataFrames a lo largo de un eje especificado (filas o columnas).

In [None]:
# Concatenar DataFrames por filas
df_concat = pd.concat([df1, df2], axis=0)
df_concat

#### `join`

La función `join` se utiliza para combinar dos DataFrames en función de los índices.

In [None]:
# Crear DataFrames de ejemplo con diferentes índices
df1 = pd.DataFrame({'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva']}, index=[1, 2, 3, 4, 5])
df2 = pd.DataFrame({'Edad': [25, 30, 35, 40, 20]}, index=[1, 2, 4, 5, 6])

In [None]:
df1

In [None]:
df2

In [None]:
# Unir DataFrames por el índice (left join)
# Left join: Mantiene todos los índices del DataFrame de la izquierda y añade los datos correspondientes del DataFrame de la derecha. 
df_joined = df1.join(df2)
print("Left join por defecto:\n", df_joined)

In [None]:
# Unir DataFrames por el índice (inner join)
# Inner join: Mantiene solo los índices comunes a ambos DataFrames.
df_joined_inner = df1.join(df2, how='inner')
print("\nInner join:\n", df_joined_inner)

In [None]:
# Unir DataFrames por el índice (right join)
# Right join: Mantiene todos los índices del DataFrame de la derecha y añade los datos correspondientes del DataFrame de la izquierda.
df_joined_right = df1.join(df2, how='right')
print("\nRight join:\n", df_joined_right)

In [None]:
# Unir DataFrames por el índice (outer join)
# Outer join: Mantiene todos los índices de ambos DataFrames, rellenando con NaN donde no hay datos.
df_joined_outer = df1.join(df2, how='outer')
print("\nOuter join:\n", df_joined_outer)

## Trabajo con Datos Reales

### Guardar DataFrames

Utilizar `to_csv` y `to_excel` para guardar DataFrames en archivos CSV y Excel.

In [None]:
# Revisar nuestro dataframe
df.head()

In [None]:
%pwd

In [None]:
# Guardar DataFrame en un archivo CSV
df.to_csv('archivo_guardado.csv', index=False)

# Guardar DataFrame en un archivo Excel
df.to_excel('archivo_guardado.xlsx', index=False)

### Cargar Datos desde CSV y Excel

Utilizar `read_csv` y `read_excel` para cargar datos desde archivos CSV y Excel.

In [None]:
# Cargar datos desde un archivo CSV
df_csv = pd.read_csv('archivo_guardado.csv')
df_csv.head()

In [None]:
# Cargar datos desde un archivo Excel
df_excel = pd.read_excel('archivo_guardado.xlsx')
df_excel.head()

### Conclusión

En esta clase, hemos aprendido los conceptos básicos y avanzados de Pandas, una biblioteca poderosa para la manipulación y análisis de datos en Python. Hemos explorado cómo crear y manipular Series y DataFrames, realizar operaciones de selección y filtrado, manejar valores nulos, y mucho más. Con estas herramientas, ahora estás preparado para realizar análisis de datos más complejos y eficientes. ¡Sigue practicando y explorando las capacidades de Pandas para convertirte en un experto en análisis de datos!