# **¿Qué es Pandas?**

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es especialmente útil para trabajar con datos tabulares, como hojas de cálculo o bases de datos SQL. Pandas permite manipular, limpiar y analizar datos de manera eficiente y sencilla.

---

# **¿Para qué sirve Pandas?**

Pandas es utilizado para:

- **Análisis de datos**: Permite realizar operaciones complejas de análisis de datos de manera sencilla.

- **Manipulación de datos**: Facilita la limpieza, transformación y manipulación de grandes conjuntos de datos.

- **Visualización de datos**: Aunque no es una biblioteca de visualización por sí misma, se integra bien con bibliotecas como Matplotlib y Seaborn para crear gráficos a partir de los datos.

- **Lectura y escritura de datos**: Permite leer y escribir datos en diferentes formatos, como CSV, Excel, SQL, JSON, entre otros.

---

# **¿Cómo instalar Pandas?**

Para instalar Pandas, puedes usar pip, el gestor de paquetes de Python. Abre tu terminal o línea de comandos y ejecuta el siguiente comando:

```bash
pip install pandas
```

En Anaconda, Pandas ya viene preinstalado, pero si necesitas actualizarlo o instalarlo, puedes usar:

```bash
conda install pandas
```

---

# **¿Cómo importar Pandas en tu código?**

Para utilizar Pandas en tu código Python, primero debes importarlo. Aquí tienes un ejemplo de cómo hacerlo:

```python
import pandas as pd
```

---

# **¿Cómo crear un DataFrame en Pandas?**

Un DataFrame es una estructura de datos bidimensional en Pandas, similar a una tabla en una base de datos o una hoja de cálculo. Puedes crear un DataFrame a partir de un diccionario, una lista de listas, un archivo CSV, entre otros. Aquí tienes un ejemplo básico:

```python
import pandas as pd

# Crear un DataFrame a partir de un diccionario
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie'],
    'Edad': [25, 30, 35],
    'Ciudad': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)
```

---

# **¿Cómo leer un archivo CSV en Pandas?**

Para leer un archivo CSV en Pandas, puedes usar la función `read_csv()`. Aquí tienes un ejemplo:

```python
import pandas as pd

# Leer un archivo CSV
df = pd.read_csv('ruta/al/archivo.csv')
print(df)
```

---

# **Lectura de archivos en Pandas**

Pandas ofrece varias funciones para leer diferentes tipos de archivos. Aquí te muestro algunas de las más comunes:

```python
import pandas as pd

# Leer un archivo CSV
df_csv = pd.read_csv('ruta/al/archivo.csv')

# Leer un archivo Excel
df_excel = pd.read_excel('ruta/al/archivo.xlsx')

# Leer un archivo JSON
df_json = pd.read_json('ruta/al/archivo.json')

# Leer un archivo SQL
from sqlalchemy import create_engine

engine = create_engine('sqlite:///ruta/al/archivo.db')
df_sql = pd.read_sql('SELECT * FROM tabla', con=engine)
```

---

# **Escritura de archivos en Pandas**

Pandas también permite escribir DataFrames en diferentes formatos de archivo. Aquí tienes algunos ejemplos:

```python

import pandas as pd

# Crear un DataFrame
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie'],
    'Edad': [25, 30, 35],
    'Ciudad': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Escribir un DataFrame a un archivo CSV
df.to_csv('ruta/al/archivo.csv', index=False)

# Escribir un DataFrame a un archivo Excel
df.to_excel('ruta/al/archivo.xlsx', index=False)

# Escribir un DataFrame a un archivo JSON
df.to_json('ruta/al/archivo.json', orient='records', lines=True)

# Escribir un DataFrame a una base de datos SQL
from sqlalchemy import create_engine

engine = create_engine('sqlite:///ruta/al/archivo.db')
df.to_sql('tabla', con=engine, if_exists='replace', index=False)
```

---

# **¿Cómo manipular datos en Pandas?**

Pandas ofrece una amplia gama de funciones para manipular datos. Aquí te muestro algunas de las operaciones más comunes:

```python
import pandas as pd

# Crear un DataFrame
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie'],
    'Edad': [25, 30, 35],
    'Ciudad': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

# Seleccionar una columna
nombre_columna = df['Nombre']

# Seleccionar varias columnas
nombres_y_edades = df[['Nombre', 'Edad']]

# Filtrar filas
filtro = df[df['Edad'] > 30]

# Ordenar por una columna
ordenado = df.sort_values(by='Edad')

# Agregar una nueva columna
df['Pais'] = ['USA', 'USA', 'USA']

# Renombrar columnas
df.rename(columns={'Ciudad': 'Ciudad de Residencia'}, inplace=True)

# Eliminar una columna
df.drop(columns=['Pais'], inplace=True)

# Agrupar datos
grupo = df.groupby('Ciudad de Residencia').mean()

# Imprimir el DataFrame resultante
print(df)

```

---

# **¿Cómo realizar análisis de datos en Pandas?**

Pandas proporciona herramientas poderosas para realizar análisis de datos. Aquí te muestro algunas operaciones comunes:

```python
import pandas as pd

# Crear un DataFrame
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [25, 30, 35, 40],
    'Ciudad': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

df = pd.DataFrame(data)

# Descripción estadística del DataFrame
descripcion = df.describe()
print("Descripción estadística:")
print(descripcion)

# Calcular la media de la columna 'Edad'
media_edad = df['Edad'].mean()
print(f"Media de Edad: {media_edad}")

# Calcular la mediana de la columna 'Edad'
mediana_edad = df['Edad'].median()
print(f"Mediana de Edad: {mediana_edad}")

# Calcular la desviación estándar de la columna 'Edad'
desviacion_edad = df['Edad'].std()
print(f"Desviación estándar de Edad: {desviacion_edad}")

# Agrupar por 'Ciudad' y calcular la media de 'Edad'
grupo_ciudad = df.groupby('Ciudad')['Edad'].mean()
print("Media de Edad por Ciudad:")
print(grupo_ciudad)

# Filtrar datos por condición
filtro_nueva_york = df[df['Ciudad'] == 'New York']
print("Datos de Nueva York:")
print(filtro_nueva_york)

# Calcular la cantidad de personas por ciudad
cantidad_por_ciudad = df['Ciudad'].value_counts()
print("Cantidad de personas por Ciudad:")
print(cantidad_por_ciudad)
```

---

# **¿Cómo visualizar datos en Pandas?**

Pandas se integra bien con bibliotecas de visualización como Matplotlib y Seaborn. Aquí tienes un ejemplo de cómo crear gráficos básicos utilizando Pandas:

```python
import pandas as pd
import matplotlib.pyplot as plt

# Crear un DataFrame
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [25, 30, 35, 40],
    'Ciudad': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

df = pd.DataFrame(data)

# Gráfico de barras de la edad
df['Edad'].plot(kind='bar', title='Edades de las Personas')
plt.xlabel('Nombre')
plt.ylabel('Edad')
plt.xticks(range(len(df['Nombre'])), df['Nombre'], rotation=45)
plt.show()

# Gráfico de dispersión de Edad por Ciudad
df.plot(kind='scatter', x='Ciudad', y='Edad', title='Edad por Ciudad')
plt.xlabel('Ciudad')
plt.ylabel('Edad')
plt.show()

```

---

# **¿Cómo manejar datos faltantes en Pandas?**

Pandas ofrece varias funciones para manejar datos faltantes. Aquí te muestro algunas de las más comunes:

```python
import pandas as pd

# Crear un DataFrame con datos faltantes
data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', None],
    'Edad': [25, None, 35, 40],
    'Ciudad': ['New York', 'Los Angeles', None, 'Chicago']
}

df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

# Verificar datos faltantes
print("\nDatos faltantes:")
print(df.isnull())

# Eliminar filas con datos faltantes
df_sin_nulos = df.dropna()
print("\nDataFrame sin filas con datos faltantes:")
print(df_sin_nulos)

# Rellenar datos faltantes con un valor específico
df_rellenado = df.fillna({'Nombre': 'Desconocido', 'Edad': df['Edad'].mean(), 'Ciudad': 'Desconocida'})
print("\nDataFrame con datos faltantes rellenados:")
print(df_rellenado)

# Reemplazar datos faltantes con la media de la columna 'Edad'
df['Edad'].fillna(df['Edad'].mean(), inplace=True)
print("\nDataFrame con la media de Edad reemplazando datos faltantes:")
print(df)

# Reemplazar datos faltantes con el valor anterior
df['Ciudad'].fillna(method='ffill', inplace=True)
print("\nDataFrame con el valor anterior reemplazando datos faltantes en Ciudad:")
print(df)
```

---