# Desarrollo de Aplicaciones para Análisis de Datos
----------------------------

## Pandas
Pandas es una biblioteca esencial para la ciencia de datos en Python que se utiliza para la manipulación y análisis de datos tabulares. 

**1. Estructuras de Datos:** Pandas proporciona dos estructuras de datos principales: DataFrame y Series. &nbsp;

- Un *DataFrame* es una estructura de datos bidimensional similar a una tabla de base de datos. 
- Una *Series* es una estructura de datos unidimensional que es similar a una columna en una hoja de cálculo.

**2. Lectura y Escritura de Datos:** Pandas facilita la lectura y escritura de datos desde y hacia una variedad de formatos, como CSV, Excel, SQL y más.

In [None]:
import pandas as pd

# Leer un archivo CSV
df = pd.read_csv('datos.csv')

# Escribir a un archivo CSV
df.to_csv('nuevos_datos.csv', index=False)

**3. Indexación y Selección:** Pandas permite acceder a datos específicos dentro de un DataFrame o Series.

In [None]:
# Acceder a una columna
columna = df['nombre_columna']

# Seleccionar filas basadas en una condición
df_filtrado = df[df['columna'] > 50]

**4. Manipulación de Datos:** Pandas proporciona una amplia gama de funciones para manipular y transformar datos, incluyendo la eliminación de duplicados, la agregación, la concatenación y la pivotación.

In [None]:
# Eliminar duplicados
df_sin_duplicados = df.drop_duplicates()

# Agregar datos
suma_por_categoria = df.groupby('categoria')['valor'].sum()

# Concatenar DataFrames
nuevo_df = pd.concat([df1, df2])

**5. Valores Faltantes:** Pandas facilita la detección y manejo de valores faltantes en los datos.

In [None]:
# Detección de valores faltantes
valores_faltantes = df.isnull().sum()

# Rellenar valores faltantes
df['columna'].fillna(0, inplace=True)

**6. Estadísticas Descriptivas:** Pandas permite calcular estadísticas descriptivas básicas de los datos.

In [None]:
# Calcular la media
media = df['columna'].mean()

# Calcular la mediana
mediana = df['columna'].median()

# Calcular la desviación estándar
desviacion_estandar = df['columna'].std()

**7. Visualización de Datos:** Pandas se integra bien con bibliotecas de visualización como Matplotlib y Seaborn para crear gráficos y visualizaciones de datos.

In [None]:
import matplotlib.pyplot as plt

# Crear un gráfico de barras
df['columna'].plot(kind='bar')
plt.show()

**8. Interoperabilidad:** Pandas se integra fácilmente con otras bibliotecas de ciencia de datos, como NumPy y scikit-learn.

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split

# Convertir un DataFrame de Pandas en un arreglo NumPy
X = df.values

# Dividir datos en entrenamiento y prueba
X_train, X_test = train_test_split(df, test_size=0.2)

Como conclusión: 
  - Es una herramienta poderosa y versátil para trabajar con datos tabulares en Python. 
  - Su facilidad de uso y sus capacidades de manipulación de datos hacen que sea esencial para la limpieza, exploración y análisis de datos en proyectos de ciencia de datos.