# Pandas - I/O y Análisis

Este notebook cubre la lectura y escritura de archivos con Pandas, análisis descriptivo de datos y manejo de valores faltantes (NaN).

## Lectura de Archivos


In [None]:
import pandas as pd

# CSV
# df = pd.read_csv('archivo.csv')
# df = pd.read_csv('archivo.csv', sep=';', encoding='utf-8')
# df = pd.read_csv('archivo.csv', header=0, index_col=0)
# df = pd.read_csv('archivo.csv', nrows=100)  # Solo primeras 100 filas

# Excel
# df = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')
# df = pd.read_excel('archivo.xlsx', sheet_name=0)  # Primera hoja

# JSON
# df = pd.read_json('archivo.json')
# df = pd.read_json('archivo.json', orient='records')

# Parquet
# df = pd.read_parquet('archivo.parquet')

# HTML (tablas)
# dfs = pd.read_html('url_o_archivo.html')

# Ejemplo con datos de ejemplo (StringIO)
from io import StringIO
datos_csv = "nombre,edad\nAna,25\nJuan,30"
df = pd.read_csv(StringIO(datos_csv))
print(df)


## Escritura de Archivos


In [None]:
# CSV
# df.to_csv('archivo.csv', index=False)
# df.to_csv('archivo.csv', sep=';', encoding='utf-8')

# Excel (requiere openpyxl: pip install openpyxl)
# df.to_excel('archivo.xlsx', sheet_name='Hoja1', index=False)

# JSON
# df.to_json('archivo.json')
# df.to_json('archivo.json', orient='records')

# Parquet (requiere pyarrow o fastparquet)
# df.to_parquet('archivo.parquet')

# Ejemplo de escritura a StringIO (para pruebas)
from io import StringIO
output = StringIO()
df.to_csv(output, index=False)
print("CSV generado:")
print(output.getvalue())


## Análisis Descriptivo


In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Estadísticas descriptivas
df.describe()          # Resumen estadístico
df.mean()              # Media por columna
df.median()            # Mediana
df.std()               # Desviación estándar
df.var()               # Varianza
df.min()               # Mínimo
df.max()               # Máximo
df.sum()               # Suma
df.count()             # Conteo (sin NaN)

# Información del DataFrame
df.info()              # Tipos y memoria
df.head()              # Primeras 5 filas
df.tail()              # Últimas 5 filas
df.shape               # (filas, columnas)
df.columns.tolist()    # Lista de columnas


## Manejo de Valores Faltantes


In [None]:
# Detectar valores faltantes
df.isna()              # DataFrame booleano
df.isnull()            # Alias de isna()
df.notna()             # Valores no nulos
df.isna().sum()        # Conteo de NaN por columna

# Eliminar valores faltantes
df.dropna()            # Eliminar filas con NaN
df.dropna(axis=1)       # Eliminar columnas con NaN
df.dropna(subset=['A'])  # Eliminar solo si 'A' es NaN

# Rellenar valores faltantes
df.fillna(0)            # Rellenar con 0
df.fillna(method='ffill')  # Forward fill
df.fillna(method='bfill')  # Backward fill
df['A'].fillna(df['A'].mean())  # Rellenar con media
