# Introducción a la Ciencia de Datos

## Análisis exploratorio de datos

A lo largo de este cuaderno, aprenderemos a manipular, transformar y visualizar datos para extraer información valiosa.

## Ova 2 Manipulación de Datos con Python

Antes de sumergirnos en el análisis exploratorio de datos, es esencial aprender a manipular datos con Python. En esta sección, aprenderemos a leer y escribir archivos de datos, seleccionar, ordenar y transformar datos, y agrupar y combinar datos para prepararlos para el análisis.

### Objetivos

- Leer y escribir archivos de datos
- Seleccionar, ordenar y transformar datos
- Agrupar y combinar datos
- Ejemplos prácticos de manipulación

### Bibliotecas principales

Para manipular datos en Python, utilizaremos las siguientes bibliotecas:

- **Pandas**: Una biblioteca de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, y herramientas de análisis de datos.
- **NumPy**: Una biblioteca para el lenguaje de programación Python que (entre otras cosas) proporciona soporte para arrays y matrices, junto con una colección de funciones matemáticas para operar con estos arrays.
- **OS**: Una biblioteca que nos permite interactuar con el sistema operativo, incluyendo la lectura de archivos del sistema.

### Lectura de archivos CSV

Los archivos CSV (Comma Separated Values) son una forma popular de almacenar datos estructurados y pueden ser leídos fácilmente en Python usando la biblioteca pandas. A continuación, mostramos cómo leer un archivo CSV en un DataFrame de pandas:

In [None]:
import pandas as pd

# Leer un archivo CSV
datos = pd.read_csv('datos.csv')

# Mostrar las primeras 5 filas del DataFrame
print(datos.head())

FileNotFoundError: [Errno 2] No such file or directory: 'datos.csv'

### Lectura de archivos Excel

Al igual que con los archivos CSV, pandas también permite la lectura de archivos Excel. A continuación, mostramos cómo leer un archivo Excel en un DataFrame de pandas:

In [None]:
# Leer un archivo Excel
datos = pd.read_excel('datos.xlsx')

# Mostrar las dimensiones del DataFrame
print(datos.shape)

### Escritura de archivos

Después de manipular los datos en Python, a menudo queremos guardar los resultados en un archivo para su uso futuro. Pandas nos permite escribir DataFrames en varios formatos, incluyendo CSV y Excel. Aquí mostramos cómo hacerlo:

In [None]:
# Escribir un DataFrame a un archivo CSV
datos.to_csv('datos_modificados.csv', index=False)

# Escribir un DataFrame a un archivo Excel
datos.to_excel('datos_modificados.xlsx', index=False)

### Selección de datos

Una vez que tenemos los datos en un DataFrame, podemos seleccionar subconjuntos de los datos de varias maneras. Pandas ofrece una variedad de formas de seleccionar datos, incluyendo la selección por etiqueta, por ubicación y condicional. Veamos cómo podemos seleccionar datos en pandas:

In [None]:
# Selección de una columna
col = datos['Columna1']

# Selección de varias columnas
cols = datos[['Columna1', 'Columna2']]

# Selección por etiqueta
fila = datos.loc[0]

# Selección por ubicación
fila = datos.iloc[0]

# Selección condicional
filtro = datos[datos['Columna1'] > 0]