| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3_DataFrames_de_Pandas.ipynb)| [⏩](./5_Filtra_Datos_en_DataFrames.ipynb)|

# **4. Cargar datos de Excel y CSV a DataFrames de Pandas con Python**

## **Introducción a cómo cargar archivos con Pandas.**

Cargar archivos es uno de los pasos fundamentales en el análisis de datos con Pandas. Pandas proporciona diversas funciones para cargar diferentes tipos de archivos, como CSV, Excel, SQL, JSON, entre otros. A continuación, te mostraré cómo cargar un archivo CSV como ejemplo:

**Cargar un Archivo CSV con Pandas:**

Supongamos que tienes un archivo CSV llamado "datos.csv" con la siguiente estructura:

```
Nombre,Edad,Ciudad
Ana,25,Madrid
Carlos,30,Barcelona
Elena,28,Valencia
Diego,22,Sevilla
```

Para cargar este archivo en un DataFrame, puedes usar la función `pd.read_csv()`:

In [1]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Carlos', 'Elena', 'Diego'],
    'Edad': [25, 30, 28, 22],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

print(df)

   Nombre  Edad     Ciudad
0     Ana    25     Madrid
1  Carlos    30  Barcelona
2   Elena    28   Valencia
3   Diego    22    Sevilla


Este código leerá el archivo "datos.csv" y lo almacenará en un DataFrame llamado `df`. El resultado impreso mostrará el contenido del DataFrame.

**Opciones Comunes al Cargar Archivos CSV:**

- `sep` o `delimiter`: Define el delimitador utilizado en el archivo CSV (por defecto es `,`).
- `header`: Indica la fila que contiene los nombres de las columnas (por defecto es `0`).
- `index_col`: Especifica la columna que se usará como índice del DataFrame.
- `usecols`: Lista de columnas que se deben cargar del archivo.
- `dtype`: Especifica los tipos de datos de las columnas.

`df = pd.read_csv('datos.csv', delimiter=';', header=None, index_col=0, usecols=[0, 2], dtype={'Edad': int})`

Recuerda que las opciones pueden variar dependiendo del tipo de archivo que estés cargando. Pandas proporciona funciones similares para cargar otros tipos de archivos como Excel, JSON y más. Al cargar archivos, es importante verificar las opciones disponibles en la documentación de Pandas para asegurarte de que los datos se carguen correctamente en el DataFrame.

## **Explicación del contexto de los datos y archivos a cargar.**

Por supuesto, aquí tienes una explicación más detallada del contexto de los datos y los archivos a cargar:

**Contexto de los Datos:**

En este escenario hipotético, estamos trabajando con un conjunto de datos que contiene información sobre personas. Cada fila en el conjunto de datos representa a una persona individual y contiene detalles como su nombre, edad y ciudad de residencia. Estos datos pueden provenir de una variedad de fuentes, como encuestas, registros de usuarios, sistemas de gestión de clientes, entre otros. El objetivo es analizar y comprender mejor las características demográficas de estas personas.

**Archivos a Cargar:**

En este contexto, vamos a cargar un archivo en formato CSV (Comma-Separated Values), que es un formato de archivo ampliamente utilizado para almacenar datos tabulares. Cada línea del archivo contiene información para una persona y los valores están separados por comas (u otro delimitador especificado). Este tipo de archivo es fácilmente legible tanto por humanos como por máquinas, lo que lo hace adecuado para almacenar y compartir datos tabulares.

**Estructura del Archivo CSV:**

El archivo CSV que vamos a cargar tiene la siguiente estructura:

```
Nombre,Edad,Ciudad
Ana,25,Madrid
Carlos,30,Barcelona
Elena,28,Valencia
Diego,22,Sevilla
```

- La primera línea del archivo contiene encabezados de columna: 'Nombre', 'Edad' y 'Ciudad'.
- Las siguientes líneas contienen los datos reales para cada persona, con cada columna separada por comas.

**Objetivo de Cargar los Datos:**

El objetivo principal de cargar estos datos en un DataFrame utilizando Pandas es permitirnos realizar análisis y manipulación de datos de manera eficiente. Una vez que los datos están en un DataFrame, podemos llevar a cabo diversas tareas:

- Calcular estadísticas descriptivas, como la edad promedio de las personas.
- Filtrar y seleccionar subconjuntos de datos basados en ciertos criterios.
- Realizar agrupaciones para entender mejor las distribuciones en las ciudades.
- Crear visualizaciones para presentar los resultados de manera comprensible.

En resumen, estamos cargando un archivo CSV que contiene datos sobre personas en un DataFrame de Pandas. El objetivo es analizar y obtener información valiosa de estos datos para tomar decisiones informadas o realizar investigaciones más profundas.

## **Ejemplos de cómo cargar archivos CSV.**

**Ejemplo 1: Cargar Archivo CSV con Encabezados:**

Supongamos que tenemos un archivo CSV llamado "data.csv" con los siguientes datos:

```
Nombre,Edad,Ciudad
Ana,25,Madrid
Carlos,30,Barcelona
Elena,28,Valencia
Diego,22,Sevilla
```

In [None]:
import pandas as pd

# Cargar el archivo CSV con encabezados
df = pd.read_csv('data.csv')

print(df)

**Ejemplo 2: Cargar Archivo CSV sin Encabezados:**

Supongamos que tenemos un archivo CSV llamado "data_sin_encabezados.csv" con los mismos datos, pero sin encabezados:

```
Ana,25,Madrid
Carlos,30,Barcelona
Elena,28,Valencia
Diego,22,Sevilla
```

In [None]:
import pandas as pd

# Cargar el archivo CSV sin encabezados y proporcionar nombres de columnas
columnas = ['Nombre', 'Edad', 'Ciudad']
df = pd.read_csv('data_sin_encabezados.csv', names=columnas)

print(df)

**Ejemplo 3: Especificar Delimitador Personalizado:**

Supongamos que tenemos un archivo CSV llamado "data_delimiter.csv" donde el delimitador es un punto y coma en lugar de una coma:

```
Nombre;Edad;Ciudad
Ana;25;Madrid
Carlos;30;Barcelona
Elena;28;Valencia
Diego;22;Sevilla
```

In [None]:
import pandas as pd

# Cargar el archivo CSV con un delimitador personalizado
df = pd.read_csv('data_delimiter.csv', delimiter=';')

print(df)

**Ejemplo 4: Especificar Índice Personalizado:**

Supongamos que tenemos un archivo CSV llamado "data_con_indice.csv" y queremos usar la columna 'Nombre' como índice:

```
Nombre,Edad,Ciudad
Ana,25,Madrid
Carlos,30,Barcelona
Elena,28,Valencia
Diego,22,Sevilla
```

In [None]:
import pandas as pd

# Cargar el archivo CSV con el índice personalizado
df = pd.read_csv('data_con_indice.csv', index_col='Nombre')

print(df)

Estos son solo algunos ejemplos de cómo cargar archivos CSV utilizando Pandas. Las opciones y parámetros pueden variar dependiendo de tus necesidades específicas y la estructura de tus datos.

## **Ejemplo de cómo cargar archivos de Excel.**

**Ejemplo: Cargar Archivo de Excel:**

Supongamos que tenemos un archivo de Excel llamado "data.xlsx" con los siguientes datos en una hoja llamada "Hoja1":

```
|   | Nombre  | Edad | Ciudad    |
|---|---------|------|-----------|
| 0 | Ana     | 25   | Madrid    |
| 1 | Carlos  | 30   | Barcelona |
| 2 | Elena   | 28   | Valencia  |
| 3 | Diego   | 22   | Sevilla   |
```

In [None]:
import pandas as pd

# Cargar el archivo de Excel
df = pd.read_excel('data.xlsx', sheet_name='Hoja1')

print(df)

En este ejemplo, utilizamos la función `pd.read_excel()` para cargar el archivo de Excel "data.xlsx". Especificamos el nombre de la hoja "Hoja1" desde la cual queremos cargar los datos. Pandas crea un DataFrame a partir de los datos en la hoja especificada.

Recuerda que puedes adaptar los nombres de archivo y hoja de acuerdo a tus propios archivos de Excel y necesidades. Además, Pandas proporciona varias opciones para ajustar cómo se cargan los datos de Excel, como seleccionar rangos de celdas específicos, manejar encabezados, etc. Puedes consultar la documentación de Pandas para obtener más detalles sobre estas opciones.

| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3_DataFrames_de_Pandas.ipynb)| [⏩](./5_Filtra_Datos_en_DataFrames.ipynb)|