# Leer archivos vsc y json

## Leer CSV


La función `read_csv()` de Pandas es una herramienta fundamental para importar datos tabulares desde archivos CSV (Comma Separated Values) en un DataFrame de Pandas. Esta función permite leer y procesar datos de forma eficiente para su posterior análisis y manipulación.

In [2]:
import pandas as pd

df_books = pd.read_csv('../data/bestsellers-with-categories.csv')
df_books

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


Principales Parámetros de pd.read_csv()

- `filepath_or_buffer`: La ruta al archivo CSV o una URL.
- `sep`: El delimitador de campo. Por defecto es una coma (,) pero puede ser cualquier carácter, como un punto y coma (;).
- `delimiter`: Alias de sep.
- `header`: La fila (0-indexada) que contiene los nombres de las columnas. Usa None si el archivo CSV no tiene encabezado.
- `names`: Lista de nombres de columnas para usar. Útil cuando header=None.
- `index_col`: Columna(s) a utilizar como índice del DataFrame.
- `usecols`: Lista de nombres o posiciones de columnas a leer.
- `dtype`: Tipo de datos para las columnas. Puede ser un diccionario para especificar tipos específicos para cada columna.
- `engine`: Motor para analizar el archivo CSV, puede ser c (por defecto) o python.
- `skiprows`: Número de filas a omitir al principio del archivo.
- `na_values`: Valores adicionales a considerar como NA/NaN.
- `parse_dates`: Lista de nombres de columnas o posiciones de columnas que deben ser convertidas a fechas.
- `infer_datetime_format`: Si es True, Pandas intentará inferir el formato de las fechas automáticamente.
- `skip_blank_lines`: Si es True, se omiten las líneas en blanco.
- `nrows`: Número de filas a leer del archivo.


Algunos parametros que son mas comunes de usar son los siguientes: 

- **Especificar un Delimitador Diferente**

```
df = pd.read_csv('archivo.csv', delimiter=';')
print(df)
```

- **Especificar Encabezados y Nombres de Columnas**

```
# Leer un archivo CSV sin encabezado y asignar nombres de columnas
df = pd.read_csv('archivo.csv', 
                header=None, names=['Col1', 'Col2', 'Col3'])
print(df)
```

Resumen de Uso de Parámetros

- `filepath_or_buffer`: `'archivo.csv'`
- `sep/delimiter`: `',', ';'`, etc.
- `header`: `None, 0, 1,` etc.
- `names`: `['Col1', 'Col2']`
- `index_co`l: `0, ['col1']`
- `usecols`: `['col1', 'col2'], [0, 1]`
- `dtype`: `{'col1': int, 'col2': float}`
- `engine`: `'c', 'python'`
- `skiprows`: `2, [0, 2, 5]`
- `na_values`: `['NA', 'null']`
- `parse_dates`: ['fecha']
- `infer_datetime_format`: `True`
- `skip_blank_lines`: `True`
- `nrows`: `5`

Estos parámetros te permiten ajustar cómo se lee y se interpreta el archivo CSV, lo que te proporciona una gran flexibilidad para manejar diferentes formatos y estructuras de datos.

## Leer JSON

Para leer archivos JSON con Pandas, se utiliza la función `pd.read_json()`. Esta función permite cargar datos en formato JSON directamente en un DataFrame de Pandas, lo que facilita su manipulación y análisis.

In [7]:
pd.read_json('../data/HPCharactersDataRaw.json')

Unnamed: 0,Name,Link,Descr,Gender,Species/Race,Blood,School,Profession
0,Mrs. Abbott,https://www.hp-lexicon.org/character/abbott-fa...,"Mrs. Abbott was the mother of Hannah Abbott, a...",Female,Witch,Muggle-born,Unknown,Unknown
1,Hannah Abbott,https://www.hp-lexicon.org/character/abbott-fa...,Hannah Abbott is a Hufflepuff student in Harry...,Female,Witch,Half-blood,Hogwarts - Hufflepuff,Landlady of the Leaky Cauldron
2,Abel Treetops,https://www.hp-lexicon.org/character/abel-tree...,Abel Treetops was a wizard from Cincinnati who...,Male,Wizard,Unknown,Unknown,Unknown
3,Euan Abercrombie,https://www.hp-lexicon.org/character/abercromb...,Euan Abercrombie was a small boy with prominen...,Male,Wizard,Unknown,Hogwarts - Gryffindor,Unknown
4,Aberforth Dumbledore,https://www.hp-lexicon.org/character/dumbledor...,"Aberforth Dumbledore was a tall, thin, grumpy-...",Male,Wizard,Half-blood,Hogwarts - Student,Barman
...,...,...,...,...,...,...,...,...
1935,Georgi Zdravko,https://www.hp-lexicon.org/character/georgi-zd...,Georgi Zdravko played Keeper for the Bulgarian...,Male,Wizard,Unknown,Unknown,Quidditch player (Seeker)
1936,Zograf,https://www.hp-lexicon.org/character/zograf/,Zograf played Keeper for the Bulgarian Nationa...,,Wizard,Unknown,Unknown,Quidditch player (Keeper)
1937,Zonko,https://www.hp-lexicon.org/character/zonko/,Founder(?) of Zonko’s Joke Shop. Possibly a re...,,Unknown,Unknown,Unknown,Unknown
1938,Valentina Vázquez,https://www.hp-lexicon.org/character/valentina...,Valentina Vázquez was President of the Argenti...,Female,Witch,Unknown,Unknown,President of the Argentinian Council of Magic


Argumentos opcionales:

La función read_json() admite varios argumentos opcionales para personalizar la forma en que se lee el archivo JSON:

- **`orient`**: Indica cómo se organiza el JSON. Los valores válidos son:   
    - `'records'` (por defecto): Cada fila del DataFrame representa un registro individual del JSON.
    - `'table'`: El JSON se interpreta como una tabla con filas y columnas.
    - `'columns'`: Cada fila del DataFrame representa una columna del JSON, y los valores de las celdas son los elementos de cada columna.
- **`typ`**: Permite especificar el tipo de datos para cada columna del DataFrame. Se puede pasar un diccionario donde las claves sean los nombres de las columnas y los valores sean los tipos de datos deseados.
- **`verify_astype`**: Si se establece en True, verifica si los tipos de datos especificados en typ son compatibles con los datos del JSON.
- **`errors`**: Define la acción a tomar en caso de errores de lectura (por ejemplo, 'ignore', 'raise').
- **`encoding`**: Especifica la codificación de caracteres del archivo JSON. Por defecto, se utiliza 'utf-8'.
- **`squeeze`**: Si se establece en True, devuelve una Serie en lugar de un DataFrame si el JSON contiene un solo objeto.

A continuacion, se agregara el tipo de dato, en este caso indicaremos que sera una serie, lo que nos devolvera los datos en crudo del json y cada entrada con un indice.

In [3]:
df_json = pd.read_json('../data/HPCharactersDataRaw.json', typ='Series')
df_json

0       {'Name': 'Mrs. Abbott', 'Link': 'https://www.h...
1       {'Name': 'Hannah Abbott', 'Link': 'https://www...
2       {'Name': 'Abel Treetops', 'Link': 'https://www...
3       {'Name': 'Euan Abercrombie', 'Link': 'https://...
4       {'Name': 'Aberforth Dumbledore', 'Link': 'http...
                              ...                        
1935    {'Name': 'Georgi Zdravko', 'Link': 'https://ww...
1936    {'Name': 'Zograf', 'Link': 'https://www.hp-lex...
1937    {'Name': 'Zonko', 'Link': 'https://www.hp-lexi...
1938    {'Name': 'Valentina Vázquez', 'Link': 'https:/...
1939    {'Name': 'Zygmunt Budge', 'Link': 'https://www...
Length: 1940, dtype: object