# **Pandas**

- https://pandas.pydata.org/
- https://pypi.org/project/pandas/

- Pandas es una librería de Python.
- Pandas se utiliza para analizar datos.

In [None]:
import pandas as pd

# Carga un archivo CSV en un DataFrame de Pandas
df = pd.read_csv('../assets/csv/customers.csv')

# print(df.to_string())
df

> El método `to_string()` de un DataFrame en Pandas convierte todo el DataFrame en una representación en forma de cadena (texto).

## **Instalación**

Ejecuta el siguente comando.

```bash
pip install pandas
```

## **Importar Pandas**

Ahora Pandas está instalado está listo para usarse.

In [None]:
import pandas

dataset = {
  "nombre": ["Hiromi", "Sofía", "José"],
  "pasatiempo": ["Dormir", "No Bañarse", "Enojarse"]
}

variable = pandas.DataFrame(dataset)

print(variable)

## **Series**

- Una Series de Pandas es como una columna en una tabla.
- Es un arreglo unidimensional que contiene datos de cualquier tipo.

In [None]:
import pandas as pd

a = [1, 7, 2]

variable = pd.Series(a)

print(variable)

## **Etiquetas**

- Si no se especifica nada más, los valores están etiquetados con su número de índice.
- El primer valor tiene el índice 0, el segundo valor tiene el índice 1, etc.
- Esta etiqueta se puede usar para acceder a un valor específico.

In [None]:
numeros = [1, 7, 2]

print(numeros[0])

## **Crear Etiquetas**

Con el argumento `index`, puedes crear tus propias etiquetas.

In [None]:
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a, index=["x", "y", "z"])

print(myvar)


Cuando hayas creado etiquetas, puedes acceder a un ítem refiriéndote a la etiqueta.

In [None]:
import pandas as pd

a = [1, 7, 2]

variable = pd.Series(a, index=["x", "y", "z"])

print(variable["y"])

## **Objetos Clave/Valor como Series**

También puedes usar un objeto clave/valor, como un diccionario, al crear una Series.

In [None]:
import pandas as pd

calorias = {"dia1": 1500, "dia2": 1750, "dia3": 2000}

variable = pd.Series(calorias)

print(variable)

## **DataFrames**

- Los conjuntos de datos en Pandas suelen ser tablas multidimensionales, llamadas DataFrames.
- Series es como una columna, mientras que un DataFrame es toda la tabla.

In [None]:
import pandas as pd

datos = {
  "alimento": ["Cereal", "Marraqueta", "Lámina de Queso"],
  "calorias": [125, 276, 105]
}

variable = pd.DataFrame(datos)

# print(variable)
variable

## **Ubicar una Fila**

Pandas utiliza el atributo `loc` para devolver una o más filas especificadas.

In [None]:
# referirse al índice de la fila:
variable.loc[1]

In [None]:
# usar una lista de índices:
variable.loc[[0, 1]]

## **Índices Nombrados**

Con el argumento `index`, puedes nombrar tus propios índices.

In [None]:
import pandas as pd

data = {
  "alimento": ["Cereal", "Marraqueta", "Lámina de Queso"],
  "calorias": [125, 276, 105]
}

df = pd.DataFrame(data, index=["dia1", "dia2", "dia3"])

# print(df)
df

## **Ubicar Índices Nombrados**

Usa el índice nombrado en el atributo `loc` para devolver las filas especificadas.

In [None]:
# referirse al índice nombrado
df.loc["dia2"]

## **Cargar Archivos en un DataFrame**

Si tus conjuntos de datos están almacenados en un archivo, Pandas puede cargarlos en un `DataFrame`.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/ingredients.csv")
# df = pd.read_excel('../assets/xlsx/bad-recipes.xlsx')

# print(df)
df

## **Leer Archivos CSV**

- Una forma sencilla de almacenar grandes conjuntos de datos es usar archivos CSV (archivos separados por comas).
- Los archivos CSV contienen texto plano y son un formato bien conocido que puede ser leído por cualquier persona, incluido Pandas.

`to_string()` Convierte los resultados a formato string.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/data.csv")

print(df.to_string())

## **`max_rows`**

- El número de filas devueltas está definido en la configuración de opciones de Pandas.
- Puedes verificar el número máximo de filas de tu sistema con la instrucción `pd.options.display.max_rows`.

In [None]:
import pandas as pd

print(pd.options.display.max_rows)

# pd.options.display.max_rows = 100 # Cambia 60 por 100

# df = pd.read_csv("../assets/csv/data.csv")

# print(df)

## **Analisis Datos**

- `head()` devuelve los encabezados y las primeras filas del `Dataframe` (5 por defecto).

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/data.csv")

print(df.head()) # 5 por defecto
# print(df.head(10))

- `tail()` devuelve los encabezados y las últimas filas del `Dataframe` (5 por defecto).

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/data.csv")

print(df.tail()) # 5 por defecto
# print(df.tail(10))

- `info()` proporciona más información sobre el `Dataframe`.

In [None]:
import pandas as pd

df = pd.read_csv("../assets/csv/data.csv")

print(df.info())

> Nota: Los valores vacíos o nulos pueden ser problemáticos al analizar datos, por lo que deberías considerar eliminar filas con valores vacíos.