# pandas

**`pandas`** es una de las librerías más utilizadas para el análisis de datos en Python.

Proporciona una estructura que permite trabajar los datos y aplicar procesamiento a grandes bases de datos de forma eficiente.

Consta principalmente de dos estructuras:
- **`Series`**: Arreglos de una dimensión.


- **`DataFrame`**: Estructura de datos de dos dimensiones similar a una tabla de Excel o una base de datos relacional en SQL. Está conformada por **`Series`**.

```python 
import pandas as pd
```

## Series

Las **`Series`** son un tipo de dato similar a un arreglo de una dimensión de **`NumPy`** o a una lista.

Para inicializar una **`Serie`** necesitamos un objeto iterable.

```python
serie = pd.Series(["a", "b", "c", "d"])
```

In [None]:
import pandas as pd

In [None]:
# pd.Series() vacia

pd.Series()

In [None]:
serie = pd.Series(["a", "b", "c", "d"], name = "letras")

serie

## DataFrame

Un **`DataFrame`** es una estructura de datos bidimensional compuesta por **filas y columnas**, las filas se identifican con un índice y las columnas con una etiqueta o nombre de columna. Los elementos dentro del table pueden ser enteros, booleanos, cadenas, listas, tuplas...

Los **`DataFrames`** pueden ser creados a partir de múltiple tipos de datos de entrada:

- **`list()`**


- **`dict()`**


- **`.csv`**


- **`.xlsx`**


- **`np.arrays()`**


- **`Tablas de SQL`**


- **`JSON`**

In [None]:
# pd.DataFrame() vacio

pd.DataFrame()

In [None]:
# Crear un pd.DataFrame() a partir de una lista

lista = list(range(100, 105))

df = pd.DataFrame()

df["nueva_columna"] = lista

df

In [None]:
# Crear un pd.DataFrame() a partir de una lista de listas (matriz)

lista = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

pd.DataFrame(lista)

In [None]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(lista, columns = ["col_1", "col_2", "col_3"])

In [None]:
# Crear un pd.DataFrame() a partir de un diccionario

diccionario = {num : l for num, l in enumerate("abcdefg", start = 10)}

diccionario

In [None]:
pd.DataFrame(diccionario.items())

In [None]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(diccionario.items(), columns = ["num", "letra"])

In [None]:
# Crear un pd.DataFrame() a partir de un .csv

pd.read_csv("iris.csv")

# pandas toma la primera linea del .csv como cabecera y la usa como los nombres de las columnas

In [None]:
# Crear un pd.DataFrame() a partir de un .xlsx

pd.read_excel("iris.xlsx")

# pandas toma la primera linea del .xlsx como cabecera y la usa como los nombres de las columnas

In [None]:
# Vamos a guardar el DataFrame en la variable df para ver que atributos y metodos tiene.

df = pd.read_csv("iris.csv")

df

In [None]:
# .head() nos muestra las primeras filas del DataFrame, por defecto muestra las primeras 5

df.head()

In [None]:
df.head(10)

In [None]:
# .tail() nos muestra las ultimas filas del DataFrame, por defecto muestra las ultimas 5

df.tail()

In [None]:
# Los DataFrames también tienen el método .shape

df.shape

In [None]:
# Como los DataFrames tienen obligatoriamente un indice, podemos hacer que nos lo retorne

df.index

In [None]:
# Igual con las columnas

df.columns

In [None]:
# .describe() muestra la descripción estadística del DataFrame, retorna un pd.DataFrame()

df.describe()

In [None]:
# .info() muestra información del tipo de cada columna, memoria que utliza el dataframe, número de columnas y tamaño del índice

df.info()

In [None]:
# .count() cuenta el número de elementos que no son NaN de cada columna

df.count()

In [None]:
# .sum() retorna la suma de cada columna de sus elementos (Solo aplica para columnas que se puedan sumar)
    
df.sum() 

In [None]:
# .sum(axis = 1) retorna la suma horizantal de cada fila
# Por defecto axis = 0

df.sum(axis = 1) 

In [None]:
# .cumsum() Suma acumulada

df.cumsum()

In [None]:
# .min() muestra el minimo de cada columna

df.min()

In [None]:
# .max() muestra el maximo de cada columna

df.max()

In [None]:
# .mean() muestra la media de cada columna

df.mean()

In [None]:
# .median() muestra la mediana de cada columna 
# La mediana es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

df.median()

In [None]:
# Para seleccionar una columna podemos hacer "indexing"

df["Largo Sepalo"]

In [None]:
df["Clase"]

In [None]:
# Si quiero seleccionario varias columnas debo pasar una lista de columnas

df[["Largo Sepalo", "Ancho Petalo", "Clase"]].head(3)

In [None]:
# Si quiero el elemento de indice 2 de la columna "Largo Sepalo"

df["Largo Sepalo"][2]

In [None]:
# Existe un método .iat que hace lo mismo (index at)

df["Largo Sepalo"].iat[2]

In [None]:
# También podemos usar el método .iloc
# Con .iloc debemos darle las coordenadas, como si se tratara de una matriz

df.iloc[2][3]

In [None]:
df.iloc[2, 3]

In [None]:
# Si queremos usar el indice + el nombre de la columna podemos usar .at
# Este método nos deja sobreescribir valores dentro del DataFrame

df.at[0, "Largo Sepalo"]

In [None]:
# También podemos usar .loc que nos da el mismo resultado
# Este método NO nos deja sobreescribir valores dentro del DataFrame

df.loc[0, "Largo Sepalo"]

In [None]:
# .sort_values(column) ordena los valores del DataFrame usando como referencia una o varias columnas
# Por defecto ordena de menor a mayor
# Esta operación no es in-place

df.sort_values("Largo Sepalo")

In [None]:
# Ordenando por varias columnas

df.sort_values(["Largo Sepalo", "Largo Petalo"])

In [None]:
# Ordenando de mayor a menor

df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False)

In [None]:
# Si queremos que sea in-place podemos cambiar un parametro

df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False, inplace = True)

In [None]:
df

In [None]:
# .reset_index() resetea el indice
# Crea una columna nueva con el indice anterior
# Esta operación no es in-place

df.reset_index()

In [None]:
# Si no queremos que se cree esa nueva columna podemos agregar al método

df.reset_index(drop = True)

In [None]:
# Para hacer esta operación in-place podemos cambiar un parametro

df.reset_index(drop = True, inplace = True)

In [None]:
df

In [None]:
# Eliminar filas o columnas
# Para esto tenemos el método .drop()
# Toma como parametro las filas/columnas que queremos eliminar
# Si quiero eliminar filas debo agregar axis = 0
# Si quiero eliminar columnas debo agregar axis = 1
# Esta operación no es in-place

df.drop(2)

In [None]:
df.drop("Clase", axis = 1)

In [None]:
# Si la fila/columna no existe, nos dará error

df.drop("Flor", axis = 1)

In [None]:
df["Clase2"] = df["Clase"]

df.head(3)

In [None]:
# Si queremos que la operación sea in-place podemos agregar el parametro

df.drop("Clase2", axis = 1, inplace = True)

In [None]:
df.head(3)

In [None]:
# Si queremos agregar una fila

df = df.append({"Largo Sepalo" : 0, "Ancho Sepalo" : 0, "Largo Petalo" : 0, "Ancho Petalo" : 0, "Clase" : "Nueva-Flor"},
               ignore_index = True)

In [None]:
df.tail()

In [None]:
# .value_counts() Se usa para contar los valores únicos de las columnas (Series)

df["Clase"].value_counts()

In [None]:
# Podemos "Normalizar" el resultado

df["Clase"].value_counts(normalize = True)

In [None]:
# .unique() retorna un array con los valores únicos de las columnas
df["Clase"].unique()

### Filtros

In [None]:
# Para aplicar un filtro usamos los operadores de comparación

df["Largo Sepalo"] > 7

In [None]:
# Esto retorna una Serie con Verdaderos y Falsos
# Si quisieramos aplicar ese filtro al DataFrame hariamos un "indexing" con el operador

df[df["Largo Sepalo"] > 7]

# Esto nos retorna el DataFrame solo con las filas que cumplen la condición

Para aplicar más de un filtro debemos usar los operadores **`&`** y **`|`** y agrupar las condición en parentesis **`()`**.

In [None]:
df[(df["Largo Sepalo"] > 7) & (df["Ancho Petalo"] == 2)]

In [None]:
df[(df["Clase"] == "Iris-virginica") | (df["Clase"] == "Iris-versicolor")]

In [None]:
################################################################################################################################