## **Introducción a Pandas**

>Pandas es una biblioteca de Python ampliamente utilizada en la ciencia de datos por su capacidad para facilitar la manipulación, análisis y visualización de datos.

### **Pandas se utiliza en varios contextos**

* ***Lectura de Datos:*** Importar datos de archivos CSV, Excel, bases de datos SQL, etc.

* ***Limpieza de Datos:*** Identificar y manejar valores nulos, eliminar duplicados, y corregir errores en los datos.

* ***Análisis y Transformación de Datos:*** Realizar operaciones estadísticas, agrupar datos por categorías, transformar columnas y filas,
y preparar datos para análisis más avanzados.

### **La librería**

```BASH
pip install pandas
```

In [2]:
import pandas as pd
import numpy as np

### **Series**

Una serie es muy similar a una matriz NumPy (de hecho, está construida sobre el objeto de matriz NumPy). Lo que diferencia la matriz NumPy de una Serie es que una Serie puede tener etiquetas de eje, lo que significa que puede indexarse ​​mediante una etiqueta, en lugar de solo una ubicación numérica. Tampoco necesita contener datos numéricos, puede contener cualquier objeto Python arbitrario.

#### **Crear Series a partir de diferentes estructuras de datos.**

In [8]:
etiqueta = ["a","b","c"]

lista = [10,20,30]

array = np.array([10,20,30])

diccionario = {1:{"a":10,"b":20,"c":30},
               2:{"a":10,"b":20,"c":30},
               3:{"a":10,"b":20,"c":30}}

#### **Listas a Series**

In [10]:
pd.Series(lista,index=etiqueta)

Unnamed: 0,0
a,10
b,20
c,30


In [12]:
pd.Series(array,etiqueta)

Unnamed: 0,0
a,10
b,20
c,30


#### **Arrays de Numpy a Series**

#### **Diccionario a Series**

>Una serie pandas puede contener una variedad de tipos de objetos

### **Índices Personalizados y Extracción de Valores**

La clave para utilizar una Serie es comprender su índice. Pandas utiliza estos nombres o números de índice al permitir búsquedas rápidas de información (funciona como una tabla hash o un diccionario).

Veamos algunos ejemplos de cómo capturar información de una Serie. Creemos dos series, ser1 y ser2:

In [14]:
paises = pd.Series([1,2,3,4],index = ['Paraguay', 'Argentina','Brasil', 'Japan'])
paises

Unnamed: 0,0
Paraguay,1
Argentina,2
Brasil,3
Japan,4


In [20]:
paises2 = pd.Series([1,2,3,6],index = ["Paraguay","Argentina","Brasil","Chile"])
paises2["Brasil"]
print(paises)
print(paises2)


Paraguay     1
Argentina    2
Brasil       3
Japan        4
dtype: int64
Paraguay     1
Argentina    2
Brasil       3
Chile        6
dtype: int64


#### **Las operaciones también se realizan según el índice**

In [29]:
suma_paises = paises + paises2

### **DataFrames**

>Es una estructura de datos bidimensional en Pandas, similar a una tabla en una base de datos o una hoja de cálculo en Excel.

In [30]:
np.random.seed(101)

In [45]:
df = pd.DataFrame(np.random.randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [37]:
df_selected = df[["W","X"]]
df_selected

Unnamed: 0,W,X
A,2.70685,0.628133
B,0.651118,-0.319318
C,-2.018168,0.740122
D,0.188695,-0.758872
E,0.190794,1.978757


In [38]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


#### **Extraer datos de un DataFrame**

Unnamed: 0,W
A,-0.993263
B,1.025984
C,2.154846
D,0.147027
E,-0.925874


#### **Pasar una lista de nombres de columnas**

#### **Sintaxis no recomendada**

In [47]:
df.W

Unnamed: 0,W
A,-0.993263
B,1.025984
C,2.154846
D,0.147027
E,-0.925874


#### **Cada columna de un dataframe es una serie**

In [48]:
type(df["W"])

#### **Crear una nueva columna**

In [50]:
df["A"] = df["W"] + df["X"]
df["A"]

Unnamed: 0,A
A,-0.796464
B,0.869386
C,1.544588
D,-0.332421
E,0.93699


#### **Eliminar columna**

In [53]:
df.drop("A",axis=1,inplace=True) # Can only be execute once, bc the column A no longer exist.

KeyError: "['A'] not found in axis"

#### **¡No funciona!**

In [56]:
df # axis = 1 refer to a column, and axis = 0 is a row

Unnamed: 0,W,X,Y,Z
A,-0.993263,0.1968,-1.136645,0.000366
B,1.025984,-0.156598,-0.031579,0.649826
C,2.154846,-0.610259,-0.755325,-0.346419
D,0.147027,-0.479448,0.558769,1.02481
E,-0.925874,1.862864,-1.133817,0.610478


#### **Eliminar filas**

In [55]:
df.drop("E",axis=0)

Unnamed: 0,W,X,Y,Z
A,-0.993263,0.1968,-1.136645,0.000366
B,1.025984,-0.156598,-0.031579,0.649826
C,2.154846,-0.610259,-0.755325,-0.346419
D,0.147027,-0.479448,0.558769,1.02481


#### **Seleccionar filas**

#### **Seleccionar fila según la posición**

#### **Seleccionar filas y columnas**

#### **Selección Condicional**

>Una característica importante de los pandas es la selección condicional que utiliza notación entre corchetes, muy similar a numpy

#### **Otras Características**

#### **Reestablecer el índice predeterminado**

#### **Manejar Datos faltantes**

#### **Operaciones**

In [None]:
datos_tienda = {
    'Producto': ['Manzana', 'Banana', 'Televisor', 'Laptop', 'Banana', 'Manzana', 'Laptop', 'Manzana', 'Televisor', 'Banana'],
    'Categoría': ['Alimentos', 'Alimentos', 'Electrónica', 'Electrónica', 'Alimentos', 'Alimentos', 'Electrónica', 'Alimentos', 'Electrónica', 'Alimentos'],
    'Precio': [2000, 5000, 500000, 800000, 5000, 2000, 800000, 2000, 500000, 5000],
    'Cantidad': [10, 5, 3, 2, 7, 8, 1, 9, 4, 6]
}

#### **Valores únicos**

#### **Selección dependiendo de múltiples criterios**

#### **Aplicar funciones**

#### **Información sobre el DataFrame**

#### **Ordenar un DataFrame**

In [None]:
registro_productos = {
    'Producto': ['Tazas', 'Tazas', 'Tazas', 'Platos', 'Platos', 'Platos'],
    'Ubicación': ['Asunción', 'Asunción', 'Lambaré', 'Lambaré', 'Asunción', 'Asunción'],
    'Característica': ['Color Blanco', 'Color Negro', 'Color Blanco', 'Color Negro', 'Color Blanco', 'Color Negro'],
    'Ventas': [10, 15, 20, 25, 30, 5]
}

### **Entrada y Salida de Datos**

#### **Leer un archivo csv**

#### **Guardar como csv**

#### **Leer un archivo excel**

>Pandas puede leer y escribir archivos de Excel; es importante tener en cuenta que esto solo importa datos. No fórmulas ni imágenes, tener imágenes o macros puede hacer que este método falle.

```bash
pip install openpyxl

#### **Guardar como excel**