# 🐼 Pandas

---
> **Pandas** es una librería de **Python** especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el *Excel de Python*.
---

## 📅 2023-11-22

In [1]:
import pandas as pd
import numpy as np

- **Series**: Arreglos unidimensionales de datos (una columna).
- **DataFrame**: Arreglos bidimensionales de datos (una tabla).

### 📊 Series

In [1]:
# Lista de marcas de vehículos.
marcas = [ 'Toyota', 'Volkswagen', 'Hyundai', 'Ford', 'Nissan', 'Chevrolet', ]

# Lista de índices alfabetizados.
index = [ 'a', 'b', 'c', 'd', 'e', 'f', ]

In [10]:
# Crear una serie.
s = pd.Series(["MEX", "USA", "CAN"])

In [11]:
# Observar la serie creada. Es una columna de datos con un índice.
s

0    MEX
1    USA
2    CAN
dtype: object

In [12]:
# Es posible acceder a los datos de la serie por medio de su índice.
s[0]

'MEX'

In [13]:
# Crear una serie a partir de la lista de vehículos y el índice.
serie = pd.Series(marcas, index)

In [14]:
serie

a        Toyota
b    Volkswagen
c       Hyundai
d          Ford
e        Nissan
f     Chevrolet
dtype: object

In [16]:
# Se puede acceder a los datos de la serie por medio de su índice (número o letra).
print(serie[0])
print(serie['a'])

Toyota
Toyota


In [18]:
# Serie a partir de un diccionario de edades.
edades = { "Juan": 25, "María": 22, "Pedro": 21, "Luis": 19, "Ana": 20, "Pablo": 23, }
serie_edades = pd.Series(edades)
serie_edades

Juan     25
María    22
Pedro    21
Luis     19
Ana      20
Pablo    23
dtype: int64

In [19]:
# Ventas del primer y segundo cuarto del año.
q1 = { "MEX": 100, "USA": 200, "CAN": 300, "CHI": 400 }
q2 = { "ARG": 500, "USA": 600, "CAN": 700, "CHI": 800 }

In [22]:
sales_q1 = pd.Series(q1)
sales_q2 = pd.Series(q2)

In [23]:
sales_q1

MEX    100
USA    200
CAN    300
CHI    400
dtype: int64

In [24]:
sales_q2

ARG    500
USA    600
CAN    700
CHI    800
dtype: int64

In [25]:
# Si se multiplica un arreglo por un escalar, se multiplica el arreglo. En este caso se duplica.
[2, 4] * 2

[2, 4, 2, 4]

In [26]:
# Si se multiplica un arreglo de NumPy por un escalar, se multiplica cada elemento del arreglo por el escalar.
np.array([2, 4]) * 2

array([4, 8])

In [27]:
# Si se multiplica una serie por un escalar, se multiplica cada elemento de la serie por el escalar.
sales_q1 * 2

MEX    200
USA    400
CAN    600
CHI    800
dtype: int64

# 📅 2023-11-22

In [12]:
import pandas as pd
import numpy as np

### 📊 Series: Continuación

In [13]:
# Ventas del primer y segundo cuarto del año.
q1 = { "MEX": 100, "USA": 200, "CAN": 300, "CHI": 400 }
q2 = { "ARG": 500, "USA": 600, "CAN": 700, "CHI": 800 }

In [14]:
sales_q1 = pd.Series(q1)
sales_q2 = pd.Series(q2)

In [15]:
sales_q1

MEX    100
USA    200
CAN    300
CHI    400
dtype: int64

In [16]:
sales_q1

MEX    100
USA    200
CAN    300
CHI    400
dtype: int64

In [17]:
# fill_value = 0: Si no existe un valor en una serie, se reemplaza por 0.
ventas = sales_q1.add(sales_q2, fill_value = 0)

In [18]:
ventas

ARG     500.0
CAN    1000.0
CHI    1200.0
MEX     100.0
USA     800.0
dtype: float64

In [19]:
# Ordenar las ventas de mayor a menor.
ventas.sort_values(ascending = False)

CHI    1200.0
CAN    1000.0
USA     800.0
ARG     500.0
MEX     100.0
dtype: float64

In [20]:
# Ver el tipo de datos de la serie.
ventas.dtype

dtype('float64')

### 🧮 DataFrames

In [29]:
# Crear un arreglo matriz de 4x3 con números aleatorios del 0 al 100.
np.random.seed(42)
my_data = np.random.randint(0, 101, (4, 3))
my_data

array([[51, 92, 14],
       [71, 60, 20],
       [82, 86, 74],
       [74, 87, 99]])

In [30]:
# Crear un índice para las filas.
my_index = ['CA', 'NY', 'AZ', 'TX']
# Crear un índice para las columnas.
my_columns = ['Jan', 'Feb', 'Mar']

In [31]:
# Crear un DataFrame a partir de un arreglo. Si no se especifican los índices y columnas, se crean índices y columnas numéricos.
df = pd.DataFrame(my_data)

In [32]:
df

Unnamed: 0,0,1,2
0,51,92,14
1,71,60,20
2,82,86,74
3,74,87,99


In [33]:
# Crear un DataFrame a partir de un arreglo con índices y columnas.
df = pd.DataFrame(data = my_data, index = my_index, columns = my_columns)

In [34]:
df

Unnamed: 0,Jan,Feb,Mar
CA,51,92,14
NY,71,60,20
AZ,82,86,74
TX,74,87,99


In [35]:
# Ver la información del DataFrame.
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, CA to TX
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Jan     4 non-null      int32
 1   Feb     4 non-null      int32
 2   Mar     4 non-null      int32
dtypes: int32(3)
memory usage: 80.0+ bytes
