# 1. DataFrames
Pandas es una librería que se usa para el análisis de datos. Utiliza internamente NumPy por lo que aprovecha las características optimizadas como Broadcasting. Está construida sobre numpy y matplotlib. Su unidad principal es el DataFrame.

Es una estructura de datos bidimensional, similar a una tabla de base de datos o una hoja de cálculo. Se compone de filas y columnas, donde cada columna puede tener un tipo de dato diferente (números, cadenas, fechas, etc.). Los DataFrames son la estructura de datos más utilizada en Pandas.

Por defecto se crea un index numérico, pero puede ser reemplazado por una de las columnas del dataframe usando `.set_index('nombre_columna')`, para revertir este cambio se puede usar `.reset_index()`

In [None]:
import pandas as pd

# Listas de ejemplo.
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Se crea un diccionario con las listas
my_dict = {'country': names, 'drives_right': dr, 'cars_per_cap': cpc}

# Se crea un dataframe a partir del diccionario.
cars = pd.DataFrame(my_dict)

print(cars)

## Funciones Basicas de DataFrames

- **head()**: Muestra las primeras filas del DataFrame.
- **tail()**: Muestra las últimas filas del DataFrame.
- **shape**: Devuelve una tupla con el número de filas y columnas del DataFrame.
- **info()**: Muestra información sobre el DataFrame, incluyendo el tipo de datos de cada columna y la cantidad de valores no nulos.
- **describe()**: Devuelve estadísticas descriptivas de las columnas numéricas del DataFrame.
- **dtypes**: Muestra los tipos de datos de cada columna.
- **columns**: Muestra los nombres de las columnas del DataFrame.
- **index**: Muestra los índices del DataFrame.
- **values**: Devuelve los valores del DataFrame como un array de NumPy.

## Ordenando y Dividiendo
- **sort_index()**: Se ordena por el o los index.
- **sort_values()**: Ordena el DataFrame por una o más columnas. Recibe el parametro `ascending` para definir si el orden es ascendente o descendente. Se puede ordenar por varias columnas asi:
```python
df.sort_values(by=['Age', 'Score'], ascending=[False, True])
```
- **[column_name]**: Para seleccionar una columna específica del DataFrame.
- **[[column_name1, column_name2]]**: Para seleccionar varias columnas del DataFrame.
- **isin()**: Filtra el DataFrame basado en una lista de valores. Devuelve un DataFrame con las filas que cumplen la condición. Similar al IN de SQL. Por ejemplo:
```python
df[df['column_name'].isin([value1, value2])]
```

## Funciones Estadisticas
- **mean()**: Devuelve la media de los valores de una columna.
- **median()**: Devuelve la mediana de los valores de una columna.
- **mode()**: Devuelve la moda de los valores de una columna.
- **sum()**: Devuelve la suma de los valores de una columna.
- **min()**: Devuelve el valor mínimo de una columna.
- **cummin()**: Devuelve el valor mínimo acumulado de los valores de una columna.
- **max()**: Devuelve el valor máximo de una columna.
- **cummax()**: Devuelve el valor máximo acumulado de los valores de una columna.
- **cumsum()**: Devuelve la suma acumulativa de los valores de una columna.
- **count()**: Devuelve el número de valores no nulos de una columna.
- **unique()**: Devuelve los valores únicos de una columna.
- **var()**: Devuelve la varianza de los valores de una columna.
- **std()**: Devuelve la desviación estándar de los valores de una columna.
- **quantile()**: Devuelve el percentil de los valores de una columna. Recibe un valor entre 0 y 1. Por ejemplo, para obtener el percentil 25.
- **agg**: Permite aplicar funciones de agregación a las columnas del DataFrame. Por ejemplo, para calcular la media y la suma de una columna. Se pueden agregar varias funciones a la vez.
```python
# Aplicar una sola función de agregación.
result_single = df.agg('sum')

# Aplicar múltiples funciones de agregación a todas las columnas.
result_multiple = df.agg(['sum', 'mean'])

# Aplicar diferentes funciones de agregación a diferentes columnas.
result_different = df.agg({'column1': 'sum', 'column2': 'mean'})
```

## Broadcasting
Es la propiedad que permite aplicar operaciones sobre columnas de un DataFrame.

In [None]:
import pandas as pd

data = {
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80],
    'C': [90, 100, 110, 120]
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:
#    A   B    C
# 0  10  50   90
# 1  20  60  100
# 2  30  70  110
# 3  40  80  120

df['D'] = df['A'].values + df['B'].values #Crea la columna D que equivale a la suma de A+B

print(df.head())

## .iloc
Es un indexador que se utiliza para seleccionar filas y columnas en un DataFrame o una Serie. Funciona con índices enteros es decir con las posiciones de las filas y columnas. No incluye el límite final.

- `df.iloc[index_filas, index_columnas]`: Selecciona los datos basados en posiciones de filas y columnas.
- `df.iloc[index_filas]`: Selecciona todas las columnas para las filas especificadas.
- `df.iloc[:, index_columnas]`: Selecciona todas las filas para las columnas especificadas.
- `df.iloc[['value_1', 'value_2']]`: Filtra el dataframe usando los valores contra el index.

In [None]:
import pandas as pd

data = {
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80],
    'C': [90, 100, 110, 120]
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:
#    A   B    C
# 0  10  50   90
# 1  20  60  100
# 2  30  70  110
# 3  40  80  120


print(df.iloc[0]) #Muestra la primera fila

# Salida:
# A    10
# B    50
# C    90


print(df.iloc[1, 2]) # Muestra el 3er elemento de la 2da fila

# Salida: 100


print(df.iloc[0:2, :]) # Muestra todas las columnas de los primeras 2 filas

# Salida:
#     A   B    C
# 0  10  50   90
# 1  20  60  100


print(df.iloc[:, 0:2]) # Muestra todas las filas de las 2 primeras columnas.
# Salida:
#    A   B    
# 0  10  50   
# 1  20  60  
# 2  30  70  
# 3  40  80


print(df.iloc[1:3, 1:3]) # Muestra las columnas 1 y 2 de las filas 1 y 2.

# Salida:
#    B    C
# 1  60  100
# 2  70  110

## .loc()

Permite seleccionar filas y columnas mediante etiquetas. Incluye el inicio y el final del rango seleccionado.

In [None]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [40, 50, 60]
}, index=['x', 'y', 'z'])

# Seleccionar una fila por su etiqueta
print(df.loc['y'])  # Resultado: A=20, B=50

# Seleccionar un rango de filas
print(df.loc['x':'y'])  # Incluye 'x' y 'y'

También se puede usar para filtrar, por ejemplo:

In [None]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia

# Retorna todas las filas con 'edad' > 30
df_clean = df.loc[df['Edad'] > 30, :]
print(df_clean.head())

df_clean = df.loc[:, ['Nombre', 'Edad']] #Retorna SOLO las columnas seleccionadas
print(df_clean.head())

# Combinacion de las dos.
df_clean = df.loc[df['Edad'] > 30, ['Nombre', 'Edad']]
print(df_clean.head())

## .iterrows()

Permite iterar entre las filas de un dataframe sin necesidad de usar un range, es una manera mas eficiente de recorrer un dataframe. Produce pares de tuplas, donde cada tupla contiene un indice de la fila y una serie que representa los datos de la fila:

In [None]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia


for index, row in df.iterrows():
    print(f"Indice: {index}")
    print(f"Nombre: {row['Nombre']}")
    print(f"Edad: {row['Edad']}")


for row_tuple in df.iterrows():
    index = row_tuple[0]
    row = row_tuple[1]
    print(f"Indice: {index}")
    print(f"Nombre: {row['Nombre']}")
    print(f"Edad: {row['Edad']}")

## .itertuples()

Es similar a .iterrows pero retornable una named_tuple, es mucho mas eficiente que iterrows:

In [None]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia

for row_namedtuple in df.itertuples():
    print(row_namedtuple)
    print(row_namedtuple.Index)
    print(row_namedtuple.Nombre)

# Salida:
# Pandas(Index=0, Nombre='Ana', Edad=28, Ciudad='Madrid')
# 0
# Ana

## .concat()

Si los data frames a concatenar tiene index por default se debe ignorar el index usando ignore_index = True

In [None]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# Concatenar verticalmente, axis=0
result = pd.concat([df1, df2])
print(result)

# Concatenar horizontalmente, axis=1
result = pd.concat([df1, df2], axis=1)
print(result)

## .merge()
Para hacer el merge de dos data frames. Similar al join de sql. Por defecto retorna solo las filas que hacen match

- **on**: Si las columnas se llaman igual en ambos datasets.
- **left_on & right_on**: Cuando se quiere hacer match de columnas con diferente nombre.

In [None]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'nombre': ['Juan', 'Ana', 'Luis']
})

df2 = pd.DataFrame({
    'id': [2, 3, 4],
    'edad': [25, 30, 22]
})

result = df1.merge(df2, on='id')
print(result)