# 1. Basics
Librería que se usa para el análisis de datos. Utiliza internamente NumPy por lo que aprovecha las características optimizadas como Broadcasting.

## DataFrame
Es una estructura de datos bidimensional, similar a una tabla de base de datos o una hoja de cálculo. Se compone de filas y columnas, donde cada columna puede tener un tipo de dato diferente (números, cadenas, fechas, etc.). Los DataFrames son la estructura de datos más utilizada en Pandas.

In [1]:
# Import pandas as pd
import pandas as pd


# Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Create dictionary my_dict with three key:value pairs: my_dict
my_dict = {'country': names, 'drives_right': dr, 'cars_per_cap': cpc}

# Build a DataFrame cars from my_dict: cars
cars = pd.DataFrame(my_dict)

# Print cars
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45


## Broadcasting
Es la propiedad que permite aplicar operaciones sobre columnas de un DataFrame.

In [3]:
import pandas as pd

data = {
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80],
    'C': [90, 100, 110, 120]
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:
#    A   B    C
# 0  10  50   90
# 1  20  60  100
# 2  30  70  110
# 3  40  80  120

df['D'] = df['A'].values + df['B'].values #Crea la columna D que equivale a la suma de A+B

print(df.head())

    A   B    C    D
0  10  50   90   60
1  20  60  100   80
2  30  70  110  100
3  40  80  120  120


## .iloc
Es un indexador que se utiliza para seleccionar filas y columnas en un DataFrame o una Serie. Funciona con indices enteros es decir con las posiciones de las filas y columnas. No incluye el limite final.

- df.iloc[index_filas, index_columnas]:  Selecciona los datos basado en posiciones de filas y columnas.
- df.iloc[index_filas]: Selecciona todas las columnas para las filas especificadas.
- df.iloc[:, index_columnas]: Selecciona todas las filas para las columnas especificadas.

In [5]:
import pandas as pd

data = {
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80],
    'C': [90, 100, 110, 120]
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:
#    A   B    C
# 0  10  50   90
# 1  20  60  100
# 2  30  70  110
# 3  40  80  120


print(df.iloc[0]) #Muestra la primera fila

# Salida:
# A    10
# B    50
# C    90


print(df.iloc[1, 2]) # Muestra el 3er elemento de la 2da fila

# Salida: 100


print(df.iloc[0:2, :]) # Muestra todas las columnas de los primeras 2 filas

# Salida:
#     A   B    C
# 0  10  50   90
# 1  20  60  100


print(df.iloc[:, 0:2]) # Muestra todas las filas de las 2 primeras columnas.
# Salida:
#    A   B    
# 0  10  50   
# 1  20  60  
# 2  30  70  
# 3  40  80


print(df.iloc[1:3, 1:3]) # Muestra las columnas 1 y 2 de las filas 1 y 2.

# Salida:
#    B    C
# 1  60  100
# 2  70  110

A    10
B    50
C    90
Name: 0, dtype: int64
100
    A   B    C
0  10  50   90
1  20  60  100
    A   B
0  10  50
1  20  60
2  30  70
3  40  80
    B    C
1  60  100
2  70  110


## .loc()

Permite seleccionar filas y columnas mediante etiquetas. Incluye el inicio y el final del rango seleccionado.

In [6]:
import pandas as pd

# Crear un DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [40, 50, 60]
}, index=['x', 'y', 'z'])

# Seleccionar una fila por su etiqueta
print(df.loc['y'])  # Resultado: A=20, B=50

# Seleccionar un rango de filas
print(df.loc['x':'y'])  # Incluye 'x' y 'y'

A    20
B    50
Name: y, dtype: int64
    A   B
x  10  40
y  20  50


También se puede usar para filtrar, por ejemplo:

In [11]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia


df_clean = df.loc[df['Edad'] > 30, :] #Retorna todas las filas con 'open' > 0
print(df_clean.head())

df_clean = df.loc[:, ['Nombre', 'Edad']] #Retorna SOLO las columnas seleccionadas
print(df_clean.head())

# Combinacion de las dos.
df_clean = df.loc[df['Edad'] > 30, ['Nombre', 'Edad']]
print(df_clean.head())

  Nombre  Edad     Ciudad
1   Luis    34  Barcelona
   Nombre  Edad
0     Ana    28
1    Luis    34
2  Carlos    29
  Nombre  Edad
1   Luis    34


## .iterrows()

Permite iterar entre las filas de un dataframe sin necesidad de usar un range, es una manera mas eficiente de recorrer un dataframe. Produce pares de tuplas, donde cada tupla contiene un indice de la fila y una serie que representa los datos de la fila:

In [9]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia


for index, row in df.iterrows():
    print(f"Indice: {index}")
    print(f"Nombre: {row['Nombre']}")
    print(f"Edad: {row['Edad']}")


for row_tuple in df.iterrows():
    index = row_tuple[0]
    row = row_tuple[1]
    print(f"Indice: {index}")
    print(f"Nombre: {row['Nombre']}")
    print(f"Edad: {row['Edad']}")

Indice: 0
Nombre: Ana
Edad: 28
Indice: 1
Nombre: Luis
Edad: 34
Indice: 2
Nombre: Carlos
Edad: 29
Indice: 0
Nombre: Ana
Edad: 28
Indice: 1
Nombre: Luis
Edad: 34
Indice: 2
Nombre: Carlos
Edad: 29


## .itertuples()

Es similar a .iterrows pero retornable una named_tuple, es mucho mas eficiente que iterrows:

In [12]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos'],
    'Edad': [28, 34, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia']
}

df = pd.DataFrame(data)

#Al convertirse en DataFrame queda asi:

#    Nombre  Edad     Ciudad
# 0     Ana    28     Madrid
# 1    Luis    34  Barcelona
# 2  Carlos    29   Valencia

for row_namedtuple in df.itertuples():
    print(row_namedtuple)
    print(row_namedtuple.Index)
    print(row_namedtuple.Nombre)

# Salida:
# Pandas(Index=0, Nombre='Ana', Edad=28, Ciudad='Madrid')
# 0
# Ana

Pandas(Index=0, Nombre='Ana', Edad=28, Ciudad='Madrid')
0
Ana
Pandas(Index=1, Nombre='Luis', Edad=34, Ciudad='Barcelona')
1
Luis
Pandas(Index=2, Nombre='Carlos', Edad=29, Ciudad='Valencia')
2
Carlos


## .concat()

Si los data frames a concatenar tiene index por default se debe ignorar el index usando ignore_index = True

In [18]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# Concatenar verticalmente, axis=0
result = pd.concat([df1, df2])
print(result)

# Concatenar horizontalmente, axis=1
result = pd.concat([df1, df2], axis=1)
print(result)

   A  B
0  1  3
1  2  4
0  5  7
1  6  8
   A  B  A  B
0  1  3  5  7
1  2  4  6  8


## .merge()
Para hacer el merge de dos data frames. Similar al join de sql. Por defecto retorna solo las filas que hacen match

- **on**: Si las columnas se llaman igual en ambos datasets.
- **left_on & right_on**: Cuando se quiere hacer match de columnas con diferente nombre.

In [21]:
import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'nombre': ['Juan', 'Ana', 'Luis']
})

df2 = pd.DataFrame({
    'id': [2, 3, 4],
    'edad': [25, 30, 22]
})

result = df1.merge(df2, on='id')
print(result)

   id nombre  edad
0   2    Ana    25
1   3   Luis    30
