<a href="https://colab.research.google.com/github/mvlarra/4Geeks_Pandas/blob/main/03-pandas/03.1-Intro-To-Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![Pandas logo](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/pandas_logo.png?raw=true)

## Introduction to Python Pandas

**Pandas** is an open-source python library that provides data structures and is designed to handle and analyze tabular data in Python. Pandas is based on NumPy, which allows it to integrate well into the data science ecosystem alongside other libraries such as `Scikit-learn` and `Matplotlib`.

Specifically, the key points of this library are:

- **Data structures**: This library provides two structures for working with data. These are the `Series` which are labeled one-dimensional arrays, similar to a vector, list or sequence and which is able to contain any type of data, and the `DataFrames`, which is a labeled two-dimensional structure with columns that can be of different types, similar to a spreadsheet or a SQL table.
- **Data manipulation**: Pandas allows you to carry out an exhaustive data analysis through functions that can be applied directly on your data structures. These operations include missing data control, data filtering, merging, combining and joining data from different sources...
- **Efficiency**: All operations and/or functions that are applied on data structures are vectorized to improve performance compared to traditional Python loops and iterators.

Pandas is a fundamental tool for any developer working with data in Python, as it provides a wide variety of tools for data exploration, cleaning and transformation, making the analysis process more efficient and effective.

### Data Structures in Python Pandas

Pandas provides two main data structures: `Series` and `DataFrames`.

#### Series

A **series** in Pandas is a one-dimensional labeled data structure. It is similar to a 1D array in NumPy, but has an index that allows access to the values by label. A series can contain any kind of data: integers, strings, Python objects...

![Example of a series](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series.PNG?raw=true)

A Pandas series has two distinct parts:

- **Index** (*index*): An array of tags associated with the data.
- **Value** (*value*): An array of data.

A series can be created using the `Series` class of the library with a list of elements as an argument. For example:

In [2]:
import pandas as pd

serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

This will create a series with elements 1, 2, 3, 4 and 5. In addition, since we have not included information about the indexes, an automatic index is generated starting at 0:

In [3]:
serie = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

Thus, the previous series has an index composed of letters.

Both series store the same values, but the way they are accessed may vary according to the index.

In a series, its elements can be accessed by index or by position (the latter is what we did in NumPy). Below are some operations that can be performed using the above series:

In [4]:
# Access the third element
print(serie["c"]) # By index
print(serie[2]) # By position

# Change the value of the second element
serie["b"] = 7
print(serie)

# Add 10 to all elements
serie += 10
print(serie)

# Calculate the sum of the elements
sum_all = serie.sum()
print(sum_all)

3
3
a    1
b    7
c    3
d    4
e    5
dtype: int64
a    11
b    17
c    13
d    14
e    15
dtype: int64
70


  print(serie[2]) # By position


#### Pandas DataFrame

A **DataFrame** in Pandas is a two-dimensional labeled data structure. It is similar to a 2D array in NumPy, but has an index that allows access to the values per label, per row, and column.

![Example of a DataFrame](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/dataframe.PNG?raw=true)

A DataFrame in Pandas has several differentiated parts:

- **Data** (*data*): An array of values that can be of different types per column.
- **Row index** (*row index*): An array of labels associated to the rows.
- **Column index** (*column index*): An array of labels associated to the columns.

A DataFrame can be seen as a set of series joined in a tabular structure, with an index per row in common and a column index specific to each series.

![Series and DataFrames](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series_dataframe.png?raw=true?raw=true)

A DataFrame can be created using the `DataFrame` class. For example:

In [5]:
dataframe = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dataframe

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


This will create a DataFrame with three rows and three columns for each row. As was the case with series, a DataFrame will generate automatic indexes for rows and columns if they are not passed as arguments in the constructor of the class. If we wanted to create a new DataFrame with concrete indexes for rows and columns, it would be programmed as follows:

In [6]:
data = {
    "col A": [1, 2, 3],
    "col B": [4, 5, 6],
    "col C": [7, 8, 9]
}

dataframe = pd.DataFrame(data, index = ["a", "b", "c"])
dataframe

Unnamed: 0,col A,col B,col C
a,1,4,7
b,2,5,8
c,3,6,9


In this way, a custom index is provided for the columns (labeling the rows within a dictionary) and for the rows (with the `index` argument, as was the case with the series).

In a DataFrame its elements can be accessed by index or by position. Below are some operations that can be performed using the above DataFrame:

In [7]:
# Access all the data in a column
print(dataframe["col A"]) # By index
print(dataframe.loc[:,"col A"]) # By index
print(dataframe.iloc[:,0]) # By position

# Access all the data in a row
print(dataframe.loc["a"]) # By index
print(dataframe.iloc[0]) # By position

# Access to a specific element (row, column)
print(dataframe.loc["a", "col A"]) # By index
print(dataframe.iloc[0, 0]) # By position

# Create a new column
dataframe["col D"] = [10, 11, 12]
print(dataframe)

# Create a new row
dataframe.loc["d"] = [13, 14, 15, 16]
print(dataframe)

# Multiply by 10 the elements of a column
dataframe["col A"] *= 10
print(dataframe)

# Calculate the sum of all elements
sum_all = dataframe.sum()
print(sum_all)

a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
1
1
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
d     13     14     15     16
   col A  col B  col C  col D
a     10      4      7     10
b     20      5      8     11
c     30      6      9     12
d    130     14     15     16
col A    190
col B     29
col C     39
col D     49
dtype: int64


### Functions in Python Pandas

Pandas provide a large number of predefined functions that can be applied on the data structures seen above. Some of the most used in data analysis are:

In [8]:
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
d1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
d2 = pd.DataFrame([[7, 8, 9], [10, 11, 12]])

# Arithmetic Operations
print("Sum of series:", s1.add(s2))
print("Sum of DataFrames:", d1.add(d2))

# Statistical Operations
# They can be applied in the same way to DataFrames
print("Mean:", s1.mean())
print("Median:", s1.median())
print("Number of elements:", s1.count())
print("Standard deviation:", s1.std())
print("Variance:", s1.var())
print("Maximum value:", s1.max())
print("Minimum value:", s1.min())
print("Correlation:", s1.corr(s2))
print("Statistic summary:", s1.describe())

Sum of series: 0    5
1    7
2    9
dtype: int64
Sum of DataFrames:     0   1   2
0   8  10  12
1  14  16  18
Mean: 2.0
Median: 2.0
Number of elements: 3
Standard deviation: 1.0
Variance: 1.0
Maximum value: 3
Minimum value: 1
Correlation: 1.0
Statistic summary: count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64


#### Pandas allows you to use custom python functions (including lambda)

In addition to the Pandas predefined functions, we can also define and apply others to the data structures. To do this, we have to program the function to receive a value (or a column or row in the case of a DataFrame) and return another modified one, and reference it with `apply`.

In addition, this function allows using **lambda expressions** for the anonymous declaration of functions.

The following shows how to apply functions to series:

In [9]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])

# Explicit definition of the function
def squared(x):
    return x ** 2
s1 = s.apply(squared)
print(s1)

# Anonymous definition of the function
s2 = s.apply(lambda x: x ** 2)
print(s2)

0     1
1     4
2     9
3    16
dtype: int64
0     1
1     4
2     9
3    16
dtype: int64


The following shows how to apply functions to a DataFrame, which can be done by row, by column or by elements, similar to series:

In [10]:
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6]
})

# Apply function along a column
df["A"] = df["A"].apply(lambda x: x ** 2)
print(df)

# Apply function along a row
df.loc[0] = df.loc[0].apply(lambda x: x ** 2)
print(df)

# Apply function to all elements
df = df.applymap(lambda x: x ** 2)
print(df)

   A  B
0  1  4
1  4  5
2  9  6
   A   B
0  1  16
1  4   5
2  9   6
    A    B
0   1  256
1  16   25
2  81   36


  df = df.applymap(lambda x: x ** 2)


`apply` is more flexible than other vectorized Pandas functions, but can be slower, especially when applied to large data sets. It is always important to explore the Pandas or NumPy built-in functions first, as they are usually more efficient than the ones we could implement ourselves.

Also, this function can return results in different ways, depending on the function applied and how it is configured.

## Start practicing the Pandas syntax in python righ now!

> Click on Open in Colab to do the exercises

> 🛟 Solutions: In this link you can find the [solutions for the following pandas exercises](https://4geeks.com/lesson/pandas-exercises-and-solutions).



### Creation of Series and Pandas DataFrames

In [11]:
import numpy as np
import pandas as pd

np.random.seed(2025)

#### Pandas Exercise 01: Create a Series from a list, a NumPy array and a dictionary (★☆☆)

> NOTE: Review the class `pd.Series` (https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [12]:
# Creating a Serie From list
l = [1, 2, 3, 4, 5, 6]
serie = pd.Series(l)
print(serie)

# Creating a Serie From NumPy array
array = np.array([1, 2, 3, 4, 5, 6])
serie = pd.Series(array)
print(serie)

# Creating a Serie From dictionary
d = {"A": 1, "B": 2, "C": 3}
serie = pd.Series(d)
print(serie)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
A    1
B    2
C    3
dtype: int64


#### Pandas Exercise 02: Create a DataFrame from a NumPy array, a dictionary and a list of tuples (★☆☆)

> NOTE: Review the class `pd.DataFrame` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [13]:
# Create a DataFrame from a From NumPy array
array = np.random.randint(1, 10, size = (5, 5))
dataframe = pd.DataFrame(array)
dataframe

Unnamed: 0,0,1,2,3,4
0,3,9,4,4,1
1,7,9,6,2,9
2,6,8,6,5,1
3,1,6,4,5,2
4,1,8,1,2,4


In [14]:
# Create a DataFrame from a dictonary

# Las claves son "A", "B" y "C", y los valores son arreglos generados por funciones de NumPy
# El diccionario d contiene tres arreglos:
#   Clave "A": Números enteros aleatorios dentro de un rango.
#   Clave "B": Valores equiespaciados en un intervalo.
#   Clave "C": Valores aleatorios distribuidos normalmente.
d = {
    "A": np.random.randint(1, 50, size = 4),  #Genera un arreglo de 5 números enteros aleatorios entre 1 (inclusive) y 50 (exclusivo).
    "B": np.linspace(10, 20, 4), # Crea un arreglo con 4 valores equiespaciados entre 10 y 20 (ambos incluidos)
    "C": np.random.randn(4) # Genera un arreglo con 4 números aleatorios de una distribución normal (media=0, desviación estándar=1).
}
dataframe = pd.DataFrame(d)
dataframe


Unnamed: 0,A,B,C
0,27,10.0,-2.759931
1,42,13.333333,0.146175
2,43,16.666667,-2.861095
3,37,20.0,0.979251


In [15]:
# Create a DataFrame from a list of tuples

t = [(11, 22, 33), (44, 55, 66), (77, 88, 99)] # Se crea una lista con tres tuplas. Cada tupla representa una fila en el futuro DataFrame.
dataframe = pd.DataFrame(t) # Convierte la lista de tuplas en un DataFrame. Por defecto, las columnas se nombran automáticamente como 0, 1, 2 (índices de columnas).
dataframe

# Cada fila tiene un índice numérico (0, 1, 2), y cada columna también tiene un índice numérico (0, 1, 2)
# Si deseas nombrar las columnas, puedes agregar el parámetro columns:
# dataframe = pd.DataFrame(t, columns=['A', 'B', 'C'])
# El resultado sería:
#      A  B  C
#   0  1  2  3
#   1  4  5  6
#   2  7  8  9

Unnamed: 0,0,1,2
0,11,22,33
1,44,55,66
2,77,88,99


#### Pandas Exercise 03: Create 2 Series and use them to build a DataFrame (★☆☆)

> NOTE: Review the functions `pd.concat` (https://pandas.pydata.org/docs/reference/api/pandas.concat.html) and `pd.Series.to_frame` (https://pandas.pydata.org/docs/reference/api/pandas.Series.to_frame.html)

In [16]:
# Create 2 Series and use them to build a DataFrame

s1 = pd.Series([11, 22, 33, 44, 55])
s2 = pd.Series([44, 55, 66, 77, 88])

# Method 1
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2}) # Crear un DataFrame a partir de las Series. Se utiliza pd.DataFrame() para combinar las Series en un DataFrame. El argumento {"ser1": s1, "ser2": s2} asigna nombres de columna (ser1 y ser2) a las Series.
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2}, index = s1.index) # Crear un DataFrame con índices personalizados (basados en s1). index=s1.index asegura que el DataFrame use los índices de s1 (aunque aquí no cambia, ya que los índices ya coinciden).
dataframe


# Importante:
# Si las Series tienen diferentes índices (por ejemplo, si s1 tiene índices 0-4 y s2 tiene índices 5-9),
# pandas alineará las Series automáticamente por sus índices y rellenará los valores faltantes con NaN.
#
# Ejemplo con índices diferentes:
#     s1 = pd.Series([1, 2, 3], index=[0, 1, 2])
#     s2 = pd.Series([4, 5, 6], index=[2, 3, 4])
#     dataframe = pd.DataFrame({"ser1": s1, "ser2": s2})
#     print(dataframe)
#
# Resultado:
#         ser1  ser2
#     0   1.0   NaN
#     1   2.0   NaN
#     2   3.0   4.0
#     3   NaN   5.0
#     4   NaN   6.0


Unnamed: 0,ser1,ser2
0,11,44
1,22,55
2,33,66
3,44,77
4,55,88


In [17]:
# Method 2
#
# Este código utiliza pd.concat para combinar las dos Series en un DataFrame.
#
# pd.concat es una función de pandas que se utiliza para concatenar objetos (como Series o DataFrames)
# a lo largo de un eje:
#   axis=0 (por filas, verticalmente).
#   axis=1 (por columnas, horizontalmente).
#
# En este caso, las Series s1 y s2 se combinan por columnas (axis=1), formando un DataFrame.
# El resultado tiene:
#   Filas alineadas por índice.
#   Cada Serie se convierte en una columna.

dataframe = pd.concat([s1, s2], axis = 1)
dataframe

# Nombres de las columnas:
# Por defecto, las columnas se nombran numéricamente (0, 1),
# basadas en la posición de las Series en la lista [s1, s2].
#
# Si deseas nombrar las columnas, puedes hacerlo agregando el parámetro keys o usando columns:
#     dataframe = pd.concat([s1, s2], axis=1)
#     dataframe.columns = ['ser1', 'ser2']
#
# Generando el resultado:
#         ser1  ser2
#     0     1     4
#     1     2     5
#     2     3     6
#     3     4     7
#     4     5     8

# Diferencias con el método 1 (pd.DataFrame):
# (1) Flexibilidad:
#     pd.concat es más flexible y puede combinar más de dos objetos fácilmente.
#     Se puede usar con objetos que tengan índices diferentes, rellenando los valores faltantes con NaN.
# (2) Control explícito del eje:
#     Puedes elegir fácilmente si quieres combinar por filas (axis=0) o por columnas (axis=1).

Unnamed: 0,0,1
0,11,44
1,22,55
2,33,66
3,44,77
4,55,88


In [18]:
# Method 3
# Este código utiliza un enfoque diferente para crear un DataFrame a partir de dos Series.

s1.name = "ser1" # Asignar nombres a las Serie 1
s2.name = "ser2" # Asignar nombres a las Serie 2

dataframe = s1.to_frame().join(s2) # Convertir la primera Serie en un DataFrame y unir la segunda Serie
dataframe


# Explicación:
#
#     1. Asignar nombres a las Series:
#           s1.name = "ser1" y s2.name = "ser2" asignan nombres a las Series, que se usarán como los nombres de las columnas cuando se conviertan en un DataFrame.
#
#     2. Convertir s1 en un DataFrame:
#           s1.to_frame() convierte la Serie s1 en un DataFrame con una única columna llamada "ser1".
#
# Resultado intermedio (s1.to_frame()):
#               ser1
#            0     1
#            1     2
#            2     3
#            3     4
#            4     5
#
#     3. Unir s2 al DataFrame:
#           join(s2) agrega s2 como una nueva columna al DataFrame resultante.
#           La unión se hace automáticamente con base en los índices de ambas Series.
#
# Resultado:
#               ser1  ser2
#            0     1     4
#            1     2     5
#            2     3     6
#            3     4     7
#            4     5     8
#
# Comparación con otros métodos:
#       Ventajas:
#       Este método es útil si deseas mantener control explícito sobre los nombres de las columnas
#       desde las Series originales.
#       La operación de unión está alineada automáticamente por índices.
#
#       Limitación:
#       Si las Series tienen índices diferentes, los valores no coincidentes se rellenarán con NaN.
#
#
# Ejemplo con índices diferentes:
#      s1 = pd.Series([1, 2, 3], index=[0, 1, 2], name="ser1")
#      s2 = pd.Series([4, 5, 6], index=[1, 2, 3], name="ser2")
#      dataframe = s1.to_frame().join(s2)
#
# Resultado:
#         ser1  ser2
#      0   1.0   NaN
#      1   2.0   4.0
#      2   3.0   5.0
#      3   NaN   6.0
#
# Alternativa: Usar pd.merge (para uniones más complejas):
#      Si necesitas combinar Series o DataFrames basándote en columnas o índices específicos, puedes usar pd.merge.
#      dataframe = pd.merge(s1.to_frame(), s2.to_frame(), left_index=True, right_index=True)
#
# Resultado:
#         ser1  ser2
#      0     1     4
#      1     2     5
#      2     3     6
#      3     4     7
#      4     5     8



Unnamed: 0,ser1,ser2
0,11,44
1,22,55
2,33,66
3,44,77
4,55,88


### Filtering and updating

#### Exercise 04: Use the Series created in the previous exercise and select the positions of the elements of the first Series that are in the second Series (★★☆)

> NOTE: Review the function `pd.Series.isin` (https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html)

In [19]:
s1 = pd.Series([11, 22, 33, 44, 55])
s2 = pd.Series([44, 55, 66, 77, 88])

# Method 1: Using Pandas function
# Este method encuentra las posiciones (índices) de los elementos de la primera Serie (s1)
# que están presentes en la segunda Serie (s2).

filtering_results = s1.isin(s2)
indices = s1[filtering_results].index

indices


# Explicación:
#
#   1. s1.isin(s2):
#      isin es una función de pandas que verifica si cada elemento de s1 está presente en s2.
#      Devuelve una Serie booleana del mismo tamaño que s1, con True en las posiciones donde el elemento
#      de s1 también está en s2.
#
#      Resultado intermedio (filtering_results):
#              0    False
#              1    False
#              2    False
#              3     True
#              4     True
#              dtype: bool
#
#
#   2. s1[filtering_results]:
#      Utiliza la Serie booleana como una máscara para filtrar los elementos de s1 que están presentes en s2.
#
#      Resultado intermedio (s1[filtering_results]):
#             3    44
#             4    55
#             dtype: int64
#
#   3. .index:
#       Obtiene los índices de los elementos filtrados en s1.
#
#       Resultado final (indices):
#           Int64Index([3, 4], dtype='int64')
#
#       Estos índices (3 y 4) corresponden a las posiciones de los elementos de s1 (los valores 44 y 55) que también están en s2.
#
#   4. Alternativa: Usar comprensión de listas
#      Si no quieres usar pandas, puedes hacerlo con una comprensión de listas:
#      indices = [i for i, value in enumerate(s1) if value in s2]
#
#      Resultado:
#           [3, 4]



Index([3, 4], dtype='int64')

In [20]:
# Method 2: Using NumPy function
# El método 2 utiliza la función de NumPy np.where para encontrar los índices de los elementos de la primera Serie (s1)
# que están presentes en la segunda Serie (s2).

indices = np.where(s1.isin(s2))
indices

# Explicación:
#
#       1. s1.isin(s2):
#          Como en el método anterior, s1.isin(s2) verifica si cada elemento de s1 está en s2.
#          Devuelve una Serie booleana indicando True donde hay coincidencias.
#
#          Resultado (s1.isin(s2)):
#             0    False
#             1    False
#             2    False
#             3     True
#             4     True
#             dtype: bool
#
#       2. np.where(s1.isin(s2)):
#          np.where(condition) devuelve las posiciones (índices) donde la condición es True.
#          En este caso, devuelve los índices donde s1.isin(s2) es True.
#
#          Resultado (indices):
#             (array([3, 4]),)
#
#          El resultado es una tupla con un arreglo de índices.
#          Aquí, los índices 3 y 4 corresponden a los valores de s1 (44 y 55) que están presentes en s2.
#
#       3. Acceder a los índices directamente:
#          Si deseas obtener solo el arreglo de índices (sin la tupla), puedes extraer el primer elemento:
#          indices = np.where(s1.isin(s2))[0]
#
#          Resultado:
#             array([3, 4])
#
#       4. Diferencias con el método 1:
#             Método 1 (s1[filtering_results].index):
#             Devuelve un objeto Int64Index (propio de pandas).
#
#             Método 2 (np.where):
#             Devuelve un arreglo de NumPy (array), que puede ser útil si estás trabajando con datos numéricos
#             o necesitas realizar cálculos adicionales.

(array([3, 4]),)

In [21]:
# Method 3: Using Python
# El método 3 utiliza un bucle en Python puro para encontrar los índices de los elementos de la primera Serie (s1)
# que están presentes en la segunda Serie (s2). Este enfoque no depende directamente de funciones avanzadas de pandas o NumPy.

indices = []

for value in s1.values:
    if value in s2.values:
        indices.append(s1[s1 == value].index[0])
indices


# Explicación:
#       1. Inicializar la lista indices:
#          Se crea una lista vacía para almacenar los índices de los elementos coincidentes.
#
#       2. Recorrer los valores de s1:
#          El bucle for value in s1.values itera sobre cada elemento de s1.
#          s1.values devuelve un arreglo de NumPy con los valores de la Serie, lo que permite trabajar con ellos directamente.
#
#       3. Verificar si el valor está en s2:
#          La condición if value in s2.values verifica si el valor actual (value) está en los valores de s2.
#
#       4. Obtener el índice del valor coincidente:
#          Si el valor está en s2, se usa s1[s1 == value] para filtrar el elemento correspondiente en s1.
#          s1[s1 == value].index[0] extrae el índice del elemento coincidente en s1 y lo agrega a la lista indices.
#
#       5. Resultado final (indices):
#          Después de que el bucle procesa todos los valores de s1, la lista indices contiene los índices de los
#          elementos de s1 que están presentes en s2.
#
#          Resultado:
#          [3, 4]
#
#          Estos índices corresponden a los valores 44 y 55 en s1, que están presentes en s2.
#
#       6. Comparación con otros métodos:
#
#          Ventajas:
#          Este método es más intuitivo si estás familiarizado con bucles en Python y quieres evitar usar funciones avanzadas.
#          Es fácil de personalizar si necesitas realizar operaciones adicionales dentro del bucle.
#
#         Desventajas:
#         Eficiencia: Este método es más lento que usar pandas o NumPy, especialmente para Series grandes, porque el bucle y
#         las búsquedas repetitivas (value in s2.values) no están optimizadas.
#         Legibilidad: Para operaciones estándar como esta, pandas o NumPy suelen ser más legibles y concisos.
#
#       7. Alternativa: Evitar index[0] con enumeración
#          Podrías usar enumerate para evitar buscar el índice directamente:
#          indices = [i for i, value in enumerate(s1) if value in s2.values]
#
#          Resultado:
#          [3, 4]

[np.int64(3), np.int64(4)]

#### Pandas Exercise 05: Use the series created in exercise 03 and list the elements that are not common between both series (★★☆)

In [22]:
s1 = pd.Series([11, 22, 33, 44, 55])
s2 = pd.Series([44, 55, 66, 77, 88])

# Method 1
# Encontrar elementos únicos en cada Serie
unique_s1 = s1[~s1.isin(s2)] # Elementos de s1 que no están en s2
unique_s2 = s2[~s2.isin(s1)] # Elementos de s2 que no están en s1

unique_elements = np.concatenate([unique_s1, unique_s2]) # Combinar los elementos únicos de ambas Series
unique_elements

# Explicación:
#
#     1. s1.isin(s2):
#        Verifica qué elementos de s1 están presentes en s2.
#        Devuelve una Serie booleana con True donde el elemento de s1 también está en s2.
#
#     2. ~s1.isin(s2):
#        El operador ~ invierte los valores booleanos, convirtiendo True en False y viceversa.
#        Así, ~s1.isin(s2) devuelve True para los elementos de s1 que no están en s2.
#
#     3. Filtrar los elementos únicos:
#         s1[~s1.isin(s2)]: Filtra los elementos de s1 que no están en s2.
#         s2[~s2.isin(s1)]: Filtra los elementos de s2 que no están en s1.
#
#         Resultados intermedios:
#
#         unique_s1:
#           0    11
#           1    22
#           2    33
#           dtype: int64
#         unique_s2:
#           2    66
#           3    77
#           4    88
#          dtype: int64
#
#     4. Combinar los elementos únicos:
#         np.concatenate combina los valores únicos de unique_s1 y unique_s2
#         en un único arreglo de NumPy.
#
#        Resultado final (unique_elements):
##         array([11, 22, 33, 66, 77, 88])

array([11, 22, 33, 66, 77, 88])

In [23]:
# Method 2
# utiliza la función pd.concat y el método duplicated de pandas para encontrar los elementos
# únicos que no se repiten entre las dos Series (s1 y s2).

concat = pd.concat([s1, s2]) # Combinar ambas Series
unique_elements = concat[~concat.duplicated(keep = False)].values # Filtrar elementos únicos
unique_elements


# Explicación:
#
#       1. Concatenar las Series (pd.concat):
#             pd.concat([s1, s2]) combina las dos Series en una sola.
#             La nueva Serie contiene todos los elementos de s1 y s2, uno tras otro.
#
#             Resultado (concat):
#                      0    11
#                      1    22
#                      2    33
#                      3    44
#                      4    55
#                      0    44
#                      1    55
#                      2    66
#                      3    77
#                      4    88
#                      dtype: int64
#
#       2. Identificar duplicados (duplicated):
#             concat.duplicated(keep=False): Marca todos los elementos que aparecen más de una vez como True.
#             keep=False indica que todas las ocurrencias de los duplicados se marcarán como True (no solo la primera o última).
#
#             Resultado (concat.duplicated(keep=False)):
#                      0    False
#                      1    False
#                      2    False
#                      3     True
#                      4     True
#                      0     True
#                      1     True
#                      2    False
#                      3    False
#                      4    False
#                      dtype: bool
#
#       3. Filtrar elementos únicos (~concat.duplicated):
#             El operador ~ invierte los valores booleanos, seleccionando solo los elementos no duplicados.
#
#             Resultado (concat[~concat.duplicated(keep=False)]):
#                        0    11
#                        1    22
#                        2    33
#                        2    66
#                        3    77
#                        4    88
#                        dtype: int64
#
#       4. Obtener los valores como un arreglo:
#             .values convierte la Serie resultante en un arreglo de NumPy.
#
#             Resultado final (unique_elements):
#             array([11, 22, 33, 66, 77, 88])
#
#       5. Comparacion entre Metodos:
#
#             Metodo 1:
#               * Usa operaciones de filtrado y concatenación explícitas (isin, np.concatenate).
#               * Más fácil de entender si estás comenzando con pandas.
#
#             Método 2:
#               * Es más compacto y aprovecha el comportamiento de duplicated.
#               * Útil cuando trabajas con conjuntos de datos más grandes o más complejos.
#
#
#        6. Alternativa:
#
#             (1) Usar value_counts
#                 Si prefieres otra forma, puedes usar value_counts:
#
#               concat = pd.concat([s1, s2])
#               unique_elements = concat[concat.map(concat.value_counts()) == 1].values
#               Resultado:
#               array([11, 22, 33, 66, 77, 88])
#
#
#             (2) Usar operaciones de conjuntos
#                 unique_elements = pd.Series(list(set(s1) ^ set(s2)))
#                 Resultado:
#                          0    33
#                          1    66
#                          2    11
#                          3    77
#                          4    88
#                          5    22
#                          dtype: int64
#
#                Aquí, set(s1) ^ set(s2) (operador XOR) devuelve los elementos que están
#                en uno de los conjuntos, pero no en ambos.

array([11, 22, 33, 66, 77, 88])

#### Pandas Exercise 06: Create a DataFrame of random numbers with 5 columns and 10 rows and sort one of its columns from smallest to largest (★★☆)

> NOTE: Review the function `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [24]:
# El código crea un DataFrame de números aleatorios con 5 columnas y 10 filas,
# y cada número es un valor flotante entre 0 y 10. Después, puedes ordenar una
# de las columnas de menor a mayor.


df = pd.DataFrame(np.random.rand(10, 5) * 10, columns = [f"Col {i}" for i in range(5)])
df
# df.sort_values("Col 0")
df.sort_values(by = ["Col 2", "Col 4"], ascending=[True, False])


# Explicación:
#
#       1. np.random.rand(10, 5) * 10:
#             np.random.rand(10, 5): Genera una matriz de números aleatorios con 10 filas y 5 columnas. Los valores están entre 0 y 1.
#              * 10: Multiplica cada valor por 10, escalando los números al rango [0, 10).
#
#       2. columns=[f"Col {i}" for i in range(5)]:
#             Crea una lista de nombres de columnas usando comprensión de listas.
#             [f"Col {i}" for i in range(5)] genera: ['Col 0', 'Col 1', 'Col 2', 'Col 3', 'Col 4'].
#
#       3. df.sort_values(by = ["Col 2", "Col 4"])
#             Ordena el DataFrame según los valores de multiples columnas.
#             Primero ordena por la columna "Col 2", y Si hay filas con valores idénticos en "Col 2",
#             se utiliza "Col 4" como criterio secundario para deshacer los empates.
#             by = ["Col 2", "Col 4"]: Especifica las columnas por las que deseas ordenar.
#             Por defecto, el orden es ascendente para ambas columnas.
#             ascending=[True, False]: Ordena "Col 2" de forma ascendente y "Col 4" descendente.

Unnamed: 0,Col 0,Col 1,Col 2,Col 3,Col 4
1,5.707688,9.934641,0.038274,4.019576,8.744321
2,4.985853,7.229037,1.453269,9.21866,1.753861
6,4.692819,4.559681,1.901784,3.543403,3.486169
4,2.514036,2.143482,2.155574,8.409226,7.59255
8,6.997703,3.436625,2.2914,2.733869,0.193536
9,4.637364,6.628434,2.496699,4.039304,3.395942
0,1.470837,0.627213,4.837169,1.272067,7.923145
7,9.698018,9.259543,8.068042,7.588603,5.724249
5,1.280747,0.414106,8.675114,4.317291,5.510284
3,8.581343,0.807201,9.964276,8.308638,0.247543


#### Pandas Exercise 07: Modify the name of the 5 columns of the above DataFrame to the following format: `N_column` where `N` is the column number (★★☆)

> NOTE: Review the function `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [25]:
df.columns = [f"{i}_column" for i in range(5)]
df

# Explicación:
#         (1) df.columns:
#                   Es un atributo del DataFrame que contiene los nombres actuales de las columnas.
#                   Al asignar una nueva lista a df.columns, puedes cambiar los nombres.
#               
#         (2) [f"{i}_column" for i in range(5)]:
#                   range(5): Genera una secuencia de números de 0 a 4 (un número por cada columna en el DataFrame).
#                   f"{i}_column": Usa una cadena formateada para construir el nombre de cada columna como "0_column", "1_column", ..., "4_column".
#                   El resultado es una lista: ["0_column", "1_column", "2_column", "3_column", "4_column"].
#         
#         (3) Asignación:
#                   La lista generada reemplaza los nombres originales de las columnas.

Unnamed: 0,0_column,1_column,2_column,3_column,4_column
0,1.470837,0.627213,4.837169,1.272067,7.923145
1,5.707688,9.934641,0.038274,4.019576,8.744321
2,4.985853,7.229037,1.453269,9.21866,1.753861
3,8.581343,0.807201,9.964276,8.308638,0.247543
4,2.514036,2.143482,2.155574,8.409226,7.59255
5,1.280747,0.414106,8.675114,4.317291,5.510284
6,4.692819,4.559681,1.901784,3.543403,3.486169
7,9.698018,9.259543,8.068042,7.588603,5.724249
8,6.997703,3.436625,2.2914,2.733869,0.193536
9,4.637364,6.628434,2.496699,4.039304,3.395942


#### Pandas Exercise 08: Modify the index of the rows of the DataFrame of exercise 06 (★★☆)

> NOTE: Review the function `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [27]:
df.index = [f"{i}_row" for i in range(10)]
df

# El código cambia los índices de las filas del DataFrame al formato N_row, 
# donde N es el índice numérico de cada fila.

# Explicación:
#   
#   (1) df.index:
#           Es un atributo del DataFrame que contiene los índices actuales de las filas.
#           Al asignar una nueva lista a df.index, puedes cambiar los nombres de los índices.
# 
#   (2) [f"{i}_row" for i in range(10)]:
#           range(10): Genera una secuencia de números de 0 a 9 (un número por cada fila en el DataFrame).
#           f"{i}_row": Usa una cadena formateada para construir el nombre de cada fila como "0_row", "1_row", ..., "9_row".
#           El resultado es una lista: ["0_row", "1_row", "2_row", ..., "9_row"].
#   
#   (3) Asignación:
#           La lista generada reemplaza los índices originales de las filas.


Unnamed: 0,0_column,1_column,2_column,3_column,4_column
0_row,1.470837,0.627213,4.837169,1.272067,7.923145
1_row,5.707688,9.934641,0.038274,4.019576,8.744321
2_row,4.985853,7.229037,1.453269,9.21866,1.753861
3_row,8.581343,0.807201,9.964276,8.308638,0.247543
4_row,2.514036,2.143482,2.155574,8.409226,7.59255
5_row,1.280747,0.414106,8.675114,4.317291,5.510284
6_row,4.692819,4.559681,1.901784,3.543403,3.486169
7_row,9.698018,9.259543,8.068042,7.588603,5.724249
8_row,6.997703,3.436625,2.2914,2.733869,0.193536
9_row,4.637364,6.628434,2.496699,4.039304,3.395942
