<a href="https://colab.research.google.com/github/beggy22/realestate-datacleanup-exercise/blob/main/Pandas_Bootcamp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/pandas_logo.png?raw=true)

## Indroducción a Pandas

**Pandas** es una librería de código abierto que proporciona estructuras de datos y está diseñado para manejar y analizar datos tabulares en Python. Pandas se basa en Numpy, lo que le permite integrarse bien en el ecosistema de la ciencia de los datos junto a otras librerías como `Scikit-learn` y `Matplotlib`.

En concreto, los puntos clave de esta librería son:

- **Estructuras de datos**: Esta librería proporciona dos estructuras para trabajar con datos. Estos son las `Series` que son arrays unidimensionales etiquetados, similares a un vector, lista o secuencia y que es capaz de contener cualquier tipo de datos y los `DataFrames`, que es una estructura bidimensional etiquetada con columnas que pueden ser de diferentes tipos, similar a una hoja de cálculo o a una tabla SQL.
- **Manipulación de datos**: Pandas permite llevar a cabo un exhaustivo análisis de datos a través de funciones que pueden aplicarse directamente sobre sus estructuras de datos. Estas operaciones incluyen control de datos faltantes, filtrado de datos, fusión, combinación y unión de datos de diferentes fuentes...
- **Eficiencia**: Todas las operaciones y/o funciones que se apliquen sobre las estructuras de datos son vectorizadas para mejorar el rendimiento en comparación con los bucles tradicionales e iteradores de Python.

Pandas es una herramienta fundamental para cualquier desarrollador que trabaje con datos en python, ya que proporciona una amplia variedad de herramientas para la exploración, limpieza y transformación de datos, haciendo que el proceso de análisis sea más eficiente y efectivo.

### Estructuras de datos

Pandas proporciona dos estructuras de datos principales: `Series` y `DataFrames`.

#### Series

Una **serie** en Pandas es una estructura de datos unidimensional etiquetada. Es similar a un array 1D de Numpy, pero tiene un índice que permite el acceso a los valores por etiqueta Una serie puede contener cualquier tipo de datos: enteros, cadenas, objetos de Python...

![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series.PNG?raw=true)

Una serie en pandas tiene dos partes diferenciadas:

- **Índice** (*index*): Un array de etiquetas asociado a los datos.
- **Valor** (*value*): Un array de datos.

Una serie puede ser creada utilizando la clase `Series` de la librería con una lista de elementos como argumento. Por ejemplo:

In [None]:
import pandas as pd
import numpy as np

serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

Esto creará una serie con los elementos 1, 2, 3, 4 y 5. Además, al no haber incluido información sobre los índices, se genera uno automático empezando en 0. Si quisiéramos crear una nueva serie con un índice concreto se programaría como sigue:

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

De esta forma, la serie anterior tiene un índice compuesto por letras.

Ambas series almacenan los mismos valores, pero la forma en la que se accede puede variar según el índice.

En una serie se puede acceder a sus elementos por índice o por posición (esto último es lo que hacíamos en Numpy). A continuación se muestran algunas operaciones que se pueden realizar utilizando la serie anterior:

In [None]:
# Acceder al tercer elemento
print(serie["c"]) # Por índice
print(serie[2]) # Por posición

# Cambiar el valor del segundo elemento
serie["b"] = 7
print(serie)

# Sumar 10 a todos los elementos
serie += 10
print(serie)

# Calcular la suma de los elementos
sum_all = serie.sum()
print(sum_all)

3
3
a    1
b    7
c    3
d    4
e    5
dtype: int64
a    11
b    17
c    13
d    14
e    15
dtype: int64
70


#### DataFrame

Un **DataFrame** en Pandas es una estructura de datos bidimensional etiquetada. Es similar a un array 2D de Numpy, pero tiene un índice que permite el acceso a los valores por etiqueta por fila y columna.

![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/dataframe.PNG?raw=true)

Un DataFrame en pandas tiene varias partes diferenciadas:

- **Datos** (*data*): Una matriz de valores y que pueden ser de distinto tipo por columna.
- **Índice de fila** (*row index*): Un array de etiquetas asociado a las filas.
- **Índice de columna** (*column index*): Un array de etiquetas asociado a las columnas.

Un DataFrame puede verse como un conjunto de series unidas en una estructura tabular, con un índice por fila en común y un índice de columna propio de cada serie.

![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series_dataframe.png?raw=true?raw=true)

Un DataFrame puede ser creado utilizando la clase `DataFrame`. Por ejemplo:

In [None]:
dataframe = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dataframe

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Esto creará un DataFrame con tres filas y tres columnas cada fila. Al igual que sucedía con las series, un DataFrame generará índices automáticos para filas y columnas si no se pasan como argumento en el constructor de la clase. Si quisiéramos crear un nuevo DataFrame con índices concretos para filas y columnas se programaría como sigue:

In [None]:
data = {
    "col A": [1, 2, 3],
    "col B": [4, 5, 6],
    "col C": [7, 8, 9]
}

dataframe = pd.DataFrame(data, index = ["a", "b", "c"])
dataframe

Unnamed: 0,col A,col B,col C
a,1,4,7
b,2,5,8
c,3,6,9


De esta forma se proporciona un índice personalizado para las columas (etiquetando las filas dentro de un diccionario) y para las filas (con el argumento `index` tal y como sucedía con las series).

En un DataFrame se puede acceder a sus elementos por índice o por posición. A continuación se muestran algunas operaciones que se pueden realizar utilizando el DataFrame anterior:

In [None]:
# Acceder a todos los datos de una columna
print(dataframe["col A"]) # Por índice
print(dataframe.loc[:,"col A"]) # Por índice
print(dataframe.iloc[:,0]) # Por posición

# Acceder a todos los datos de una fila
print(dataframe.loc["a"]) # Por indice
print(dataframe.iloc[0]) # Por posición

# Acceder a un elemento (fila, columna) concreto
print(dataframe.loc["a", "col A"]) # Por índice
print(dataframe.iloc[0, 0]) # Por posición

# Crear una nueva columna
dataframe["col D"] = [10, 11, 12]
print(dataframe)

# Crear una nueva fila
dataframe.loc["d"] = [13, 14, 15, 16]
print(dataframe)

# Sumar 10 a los elementos de una columna
dataframe["col A"] *= 10
print(dataframe)

# Calcular la suma de todos los elementos
sum_all = dataframe.sum()
print(sum_all)

a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
1
1
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
d     13     14     15     16
   col A  col B  col C  col D
a     10      4      7     10
b     20      5      8     11
c     30      6      9     12
d    130     14     15     16
col A    190
col B     29
col C     39
col D     49
dtype: int64


### Funciones

Pandas proporciona una gran cantidad de funciones predefinidas y que se pueden aplicar sobre las estructuras de datos vistas anteriormente. Algunas de las más utilizadas en el análisis de datos son:

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
d1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
d2 = pd.DataFrame([[7, 8, 9], [10, 11, 12]])

# Operaciones Aritméticas
print("Suma de series:", s1.add(s2))
print("Suma de DataFrames:", d1.add(d2))

# Operaciones Estadísticas
# Se pueden aplicar de igual forma a los DataFrames
print("Media:", s1.mean())
print("Mediana:", s1.median())
print("Número de elementos:", s1.count())
print("Desviación estándar:", s1.std())
print("Varianza:", s1.var())
print("Máximo valor:", s1.max())
print("Mínimo valor:", s1.min())
print("Correlación:", s1.corr(s2))
print("Resumen estadístico:", s1.describe())

Suma de series: 0    5
1    7
2    9
dtype: int64
Suma de DataFrames:     0   1   2
0   8  10  12
1  14  16  18
Media: 2.0
Mediana: 2.0
Número de elementos: 3
Desviación estándar: 1.0
Varianza: 1.0
Máximo valor: 3
Mínimo valor: 1
Correlación: 1.0
Resumen estadístico: count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64


#### Funciones personalizadas

Ademas de las funciones predefinidas de Pandas, también se pueden definir y aplicar otras a las estructuras de datos. Para ello, tenemos que programar la función para que reciba un valor (o una columna o fila en el caso de un DataFrame) y devuelva otro modificado, y referenciarla con `apply`.

Además, esta función permite utilizar **expresiones lambda** (*lambda expressions*) para la declaración anónima de funciones.

A continuación se muestra cómo aplicar funciones a las series:

In [None]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])

# Definición explícita de la función
def squared(x):
    return x ** 2
s1 = s.apply(squared)
print(s1)

# Definición anónima de la función
s2 = s.apply(lambda x: x ** 2)
print(s2)

0     1
1     4
2     9
3    16
dtype: int64
0     1
1     4
2     9
3    16
dtype: int64


A continuación se muestra cómo aplicar funciones a un DataFrame, que puede hacerse por fila, por columna o por elementos, similar a las series:

In [None]:
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6]
})

# Aplicar función a lo largo de una columna
df["A"] = df["A"].apply(lambda x: x ** 2)
print(df)

# Aplicar función a lo largo de una fila
df.loc[0] = df.loc[0].apply(lambda x: x ** 2)
print(df)

# Aplicar función a todos los elementos
df = df.applymap(lambda x: x ** 2)
print(df)

   A  B
0  1  4
1  4  5
2  9  6
   A   B
0  1  16
1  4   5
2  9   6
    A    B
0   1  256
1  16   25
2  81   36


`apply` es más flexible que otras funciones vectorizadas de Pandas, pero puede ser más lenta, especialmente cuando se aplica a grandes conjuntos de datos. Siempre es importante explorar las funciones incorporadas de Pandas o Numpy primero, ya que suelen ser más eficientes que las que podríamos llegar a implementar nosotros.

Además, esta función puede devolver resultados de diferentes formas, dependiendo de la función aplicada y de cómo esté configurada.

## Ejercicios

> Solución: https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/03.1-Intro-to-Pandas_solutions.ipynb

### Creación de series y DataFrames

#### Ejercicio 01: Crea una serie a partir de una lista, de un array de Numpy y de un diccionario (★☆☆)

> NOTA: Revisa la clase `pd.Series` (https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [None]:
# From list
l = [1, 2, 3, 4, 5, 6]
serie = pd.Series(l)
print(serie)

# From Numpy array
array = np.array([1, 2, 3, 4, 5, 6])
serie = pd.Series(array)
print(serie)

# From dictionary
d = {"A": 1, "B": 2, "C": 3}
serie = pd.Series(d)
print(serie)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
A    1
B    2
C    3
dtype: int64


#### Ejercicio 02: Crea un DataFrame a partir de un array de Numpy, de un diccionario y de una lista de tuplas (★☆☆)

> NOTA: Revisa la clase `pd.DataFrame` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [None]:
# From Numpy array
array = np.random.randint(1, 10, size = (5, 5))
dataframe = pd.DataFrame(array)
dataframe

Unnamed: 0,0,1,2,3,4
0,3,4,4,6,6
1,6,2,8,7,2
2,1,4,3,5,4
3,3,9,8,2,3
4,9,9,3,4,3


In [None]:
# From dictionary
d = {
    "A": np.random.randint(10, 100, size = 5),
    "B": np.linspace(1, 10, 5),
    "C": np.random.randn(5)
}
dataframe = pd.DataFrame(d)
dataframe

Unnamed: 0,A,B,C
0,67,1.0,-0.134316
1,87,3.25,-2.101034
2,31,5.5,0.381131
3,20,7.75,-1.802991
4,30,10.0,0.328485


In [None]:
# From list of tuples
t = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
dataframe = pd.DataFrame(t)
dataframe

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


#### Ejercicio 03: Crea 2 series y utilízalas para construir un DataFrame (★☆☆)

> NOTA: Revisa las funciones `pd.concat` (https://pandas.pydata.org/docs/reference/api/pandas.concat.html) y `pd.Series.to_frame` (https://pandas.pydata.org/docs/reference/api/pandas.Series.to_frame.html)

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2})
dataframe = pd.DataFrame({"ser1": s1, "ser2": s2}, index = s1.index)
dataframe

Unnamed: 0,ser1,ser2
0,1,4
1,2,5
2,3,6
3,4,7
4,5,8


In [None]:
# Method 2
dataframe = pd.concat([s1, s2], axis = 1)
dataframe

Unnamed: 0,0,1
0,1,4
1,2,5
2,3,6
3,4,7
4,5,8


In [None]:
# Method 3
s1.name = "ser1"
s2.name = "ser2"

dataframe = s1.to_frame().join(s2)
dataframe

Unnamed: 0,ser1,ser2
0,1,4
1,2,5
2,3,6
3,4,7
4,5,8


### Filtrado y actualización

#### Ejercicio 04: Utiliza las series creadas en el ejercicio anterior y selecciona las posiciones de los elementos de la primera serie que están en la segunda (★★☆)

> NOTA: Revisa la función `pd.Series.isin` (https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html)

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1: Using Pandas function
filtering_results = s1.isin(s2)
indices = s1[filtering_results].index

indices

In [None]:
# Method 2: Using Numpy function
indices = np.where(s1.isin(s2))
indices

In [None]:
# Method 3: Using Python
indices = []

for value in s1.values:
    if value in s2.values:
        indices.append(s1[s1 == value].index[0])
indices

#### Ejercicio 05: Utiliza las series creadas en el ejercicio 03 y lista los elementos no comunes entre ambas (★★☆)

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([4, 5, 6, 7, 8])

# Method 1
unique_s1 = s1[~s1.isin(s2)]
unique_s2 = s2[~s2.isin(s1)]

unique_elements = np.concatenate([unique_s1, unique_s2])
unique_elements

array([1, 2, 3, 6, 7, 8])

In [None]:
# Method 2
concat = pd.concat([s1, s2])
unique_elements = concat[~concat.duplicated(keep = False)].values
unique_elements

array([1, 2, 3, 6, 7, 8])

#### Ejercicio 06: Crea un DataFrame de números aleatorios con 5 columnas y 10 filas y ordena una de sus columnas de menor a mayor (★★☆)

> NOTA: Revisa la función `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
df = pd.DataFrame(np.random.rand(10, 5) * 10, columns = [f"Col {i}" for i in range(5)])
df

Unnamed: 0,Col 0,Col 1,Col 2,Col 3,Col 4
0,7.022281,1.503763,6.352792,5.98412,9.794085
1,2.973048,9.902955,0.324755,9.33493,8.809869
2,1.421414,1.021203,3.374566,0.421368,4.82481
3,9.202854,9.341221,7.955033,8.770494,9.201788
4,2.069823,7.150102,2.68876,4.748664,7.101883
5,2.396306,4.500228,6.650588,6.868799,7.039505
6,6.943804,2.128014,4.094251,6.455826,5.453595
7,5.958072,5.772706,2.346721,0.642362,7.905987
8,3.125539,0.036988,5.343358,3.120417,1.299718
9,9.910105,3.989539,7.442523,2.370651,8.734273


In [None]:
df.sort_values("Col 0")

Unnamed: 0,Col 0,Col 1,Col 2,Col 3,Col 4
2,1.421414,1.021203,3.374566,0.421368,4.82481
4,2.069823,7.150102,2.68876,4.748664,7.101883
5,2.396306,4.500228,6.650588,6.868799,7.039505
1,2.973048,9.902955,0.324755,9.33493,8.809869
8,3.125539,0.036988,5.343358,3.120417,1.299718
7,5.958072,5.772706,2.346721,0.642362,7.905987
6,6.943804,2.128014,4.094251,6.455826,5.453595
0,7.022281,1.503763,6.352792,5.98412,9.794085
3,9.202854,9.341221,7.955033,8.770494,9.201788
9,9.910105,3.989539,7.442523,2.370651,8.734273


In [None]:
df.sort_values(by = ["Col 2", "Col 4"])

Unnamed: 0,Col 0,Col 1,Col 2,Col 3,Col 4
1,2.973048,9.902955,0.324755,9.33493,8.809869
7,5.958072,5.772706,2.346721,0.642362,7.905987
4,2.069823,7.150102,2.68876,4.748664,7.101883
2,1.421414,1.021203,3.374566,0.421368,4.82481
6,6.943804,2.128014,4.094251,6.455826,5.453595
8,3.125539,0.036988,5.343358,3.120417,1.299718
0,7.022281,1.503763,6.352792,5.98412,9.794085
5,2.396306,4.500228,6.650588,6.868799,7.039505
9,9.910105,3.989539,7.442523,2.370651,8.734273
3,9.202854,9.341221,7.955033,8.770494,9.201788


#### Ejercicio 07: Modifica el nombre de las 5 columnas del DataFrame anterior por el siguiente formato: `N_column` donde `N` es el número de la columna (★★☆)

> NOTA: Revisa la función `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
df.columns = [f"{i}_column" for i in range(5)]
df

Unnamed: 0,0_column,1_column,2_column,3_column,4_column
0,7.022281,1.503763,6.352792,5.98412,9.794085
1,2.973048,9.902955,0.324755,9.33493,8.809869
2,1.421414,1.021203,3.374566,0.421368,4.82481
3,9.202854,9.341221,7.955033,8.770494,9.201788
4,2.069823,7.150102,2.68876,4.748664,7.101883
5,2.396306,4.500228,6.650588,6.868799,7.039505
6,6.943804,2.128014,4.094251,6.455826,5.453595
7,5.958072,5.772706,2.346721,0.642362,7.905987
8,3.125539,0.036988,5.343358,3.120417,1.299718
9,9.910105,3.989539,7.442523,2.370651,8.734273


#### Ejercicio 08: Modifica el índice de las filas del DataFrame del ejercicio 06 (★★☆)

> NOTA: Revisa la función `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
df.index = [f"{i}_row" for i in range(10)]
df

Unnamed: 0,0_column,1_column,2_column,3_column,4_column
0_row,7.022281,1.503763,6.352792,5.98412,9.794085
1_row,2.973048,9.902955,0.324755,9.33493,8.809869
2_row,1.421414,1.021203,3.374566,0.421368,4.82481
3_row,9.202854,9.341221,7.955033,8.770494,9.201788
4_row,2.069823,7.150102,2.68876,4.748664,7.101883
5_row,2.396306,4.500228,6.650588,6.868799,7.039505
6_row,6.943804,2.128014,4.094251,6.455826,5.453595
7_row,5.958072,5.772706,2.346721,0.642362,7.905987
8_row,3.125539,0.036988,5.343358,3.120417,1.299718
9_row,9.910105,3.989539,7.442523,2.370651,8.734273
