![Pandas logo](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/pandas_logo.png?raw=true)

## Introducci√≥n a Pandas en Python

**Pandas** es una librer√≠a de c√≥digo abierto que proporciona estructuras de datos y est√° dise√±ado para manejar y analizar datos tabulares en Python. Pandas se basa en NumPy, lo que le permite integrarse bien en el ecosistema de la ciencia de los datos junto a otras librer√≠as como `Scikit-learn` y `Matplotlib`.

En concreto, los puntos clave de esta librer√≠a son:

- **Estructuras de datos**: Esta librer√≠a proporciona dos estructuras para trabajar con datos. Estos son las `Series` que son arrays unidimensionales etiquetados, similares a un vector, lista o secuencia y que es capaz de contener cualquier tipo de datos, y los `DataFrames`, que es una estructura bidimensional etiquetada con columnas que pueden ser de diferentes tipos, similar a una hoja de c√°lculo o a una tabla SQL.
- **Manipulaci√≥n de datos**: Pandas permite llevar a cabo un exhaustivo an√°lisis de datos a trav√©s de funciones que pueden aplicarse directamente sobre sus estructuras de datos. Estas operaciones incluyen control de datos faltantes, filtrado de datos, fusi√≥n, combinaci√≥n y uni√≥n de datos de diferentes fuentes...
- **Eficiencia**: Todas las operaciones y/o funciones que se apliquen sobre las estructuras de datos son vectorizadas para mejorar el rendimiento en comparaci√≥n con los bucles tradicionales e iteradores de Python.

Pandas es una herramienta fundamental para cualquier desarrollador que trabaje con datos en Python, ya que proporciona una amplia variedad de herramientas para la exploraci√≥n, limpieza y transformaci√≥n de datos, haciendo que el proceso de an√°lisis sea m√°s eficiente y efectivo.

### Estructuras de datos

Pandas proporciona dos estructuras de datos principales: `Series` y `DataFrames`.

#### Series

Una **serie** en Pandas es una estructura de datos unidimensional etiquetada. Es similar a un array de 1D de NumPy, pero tiene un √≠ndice que permite el acceso a los valores por etiqueta. Una serie puede contener cualquier tipo de datos: enteros, cadenas, objetos de Python...

![Ejemplo de Serie](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series.PNG?raw=true)

Una serie en Pandas tiene dos partes diferenciadas:

- **√çndice** (*index*): Un array de etiquetas asociado a los datos.
- **Valor** (*value*): Un array de datos.

Una serie puede ser creada utilizando la clase `Series` de la librer√≠a con una lista de elementos como argumento. Por ejemplo:

In [None]:
import pandas as pd

serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

Esto crear√° una serie con los elementos 1, 2, 3, 4 y 5. Adem√°s, al no haber incluido informaci√≥n sobre los √≠ndices, se genera uno autom√°tico empezando en 0. Si quisi√©ramos crear una nueva serie con un √≠ndice concreto se programar√≠a como sigue:

In [None]:
serie = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

De esta forma, la serie anterior tiene un √≠ndice compuesto por letras.

Ambas series almacenan los mismos valores, pero la forma en la que se accede puede variar seg√∫n el √≠ndice.

En una serie se puede acceder a sus elementos por √≠ndice o por posici√≥n (esto √∫ltimo es lo que hac√≠amos en NumPy). A continuaci√≥n se muestran algunas operaciones que se pueden realizar utilizando la serie anterior:

In [None]:
# Acceder al tercer elemento
print(serie["c"]) # Por √≠ndice
print(serie[2]) # Por posici√≥n

# Cambiar el valor del segundo elemento
serie["b"] = 7
print(serie)

# Sumar 10 a todos los elementos
serie += 10
print(serie)

# Calcular la suma de los elementos
sum_all = serie.sum()
print(sum_all)

3
3
a    1
b    7
c    3
d    4
e    5
dtype: int64
a    11
b    17
c    13
d    14
e    15
dtype: int64
70


#### DataFrame

Un **DataFrame** en Pandas es una estructura de datos bidimensional etiquetada. Es similar a un array de 2D de NumPy, pero tiene un √≠ndice que permite el acceso a los valores por etiqueta por fila y columna.

![Ejemplo de DataFrame](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/dataframe.PNG?raw=true)

Un DataFrame en Pandas tiene varias partes diferenciadas:

- **Datos** (*data*): Una matriz de valores y que pueden ser de distinto tipo por columna.
- **√çndice de fila** (*row index*): Un array de etiquetas asociado a las filas.
- **√çndice de columna** (*column index*): Un array de etiquetas asociado a las columnas.

Un DataFrame puede verse como un conjunto de series unidas en una estructura tabular, con un √≠ndice por fila en com√∫n y un √≠ndice de columna propio de cada serie.

![Series y DataFrame](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series_dataframe.png?raw=true?raw=true)

Un DataFrame puede ser creado utilizando la clase `DataFrame`. Por ejemplo:

In [None]:
dataframe = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dataframe

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Esto crear√° un DataFrame con tres filas y tres columnas cada fila. Al igual que suced√≠a con las series, un DataFrame generar√° √≠ndices autom√°ticos para filas y columnas si no se pasan como argumento en el constructor de la clase. Si quisi√©ramos crear un nuevo DataFrame con √≠ndices concretos para filas y columnas se programar√≠a como sigue:

In [None]:
data = {
    "col A": [1, 2, 3],
    "col B": [4, 5, 6],
    "col C": [7, 8, 9]
}

dataframe = pd.DataFrame(data, index = ["a", "b", "c"])
dataframe

Unnamed: 0,col A,col B,col C
a,1,4,7
b,2,5,8
c,3,6,9


De esta forma se proporciona un √≠ndice personalizado para las columnas (etiquetando las filas dentro de un diccionario) y para las filas (con el argumento `index` tal y como suced√≠a con las series).

En un DataFrame se puede acceder a sus elementos por √≠ndice o por posici√≥n. A continuaci√≥n se muestran algunas operaciones que se pueden realizar utilizando el DataFrame anterior:

In [None]:
# Acceder a todos los datos de una columna
print(dataframe["col A"]) # Por √≠ndice
print(dataframe.loc[:,"col A"]) # Por √≠ndice
print(dataframe.iloc[:,0]) # Por posici√≥n

# Acceder a todos los datos de una fila
print(dataframe.loc["a"]) # Por √≠ndice
print(dataframe.iloc[0]) # Por posici√≥n

# Acceder a un elemento (fila, columna) concreto
print(dataframe.loc["a", "col A"]) # Por √≠ndice
print(dataframe.iloc[0, 0]) # Por posici√≥n

# Crear una nueva columna
dataframe["col D"] = [10, 11, 12]
print(dataframe)

# Crear una nueva fila
dataframe.loc["d"] = [13, 14, 15, 16]
print(dataframe)

# Multiplicar por 10 los elementos de una columna
dataframe["col A"] *= 10
print(dataframe)

# Calcular la suma de todos los elementos
sum_all = dataframe.sum()
print(sum_all)

a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
a    1
b    2
c    3
Name: col A, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
col A    1
col B    4
col C    7
Name: a, dtype: int64
1
1
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
   col A  col B  col C  col D
a      1      4      7     10
b      2      5      8     11
c      3      6      9     12
d     13     14     15     16
   col A  col B  col C  col D
a     10      4      7     10
b     20      5      8     11
c     30      6      9     12
d    130     14     15     16
col A    190
col B     29
col C     39
col D     49
dtype: int64


### Funciones

Pandas proporciona una gran cantidad de funciones predefinidas y que se pueden aplicar sobre las estructuras de datos vistas anteriormente. Algunas de las m√°s utilizadas en el an√°lisis de datos son:

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
d1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
d2 = pd.DataFrame([[7, 8, 9], [10, 11, 12]])

# Operaciones Aritm√©ticas
print("Suma de series:", s1.add(s2))
print("Suma de DataFrames:", d1.add(d2))

# Operaciones Estad√≠sticas
# Se pueden aplicar de igual forma a los DataFrames
print("Media:", s1.mean())
print("Mediana:", s1.median())
print("N√∫mero de elementos:", s1.count())
print("Desviaci√≥n est√°ndar:", s1.std())
print("Varianza:", s1.var())
print("M√°ximo valor:", s1.max())
print("M√≠nimo valor:", s1.min())
print("Correlaci√≥n:", s1.corr(s2))
print("Resumen estad√≠stico:", s1.describe())

Suma de series: 0    5
1    7
2    9
dtype: int64
Suma de DataFrames:     0   1   2
0   8  10  12
1  14  16  18
Media: 2.0
Mediana: 2.0
N√∫mero de elementos: 3
Desviaci√≥n est√°ndar: 1.0
Varianza: 1.0
M√°ximo valor: 3
M√≠nimo valor: 1
Correlaci√≥n: 1.0
Resumen estad√≠stico: count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64


#### Funciones personalizadas

Adem√°s de las funciones predefinidas de Pandas, tambi√©n se pueden definir y aplicar otras a las estructuras de datos. Para ello, tenemos que programar la funci√≥n para que reciba un valor (o una columna o fila en el caso de un DataFrame) y devuelva otro modificado, y referenciarla con `apply`.

Adem√°s, esta funci√≥n permite utilizar **expresiones lambda** (*lambda expressions*) para la declaraci√≥n an√≥nima de funciones.

A continuaci√≥n se muestra c√≥mo aplicar funciones a las series:

In [None]:
import pandas as pd
s = pd.Series([1, 2, 3, 4])

# Definici√≥n expl√≠cita de la funci√≥n
def squared(x):
    return x ** 2
s1 = s.apply(squared)
print(s1)

# Definici√≥n an√≥nima de la funci√≥n
s2 = s.apply(lambda x: x ** 2)
print(s2)

0     1
1     4
2     9
3    16
dtype: int64
0     1
1     4
2     9
3    16
dtype: int64


A continuaci√≥n se muestra c√≥mo aplicar funciones a un DataFrame, que puede hacerse por fila, por columna o por elementos, similar a las series:

In [None]:
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6]
})

# Aplicar funci√≥n a lo largo de una columna
df["A"] = df["A"].apply(lambda x: x ** 2)
print(df)

# Aplicar funci√≥n a lo largo de una fila
df.loc[0] = df.loc[0].apply(lambda x: x ** 2)
print(df)

# Aplicar funci√≥n a todos los elementos
df = df.applymap(lambda x: x ** 2)
print(df)

   A  B
0  1  4
1  4  5
2  9  6
   A   B
0  1  16
1  4   5
2  9   6
    A    B
0   1  256
1  16   25
2  81   36


`apply` es m√°s flexible que otras funciones vectorizadas de Pandas, pero puede ser m√°s lenta, especialmente cuando se aplica a grandes conjuntos de datos. Siempre es importante explorar las funciones incorporadas de Pandas o NumPy primero, ya que suelen ser m√°s eficientes que las que podr√≠amos llegar a implementar nosotros.

Adem√°s, esta funci√≥n puede devolver resultados de diferentes formas, dependiendo de la funci√≥n aplicada y de c√≥mo est√© configurada.

## Ejercicios

Haz clic en el bot√≥n "Abrir en Colab" que se encuentra al principio de esta lecci√≥n, para poder realizar los ejercicios en Google Collab.

En el siguiente enlace puedes conseguir las [soluciones a los ejercicios de pandas python](https://4geeks.com/lesson/pandas-exercises-and-solutions) que encontraras mas abajo.

> üî• We also recommend you to complete this [interactive and self-corrected Pandas tutorial](https://4geeks.com/interactive-exercise/pandas-tutorial-and-exercises) accompanied by our AI mentor Rigobot, who will answer all your questions instantly.

### Creaci√≥n de series y DataFrames

#### Ejercicio Pandas 01: Crea una serie a partir de una lista, de un array de NumPy y de un diccionario (‚òÖ‚òÜ‚òÜ)

> NOTA: Revisa la clase `pd.Series` (https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

In [1]:
import numpy as np
import pandas as pd

np.random.seed(42)

mi_lista = [10, 20, 30]
serie_lista = pd.Series(mi_lista)
print(serie_lista)

mi_array = np.array([40, 50, 60])
serie_array = pd.Series(mi_array)
print(serie_array)

mi_diccionario = {'a': 70, 'b': 80, 'c': 90}
serie_diccionario = pd.Series(mi_diccionario)
print(serie_diccionario)



0    10
1    20
2    30
dtype: int64
0    40
1    50
2    60
dtype: int64
a    70
b    80
c    90
dtype: int64


#### Ejercicio Pandas 02: Crea un DataFrame a partir de un array de NumPy, de un diccionario y de una lista de tuplas (‚òÖ‚òÜ‚òÜ)

> NOTA: Revisa la clase `pd.DataFrame` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [2]:
import numpy as np
import pandas as pd

np.random.seed(42)

datos_array = np.array([[10, 20], [30, 40], [50, 60]])
df_array = pd.DataFrame(datos_array, columns=['Columna_A', 'Columna_B'])
print(df_array)

datos_dict = {
    'Nombre': ['Ana', 'Luis', 'Juan'],
    'Edad': [25, 30, 22]
}
df_dict = pd.DataFrame(datos_dict)
print(df_dict)

datos_tuplas = [('Manzana', 1.5), ('Banana', 0.8), ('Cereza', 2.5)]
df_tuplas = pd.DataFrame(datos_tuplas, columns=['Fruta', 'Precio'])
print(df_tuplas)

   Columna_A  Columna_B
0         10         20
1         30         40
2         50         60
  Nombre  Edad
0    Ana    25
1   Luis    30
2   Juan    22
     Fruta  Precio
0  Manzana     1.5
1   Banana     0.8
2   Cereza     2.5


#### Ejercicio Pandas 03: Crea 2 series y util√≠zalas para construir un DataFrame (‚òÖ‚òÜ‚òÜ)

> NOTA: Revisa las funciones `pd.concat` (https://pandas.pydata.org/docs/reference/api/pandas.concat.html) y `pd.Series.to_frame` (https://pandas.pydata.org/docs/reference/api/pandas.Series.to_frame.html)

In [4]:
import pandas as pd

serie1 = pd.Series([1, 2, 3, 4, 5])
serie2 = pd.Series([4, 5, 6, 7, 8])

df = pd.DataFrame({
    'Numeros_A': serie1,
    'Numeros_B': serie2
})

print(df)

   Numeros_A  Numeros_B
0          1          4
1          2          5
2          3          6
3          4          7
4          5          8


### Filtrado y actualizaci√≥n

#### Ejercicio Pandas 04: Utiliza las series creadas en el ejercicio anterior y selecciona las posiciones de los elementos de la primera serie que est√°n en la segunda (‚òÖ‚òÖ‚òÜ)

> NOTA: Revisa la funci√≥n `pd.Series.isin` (https://pandas.pydata.org/docs/reference/api/pandas.Series.isin.html)

In [6]:
import pandas as pd

serie1 = pd.Series([1, 2, 3, 4, 5])
serie2 = pd.Series([4, 5, 6, 7, 8])

mascara = serie1.isin(serie2)
posiciones = serie1[mascara].index

print(posiciones)


Index([3, 4], dtype='int64')


#### Ejercicio Pandas 05: Utiliza las series creadas en el ejercicio 03 y lista los elementos no comunes entre ambas (‚òÖ‚òÖ‚òÜ)

In [9]:
import pandas as pd
import numpy as np

serie1 = pd.Series([1, 2, 3, 4, 5])
serie2 = pd.Series([4, 5, 6, 7, 8])

solo_en_serie1 = serie1[~serie1.isin(serie2)]
solo_en_serie2 = serie2[~serie2.isin(serie1)]

elementos_no_comunes = pd.concat([solo_en_serie1, solo_en_serie2])

print(elementos_no_comunes)



0    1
1    2
2    3
2    6
3    7
4    8
dtype: int64


#### Ejercicio 06: Crea un DataFrame de n√∫meros aleatorios con 5 columnas y 10 filas y ordena una de sus columnas de menor a mayor (‚òÖ‚òÖ‚òÜ)

> NOTA: Revisa la funci√≥n `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [10]:
import pandas as pd
import numpy as np

np.random.seed(42)

datos = np.random.rand(10, 5)

df = pd.DataFrame(datos, columns=['Columna_A', 'Columna_B', 'Columna_C', 'Columna_D', 'Columna_E'])

df_ordenado = df.sort_values(by='Columna_A', ascending=True)

print(df_ordenado)


   Columna_A  Columna_B  Columna_C  Columna_D  Columna_E
2   0.020584   0.969910   0.832443   0.212339   0.181825
8   0.122038   0.495177   0.034389   0.909320   0.258780
1   0.155995   0.058084   0.866176   0.601115   0.708073
3   0.183405   0.304242   0.524756   0.431945   0.291229
0   0.374540   0.950714   0.731994   0.598658   0.156019
6   0.607545   0.170524   0.065052   0.948886   0.965632
4   0.611853   0.139494   0.292145   0.366362   0.456070
9   0.662522   0.311711   0.520068   0.546710   0.184854
5   0.785176   0.199674   0.514234   0.592415   0.046450
7   0.808397   0.304614   0.097672   0.684233   0.440152


#### Ejercicio Pandas 07: Modifica el nombre de las 5 columnas del DataFrame anterior por el siguiente formato: `N_column` donde `N` es el n√∫mero de la columna (‚òÖ‚òÖ‚òÜ)

> NOTA: Revisa la funci√≥n `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [13]:
import pandas as pd
import numpy as np

np.random.seed(42)

datos = np.random.rand(10, 5)

df = pd.DataFrame(datos, columns=['Columna_A', 'Columna_B', 'Columna_C', 'Columna_D', 'Columna_E'])

nuevos_nombres = [f"{i}_column" for i in range(1, 6)]

df.columns = nuevos_nombres

print(df.head())

   1_column  2_column  3_column  4_column  5_column
0  0.374540  0.950714  0.731994  0.598658  0.156019
1  0.155995  0.058084  0.866176  0.601115  0.708073
2  0.020584  0.969910  0.832443  0.212339  0.181825
3  0.183405  0.304242  0.524756  0.431945  0.291229
4  0.611853  0.139494  0.292145  0.366362  0.456070


#### Ejercicio Pandas 08: Modifica el √≠ndice de las filas del DataFrame del ejercicio 06 (‚òÖ‚òÖ‚òÜ)

> NOTA: Revisa la funci√≥n `pd.DataFrame.sort_values` (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [14]:
import pandas as pd
import numpy as np

np.random.seed(42)

datos = np.random.rand(10, 5)

df = pd.DataFrame(datos, columns=['Columna_A', 'Columna_B', 'Columna_C', 'Columna_D', 'Columna_E'])

df.index = [f"Fila_{i}" for i in range(1, 11)]

print(df)

         Columna_A  Columna_B  Columna_C  Columna_D  Columna_E
Fila_1    0.374540   0.950714   0.731994   0.598658   0.156019
Fila_2    0.155995   0.058084   0.866176   0.601115   0.708073
Fila_3    0.020584   0.969910   0.832443   0.212339   0.181825
Fila_4    0.183405   0.304242   0.524756   0.431945   0.291229
Fila_5    0.611853   0.139494   0.292145   0.366362   0.456070
Fila_6    0.785176   0.199674   0.514234   0.592415   0.046450
Fila_7    0.607545   0.170524   0.065052   0.948886   0.965632
Fila_8    0.808397   0.304614   0.097672   0.684233   0.440152
Fila_9    0.122038   0.495177   0.034389   0.909320   0.258780
Fila_10   0.662522   0.311711   0.520068   0.546710   0.184854
