# Modulo 3: Introducción a Pandas

Pandas es una libreria de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Se basa en dos estructuras (Series y Dataframe) de datos principales que permiten el almacenamiento, manipulación y análisis eficiente de datos estructurados y no estructurados.

Pandas proporciona una amplia gama de funcionalidades para el procesamiento y análisis de datos, incluyendo la carga y escritura de datos desde y hacia diferentes formatos, manipulación de datos, filtrado, agregación, reordenamiento, cálculos estadísticos, manejo de valores faltantes, entre otras. Además, se integra bien con otras librerias de Python, como [NumPy](https://numpy.org/devdocs/user/quickstart.html), [Matplotlib](https://matplotlib.org/) y [scikit-learn](https://scikit-learn.org/stable/), lo que permite realizar análisis de datos más avanzados y construir aplicaciones de aprendizaje automático.

En Pandas, los tipos de datos más comunes que se utilizan en los DataFrames son los siguientes:

* **`object`:** Equivalente a `str` o  `cadenas`. Se utiliza para representar cadenas de texto.
* **`int64`:** Equivalente a `int` o `enteros`. Se utiliza para representar números enteros.
* **`float64`:** Equivalente a `float` o `flotantes`. Se utiliza para representar números de punto flotante.
* **`bool`:** Equivalente a `bool` o `booleanos`. Se utiliza para representar valores booleanos True o False.

[Aquí](https://pandas.pydata.org/docs/user_guide/index.html) puede ver la guía de usuario de Pandas.

In [1]:
# Importamos la libreria de Pandas
import pandas as pd

Nótese que al importar **Pandas** asignándole el nombre o alias `pd`, que es una convención comúnmente utilizada para abreviar el nombre de **Pandas** y hacerlo más fácil de usar en el código. Usted puede utilizar otro alias, pero se recomienda `pd`.

In [2]:
# Revisamos la versión de Pandas
pd.__version__

'1.5.3'

# 1. Series

una Serie es una estructura de datos unidimensional etiquetada que puede contener datos de cualquier tipo. Se puede pensar en como una columna de una tabla o un arreglo unidimensional con etiquetas.

La Serie consta de dos partes principales: 
* **`Datos`:** son los valores que contiene la Serie.
* **`Índices`:** son las etiquetas asociadas a cada valor en la Serie. Los índices permiten acceder y manipular los datos de forma más intuitiva y basada en etiquetas.


In [3]:
# Creamos una Serie
datos= [10, 20, 30, 40, 50]
serie1 = pd.Series(datos)
print(serie1)

0    10
1    20
2    30
3    40
4    50
dtype: int64


En el ejemplo anterior, se crea una Serie llamada `serie1` a partir de una lista de números. La función `pd.Series()` toma la lista de datos como argumento y crea la Serie con los valores y los índices predeterminados. Al imprimir la Serie, se obtendrán los valores y los índices correspondientes.

## 1.1. Indexación en las Series: Localizando los elementos

En Pandas se puede indexar una Serie de varias formas para acceder a sus valores y realizar operaciones. entre las cuales se encuentran:
1. Indexación por posición
2. Indexación por etiqueta
3. Indexación por rango
4. Indexación escogiendo varios elementos

### Indexación por posición

Se puede acceder a los elementos de una Serie utilizando su posición numérica. Para ello, puedes utilizar corchetes y especificar el índice numérico deseado. La indexación por posición en las Series comienza desde cero (0) al igual que las listas.

In [4]:
# Ejemplo 1: Paises
paises = pd.Series(['Reino Unido', 'Francia', 'España', 'Italia', 'Alemania']) # Generamos una serie con nombres de ciudades
print(paises[0]) # Accedemos al elemento de la posición 0
print(paises[2]) # Accedemos al elemento de la posición 2

Reino Unido
España


### Indexación por etiqueta

Se puede acceder a los elementos de una Serie utilizando sus etiquetas. Pandas asigna automáticamente etiquetas a los elementos de la Serie si no se especifican explícitamente. Para acceder a un elemento por su etiqueta, puedes utilizar el método `loc[]`.

In [5]:
# Ejemplo 2: Número de habitantes
habitantes = pd.Series([8908081, 2140526, 3223334, 2870493, 3769495], index=['a','b','c','d','e'])
print(habitantes) 
# Se muestra la serie con sus indices.
print(' ')
print(habitantes.loc['c']) # Accede al elemento con etiqueta 'c'
print(habitantes.loc['e']) # Accede al elemento con etiqueta 'e'

a    8908081
b    2140526
c    3223334
d    2870493
e    3769495
dtype: int64
 
3223334
3769495


### Indexación por rango

Se acceder a un rango de elementos en una Serie utilizando la indexación por posición o por etiqueta junto con los operadores **`:`**.

In [6]:
# Ejemplo 3: PIB real y Tasa de Desempleo
pib_real = pd.Series([3076000000000, 2753000000000, 1355000000000, 2099000000000, 1995000000000]) # PIB Real
print(pib_real[1:4])  # Accede a los elementos en las posiciones 1, 2 y 3

desempleo = pd.Series([5.2, 6.1, 4.8, 7.3, 3.9], index=['a', 'b', 'c', 'd', 'e']) # Tasa de desempleo
print(desempleo['b':'d'])  # Accede a los elementos con etiquetas 'b', 'c' y 'd'

1    2753000000000
2    1355000000000
3    2099000000000
dtype: int64
b    6.1
c    4.8
d    7.3
dtype: float64


### Indexación escogiendo varios elementos

Para indexar varios elementos específicos en una Series, se puede utilizar la función `loc[]` o la función `iloc[]`. La función `loc[]` se utiliza para realizar la indexación mediante etiquetas, mientras que la función `iloc[]` se utiliza para realizar la indexación mediante posiciones numéricas.

In [7]:
# Ejemplo 4: loc[]

print(desempleo.index) # Para ver las etiquetas de los indices de la serie

print(desempleo[['b','d']]) # Se accede a lso elemento b y d

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
b    6.1
d    7.3
dtype: float64


En el ejemplo anterior, la Serie tiene los índices `'a', 'b', 'c', 'd' y 'e'`, y se desea indexar los elementos correspondientes a los índices `'b' y 'd'`. Al utilizar `serie.loc[['b','d']]`, se obtiene una nueva serie que contiene solo los elementos con los índices especificados. 

**Importante: cuando se va acceder varios elementos sin que sea por rango, se debe utilizar dobre corchete `[[]]`**

In [8]:
# Ejemplo 5: iloc[]

print(paises.index) # Para ver los indices de la serie

print(paises.iloc[[1,3]]) # Se accede a lso elementos 1 y 3

RangeIndex(start=0, stop=5, step=1)
1    Francia
3     Italia
dtype: object


En el ejemplo anterior, la serie contiene los elementos `['Reino Unido', 'Francia', 'España', 'Italia', 'Alemania']`. Se desea indexar los elementos en las posiciones 1 y 3. Al utilizar `paises.iloc[[1,3]]`, se imprimen los elementos en las posiciones especificadas.

## 1.2. Filtrando las Series en Python

El filtrado de las series en Pandas se realiza utilizando operaciones de comparación y operadores lógicos. Puedes aplicar condiciones para seleccionar elementos específicos de una serie basándote en ciertos criterios.

Supongamos que tienes una serie llamada serie con datos numéricos y deseas filtrar los elementos que cumplen una condición determinada, como .

In [9]:
# Ejemplo 6: seleccionando solo los valores mayores a 10
serie = pd.Series([5, 12, 8, 20, 15])
serie[serie > 10]


1    12
3    20
4    15
dtype: int64

En el ejemplo anterior, se utiliza la expresión `serie > 10` para crear una máscara booleana que indica qué elementos de la serie cumplen la condición de ser mayores a 10. Luego, esta máscara se aplica a la serie original (`serie[serie > 10]`) para obtener una nueva serie filtrada con solo los elementos que cumplen la condición.

También puedes combinar múltiples condiciones utilizando operadores lógicos, como `&` (AND), `|` (OR).

In [10]:
# Ejemplo 7: '&'
serie[(serie > 10) & (serie < 20)]

1    12
4    15
dtype: int64

In [11]:
# Ejemplo 7: '|'

In [12]:
serie[(serie > 15) | (serie == 5)]

0     5
3    20
dtype: int64

## 1.3. Operaciones con Series
En Pandas, puedes realizar operaciones aritméticas entre series de manera sencilla. Las operaciones se realizan elemento a elemento, lo que significa que se aplica la operación a cada par de elementos correspondientes en las series.

In [13]:
# Se crean las series
s1 = pd.Series([1, 2, 3, 4])
s2 = pd.Series([5, 6, 7, 8])

In [14]:
# Suma
suma = s1 + s2
suma

0     6
1     8
2    10
3    12
dtype: int64

In [15]:
# Resta
resta = s1 - s2
resta

0   -4
1   -4
2   -4
3   -4
dtype: int64

In [16]:
# Multiplicación
multiplicacion = s1 * s2
multiplicacion

0     5
1    12
2    21
3    32
dtype: int64

In [17]:
# División
division = s1 / s2
division

0    0.200000
1    0.333333
2    0.428571
3    0.500000
dtype: float64

# 2. DataFrame

Un DataFrame es una estructura de datos bidimensional en Pandas que se utiliza para almacenar y manipular datos tabulares. Éste consta de filas y columnas, donde cada columna puede contener diferentes tipos de datos. Las filas se identifican mediante un índice, que puede ser numérico o de tipo cadena.

Los DataFrames en Pandas permiten realizar una variedad de operaciones de manipulación y análisis de datos, como seleccionar subconjuntos de datos, filtrar, agregar, combinar y transformar datos. También proporcionan métodos y funciones para cargar y guardar datos desde y hacia diferentes formatos, como archivos CSV, Excel o bases de datos.

In [18]:
# Creamos un DataFrame a partir de las series

# Creando las series
paises = pd.Series(['Reino Unido', 'Francia', 'España', 'Italia', 'Alemania'])
habitantes = pd.Series([8908081, 2140526, 3223334, 2870493, 3769495])
pib_real = pd.Series([3076000000000, 2753000000000, 1355000000000, 2099000000000, 1995000000000])
desempleo = pd.Series([5.2, 6.1, 4.8, 7.3, 3.9])

# Generando el DataFrame

df = pd.DataFrame({'pais': paises, 'habitantes': habitantes, 'pib_real': pib_real, 'desempleo': desempleo})
df

Unnamed: 0,pais,habitantes,pib_real,desempleo
0,Reino Unido,8908081,3076000000000,5.2
1,Francia,2140526,2753000000000,6.1
2,España,3223334,1355000000000,4.8
3,Italia,2870493,2099000000000,7.3
4,Alemania,3769495,1995000000000,3.9


El DataFrame se crea con `pd.DataFrame()` y el argumento es un diccionario en que la llave es el nombre de la columna y el valor de cada llave es la serie, que puede ser cualquier otro objeto como una lista o un arreglo de Numpy.  

## 2.1. Indexación en las Series: Localizando los elementos

En Pandas, puedes indexar un DataFrame utilizando diferentes métodos y operaciones.

### Indexación basada en nombres de columnas

```python
df['col1'] # Una columna
df[['col1']]
```

```python
df[['col1', 'col2','col3']] # Dos o más columnas
```

Nótese que en el caso de escoger una sola columna, se peude utilizar corchetes simple **`([])`** o doble corchetes **`([[]])`** Cual se utiliza corchete simple Python lo toma como una Serie, mientras que si utilizan doble corchete Python lo toma como una columna del Dataframe. 

In [19]:
# Ejemplo 1: Una sola columna
df[['pais']]

Unnamed: 0,pais
0,Reino Unido
1,Francia
2,España
3,Italia
4,Alemania


In [20]:
# Ejemplo 2: Dos columnas sola columna
df[['pais', 'desempleo']]

Unnamed: 0,pais,desempleo
0,Reino Unido,5.2
1,Francia,6.1
2,España,4.8
3,Italia,7.3
4,Alemania,3.9


### Indexación basada en etiquetas con `loc[]`

```python
df.loc[etiqueta_fila] # Se escoge una fila
df.loc[etiqueta_fila, etiqueta_columna] # Se escoge fila y columna

```

In [21]:
# Ejemplo 3: Acceder a una fila por etiqueta
df.loc[2]  # Acceder a la tercera fila

pais                 España
habitantes          3223334
pib_real      1355000000000
desempleo               4.8
Name: 2, dtype: object

In [22]:
# Ejemplo 4: Acceder a un elemento específico por etiqueta de fila y columna
df.loc[1, 'pais'] # Acceder al pais de la segunda fila

'Francia'

In [23]:
# Ejemplo 5: Acceder a múltiples filas y columnas por etiqueta

df.loc[1:2, 'habitantes':'desempleo']  # Acceder a las filas 2, 3 y 4 y las columnas 'habitantes', 'pib_real' y 'desempleo'

Unnamed: 0,habitantes,pib_real,desempleo
1,2140526,2753000000000,6.1
2,3223334,1355000000000,4.8


### Indexación basada en posiciones con `iloc[]`:

```python
df.iloc[posicion_fila]
df.iloc[posicion_fila, posicion_columna]
```

In [24]:
# Ejemplo 6: Acceder a una fila por posición
df.iloc[2] # Acceder a la tercera fila

pais                 España
habitantes          3223334
pib_real      1355000000000
desempleo               4.8
Name: 2, dtype: object

In [25]:
# Ejemplo 7: Acceder a un elemento específico por posición de fila y columna
df.iloc[1, 0] # Acceder al nombre de la segunda fila

'Francia'

In [26]:
# Ejemplo 8: Acceder a múltiples filas y columnas por posición
print(df.iloc[1:3, 1:3])  # Acceder a las filas 2 y 3 y las columnas 2 y 3

   habitantes       pib_real
1     2140526  2753000000000
2     3223334  1355000000000


### Indexación booleana

```python
df[condicion]
```


In [27]:
# Ejemplo 9: Basado en una condición
df[df['pais'] == 'Italia'] # Filtra filas donde el pais se llame 'Italia'

Unnamed: 0,pais,habitantes,pib_real,desempleo
3,Italia,2870493,2099000000000,7.3


# Referencias

* El Libro de Python: https://ellibrodepython.com/
* Learn Python Programming: https://www.programiz.com/python-programming/
* Charles R. Severance: “Python for Everybody: Exploring Data Using Python 3”. Libro de version libre: https://www.py4e.com/html3/
* Pandas: powerful Python data analysis toolkit. Libro versión PDF: https://pandas.pydata.org/pandas-docs/version/1.4.4/pandas.pdf



# Referencias adicionales
* Libro sobre los elementos básicos de Python: https://learnpythontherightway.com/ 
* Curso EdX sobre exploración de datos con Python y R: https://www.edx.org/es/course/analisis-exploratorio-de-datos-con-python-y-r 
* Curso interactivo introductorio a Python de DataCamp: https://www.datacamp.com/courses/intro-to-python-for-data-science