# Introducción a Pandas

**Pandas** es una biblioteca de manipulación de datos de alto nivel desarrollada por Wes McKinney y basada en el paquete NumPy.  
Se considera una herramienta de nivel superior en comparación con NumPy, lo que la hace especialmente atractiva para científicos de datos de todo el mundo.

Una de las principales características de Pandas es que permite almacenar y manipular datos tabulares (similares a las tablas de bases de datos o hojas de cálculo) utilizando un objeto llamado **DataFrame**.

Por ejemplo, puedes crear un DataFrame a partir de un diccionario, como se muestra a continuación:

```python
# Definimos un diccionario con datos tabulares sobre los países BRICS
data = {
    "country": ["Brazil", "Russia", "India", "China", "South Africa"],
    "capital": ["Brasilia", "Moscow", "New Delhi", "Beijing", "Pretoria"],
    "area": [8.516, 17.10, 3.286, 9.597, 1.221],
    "population": [200.4, 143.5, 1252, 1357, 52.98]
}

# Importamos pandas y creamos el DataFrame
import pandas as pd
brics = pd.DataFrame(data)

# Cambiamos los nombres de las filas por las abreviaturas de cada país
brics.index = ['BR', 'RU', 'IN', 'CH', 'SA']

print(brics)
```

Esto te dará como resultado una tabla con los datos de los países BRICS, donde cada fila está identificada por la abreviatura del país.

> **Nota:** En Pandas, el manejo de datos tabulares resulta mucho más intuitivo y potente que en NumPy, permitiendo operaciones avanzadas como filtrado, agrupamiento, combinación de datos, entre muchas otras.


In [7]:
import pandas as pd

brics = pd.read_csv('./data/brics.csv',index_col=0)
print(brics)


         country    capital    area  population
BR        Brazil   Brasilia   8.516      200.40
RU        Russia     Moscow  17.100      143.50
IN         India  New Delhi   3.286     1252.00
CH         China    Beijing   9.597     1357.00
SA  South Africa   Pretoria   1.221       52.98


# Selección e Indexación de Datos en DataFrames

Hay numerosas formas en las que puedes indexar y seleccionar datos de DataFrames, así que se explicará paso a paso.

## 1. Seleccionar una columna

Supongamos que solo se desea seleccionar la columna de país de `BRICS`:

```python
brics['country']
```

Esto nos devolverá la columna completa de `country` del DataFrame, sin embargo la última línea dirá algo como `Name: country, dtype: object`.  
Nos queda más que claro que no estamos trabajando con un DataFrame normal.

Esto lo podremos saber utilizando la función `type` que nos ofrece pandas:

```python
type(brics['country'])
```

Se puede pensar que es una matriz unidimensional que se puede etiquetar al igual que el DataFrame.

---

Si se desea seleccionar la columna del país pero conservar los datos en un DataFrame, se necesitará hacer uso de corchetes dobles, como en el siguiente ejemplo:

```python
brics[['country']]
```

Se puede hacer para el número de columnas que necesitemos:

```python
brics[['country', 'capital']]
```

---

## 2. Seleccionar filas

Ahora vamos a hacer algo semejante, pero para seleccionar filas.  
Para obtener la segunda, tercera y cuarta fila utilizaremos la rebanada `1:4`:

```python
brics[1:4]
```

Los corchetes funcionan, pero solo ofrecen una funcionalidad limitada.  
Lo ideal sería algo similar a las matrices NumPy 2D.

Para lograr algo similar con pandas necesitaremos ampliar nuestra caja de herramientas con las funciones `loc` e `iloc`.

In [None]:
print('Asi se ve el subDataFrame:') # Solo se ven 2 columnas
brics[['country','capital']]

Asi se ve el subDataFrame:


Unnamed: 0,country,capital
BR,Brazil,Brasilia
RU,Russia,Moscow
IN,India,New Delhi
CH,China,Beijing
SA,South Africa,Pretoria


In [None]:
print('Aqui se ven las filas:') # Solo se ven 3 filas
brics[1:4]

Aqui se ven las filas:


Unnamed: 0,country,capital,area,population
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0


# Selección de datos en DataFrames usando `loc` e `iloc`

La función `loc` es una técnica para seleccionar partes de tus datos basándose en etiquetas, mientras que `iloc` se basa en la posición.

---

## Uso de la función `loc`

Comenzaremos con la función `loc`. Echaremos un vistazo al DataFrame de los BRICS e intentaremos obtener la fila correspondiente a Rusia:

```python
brics.loc['RU']  # Colocamos la etiqueta de la fila de interés entre corchetes
```

Tal como sucedió antes, el resultado no será un DataFrame sino una Serie. Si queremos obtener la información de 'RU' dentro de un DataFrame, tendremos que hacer uso de los corchetes dobles:

```python
brics.loc[['RU']]
```

De igual manera, podemos seleccionar varias filas al mismo tiempo:

```python
brics.loc[['RU', 'IN', 'CH']]
```

La diferencia aquí es que puedes ampliar tu selección con una coma y una especificación de las columnas de interés.  
Por ejemplo, si solo quieres las columnas de país y capital:

```python
brics.loc[['RU', 'IN', 'CH'], ['country', 'capital']]
```

Obviamente, también podemos seleccionar todas las filas y solo algunas columnas:

```python
brics.loc[:, ['country', 'capital']]
```

---

## Uso de la función `iloc`

Si se desea crear subconjuntos de Pandas DataFrames en función de su posición o índice, necesitarás la función `iloc`.

Haremos los mismos ejemplos que con `loc` y comenzaremos obteniendo la fila de Rusia (que, por ejemplo, podría estar en la posición 1):

```python
brics.iloc[[1]]  # Esto nos devuelve la fila de Rusia
```

Continuamos obteniendo las primeras 3 filas:

```python
brics.iloc[[0, 1, 2]]  # Nos da las primeras 3 filas del DF
```

Ahora trataremos de obtener la columna de país y capital en ciertas filas:

```python
brics.iloc[[1, 2, 3], [0, 1]]
```

Por último, podemos obtener todas las filas y solo algunas columnas de la siguiente manera:

```python
brics.iloc[:, [0, 1]]
```

In [None]:
# Obtenemos las primeras filas con loc
print('SubDataFrame con loc:')  # Solo se ven 3 filas
brics.loc[['RU', 'IN', 'CH']]

SubDataFrame con loc:


Unnamed: 0,country,capital,area,population
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0
CH,China,Beijing,9.597,1357.0


In [28]:
# Obtenemos un subDataFrame con loc
print('SubDataFrame con loc:')  # Solo se ven 2 columnas
brics.loc[:, ['country', 'capital']]


SubDataFrame con loc:


Unnamed: 0,country,capital
BR,Brazil,Brasilia
RU,Russia,Moscow
IN,India,New Delhi
CH,China,Beijing
SA,South Africa,Pretoria


In [30]:
# Obtenemos las primeras filas con iloc
print('SubDataFrame con iloc:')  # Solo se ven 3 filas
brics.iloc[[0, 1, 2]]  # Nos da las primeras 3 filas del DF


SubDataFrame con iloc:


Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Delhi,3.286,1252.0


In [31]:
# Obtenemos un subDataFrame con iloc
print('SubDataFrame con iloc:')  # Solo se ven 2 columnas
brics.iloc[:, [0, 1]]


SubDataFrame con iloc:


Unnamed: 0,country,capital
BR,Brazil,Brasilia
RU,Russia,Moscow
IN,India,New Delhi
CH,China,Beijing
SA,South Africa,Pretoria
