# Introducción a Pandas
## ¿Qué es Pandas?
Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es ampliamente utilizada en la ciencia de datos, estadísticas, y en campos relacionados para facilitar la manipulación y el análisis de grandes conjuntos de datos.

In [4]:
import pandas as pd

## Concepto de DataFrame
Un DataFrame en Pandas es una estructura de datos bidimensional, como una hoja de cálculo, con columnas de diferentes tipos. Es similar a una tabla SQL o una hoja de datos en Excel. Los DataFrames permiten almacenar y manipular datos tabulados en filas y columnas.

## Creación de un DataFrame a partir de un Diccionario
Pandas permite crear DataFrames a partir de diccionarios de listas. Cada lista en el diccionario se convierte en una columna en el DataFrame. Aquí hay un ejemplo:

In [3]:
# Listas predefinidas
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Importar pandas como pd
import pandas as pd

# Crear diccionario my_dict con tres pares clave:valor
my_dict = { 
    'country': names, 
    'drives_right': dr,
    'cars_per_cap': cpc,
}

# Construir un DataFrame cars a partir de my_dict
cars = pd.DataFrame(my_dict)

# Imprimir cars
print(cars)


         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45


# Asignación de Etiquetas a las Filas en un DataFrame

Después de crear un DataFrame, puedes asignar etiquetas personalizadas a las filas. Esto es útil para hacer referencia a las filas por nombres más significativos en lugar de por índices numéricos. Aquí hay un ejemplo que continúa con el DataFrame cars:

In [8]:
# Construir el DataFrame 'cars'
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
cars_dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc }
cars = pd.DataFrame(cars_dict)
print(cars)

# Definición de 'row_labels'
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']

# Especificar las etiquetas de fila de 'cars'
cars.index = row_labels

# Imprimir 'cars' nuevamente
print(cars)


         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45
           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JPN          Japan         False           588
IN           India         False            18
RU          Russia          True           200
MOR        Morocco          True            70
EG           Egypt          True            45


# Creación de un DataFrame a partir de un Archivo CSV

In [5]:
import pandas as pd

# Importar el archivo CSV 'cars.csv' en un DataFrame
cars = pd.read_csv('cars.csv')

# Imprimir el DataFrame 'cars'
print(cars)


  Unnamed: 0  cars_per_cap        country  drives_right
0         US           809  United States          True
1        AUS           731      Australia         False
2        JPN           588          Japan         False
3         IN            18          India         False
4         RU           200         Russia          True
5        MOR            70        Morocco          True
6         EG            45          Egypt          True


# Importación de un DataFrame con una Columna Índice Específica
Cuando importas un archivo CSV en un DataFrame, puedes especificar una de las columnas para que actúe como índice del DataFrame. Esto se hace usando el parámetro index_col. Aquí hay un ejemplo utilizando el archivo CSV cars.csv:

In [5]:
cars = pd.read_csv('cars.csv', index_col=0)

# Imprimir el DataFrame 'cars'
print(cars)

            cars_per_cap        country  drives_right
Unnamed: 0                                           
US                   809  United States          True
AUS                  731      Australia         False
JPN                  588          Japan         False
IN                    18          India         False
RU                   200         Russia          True
MOR                   70        Morocco          True
EG                    45          Egypt          True


# Selección de Filas y Columnas en Pandas

## Selección Básica con Corchetes
- **Selección de Columnas**: Usar corchetes directamente con el nombre de la columna devuelve una Serie. Ejemplo: `cars['country']` devuelve la columna 'country' como una Serie.
- **Selección de Filas**: Utilizar corchetes con un rango de índices selecciona filas. Ejemplo: `cars[0:3]` selecciona las primeras tres filas.


In [9]:
# Devuelve la columna 'country' como una Serie
print(cars['country'])


US     United States
AUS        Australia
JPN            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object


In [10]:
# Selecciona las primeras tres filas
print(cars[0:3])


           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JPN          Japan         False           588


## Uso de `loc` para Selecciones con Etiquetas
- **Selección de Filas y/o Columnas**: `loc` se utiliza para seleccionar por etiquetas. Puedes seleccionar filas, columnas, o ambos.
  - Para seleccionar una fila como Serie: `cars.loc['JPN']`.
  - Para seleccionar una columna como Serie: `cars.loc[:, 'drives_right']`.
  - Para seleccionar una columna como DataFrame: `cars.loc[:, ['drives_right']]`.
  - Para seleccionar un subconjunto de filas y columnas como DataFrame: `cars.loc[['JPN', 'AUS'], ['country', 'drives_right']]`.


In [14]:
# Selecciona la fila 'JPN' como Serie
print(cars.loc['JPN'])
print("\n")

# Selecciona la columna 'drives_right' como Serie
print(cars.loc[:, 'drives_right'])
print("\n")

# Selecciona la columna 'drives_right' como DataFrame
print(cars.loc[:, ['drives_right']])
print("\n")

# Selecciona un subconjunto de filas y columnas como DataFrame
print(cars.loc[['JPN', 'AUS'], ['country', 'drives_right']])
print("\n")


country         Japan
drives_right    False
cars_per_cap      588
Name: JPN, dtype: object


US      True
AUS    False
JPN    False
IN     False
RU      True
MOR     True
EG      True
Name: drives_right, dtype: bool


     drives_right
US           True
AUS         False
JPN         False
IN          False
RU           True
MOR          True
EG           True


       country  drives_right
JPN      Japan         False
AUS  Australia         False




## Uso de `iloc` para Selecciones con Índices Numéricos
- **Selección de Filas y/o Columnas**: `iloc` se utiliza para seleccionar por posición numérica.
  - Para seleccionar una fila como Serie: `cars.iloc[2]`.
  - Para seleccionar una columna como Serie: `cars.iloc[:, 2]`.
  - Para seleccionar una columna como DataFrame: `cars.iloc[:, [2]]`.
  - Para seleccionar un subconjunto de filas y columnas como DataFrame: `cars.iloc[[1, 5], [1, 2]]`.

In [16]:
# Selecciona la tercera fila (Japón) como Serie
print(cars.iloc[2])
print("\n")

# Selecciona la tercera columna ('drives_right') como Serie
print(cars.iloc[:, 2])
print("\n")

# Selecciona la tercera columna ('drives_right') como DataFrame
print(cars.iloc[:, [2]])
print("\n")

# Selecciona un subconjunto de filas y columnas como DataFrame
print(cars.iloc[[1, 5], [1, 2]])


country         Japan
drives_right    False
cars_per_cap      588
Name: JPN, dtype: object


US     809
AUS    731
JPN    588
IN      18
RU     200
MOR     70
EG      45
Name: cars_per_cap, dtype: int64


     cars_per_cap
US            809
AUS           731
JPN           588
IN             18
RU            200
MOR            70
EG             45


     drives_right  cars_per_cap
AUS         False           731
MOR          True            70


## Diferenciación entre Series y DataFrames
- **Series**: Una Serie es unidimensional y se obtiene al seleccionar una sola fila o columna.
- **DataFrames**: Un DataFrame es bidimensional y se obtiene al seleccionar múltiples filas y/o columnas.

---