# DataFrame I

Los objeticos de aprendizaje son:

1. ¿Qué es un DataFrame? 
2. Importar un DataFrame
    + CSV
    + Excel
3. Introducción a Atributos y Métodos
    
    
## 1. ¿Qué es un DataFrame? 

Es el eje central de Pandas, es el equivalente a una hoja de cálculo en Excel o una tabla de SQL. 

Un DataFrame es una estructura de datos indexada y bidimensional, i.e. un conjunto de Series (columnas) de tipos potencialmente diferentes que comparten índice.


## 2. Importar un DataFrame

Al igual que con las series, el verdadero valor de un DataFrame proviene de:

1. Su capacidad para almacenar datos de fuentes externas.
2. La abstracción que crean para modelar las estructuras de datos tabulares.


In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame(
    data={
        'col_1': [1, 2, 3],
        'col_2': [4, 5, 6],
    }
)
df

### *.csv

Un archivo del tipo *.csv (_Comma Separated Values_) es un archvio plano que separa las columnas mediante el uso de comas (en ocasiones otros símbolos, tales como: ";", "|"). 

Pandas cuenta con la función [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). La forma más simple sería:

```python

pd.read_csv(filepath_or_buffer = "./datos.csv", sep = ",")

```

Veamos un ejemplo:

In [None]:
nba_df = pd.read_csv("./Data/pandas/nba.csv")
nba_df

### Excel

Aunque no se trata del formato más eficiente para almacenar datos, sí que es uno de los más prácticos para compartir/recibir información con perfiles no técnicos. 

Pandas cuenta con la función [`read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).


1. Libro Excel una hoja y datos datos en primera columna y primer renglón.

In [None]:
excel_df = pd.read_excel("./Data/pandas/Data - Single Worksheet.xlsx")
excel_df

2. Libro Excel múltiples hojas y datos no alineados.

<img src = "../files/Excel_dna.png">

In [None]:
pd.read_excel("./data/pandas/Data - Multiple Worksheets.xlsx", sheet_name = "Data 2")

In [None]:
pd.read_excel(
    "./data/pandas/Data - Multiple Worksheets.xlsx",
    sheet_name = "Data 2",
    skiprows = 2,
    usecols = lambda x: "Unnamed" not in x
)

## 3. Introducción a Atributos y Métodos

Los DataFrame comparten algunos de los atrubutos y métodos con las Series. En esta sección exploraremos los más básicos.

### head() & tail()



In [None]:
nba_df.head()

In [None]:
nba_df.tail()

### index

Regresa los índices del `DataFrame`.

In [None]:
nba_df.index

In [None]:
list(nba_df.index)[:10]

### values

Los valores de un DataFrame en formato matriz.

In [None]:
nba_df.values

### Shape

Regresa las dimensiones del DataFrame:

In [None]:
nba_df.shape

Podemos acceder a renglones enteros:

In [None]:
nba_df.values[0][:2]

... A los primeros $n$ valores de una columna:

In [None]:
nba_df.values[:,0][:10]

### Tipo de datos

En oncasiones querremos saber qué tipo de dato ha sido asignado a cada columna, para ello usaremos el atributo `.dtypes`. 

In [None]:
nba_df.dtypes

### Nombres de las Columnas

También es posible acceder al nombre de las columnas mediante el atributo `.columns`

In [None]:
nba_df.columns

De este modo podemos:

- Acceder a valores específicos mediante índices
- Modificar el nombre de las columnas
- Seleccionar un subconjunto 
- Aplicar funciones a los nombres

In [None]:
nba_df.columns[0]

In [None]:
nba_df.columns = [col.lower() for col in nba_df.columns]

In [None]:
nba_df.head()

Lamentablemente, los objetos de la clase `Index`, son inmutables (como los ``str`)

In [None]:
nba_df.columns[0] = "Nombre"

Entonces... ¿Cómo cambiamos valores individuales?

### rename

El método `.rename()` nos permite modificar, de muchas formas los nombres. Veamos algunos ejemplos:

In [None]:
nba_df.rename(
    columns={
        'name': 'Nombre'
    }
).head()

In [None]:
nba_df.head()

Para que los cambios persistan después de la llamada de `.rename()`, tenemos que usar `inplace = True`.

In [None]:
nba_df.rename(
    columns={"name":"Nombre"},
    inplace=True
)

In [None]:
nba_df.head()

También podemos modificar de manera sistemática los nombres de las columnas con el método `.rename()`, al igual que cuando usamos *list comprehension*.

In [None]:
def cambiar_nombres(col: str)->str:
    return ((col.lower() + "_")*2)[:-1]

In [None]:
[cambiar_nombres(col) for col in nba_df.columns]

In [None]:
nba_df.rename(
    columns=lambda col: ((col.lower() + "_")*2)[:-1]
)