# DataFrame I

Los objeticos de aprendizaje son:

1. ¿Qué es un DataFrame? 
2. Importar un DataFrame
    + CSV
    + Excel
3. Introducción a Atributos y Métodos
    
    
## 1. ¿Qué es un DataFrame? 

Es el eje central de Pandas, es el equivalente a una hoja de cálculo en Excel o una tabla de SQL. 

Un DataFrame es una estructura de datos indexada y bidimensional, i.e. un conjunto de Series (columnas) de tipos potencialmente diferentes que comparten índice.


## 2. Importar un DataFrame

Al igual que con las series, el verdadero valor de un DataFrame proviene de:

1. Su capacidad para almacenar datos de fuentes externas.
2. La abstracción que crean para modelar las estructuras de datos tabulares.


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(
    data={
        'col_1': [1, 2, 3],
        'col_2': [4, 5, 6],
    }
)
df

Unnamed: 0,col_1,col_2
0,1,4
1,2,5
2,3,6


### *.csv

Un archivo del tipo *.csv (_Comma Separated Values_) es un archvio plano que separa las columnas mediante el uso de comas (en ocasiones otros símbolos, tales como: ";", "|"). 

Pandas cuenta con la función [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). La forma más simple sería:

```python

pd.read_csv(filepath_or_buffer = "./datos.csv", sep = ",")

```

Veamos un ejemplo:

In [3]:
nba_df = pd.read_csv("./Data/pandas/nba.csv")
nba_df

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
...,...,...,...,...,...,...,...,...,...
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


### Excel

Aunque no se trata del formato más eficiente para almacenar datos, sí que es uno de los más prácticos para compartir/recibir información con perfiles no técnicos. 

Pandas cuenta con la función [`read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).


1. Libro Excel una hoja y datos datos en primera columna y primer renglón.

In [4]:
excel_df = pd.read_excel("./Data/pandas/Data - Single Worksheet.xlsx")
excel_df

Unnamed: 0,First Name,Last Name,City,Gender
0,Brandon,James,Miami,M
1,Sean,Hawkins,Denver,M
2,Judy,Day,Los Angeles,F
3,Ashley,Ruiz,San Francisco,F
4,Stephanie,Gomez,Portland,F


2. Libro Excel múltiples hojas y datos no alineados.

<img src = "../files/Excel_dna.png">

In [5]:
pd.read_excel("./data/pandas/Data - Multiple Worksheets.xlsx", sheet_name = "Data 2")

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,,,,,
1,,First Name,Last Name,City,Gender
2,,Parker,Power,Raleigh,F
3,,Preston,Prescott,Philadelphia,F
4,,Ronaldo,Donaldo,Bangor,M
5,,Megan,Stiller,San Francisco,M
6,,Bustin,Jieber,Austin,F


In [8]:
pd.read_excel(
    "./data/pandas/Data - Multiple Worksheets.xlsx",
    sheet_name = "Data 2",
    skiprows = 2,
    usecols = lambda x: "Unnamed" not in x
)

Unnamed: 0,First Name,Last Name,City,Gender
0,Parker,Power,Raleigh,F
1,Preston,Prescott,Philadelphia,F
2,Ronaldo,Donaldo,Bangor,M
3,Megan,Stiller,San Francisco,M
4,Bustin,Jieber,Austin,F


## 3. Introducción a Atributos y Métodos

Los DataFrame comparten algunos de los atrubutos y métodos con las Series. En esta sección exploraremos los más básicos.

### head() & tail()



In [9]:
nba_df.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [10]:
nba_df.tail()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0
457,,,,,,,,,


### index

Regresa los índices del `DataFrame`.

In [11]:
nba_df.index

RangeIndex(start=0, stop=458, step=1)

In [12]:
list(nba_df.index)[:10]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### values

Los valores de un DataFrame en formato matriz.

In [15]:
nba_df.values

array([['Avery Bradley', 'Boston Celtics', 0.0, ..., 180.0, 'Texas',
        7730337.0],
       ['Jae Crowder', 'Boston Celtics', 99.0, ..., 235.0, 'Marquette',
        6796117.0],
       ['John Holland', 'Boston Celtics', 30.0, ..., 205.0,
        'Boston University', nan],
       ...,
       ['Tibor Pleiss', 'Utah Jazz', 21.0, ..., 256.0, nan, 2900000.0],
       ['Jeff Withey', 'Utah Jazz', 24.0, ..., 231.0, 'Kansas', 947276.0],
       [nan, nan, nan, ..., nan, nan, nan]], dtype=object)

### Shape

Regresa las dimensiones del DataFrame:

In [16]:
nba_df.shape

(458, 9)

Podemos acceder a renglones enteros:

In [17]:
nba_df.values[0][:2]

array(['Avery Bradley', 'Boston Celtics'], dtype=object)

... A los primeros $n$ valores de una columna:

In [18]:
nba_df.values[:,0][:10]

array(['Avery Bradley', 'Jae Crowder', 'John Holland', 'R.J. Hunter',
       'Jonas Jerebko', 'Amir Johnson', 'Jordan Mickey', 'Kelly Olynyk',
       'Terry Rozier', 'Marcus Smart'], dtype=object)

### Tipo de datos

En oncasiones querremos saber qué tipo de dato ha sido asignado a cada columna, para ello usaremos el atributo `.dtypes`. 

In [19]:
nba_df.dtypes

Name         object
Team         object
Number      float64
Position     object
Age         float64
Height       object
Weight      float64
College      object
Salary      float64
dtype: object

### Nombres de las Columnas

También es posible acceder al nombre de las columnas mediante el atributo `.columns`

In [20]:
nba_df.columns

Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

De este modo podemos:

- Acceder a valores específicos mediante índices
- Modificar el nombre de las columnas
- Seleccionar un subconjunto 
- Aplicar funciones a los nombres

In [21]:
nba_df.columns[0]

'Name'

In [22]:
nba_df.columns = [col.lower() for col in nba_df.columns]

In [23]:
nba_df.head()

Unnamed: 0,name,team,number,position,age,height,weight,college,salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Lamentablemente, los objetos de la clase `Index`, son inmutables (como los ``str`)

In [24]:
nba_df.columns[0] = "Nombre"

TypeError: Index does not support mutable operations

Entonces... ¿Cómo cambiamos valores individuales?

### rename

El método `.rename()` nos permite modificar, de muchas formas los nombres. Veamos algunos ejemplos:

In [26]:
nba_df.rename(
    columns={
        'name': 'Nombre'
    }
).head()

Unnamed: 0,abc,team,number,position,age,height,weight,college,salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [27]:
nba_df.head()

Unnamed: 0,name,team,number,position,age,height,weight,college,salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


Para que los cambios persistan después de la llamada de `.rename()`, tenemos que usar `inplace = True`.

In [28]:
nba_df.rename(
    columns={"name":"Nombre"},
    inplace=True
)

In [29]:
df = nba_df.head().copy()

Unnamed: 0,Nombre,team,number,position,age,height,weight,college,salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


También podemos modificar de manera sistemática los nombres de las columnas con el método `.rename()`, al igual que cuando usamos *list comprehension*.

In [None]:
def cambiar_nombres(col: str)->str:
    return ((col.lower() + "_")*2)[:-1]

In [None]:
[cambiar_nombres(col) for col in nba_df.columns]

In [None]:
nba_df.rename(
    columns=lambda col: ((col.lower() + "_")*2)[:-1]
)