# DataFrames en Pandas

Un **DataFrame** es la estructura que usa pandas, las columnas tienen un nombre y un tipo y las filas son registros indexados.

Estos DataFrame se componen de **Series** y éstas nos permiten introducir datos manualmente. 

## DataFrame como un dict de Series

Una Serie nos permite introducir datos manualmente en Python.

In [1]:
import pandas as pd
d = {'c1': pd.Series(['A', 'B', 'C']),
     'c2': pd.Series([1, 2., 3., 4.])}
df = pd.DataFrame(d)
df

Unnamed: 0,c1,c2
0,A,1.0
1,B,2.0
2,C,3.0
3,,4.0


Observemos que el valor perdido (missing) en pandas se visualiza como NaN.

## DataFrame a partir de listas

In [3]:
sales = {
   'region': ["Europe", "Europe", "Europe", 
              "USA", "USA", "USA", "LATAM", "LATAM"],
   'volume':[100, 120, 140, 200, 190, 180, 80, 90],
   'year':[2011, 2012, 2013, 2011, 2012, 2013, 2012, 2013]
}
data = pd.DataFrame(sales)
data

Unnamed: 0,region,volume,year
0,Europe,100,2011
1,Europe,120,2012
2,Europe,140,2013
3,USA,200,2011
4,USA,190,2012
5,USA,180,2013
6,LATAM,80,2012
7,LATAM,90,2013


La diferencia entre las listas y los diccionarios es el acceso, mientras en las listas se accede mediante índices en los diccionarios se accede mediante la clave. 

In [4]:
data.tail(2)

Unnamed: 0,region,volume,year
6,LATAM,80,2012
7,LATAM,90,2013


## Extrayendo las Series de los DataFrames

Mediante el corchete o con punto podemos acceder a los elementos del DataFrame.

In [8]:
print (data['region'])
print (data.year)
print (data[['year', 'volume']])
print (type(data.year))

0    Europe
1    Europe
2    Europe
3       USA
4       USA
5       USA
6     LATAM
7     LATAM
Name: region, dtype: object
0    2011
1    2012
2    2013
3    2011
4    2012
5    2013
6    2012
7    2013
Name: year, dtype: int64
   year  volume
0  2011     100
1  2012     120
2  2013     140
3  2011     200
4  2012     190
5  2013     180
6  2012      80
7  2013      90
<class 'pandas.core.series.Series'>


Podemos aplicar operaciones por columnas.

In [9]:
data["volume"] = data["volume"] + 1
data.head(3)

Unnamed: 0,region,volume,year
0,Europe,101,2011
1,Europe,121,2012
2,Europe,141,2013


El acceso mediante índices a las [filas] y las [[columnas]] es un tanto particular, es así en busca de mayor eficiencia.

In [10]:
data[2:5]

Unnamed: 0,region,volume,year
2,Europe,141,2013
3,USA,201,2011
4,USA,191,2012


In [11]:
data[["region", "volume"]]

Unnamed: 0,region,volume
0,Europe,101
1,Europe,121
2,Europe,141
3,USA,201
4,USA,191
5,USA,181
6,LATAM,81
7,LATAM,91


In [12]:
data[2:5][["region", "volume"]]

Unnamed: 0,region,volume
2,Europe,141
3,USA,201
4,USA,191


## Nuevas columnas

Del mismo modo podemos incluir columnas en un DataFrame, para eliminarlas emplearemos <code>del</code>.

In [13]:
data["volume2"] = data.volume * 1.1
data.head(3)

Unnamed: 0,region,volume,year,volume2
0,Europe,101,2011,111.1
1,Europe,121,2012,133.1
2,Europe,141,2013,155.1


In [18]:
del data['volume2']
data.head()

Unnamed: 0,region,volume,year
0,Europe,101,2011
1,Europe,121,2012
2,Europe,141,2013
3,USA,201,2011
4,USA,191,2012


## De un DataFrame a un vector de NumPy

**Numpy** es un paquete que permite trabajar con datos n-dimensionales. 

In [19]:
a = data[["year", "volume"]].values
print(type(a))
print(a)
print(a.dtype)

<class 'numpy.ndarray'>
[[2011  101]
 [2012  121]
 [2013  141]
 [2011  201]
 [2012  191]
 [2013  181]
 [2012   81]
 [2013   91]]
int64


## Indexado de un DataFrame

El indexado nos permite acceder a elementos (fila o columna) de nuestro DataFrame. Vamos a crear un DataFrame para analizar los distintos métodos de acceso

In [20]:
# Sales by city and in different years.
example = {     "MAD": [100, 120, 140, 130],
                "BCN": [90, 80, 100, 150],
                "VAL": [90, 80, 70, 80]
}
years=["2011", "2012", "2013", "2014"]
mysales = pd.DataFrame(example, index=years)
mysales

Unnamed: 0,MAD,BCN,VAL
2011,100,90,90
2012,120,80,80
2013,140,100,70
2014,130,150,80


Acceso a columnas:

In [26]:
mysales.loc[:,"BCN"]

2011     90
2012     80
2013    100
2014    150
Name: BCN, dtype: int64

In [23]:
mysales["BCN"]

2011     90
2012     80
2013    100
2014    150
Name: BCN, dtype: int64

Acceso a filas

In [30]:
mysales.loc["2012"]

MAD    120
BCN     80
VAL     80
Name: 2012, dtype: int64

Acceso fila - columna

In [33]:
# Empleamos listas
mysales.loc["2011":"2013", ["BCN","VAL"]]

Unnamed: 0,BCN,VAL
2011,90,90
2012,80,80
2013,100,70


## Modificando índices

Se puede emplear tanto números como caracteres incluso fechas. Pueden tener duplicados y se pueden emplear para realizar uniones de DataFrames. Le podemos modificar en cualquier momento. 

In [34]:
byregion = data.set_index(["region", "year"])
byregion

Unnamed: 0_level_0,Unnamed: 1_level_0,volume
region,year,Unnamed: 2_level_1
Europe,2011,101
Europe,2012,121
Europe,2013,141
USA,2011,201
USA,2012,191
USA,2013,181
LATAM,2012,81
LATAM,2013,91


Un índice también puede tener varios niveles como vemos

In [36]:
europe = byregion.loc["Europe", :]

In [41]:
# Check years were converted to integer!
print (europe.loc[2012])
print (type(europe.loc[2012]))
print (europe.loc[2012].volume)
print (type(europe.index[0]))

volume    121
Name: 2012, dtype: int64
<class 'pandas.core.series.Series'>
121
<class 'numpy.int64'>
