## Pandas

Paquete que facilita la manipulación de estructuras de datos. Los DataFrame son una de estas estructuras.

Los DataFrame son arreglos rectangulares en los que cada columna representan una característica o variables, mientras que las filas son observaciones del objeto de estudio. A diferencia de los arreglos matriciales, en un DataFrame se pueden combinar diferentes tipos de variables, es decir, una columna puede ser de tipo numérico, otra de tipo categoríca o lógica 

La documentación y tutoriales de este paque pueden ser encontrados en __[Pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html)__

### 1. ¿Cómo crear un DataFrame con Pandas?

Lo primero que se debe hacer es llamar a la librería de pandas, frecuentemente se utiliza la abreviación pd para trabajar con ella.

Los DataFrame pueden ser creados usando listas, diccionarios o series (listas con etiquetas)

In [31]:
import pandas as pd
import numpy as np
pd.set_option("display.max_rows", 5) # Especificar el número de filas a mostrar

In [93]:
# Usando diccionario

df=pd.DataFrame({"Banano":[4,6],"Manzana":[7,10],"Uva":[12,13]},index=[2016,2017])
df

Unnamed: 0,Banano,Manzana,Uva
2016,4,7,12
2017,6,10,13


In [94]:
# Usando listas

Nombres=["Juan","Laura","Alejandra","Alberto","Samuel"]
Edad=np.random.randint(low=17,high=24,size=50)
Altura=np.random.randint(low=145,high=170,size=50)
Nombres=[Nombres[np.random.randint(len(Nombres))] for i in range(50)]

Data=list(zip(Nombres,Edad,Altura))
Data=pd.DataFrame(Data,columns=["Nombre","Edad","Altura [cm]"])
Data

Unnamed: 0,Nombre,Edad,Altura [cm]
0,Juan,18,162
1,Samuel,20,167
...,...,...,...
48,Juan,21,165
49,Alejandra,19,152


In [95]:
# Usando series

my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
pd.DataFrame(my_series,columns=["Capital"])

Unnamed: 0,Capital
Belgium,Brussels
India,New Delhi
United Kingdom,London
United States,Washington


### 2. Guardar y leer csv

In [12]:
# Para guardar el Dataframe se utiliza la función to_csv y se especifíca el nombre del archivo

df.to_csv("Frutas.csv",sep="\t")

In [96]:
# Para usar un archivo en formato csv se acude a la función read_csv

data=pd.read_csv("winemag-data-130k-v2.csv",index_col=0)
data

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


In [97]:
print(data.info()) # Obtener información del DataFrame
print("\n",data.shape) # Conocer las dimensiones del DataFrame

<class 'pandas.core.frame.DataFrame'>
Int64Index: 129971 entries, 0 to 129970
Data columns (total 13 columns):
country                  129908 non-null object
description              129971 non-null object
designation              92506 non-null object
points                   129971 non-null int64
price                    120975 non-null float64
province                 129908 non-null object
region_1                 108724 non-null object
region_2                 50511 non-null object
taster_name              103727 non-null object
taster_twitter_handle    98758 non-null object
title                    129971 non-null object
variety                  129970 non-null object
winery                   129971 non-null object
dtypes: float64(1), int64(1), object(11)
memory usage: 13.9+ MB
None

 (129971, 13)


In [22]:
print("Nombre de las columnas:\n ",data.columns)

Nombre de las columnas:
  Index(['country', 'description', 'designation', 'points', 'price', 'province',
       'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title',
       'variety', 'winery'],
      dtype='object')


### 3. ¿Cómo fraccionar los conjuntos de datos?

In [101]:
# para mostar los valores de una columna se debe especificar su nombre

data["description"][:5]

0    Aromas include tropical fruit, broom, brimston...
1    This is ripe and fruity, a wine that is smooth...
2    Tart and snappy, the flavors of lime flesh and...
3    Pineapple rind, lemon pith and orange blossom ...
4    Much like the regular bottling from 2012, this...
Name: description, dtype: object

In [102]:
# Para conocer los valore únicos que toma una columna se debe especificar esta y la función unique()

print(data["country"].unique())

['Italy' 'Portugal' 'US' 'Spain' 'France' 'Germany' 'Argentina' 'Chile'
 'Australia' 'Austria' 'South Africa' 'New Zealand' 'Israel' 'Hungary'
 'Greece' 'Romania' 'Mexico' 'Canada' nan 'Turkey' 'Czech Republic'
 'Slovenia' 'Luxembourg' 'Croatia' 'Georgia' 'Uruguay' 'England' 'Lebanon'
 'Serbia' 'Brazil' 'Moldova' 'Morocco' 'Peru' 'India' 'Bulgaria' 'Cyprus'
 'Armenia' 'Switzerland' 'Bosnia and Herzegovina' 'Ukraine' 'Slovakia'
 'Macedonia' 'China' 'Egypt']


In [108]:
# Las funciones loc y iloc permiten acceder a los valores de una fila

print(data.loc[0])

# Para múltiples filas se usa :

print("\n Las tres primeras filas: \n",data.loc[:2])

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

 Las tres primeras filas: 
     country                                        description   designation  \
0     Italy  Aromas include tropical fruit, broom, brimston...  Vulkà Bianco   
1  Portugal  This is ripe and fruity, a wine that is smooth...      Avidagos   
2        US  Tart and snappy, the flavors of lime flesh and...           NaN   

   points  price           province           region_1           region_2  \
0      87    NaN  Sicily & Sardinia               Etna                NaN   
1      87   15.0              Douro                NaN                NaN   
2      87   14.0             Oregon  Willamette Valley  Wil

In [110]:
# Para llamar múltiples filas no consecutivas se debe asignar una lista con los valores de los índices

data.loc[[0,2,7,15]]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach
15,Germany,Zesty orange peels and apple notes abound in t...,Devon,87,24.0,Mosel,,,Anna Lee C. Iijima,,Richard Böcking 2013 Devon Riesling (Mosel),Riesling,Richard Böcking


In [111]:
# Seleccionar múltiples columnas y filas

data.loc[[0,2,4],["country","description","region_1"]]

Unnamed: 0,country,description,region_1
0,Italy,"Aromas include tropical fruit, broom, brimston...",Etna
2,US,"Tart and snappy, the flavors of lime flesh and...",Willamette Valley
4,US,"Much like the regular bottling from 2012, this...",Willamette Valley


In [35]:
# Seleccionar las filas donde el país sea Italia

data[data.country=="Italy"]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


In [43]:
# Seleccionar las filas donde la región 2 no toma valores (NaN)

data[pd.notnull(data["region_2"])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129952,US,This Zinfandel from the eastern section of Nap...,,90,22.0,California,Chiles Valley,Napa,Virginie Boone,@vboone,Houdini 2011 Zinfandel (Chiles Valley),Zinfandel,Houdini
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation


In [71]:
tropical_wine = data.description.map(lambda r: "tropical" in r).value_counts()
fruity_wine = data.description.map(lambda r: "fruity" in r).value_counts()
pd.Series([tropical_wine[True], fruity_wine[True]], index=['tropical', 'fruity'])

tropical_wine

0          True
1         False
          ...  
129969    False
129970    False
Name: description, Length: 129971, dtype: bool

### 4. Funciones para resumir información 

Para resumir las columnas dentro de un dataframe existen diferentes funciones, que bien varian de acuerdo al tipo de dato de la columna

In [112]:
# Para contar el número de veces que se presenta un valor en una columna se usa value_counts

data.country.value_counts()

US          54504
France      22093
            ...  
China           1
Slovakia        1
Name: country, Length: 43, dtype: int64

In [113]:
# Para conocer cuál es la posición del valor más alto dentro de una columna se usa la función idx.max()

print("El vino más costoso es de : %s" % data.loc[data.price.idxmax()].country) # El vino más costoso proviene de Francia

El vino más costoso es de : France


In [114]:
# Contar cuantas veces se observa un vino por país

df=data.loc[(data.country.notnull()) & (data.variety.notnull())] # Seleccionar el DataFrame sin valores nulos
df= df.apply(lambda rs: rs.country + " - " +rs.variety,axis="columns") # Crear una serie de datos con el país y la respecitva variedad
df.value_counts() # Contar cuantas veces se repite cada valor

US - Pinot Noir                      9885
US - Cabernet Sauvignon              7315
                                     ... 
Uruguay - Merlot                        1
US - Cabernet Sauvignon-Carmenère       1
Length: 1612, dtype: int64