## Pandas

Paquete provee estructuras de datos flexibles, expresivas y de fácil acceso para su manipulación y procesamiento
que facilita la manipulación de estructuras de datos. 

La documentación y tutoriales pueden ser encontrados en __[Pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html)__

En este notebook se abordarán temas como:
   
[1. Series](#seccion 1)

[2. Cómo crear un DataFrame con pandas](#seccion 2)

[3. Guardar y leer archivos csv](#seccion 3)

[4. Fraccionar conjuntos de datos](#seccion 4)

[5. Funciones para resumir información](#seccion 5)

[6. Manipulación de datos perdidos](#seccion 6)

In [2]:
import pandas as pd
import numpy as np
pd.set_option("display.max_rows", 5) # Especificar el número de filas a mostrar

In [3]:
pd?

###  <a id='seccion 1'></a>1. Series

Las series son un arreglo unidimensional al igual que un array, sin embargo, se diferencia por la etiquetas, mientras que en un array la etiqueta es implícita, en una serie es explicita, dando la facilidad de asignar valores no numéricos como etiqueta.

In [4]:
# Crear una serie de datos

data=pd.Series([0.25,0.5,0.75,1],index=["a","b","c","d"])
print(data)
print("Valores:",data.values)
print("Índices:",data.index)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
Valores: [ 0.25  0.5   0.75  1.  ]
Índices: Index(['a', 'b', 'c', 'd'], dtype='object')


In [5]:
# Crear series desde diccionarios

x={"a":25,"b":60,"c":13,"d":7}
x=pd.Series(x)
print(x)
print("Valores:",x.values)
print("Índices:",x.index)

a    25
b    60
c    13
d     7
dtype: int64
Valores: [25 60 13  7]
Índices: Index(['a', 'b', 'c', 'd'], dtype='object')


In [6]:
# Para extrae datos se puede usar tanto la etiqueta asignada o el índice numérico como en los array

print(data["b"]) # Similar a los diccionarios 
print(data[1]) # Similar a los array o listas

0.5
0.5


### <a id='seccion 2'></a>2. Cómo crear un DataFrame con Pandas

Los DataFrame son una estructura fundamental en Pandas y al igual que las series son análogos a los arrays, teniendo la ventaja de tener etiquetas para filas y columnas. 

In [7]:
# Usando diccionario

df=pd.DataFrame({"Banano":[4,6],"Manzana":[7,10],"Uva":[12,13]},index=[2016,2017])
df

Unnamed: 0,Banano,Manzana,Uva
2016,4,7,12
2017,6,10,13


In [8]:
# Usando listas

Nombres=["Juan","Laura","Alejandra","Alberto","Samuel"]
Edad=np.random.randint(low=17,high=24,size=50)
Altura=np.random.randint(low=145,high=170,size=50)
Nombres=[Nombres[np.random.randint(len(Nombres))] for i in range(50)]

Data=list(zip(Nombres,Edad,Altura))
Data=pd.DataFrame(Data,columns=["Nombre","Edad","Altura [cm]"])
Data

Unnamed: 0,Nombre,Edad,Altura [cm]
0,Laura,23,154
1,Alejandra,19,145
...,...,...,...
48,Alejandra,20,152
49,Alejandra,18,155


In [9]:
# Usando series

my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
pd.DataFrame(my_series,columns=["Capital"])

Unnamed: 0,Capital
Belgium,Brussels
India,New Delhi
United Kingdom,London
United States,Washington


### <a id='seccion 3'></a>3. Guardar y leer csv

In [10]:
# Para guardar el Dataframe se utiliza la función to_csv y se especifíca el nombre del archivo

df.to_csv("Frutas.csv",sep="\t")

In [11]:
# Para usar un archivo en formato csv se acude a la función read_csv

data=pd.read_csv("winemag-data-130k-v2.csv",index_col=0)
data

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


In [12]:
print(data.info()) # Obtener información del DataFrame

<class 'pandas.core.frame.DataFrame'>
Int64Index: 129971 entries, 0 to 129970
Data columns (total 13 columns):
country                  129908 non-null object
description              129971 non-null object
designation              92506 non-null object
points                   129971 non-null int64
price                    120975 non-null float64
province                 129908 non-null object
region_1                 108724 non-null object
region_2                 50511 non-null object
taster_name              103727 non-null object
taster_twitter_handle    98758 non-null object
title                    129971 non-null object
variety                  129970 non-null object
winery                   129971 non-null object
dtypes: float64(1), int64(1), object(11)
memory usage: 13.9+ MB
None


In [13]:
print(data.shape) # Conocer las dimensiones del DataFrame

(129971, 13)


### <a id='seccion 4'></a>4. Fraccionar los conjuntos de datos

In [14]:
# Conocer las etiquetas de las columnas

print(data.columns)

Index(['country', 'description', 'designation', 'points', 'price', 'province',
       'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title',
       'variety', 'winery'],
      dtype='object')


In [15]:
# Conocer los índices en las filas

print(data.index)

Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            129961, 129962, 129963, 129964, 129965, 129966, 129967, 129968,
            129969, 129970],
           dtype='int64', length=129971)


In [16]:
# Para conocer los valore únicos que toma una columna se debe especificar esta y la función unique()

print(data["country"].unique())

['Italy' 'Portugal' 'US' 'Spain' 'France' 'Germany' 'Argentina' 'Chile'
 'Australia' 'Austria' 'South Africa' 'New Zealand' 'Israel' 'Hungary'
 'Greece' 'Romania' 'Mexico' 'Canada' nan 'Turkey' 'Czech Republic'
 'Slovenia' 'Luxembourg' 'Croatia' 'Georgia' 'Uruguay' 'England' 'Lebanon'
 'Serbia' 'Brazil' 'Moldova' 'Morocco' 'Peru' 'India' 'Bulgaria' 'Cyprus'
 'Armenia' 'Switzerland' 'Bosnia and Herzegovina' 'Ukraine' 'Slovakia'
 'Macedonia' 'China' 'Egypt']


In [17]:
# para mostar los valores de una columna se debe especificar su nombre

data["description"][:5]

0    Aromas include tropical fruit, broom, brimston...
1    This is ripe and fruity, a wine that is smooth...
2    Tart and snappy, the flavors of lime flesh and...
3    Pineapple rind, lemon pith and orange blossom ...
4    Much like the regular bottling from 2012, this...
Name: description, dtype: object

In [18]:
# Las funciones loc y iloc permiten acceder a los valores de una fila. 

print(data.loc[0]) # Loc utiliza los índices explícitos y iloc los implícitos


# Para múltiples filas se usa :

print("\n Las tres primeras filas: \n",data.loc[:2])

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

 Las tres primeras filas: 
     country                                        description   designation  \
0     Italy  Aromas include tropical fruit, broom, brimston...  Vulkà Bianco   
1  Portugal  This is ripe and fruity, a wine that is smooth...      Avidagos   
2        US  Tart and snappy, the flavors of lime flesh and...           NaN   

   points  price           province           region_1           region_2  \
0      87    NaN  Sicily & Sardinia               Etna                NaN   
1      87   15.0              Douro                NaN                NaN   
2      87   14.0             Oregon  Willamette Valley  Wil

In [19]:
# Para llamar múltiples filas no consecutivas se debe asignar una lista con los valores de los índices

data.loc[[0,2,7,15]]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach
15,Germany,Zesty orange peels and apple notes abound in t...,Devon,87,24.0,Mosel,,,Anna Lee C. Iijima,,Richard Böcking 2013 Devon Riesling (Mosel),Riesling,Richard Böcking


In [20]:
# Seleccionar múltiples columnas y filas

data.loc[[0,2,4],["country","description","region_1"]]

Unnamed: 0,country,description,region_1
0,Italy,"Aromas include tropical fruit, broom, brimston...",Etna
2,US,"Tart and snappy, the flavors of lime flesh and...",Willamette Valley
4,US,"Much like the regular bottling from 2012, this...",Willamette Valley


In [21]:
# Seleccionar las filas donde el país sea Italia

data[data.country=="Italy"]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


In [22]:
tropical_wine = data.description.map(lambda r: "tropical" in r).value_counts()
fruity_wine = data.description.map(lambda r: "fruity" in r).value_counts()
pd.Series([tropical_wine[True], fruity_wine[True]], index=['tropical', 'fruity'])

tropical_wine

False    126364
True       3607
Name: description, dtype: int64

### <a id='seccion 5'></a>5. Funciones para resumir información 

Para resumir las columnas dentro de un dataframe existen diferentes funciones, que bien varian de acuerdo al tipo de dato de la columna

In [23]:
# Para contar el número de veces que se presenta un valor en una columna se usa value_counts

data.country.value_counts()

US        54504
France    22093
          ...  
Egypt         1
China         1
Name: country, Length: 43, dtype: int64

In [24]:
# Para conocer cuál es la posición del valor más alto dentro de una columna se usa la función idx.max()

print("El vino más costoso es de : %s" % data.loc[data.price.idxmax()].country) # El vino más costoso proviene de Francia

El vino más costoso es de : France


In [25]:
# Contar cuantas veces se observa un vino por país

df=data.loc[(data.country.notnull()) & (data.variety.notnull())] # Seleccionar el DataFrame sin valores nulos
df= df.apply(lambda rs: rs.country + " - " +rs.variety,axis="columns") # Crear una serie de datos con el país y la respecitva variedad
df.value_counts() # Contar cuantas veces se repite cada valor

US - Pinot Noir                               9885
US - Cabernet Sauvignon                       7315
                                              ... 
Israel - Cabernet Franc-Cabernet Sauvignon       1
Spain - Garnacha-Cariñena                        1
Length: 1612, dtype: int64

### <a id='seccion 6'></a>6. Manipulación de datos perdidos

Los datos perdidos son representados de forma general como: null, NaN o NA value.

La identificación de datos atípicos puede hacerse de dos maneras:
1. Mediante la creación de una máscara de valores logícos para indicar la posición del valor perdido

2. Especificando un valor centinela (None o NaN en python) para identificar los valores perdidos

In [26]:
vals1=np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

In [27]:
vals2=np.array([1,np.nan,3,4])
vals2.dtype

# A diferencia del dtype object, con los NaN si se pueden realizar operaciones
# pero se debe tener cuidado al realizarlas

print(np.nan+4)
print(vals2.sum()) # Al sumar un NaN se ontendrá otro NaN

nan
nan


In [28]:
# Para poder realizar entonces operaciones con arreglos con NaN NumPy cuenta con funciones especiales como:
print(np.nansum(vals2))
print(np.nanmin(vals2))

8.0
1.0


Los términos de NaN y None son utilizandos indiscriminadamente en Pandas, permitiendo realizar operaciones con los respectivos arreglos

In [29]:
print(pd.Series(["a",np.nan,None,"m"]))

0       a
1     NaN
2    None
3       m
dtype: object


    1. Detectar valores perdidos

Para identificar las observaciones perdidas se acude a isnull() y notnull(), donde juntos regresan una máscara de valores booleanos

In [30]:
df=pd.Series([1,np.nan,7,None])
print(df.notnull())
print("\n",df[df.notnull()]) # Utilizando la máscara

0     True
1    False
2     True
3    False
dtype: bool

 0    1.0
2    7.0
dtype: float64


     2. Eliminar observaciones perdidas

Para eliminar las observaciones perdidas se acude a drona() para eliminar la observación o a fillna() para asignarle un valor

In [31]:
print(df.dropna())

0    1.0
2    7.0
dtype: float64


In [32]:
# En el caso de un DataFrame la eliminación no se puede realizar por valores
# Se debe eliminar la columna o fila completa

df=pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
print(df)
print("\n",df.dropna(axis=0)) # Eliminar por filas
print("\n",df.dropna(axis=1)) # Eliminar por columna


     0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6

      0    1  2
1  2.0  3.0  5

    2
0  2
1  5
2  6


In [33]:
# Se puede especificar un número mínimo de valores perdidos antes de elimar una fila o columna
df[3]=np.nan
print(df)
print("\n",df.dropna(axis=0,thresh=1)) # Mínimo de valores no NaN por fila
print("\n",df.dropna(axis=1,how="all")) # Elimina las columnas donde todos los valores sean NaN


     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN

      0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN

      0    1  2
0  1.0  NaN  2
1  2.0  3.0  5
2  NaN  4.0  6


    3. Completar los valores perdidos

En el caso de no eliminar el valor no observado se puede ralizar una imputación o asignación de valor, ya se la media del total o la media entre dos valores, para esto se usa fillna()

In [34]:
print(df.fillna(0)) # Completa los valores perdidos con 0

     0    1  2    3
0  1.0  0.0  2  0.0
1  2.0  3.0  5  0.0
2  0.0  4.0  6  0.0


In [35]:
print(df.fillna(method="bfill",axis="columns")) # Completar con el valor anterior

     0    1    2   3
0  1.0  2.0  2.0 NaN
1  2.0  3.0  5.0 NaN
2  4.0  4.0  6.0 NaN


In [36]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [37]:
df.transform(lambda rs: rs-rs.mean())

Unnamed: 0,0,1,2,3
0,-0.5,,-2.333333,
1,0.5,-0.5,0.666667,
2,,0.5,1.666667,
