# Librer√≠as: Pandas

https://pandas.pydata.org/

El contenido de este tutorial est√° basado y fue adaptado del curso de pandas de Kaggle disponible en https://www.kaggle.com/learn/pandas

mismo que tiene licencia open source Apache 2.0 http://www.apache.org/licenses/LICENSE-2.0



## Importando libreria

import pandas as pd

## Creando datos


### 1. DataFrame
Una primer forma de construir un DataFrame es comenzando a partir de un **diccionario**. Un diccionario en python es una estructura que al igual que las listas y las tuplas, nos permiten almacenar diferentes tipos de datos: Strings, enteros, flotantes, booleanos, tuplas, listas e inclusive otros diccionarios üòØ. En un diccionario, todos los valores necesitan tener una **llave** y cada llave necesita tener un valor (definici√≥n tomada de https://codigofacilito.com/articulos/diccionarios-python).

Por ejemplo, hagamos un diccionario de GeoLatinas, aqu√≠ las "llaves" = "keys" ser√≠an el nombre de las columnas (`Roc√≠o` y `Clara`).



In [2]:
diccionario_geolatinas = {'Roc√≠o': ['Soy Peruana', 'Vivo en USA.'], 'Clara': ['Soy venezolana', 'Vivo en UK.']}
print(diccionario_geolatinas)

{'Roc√≠o': ['Soy Peruana', 'Vivo en USA.'], 'Clara': ['Soy venezolana', 'Vivo en UK.']}


In [5]:
pd.DataFrame({'Roc√≠o': ['Soy Peruana', 'Vivo en USA.'], 'Clara': ['Soy venezolana', 'Vivo en UK.']})

Unnamed: 0,Roc√≠o,Clara
0,Soy Peruana,Soy venezolana
1,Vivo en USA.,Vivo en UK.


Como vemos, los indices van en orden ascendente a partir de 0, pero esto se puede cambiar usando **index** al construir el dataframe.

In [15]:
pd.DataFrame({'Roc√≠o': ['Soy Peruana', 'Vivo en USA.'], 'Clara': ['Soy venezolana', 'Vivo en UK.']},
             index=['Pa√¨s de origen', 'Lugar de residencia'])

Unnamed: 0,Roc√≠o,Clara
Pa√¨s de origen,Soy Peruana,Soy venezolana
Lugar de residencia,Vivo en USA.,Vivo en UK.


### 2. Series

Si el DataFrame es una tabla, una Serie es una "columna" y se puede crear a partir de una lista por ejemplo:

In [9]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una serie es en esencia una columna simple de un DataFrame, as√≠ que se pueden asignar √≠ndices, sin embargo la Serie no tiene un nombre de columna sino un nombre general "Name":

In [11]:
pd.Series([0, 40, 400], index=['2015 ', '2016', '2021'], name='Numero de miembros')

2015       0
2016      40
2021     400
Name: Numero de miembros, dtype: int64

# Lectura de archivos de datos

Vamos ahora a trabajar con datos que tenemos en un archivo .csv "Comma-Separated Values"

usando la funci√≥n `pd.read_csv()`:

In [19]:
from pathlib import Path # Definimos el path a la carpeta de datos
data_folder = Path("..") / "data"
wine_reviews_file = data_folder /"winemag-data-130k-v2.csv"

In [20]:
wine_reviews = pd.read_csv(wine_reviews_file)

Usamos el atributo `shape` para saber que tan grande es el DataFrame:



In [25]:
wine_reviews.shape

(129971, 13)

In [26]:
129971*13  #Son 1,689,623 datos!!!

1689623

In [22]:
wine_reviews.head() # As√≠ podemos ver los primeros 5 renglones

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulk√† Bianco,87,,Sicily & Sardinia,Etna,,Kerin O‚ÄôKeefe,@kerinokeefe,Nicosia 2013 Vulk√† Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


La funci√≥n `pd.read_csv()` tiene alrededor de 30 par√°metros opcionales que se pueden especificar. Vemos por ejemplo que pandas creo un √≠ndice nuevo, cuando ya el archivo csv ten√≠a su propio √≠ndice, as√≠ que usando `index_col` podemos pedir que use el √≠ndice ya existente.

In [24]:
wine_reviews = pd.read_csv(wine_reviews_file, index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulk√† Bianco,87,,Sicily & Sardinia,Etna,,Kerin O‚ÄôKeefe,@kerinokeefe,Nicosia 2013 Vulk√† Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [28]:
fundadoras=pd.DataFrame({'Clara':['Geof√≠sica','Petronas'],'Roc√≠o':['Paleoclimat√≥loga','Everywhere :)'],'Adriana':['Geof√≠sica','Leeds']})
fundadoras.to_csv('fundadoras_geolatinas')

# Tu turno!

