# Dataframes en Pandas

## Lectura, escritura / Mezcla y muestra

Importamos la librería pandas:

In [1]:
import pandas as pd

Aquí vemos como se lee el csv y posteriormente se muestran los dos primeros:

In [11]:
df_penguins = pd.read_csv('penguins.csv')
df_penguins.head(2)

Unnamed: 0,rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,1,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,2,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007


De esta forma escribimos el dataframe en un archivo csv:

In [3]:
df_penguins.to_csv('penguins.csv', index=False)

De esta forma hacemos una copia del dataframe, pero desordenada:

In [4]:
# frac -> Indica el porcentaje del dataframe que quieres obtener.
df_shuffled = df_penguins.sample(frac=1)
df_shuffled.head(2)

Unnamed: 0,rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
307,308,Chinstrap,Dream,54.2,20.8,201.0,4300.0,male,2008
272,273,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,female,2009


De esta forma, nos quedamos con la mitad del dataframe:

In [5]:
df_sampled = df_penguins.sample(frac=0.5)
print(f'Longitud del dataframe original: {len(df_penguins)}, longitud del dataframe muestreado: {len(df_sampled)}')

Longitud del dataframe original: 344, longitud del dataframe muestreado: 172


## Añadiendo nuevas columnas

Vamos a crear manualmente un dataframe y mostrarlo:

In [6]:
df = pd.DataFrame({'temp_celsius': [35.0, 25.0]}, index=['Delhi', 'Mumbai'])
df

Unnamed: 0,temp_celsius
Delhi,35.0
Mumbai,25.0


Ahora, podemos insertar una nueva columna de la siguiente forma:

In [7]:
speed_values = [26.0, 30.0]
df = df.assign(wind_speed_kmh=speed_values)
df

Unnamed: 0,temp_celsius,wind_speed_kmh
Delhi,35.0,26.0
Mumbai,25.0,30.0


Podemos usar lambdas para generar columnas nuevas usando columnas ya existentes:

In [8]:
df = df.assign(wind_speed_mph = lambda x: x['wind_speed_kmh'] * 0.621)
df

Unnamed: 0,temp_celsius,wind_speed_kmh,wind_speed_mph
Delhi,35.0,26.0,16.146
Mumbai,25.0,30.0,18.63


In [9]:
df.assign(temp_fahrenheit = lambda x: x['temp_celsius'] * 9/5 + 32,
            temp_kelvin = lambda x: (x['temp_fahrenheit'] + 459.67) * 5/9)

Unnamed: 0,temp_celsius,wind_speed_kmh,wind_speed_mph,temp_fahrenheit,temp_kelvin
Delhi,35.0,26.0,16.146,95.0,308.15
Mumbai,25.0,30.0,18.63,77.0,298.15


## Genera estadísticas descriptivas de tus dataframes