In [73]:
import pandas as pd
import seaborn as sns

In [74]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


# 1) Cut()

cut() es increíblemente útil para agrupar datos numéricos en intervalos discretos.

Vamos a  clasificar a las personas en diferentes grupos de edad. cut() simplifica este proceso creando contenedores personalizados y asignando etiquetas en consecuencia:

In [75]:
bins = [0, 30, 40, 50, 60, 100]
labels = ['0-30', '31-40', '41-50', '51-60', '61-100']

# Creamos una nueva columna Age Group y usamos cut
df['Age Group'] = pd.cut(df['age'], bins=bins, labels=labels)
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,Age Group
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,0-30
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,31-40
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,0-30
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,31-40
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,31-40


# 2) Filtrar en negativo 

El operador ~ en Pandas se utiliza para filtrar en negativo, es decir, para seleccionar las filas que no cumplen con una condición determinada.

In [76]:
# Filtrar las filas donde el valor de la columna 'alive' no sea yes
df_filtrado = df[~(df['alive'] =='yes')]

df_filtrado


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,Age Group
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,0-30
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,31-40
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,51-60
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False,0-30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True,0-30
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False,31-40
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,0-30
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,


# 3) Crosstab() 

La función crosstab() proporciona una manera poderosa (y súper simple) de explorar las relaciones entre diferentes variables en un conjunto de datos.

In [77]:
cross_table = pd.crosstab(df['alive'], df['pclass'])
cross_table

pclass,1,2,3
alive,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
no,80,97,372
yes,136,87,119


# 4) Dividir una columna

Supongamos que queremos dividir la columna «Country» en dos columnas usando el espacio como separador:

In [78]:
df_tech = pd.read_csv('tech.csv', delimiter='\t', index_col='Company')
df_tech.head()

Unnamed: 0_level_0,Revenue,Employees,City,Country
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apple,274515,147000,California,United States
Samsung Electronics,200734,267937,Suwon,South Korea
Alphabet,182527,135301,California,United States
Foxconn,181945,878429,New Taipei City,Taiwan
Microsoft,143015,163000,Washington,United States


In [79]:
df_tech['Country'].str.split(' ', expand=True)


Unnamed: 0_level_0,0,1
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
Apple,United,States
Samsung Electronics,South,Korea
Alphabet,United,States
Foxconn,Taiwan,
Microsoft,United,States
Huawei,China,
Dell Technologies,United,States
Facebook,United,States
Sony,Japan,
Hitachi,Japan,


# 5) Melt

Los datos suelen venir en formato amplio, donde las variables están distribuidas en columnas. El método melt() proporciona una forma concisa de remodelar su DataFrame de formato ancho a largo, lo que facilita la realización de ciertos análisis y visualizaciones.

Considere un DataFrame con varias columnas que representan datos de ventas de diferentes meses. Si desea remodelar el DataFrame para que tenga una sola columna para los meses y otra para los valores de ventas correspondientes, melt() puede simplificar el proceso:

In [80]:
data = {'Producto': ['Remera', 'Musculosa', 'Top'],
        'Enero_Sales': [110, 190, 220],
        'Febrero_Sales': [150, 140, 180],
        'Marzo_Sales': [80, 190, 210]}

df_ventas = pd.DataFrame(data)
df_ventas

Unnamed: 0,Producto,Enero_Sales,Febrero_Sales,Marzo_Sales
0,Remera,110,150,80
1,Musculosa,190,140,190
2,Top,220,180,210


In [81]:
# Melt
df_melted = pd.melt(df_ventas, id_vars=['Producto'], 
var_name='Mes', value_name='Ventas')

df_melted

Unnamed: 0,Producto,Mes,Ventas
0,Remera,Enero_Sales,110
1,Musculosa,Enero_Sales,190
2,Top,Enero_Sales,220
3,Remera,Febrero_Sales,150
4,Musculosa,Febrero_Sales,140
5,Top,Febrero_Sales,180
6,Remera,Marzo_Sales,80
7,Musculosa,Marzo_Sales,190
8,Top,Marzo_Sales,210
