# Tipos de datos con Pandas

In [24]:
import pandas as pd

In [25]:
df = pd.read_csv('dataset/ejemplo_data.csv', index_col='ID')

In [26]:
df.head()

Unnamed: 0_level_0,Nombre,2016,2017,Crecimiento,Unidades,fecha,Activo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10002,Verde Mar,"$125,000.00",$162500.00,30.00%,500,1-10-2015,1
552278,Manantial sa,"$920,000.00","$101,2000.00",10.00%,700,6-23-2014,0
23477,ACME,"$50,000.00",62500.00,25.00%,125,3-12-2016,1
24900,Andes sur,"$350,000.00",490000.00,4.00%,75,10-28-2015,1
651029,San Pablo,"$15,000.00",$12750.00,-15.00%,No,2-15-2014,0


In [27]:
df.dtypes

Nombre         object
2016           object
2017           object
Crecimiento    object
Unidades       object
fecha          object
Activo          int64
dtype: object

## Transformaciones con pandas

In [28]:
df["Activo"] = df["Activo"].astype('bool')
df.head()

Unnamed: 0_level_0,Nombre,2016,2017,Crecimiento,Unidades,fecha,Activo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10002,Verde Mar,"$125,000.00",$162500.00,30.00%,500,1-10-2015,True
552278,Manantial sa,"$920,000.00","$101,2000.00",10.00%,700,6-23-2014,False
23477,ACME,"$50,000.00",62500.00,25.00%,125,3-12-2016,True
24900,Andes sur,"$350,000.00",490000.00,4.00%,75,10-28-2015,True
651029,San Pablo,"$15,000.00",$12750.00,-15.00%,No,2-15-2014,False


In [29]:
df["Nombre"] = df["Nombre"].astype('category')
df.dtypes

Nombre         category
2016             object
2017             object
Crecimiento      object
Unidades         object
fecha            object
Activo             bool
dtype: object

In [30]:
# df["2016"] = df["2016"].astype('float')
# ValueError: could not convert string to float: '$125,000.00'

In [31]:
def convertir_monto(val):
    nuevo_data = val.replace(',', '').replace('$', '')
    return float(nuevo_data)

In [32]:
def convertir_porcentaje(val):
    nuevo_data = val.replace('%', '')
    return float(nuevo_data)/100

In [33]:
df["2016"] = df["2016"].apply(convertir_monto)
df["2017"] = df["2017"].apply(convertir_monto)
df["Crecimiento"] = df["Crecimiento"].apply(convertir_porcentaje)

In [34]:
df.dtypes

Nombre         category
2016            float64
2017            float64
Crecimiento     float64
Unidades         object
fecha            object
Activo             bool
dtype: object

In [36]:
# df["Unidades"] = df["Unidades"].astype('int')
# ValueError: invalid literal for int() with base 10: 'No'

In [37]:
pd.to_numeric(df["Unidades"], errors='coerce')

ID
10002     500.0
552278    700.0
23477     125.0
24900      75.0
651029      NaN
Name: Unidades, dtype: float64

In [39]:
df["Unidades"] = pd.to_numeric(df["Unidades"], errors='coerce').fillna(0)

In [40]:
df["fecha"] = pd.to_datetime(df["fecha"])

In [41]:
df

Unnamed: 0_level_0,Nombre,2016,2017,Crecimiento,Unidades,fecha,Activo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10002,Verde Mar,125000.0,162500.0,0.3,500.0,2015-01-10,True
552278,Manantial sa,920000.0,1012000.0,0.1,700.0,2014-06-23,False
23477,ACME,50000.0,62500.0,0.25,125.0,2016-03-12,True
24900,Andes sur,350000.0,490000.0,0.04,75.0,2015-10-28,True
651029,San Pablo,15000.0,12750.0,-0.15,0.0,2014-02-15,False


In [42]:
df.dtypes

Nombre               category
2016                  float64
2017                  float64
Crecimiento           float64
Unidades              float64
fecha          datetime64[ns]
Activo                   bool
dtype: object