# 0. Motivation

Como científicos de datos, normalmente trabajamos con grandes cantidades de datos. 

Los datos que debemos cargar pueden guardarse de muchas maneras distintas: archivos CSV, archivos de Excel, etcétera. Incluso, los datos pueden estar disponibles a través de servicios web. 

Para trabajar con datos, se hace necesario representarlos en una estructura tabular (cualquier cosa con forma de tabla con filas y columnas).

En algunos casos, los datos ya están en forma tabular y es más fácil cargarlos. En otros, debemos trabajar con datos no estructurados o que no están organizados de una manera determinada (texto plano, imágenes, audio, etcétera).

En esta clase nos vamos a concentrar en cargar datos desde archivos CSV (valores separados por coma).

## Pandas

Pandas es una librería de código abierto para el lenguaje de programación Python, desarrollada por Wes McKinney. Es una librería muy eficiente y proporciona estructuras de datos y herramientas de análisis muy fáciles de usar.

Como las librerías que hemos visto antes, Pandas viene instalado por defecto con Anaconda, así que lo único que tenemos que hacer para empezar a trabajar con ella es importarla. La comunidad utiliza normalmente la abreviación pd para referirse a pandas:

In [None]:
# pip! install pandas
# conda install panda
import pandas as pd

Los **pd.DataFrames** son los objetos por excelencia de pandas para manipular datos. Son eficientes y rápidos. Son la estructura de datos donde pandas carga los diferentes formatos de datos: cuando nuestros datos están limpios y estructurados, cada fila representa una observación, y cada columna una variable o característica. Tanto las filas como las columnas pueden tener etiquetas.


In [None]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePathOrBuffer', sep=<no_default>, delimiter=None, header='infer', names=<no_default>, index_col=None, usecols=None, squeeze=False, prefix=<no_default>, mangle_dupe_cols=True, dtype: 'DtypeArg | None' = None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: 'str' = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors: 'str | None' = 'strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_me

# Sección nueva

In [None]:
customers = pd.read_csv('/content/customers_data.csv')
customers

FileNotFoundError: ignored

In [None]:
customers = pd.read_csv('/content/customers_data.csv',
                        index_col = [0])
customers

In [None]:
type(customers)

In [None]:
Numeros  = range(50, 70, 2)
Numeros_serie = pd.Series(Numeros)
Numeros_serie

In [None]:
Numeros_serie[9]

In [None]:
Numeros_serie.index

In [None]:
Numeros_serie.values

In [None]:
Numeros_en_texto = ['primero','segundo','tercero','cuarto','quinto','sexto','séptimo','octavo','noveno','décimo']
Numeros_en_texto

In [None]:
Numeros_serie_2 = pd.Series(Numeros, index = Numeros_en_texto)
Numeros_serie_2

In [None]:
# elementos
modelos =['A4 3.0 Quattro 4dr manual',
 'A4 3.0 Quattro 4dr auto',
 'A6 3.0 4dr',
 'A6 3.0 Quattro 4dr',
 'A4 3.0 convertible 2dr']
modelos

['A4 3.0 Quattro 4dr manual',
 'A4 3.0 Quattro 4dr auto',
 'A6 3.0 4dr',
 'A6 3.0 Quattro 4dr',
 'A4 3.0 convertible 2dr']

In [None]:
peso = [3583, 3627, 3561, 3880, 3814]
peso

[3583, 3627, 3561, 3880, 3814]

In [None]:
precios = ['$33,430', '$34,480', '$36,640', '$39,640', '$42,490']

In [None]:
# objeto en pandas. Series
Autos_peso = pd.Series(peso,index=modelos)
Autos_peso

NameError: ignored

In [None]:
Autos_precio = pd.Series(precios,index=modelos)
Autos_precio 

In [None]:
Autos = pd.DataFrame({  'Peso' : Autos_peso,  'Precio': Autos_precio   })

Autos

Unnamed: 0,Peso,Precio
A4 3.0 Quattro 4dr manual,3583,"$33,430"
A4 3.0 Quattro 4dr auto,3627,"$34,480"
A6 3.0 4dr,3561,"$36,640"
A6 3.0 Quattro 4dr,3880,"$39,640"
A4 3.0 convertible 2dr,3814,"$42,490"


In [None]:
import numpy as np
Ajedrez_64 = np.arange(1,65).reshape(8,8)
Ajedrez_64

In [None]:
Ajedrez_df = pd.DataFrame (
    Ajedrez_64,
    columns= range(1,9),
    index = ['A','B','C','D','E','F','G','H']
)
Ajedrez_df

In [None]:
Numeros_serie_2

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64

In [None]:
Numeros_serie_2['noveno']

66

In [None]:
Numeros_serie_2.loc['primero']

50

In [None]:
Numeros_serie_2.iloc[4]

58

In [None]:
Autos.index

Index(['A4 3.0 Quattro 4dr manual', 'A4 3.0 Quattro 4dr auto', 'A6 3.0 4dr',
       'A6 3.0 Quattro 4dr', 'A4 3.0 convertible 2dr'],
      dtype='object')

In [None]:
Autos.columns

Index(['Peso', 'Precio'], dtype='object')

In [None]:
Autos.values

array([[3583, '$33,430'],
       [3627, '$34,480'],
       [3561, '$36,640'],
       [3880, '$39,640'],
       [3814, '$42,490']], dtype=object)

In [None]:
Autos.loc['A4 3.0 Quattro 4dr manual']

Peso         3583
Precio    $33,430
Name: A4 3.0 Quattro 4dr manual, dtype: object

In [None]:
Autos.Peso

A4 3.0 Quattro 4dr manual    3583
A4 3.0 Quattro 4dr auto      3627
A6 3.0 4dr                   3561
A6 3.0 Quattro 4dr           3880
A4 3.0 convertible 2dr       3814
Name: Peso, dtype: int64

In [None]:
Autos.loc[Autos.Peso >= 3600, 'Precio']

A4 3.0 Quattro 4dr auto    $34,480
A6 3.0 Quattro 4dr         $39,640
A4 3.0 convertible 2dr     $42,490
Name: Precio, dtype: object

In [None]:
Autos.T

Unnamed: 0,A4 3.0 Quattro 4dr manual,A4 3.0 Quattro 4dr auto,A6 3.0 4dr,A6 3.0 Quattro 4dr,A4 3.0 convertible 2dr
Peso,3583,3627,3561,3880,3814
Precio,"$33,430","$34,480","$36,640","$39,640","$42,490"


In [None]:
largo = [179, 179, 192 , 192, 180]

In [None]:
Autos_2 = pd.DataFrame( {'Peso': peso, 'largo': largo}, index = modelos  )
Autos_2

Unnamed: 0,Peso,largo
A4 3.0 Quattro 4dr manual,3583,179
A4 3.0 Quattro 4dr auto,3627,179
A6 3.0 4dr,3561,192
A6 3.0 Quattro 4dr,3880,192
A4 3.0 convertible 2dr,3814,180


In [None]:
Autos_2.iloc[0] ** 2

Peso     12837889
largo       32041
Name: A4 3.0 Quattro 4dr manual, dtype: int64

In [None]:
Numeros_serie_3 = Numeros_serie_2 + Numeros_serie_2

In [None]:
Numeros_serie_2.add(Numeros_serie_3)

primero    150
segundo    156
tercero    162
cuarto     168
quinto     174
sexto      180
séptimo    186
octavo     192
noveno     198
décimo     204
dtype: int64

In [None]:
Numeros_serie_2_porcion = Numeros_serie_2[4:7]
Numeros_serie_2_porcion

quinto     58
sexto      60
séptimo    62
dtype: int64

In [None]:
Numeros_serie_3_porcion = Numeros_serie_2[5:8]
Numeros_serie_3_porcion

sexto      60
séptimo    62
octavo     64
dtype: int64

In [None]:
base_de_datos = Numeros_serie_2_porcion + Numeros_serie_3_porcion
base_de_datos

octavo       NaN
quinto       NaN
sexto      120.0
séptimo    124.0
dtype: float64

In [None]:
Numeros_serie_3_porcion.add(Numeros_serie_2_porcion, fill_value=0)

octavo      64.0
quinto      58.0
sexto      120.0
séptimo    124.0
dtype: float64

In [None]:
valor_nan = np.nan

In [None]:
type(valor_nan)

float

In [None]:
2 * valor_nan

nan

In [None]:
np.around([2, valor_nan])

array([ 2., nan])

In [None]:
Numeros_nan = Numeros_serie_2_porcion + Numeros_serie_3_porcion

In [None]:
Numeros_nan.isnull()

octavo      True
quinto      True
sexto      False
séptimo    False
dtype: bool

In [None]:
Numeros_nan.fillna(0)

octavo       0.0
quinto       0.0
sexto      120.0
séptimo    124.0
dtype: float64

In [None]:
Numeros = Numeros_nan.dropna()

In [None]:
Numeros

sexto      120.0
séptimo    124.0
dtype: float64