# Pandas



1. `DataFrames` y  `Series`
2. Operaciones básicas

## Características
- Ofrece estructuras de datos flexibles y expresivas diseñadas para trabajar con datos tabulados y etiquetados, esta son: `Series` y  `DataFrame`.
- Posee herramientas robustas de lectura/escritura de datos desde ficheros con formatos conocidos como: CSV, XLS. SQL, HDF5, entre otros.
- Permite filtrar, agregar, o eliminar datos.
- Combina las características de las matrices de alto rendimiento de `numpy` con capacidades de manipulación de datos tabulados.

In [1]:
import pandas

In [2]:
import pandas as pd  # 'pd' alias de pandas
import numpy as np

## DataFrames y Series

Las funcionalidades de `pandas` se basan en dos estructuras de datos fundamentales: *Series* y *DataFrames*.

Una `Series` es un objeto que contiene un `array` unidimensional de datos y un `array` de etiquetas, conocido como *índice*. Si no se especifica un índice o etiqueta, este se genera internamente como una secuencia ordenada de números enteros.

```python
s = pd.Series(data, index=index)
```

Un `DataFrame` es una estructura de datos que almacena datos de forma tabular, es decir, ordenada en filas y columnas etiquetadas. Cada fila (`row`) contiene una observación y cada columna (`column`) una variable. Un `DataFrame` acepta datos heterogéneos, es decir, variables pueden ser de distinto tipo (numérico, string, boolean, etc.). Además de contener datos, un `DataFrame` contiene el nombre de las variables y sus tipos, y métodos que permiten acceder y modificar los datos.

```python
s = pd.DataFrame(data, ...)
```

Las `Series` y `DataFrame` permiten representar datos 1D y 2D. Para representar datos con más dimensiones `pandas` posee otras estructuras de datos más complejas (en fase experimental), llamadas `Panel`, `Panel4D`, `PanelND`. Estas estructuras están fuera del alcance de este curso.

In [3]:
serie = pd.Series([1979, 1980, 1981, 1982], index=['a','b','c','d'])
serie

a    1979
b    1980
c    1981
d    1982
dtype: int64

In [4]:
## etiqueta
serie.loc['a']


1979

In [5]:
## posicion
serie.iloc[0]

1979

In [6]:
df = pd.read_csv("Data/hitters.csv", sep = ',') ## Primera (WorkPlace -> Destino)
df_2 = df.copy()
df_1 = pd.read_csv("C:/Users/andre/Documents/Machine Learning/Data/titanic.csv", sep = ",", ) ## (Origen -> Destino)

In [7]:
df.head()  ## Dataframe.head() -> mostrar los primeros 5 filas de todas las columnas

## pandas -> DataFrames/Series -> Funciones
## pd.read -> dataframe.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,Salary,NewLeague
0,293,66,1,30,29,14,1,293,66,1,30,29,14,A,E,446,33,20,,A
1,315,81,7,24,38,39,14,3449,835,69,321,414,375,N,W,632,43,10,475.0,N
2,479,130,18,66,72,76,3,1624,457,63,224,266,263,A,W,880,82,14,480.0,A
3,496,141,20,65,78,37,11,5628,1575,225,828,838,354,N,E,200,11,3,500.0,N
4,321,87,10,39,42,30,2,396,101,12,48,46,33,N,E,805,40,4,91.5,N


In [8]:
df_1.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [9]:
df.shape
## Dataframe.función 
## (Fila, Columna) -> Dataframe

(322, 20)

In [10]:
df_1.shape

(891, 12)

### Series

In [11]:
sr = pd.read_csv('data/pokemon.csv', usecols=['Name', 'Type 1'])
sr

Unnamed: 0,Name,Type 1
0,Bulbasaur,Grass
1,Ivysaur,Grass
2,Venusaur,Grass
3,Mega Venusaur,Grass
4,Charmander,Fire
...,...,...
795,Diancie,Rock
796,Mega Diancie,Rock
797,Hoopa Confined,Psychic
798,Hoopa Unbound,Psychic


In [12]:
## Dataframe.funcion(Parámetros)
sr.sort_values(by= 'Type 1', ascending=True) ## organizar

Unnamed: 0,Name,Type 1
600,Sewaddle,Bug
136,Pinsir,Bug
457,Burmy,Bug
132,Scyther,Bug
656,Joltik,Bug
...,...,...
172,Totodile,Water
610,Basculin,Water
145,Vaporeon,Water
574,Panpour,Water


In [13]:
sr.sort_values(by= 'Type 1', inplace=True,ascending=True) ## inplace (?) 

In [14]:
sr.head()

Unnamed: 0,Name,Type 1
600,Sewaddle,Bug
136,Pinsir,Bug
457,Burmy,Bug
132,Scyther,Bug
656,Joltik,Bug


In [15]:
## Dataframe.función(parámetros)
sr.value_counts() ## contar cuántas veces por cada item en la serie

Name                Type 1  
Zygarde Half Forme  Dragon      1
Happiny             Normal      1
Gurdurr             Fighting    1
Gulpin              Poison      1
Grumpig             Psychic     1
                               ..
Pidgey              Normal      1
Pidgeotto           Normal      1
Pidgeot             Normal      1
Pichu               Electric    1
Abomasnow           Grass       1
Length: 799, dtype: int64

In [16]:
# El método apply permite aplicar una función a todos los elementos de la serie.

sr['Name'].apply(lambda xx: str(xx)+'_blue')

600    Sewaddle_blue
136      Pinsir_blue
457       Burmy_blue
132     Scyther_blue
656      Joltik_blue
           ...      
172    Totodile_blue
610    Basculin_blue
145    Vaporeon_blue
574     Panpour_blue
184    Chinchou_blue
Name: Name, Length: 800, dtype: object

### DataFrames

In [17]:
nba = pd.read_csv('data/nba.csv')
nba.head() ## 5 primeras filas

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [18]:
## Dataframe.función
nba.columns ## conocer columnas
## index?

Index(['Player', 'height', 'weight', 'collage', 'born', 'birth_city',
       'birth_state'],
      dtype='object')

In [19]:
nba['Player']  # tipo diccionario - Llamar variables
nba.Player  # tipo atributo - Llamar variables

0         Curly Armstrong
1            Cliff Barker
2           Leo Barnhorst
3              Ed Bartels
4             Ralph Beard
              ...        
3917        Troy Williams
3918         Kyle Wiltjer
3919    Stephen Zimmerman
3920          Paul Zipser
3921          Ivica Zubac
Name: Player, Length: 3922, dtype: object

In [20]:
nba.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [21]:
# Permite acceder al contenido de un registro mediante la etiqueta del índice

nba.loc[4]

Player                    Ralph Beard
height                            178
weight                             79
collage        University of Kentucky
born                             1927
birth_city                Hardinsburg
birth_state                  Kentucky
Name: 4, dtype: object

In [22]:
# Permite acceder al contenido de un registro mediante la posición del índice

nba.iloc[0]

Player            Curly Armstrong
height                        180
weight                         77
collage        Indiana University
born                         1918
birth_city                    NaN
birth_state                   NaN
Name: 0, dtype: object

In [23]:
# Podemos acceder a un valor concreto usando el acceso a datos visto anteriormente en Series
## Dataframe.iloc/loc[posicion/etiqueta][variable]
nba.iloc[0]['collage']

'Indiana University'

### ¿Qué métodos existen en un DF?

###### Dataframe.función(parámetros)

In [24]:
nba.values

array([['Curly Armstrong', 180.0, 77.0, ..., 1918.0, nan, nan],
       ['Cliff Barker', 188.0, 83.0, ..., 1921.0, 'Yorktown', 'Indiana'],
       ['Leo Barnhorst', 193.0, 86.0, ..., 1924.0, nan, nan],
       ...,
       ['Stephen Zimmerman', 213.0, 108.0, ..., 1996.0, 'Hendersonville',
        'Tennessee'],
       ['Paul Zipser', 203.0, 97.0, ..., 1994.0, 'Heidelberg', 'Germany'],
       ['Ivica Zubac', 216.0, 120.0, ..., 1997.0, 'Mostar',
        'Bosnia and Herzegovina']], dtype=object)

In [25]:
nba.head()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
0,Curly Armstrong,180.0,77.0,Indiana University,1918.0,,
1,Cliff Barker,188.0,83.0,University of Kentucky,1921.0,Yorktown,Indiana
2,Leo Barnhorst,193.0,86.0,University of Notre Dame,1924.0,,
3,Ed Bartels,196.0,88.0,North Carolina State University,1925.0,,
4,Ralph Beard,178.0,79.0,University of Kentucky,1927.0,Hardinsburg,Kentucky


In [26]:
# Devuelve los n ultimos registros (5 por defecto)

nba.tail()

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
3917,Troy Williams,198.0,97.0,South Carolina State University,1969.0,Columbia,South Carolina
3918,Kyle Wiltjer,208.0,108.0,Gonzaga University,1992.0,Portland,Oregon
3919,Stephen Zimmerman,213.0,108.0,"University of Nevada, Las Vegas",1996.0,Hendersonville,Tennessee
3920,Paul Zipser,203.0,97.0,,1994.0,Heidelberg,Germany
3921,Ivica Zubac,216.0,120.0,,1997.0,Mostar,Bosnia and Herzegovina


In [27]:
# Devuelve un resumen estadístico de las variables
## dataframe.función(parámetros)
nba.describe(include = 'all')

Unnamed: 0,Player,height,weight,collage,born,birth_city,birth_state
count,3921,3921.0,3921.0,3573,3921.0,3452,3439
unique,3921,,,422,,1264,128
top,Josh Powell,,,University of Kentucky,,Chicago,California
freq,1,,,89,,114,344
mean,,198.704922,94.783219,,1962.37975,,
std,,9.269761,12.039515,,20.33491,,
min,,160.0,60.0,,1913.0,,
25%,,190.0,86.0,,1948.0,,
50%,,198.0,95.0,,1964.0,,
75%,,206.0,102.0,,1979.0,,


In [28]:
## dataframe[variable].función(parámetros)
nba['collage'].value_counts()

University of Kentucky                   89
University of California, Los Angeles    86
University of North Carolina             67
University of Kansas                     59
Duke University                          56
                                         ..
Alabama State University                  1
Mercer University                         1
Bethel College                            1
Ouachita Baptist University               1
Fort Valley State University              1
Name: collage, Length: 422, dtype: int64

In [29]:
nba.shape
## (Fila,Columna)

(3922, 7)

In [30]:
# Devuelve el número de elementos únicos por campo
nba.nunique()

Player         3921
height           28
weight           76
collage         422
born             84
birth_city     1264
birth_state     128
dtype: int64

In [31]:
## Dataframe.variable.función(parámetros).
nba.born.value_counts()

1970.0    84
1964.0    77
1955.0    76
1968.0    74
1984.0    73
          ..
1917.0     6
1918.0     5
1915.0     2
1914.0     1
1913.0     1
Name: born, Length: 84, dtype: int64


# Datos ausentes

La mayor parte de los datasets presentan registros con uno o varios campos cuya información está ausente (**missing values**), lo que puede generar problemas al intentar representar los datos, realizar ciertas operaciones o aplicarlo a un algoritmo. Es por eso que es necesario identificar y tratar esos valores ausentes. 

Las dos estrategias de tratamiento son el borrado o la asignación un valor determinado.

`Pandas` toma a los valores `NaN` y `None` como valores ausentes.



**np.nan**: permite operaciones vectorizadas, es un valor float. Se puede utilizar como valor numérico en operaciones matemáticas. 

**None** es tipo objeto, lo que deshabilita la eficiencia de numpy.NaN. Es un tipo interno de Python (NoneType) y es más como “inexistente” o “vacío” más que “inválido numericamente”. 


In [32]:
import pandas as  pd
import numpy as np

In [33]:
## pd.series(data)
## pd.Dataframe(Diccionario) -> pd.Dataframe({Key:Value}) -> Key = variable, Value = Datos/Valores de la variable
## value -> Lista, Tupla, array, entre otros

In [94]:
# Creamos dataframe  con missing values

df = pd.DataFrame({'VarA': ['aa', None, 'cc',None],
                  'VarB': [40, 30, None,None],
                  'VarC': [1234, 3456, 6789,765],
                  'VarD': [1234, 888, None,None]
                 },
                 index=['Case1', 'Case2', 'Case3', 'Case4'])
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [35]:
## posición del índice
df.iloc[0]

VarA      aa
VarB      40
VarC    1234
VarD    1234
Name: Case1, dtype: object

In [36]:
# Etiqueta del índice
df.loc['Case1']

VarA      aa
VarB      40
VarC    1234
VarD    1234
Name: Case1, dtype: object

In [37]:
# Comprobamos si existe algún NaN o None en el dataframe

df.isnull() # alias of isna

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,False,False,False,False
Case2,True,False,False,False
Case3,False,True,False,True
Case4,True,True,False,True


In [38]:
## Dataframe.función(parámetros)
df.isna() 

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,False,False,False,False
Case2,True,False,False,False
Case3,False,True,False,True
Case4,True,True,False,True


In [39]:
pd.isnull(np.nan)

True

En el ejemplo anterior es fácil comprobar si existe algún valor ausente, pero con dataframes más grandes es necesario recurrir a otros métodos:

In [40]:
# Nos indica si algún elemento dentro del df es un missing value

## Dataframe.función().función2 -> 1.función -> aplica a todo

df.isnull().values.any()

True

In [41]:
# Comprueba que columnas tienen NaNs

## Variables
df.isnull().any()

VarA     True
VarB     True
VarC    False
VarD     True
dtype: bool

In [42]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [43]:
# Nos indica el número de registros con NaNs por cada columna
## dataframe-pregunto si hay nulos -> súmeme esos True (1)/False (0)
df.isnull().sum(axis =0)

VarA    2
VarB    2
VarC    0
VarD    2
dtype: int64

In [44]:
df.isnull().sum()/df.shape[0]

VarA    0.5
VarB    0.5
VarC    0.0
VarD    0.5
dtype: float64

In [45]:
df.shape
## Fila,Columna -> 0 Fila, 1 Columna

(4, 4)

In [46]:
df.shape

(4, 4)

In [47]:
# Devuelve el número de missing values por cada registro

df.isnull().sum(axis=1)/df.shape[0]

Case1    0.00
Case2    0.25
Case3    0.50
Case4    0.75
dtype: float64

## Eliminación de missing values

La estrategia más sencilla de tratamiento de missing values consiste en eliminar los registros que los contengan.


In [85]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [86]:
# Eliminamos cualquier registro que contenga al menos un NaN

df.dropna()

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0


Sin embargo, como vemos más abajo en el df no se han eliminado los registros con  NaNs. Para que el cambio se ejecute es necesario usar la opción inplace=True: `df.dropna(inplace=True)`

In [89]:
# Podemos indicar un conjunto de columnas en los que eliminar los NaNs.

df.dropna(subset=['VarA'])

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case3,cc,,6789,


In [90]:
# O podemos aplicar un límite con un número mínimo de valores NO NaNs por registro.

df.dropna(thresh=2)

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,


## Asignación de valores

La otra opción de tratamiento consiste en asignar un valor determinado a las instancias con missing values. Lo hacemos con el método `fillna`, que al igual que dropna requiere
el parámetro inplace=True para persistir los cambios.

In [93]:
df.fillna('new')

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40,1234,1234
Case2,new,30,3456,888
Case3,cc,new,6789,new
Case4,new,new,765,new


Esta asignación del string 'new' se ha realizado sobre todos los elementos missing values. Para ello Pandas ha realizado un cambio en el tipo de alguna de las variables.

In [95]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


In [99]:
df['VarA'].dtype, df['VarB'].dtype, df['VarC'].dtype

(dtype('O'), dtype('float64'), dtype('int64'))

In [53]:
# Comprobamos que el type antes y descués del fillna es distinto para la variable numérica

df['VarB'].dtype, df['VarB'].fillna('new').dtype

(dtype('float64'), dtype('O'))

In [100]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,,30.0,3456,888.0
Case3,cc,,6789,
Case4,,,765,


Para evitar este tipo de cambios no deseados seleccionamos la columna a modificar.

In [101]:
# Realizamos únicamente el fillna sobre la columna VarA

df['VarA'].fillna('new', inplace=True)
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,new,30.0,3456,888.0
Case3,cc,,6789,
Case4,new,,765,


In [55]:
df

Unnamed: 0,VarA,VarB,VarC,VarD
Case1,aa,40.0,1234,1234.0
Case2,new,30.0,3456,888.0
Case3,cc,,6789,
Case4,new,,765,


In [105]:
# Podemos realizar una asignación de valores tomándo el último valor observado y propagándolo hacia adelante. 

df['VarB'].fillna(method='ffill')

Case1    40.0
Case2    30.0
Case3    30.0
Case4    30.0
Name: VarB, dtype: float64

In [106]:
df.fillna()

ValueError: Must specify a fill 'value' or 'method'.

In [57]:
df['VarB']

Case1    40.0
Case2    30.0
Case3     NaN
Case4     NaN
Name: VarB, dtype: float64

In [58]:
# También es posible asignar el resultado de una función, en este caso el valor medio de la columna.


# Formateo de datos



df['VarB'].fillna(np.mean(df['VarB']))

Case1    40.0
Case2    30.0
Case3    35.0
Case4    35.0
Name: VarB, dtype: float64



# Formateo de datos




In [59]:
from datetime import datetime
import pandas as pd

In [None]:
## X.dtype -> Qué tipo de dato es.
## X.astype -> Transforma el tipo de dato. Si aplica

In [108]:
col = pd.Series(["1","1","1"])

col.astype("int")

0    1
1    1
2    1
dtype: int32

In [61]:
## Transformación de números

una_cifra = 123456.78910

In [62]:
# Formateamos a 2 cifras decimales
format(una_cifra, '0.2f')

'123456.79'

In [63]:
# Formateamos a 1 cifra decimal y comas
format(una_cifra, '0,.3f')

'123,456.789'

In [64]:
# Formateamos a notación científica
format(una_cifra, 'e')

'1.234568e+05'

In [65]:
# Formateamos a notación científica con 2 decimales
format(una_cifra, '0.2E')

'1.23E+05'

## Transformaciones de strings

Podemos hacer modificaciones en el contenido de un string usando el operador %

In [109]:
# Indicamos en una tupla los valores, string y float, a sustituir

'El precio del %s es %f' % ('crudo de petróleo', 103.15)

'El precio del crudo de petróleo es 103.150000'

In [119]:
col = ['1','2','3','4','5']
prod = ['Arroz','Papa','Yuca','Cebolla','Cilantro']

In [121]:
for i in range(len(col)):
    print('El precio del %s es %i' % (prod[i], int(col[i])))

El precio del Arroz es 1
El precio del Papa es 2
El precio del Yuca es 3
El precio del Cebolla es 4
El precio del Cilantro es 5


In [111]:
sr = pd.read_csv('data/pokemon.csv')
sr.head()

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [112]:
for i in range(0,51):
    print('El pokemon %s tiene un nivel de ataque de %i' % (sr['Name'][i], sr['Attack'][i]))

El pokemon Bulbasaur tiene un nivel de ataque de 49
El pokemon Ivysaur tiene un nivel de ataque de 62
El pokemon Venusaur tiene un nivel de ataque de 82
El pokemon Mega Venusaur tiene un nivel de ataque de 100
El pokemon Charmander tiene un nivel de ataque de 52
El pokemon Charmeleon tiene un nivel de ataque de 64
El pokemon Charizard tiene un nivel de ataque de 84
El pokemon Mega Charizard X tiene un nivel de ataque de 130
El pokemon Mega Charizard Y tiene un nivel de ataque de 104
El pokemon Squirtle tiene un nivel de ataque de 48
El pokemon Wartortle tiene un nivel de ataque de 63
El pokemon Blastoise tiene un nivel de ataque de 83
El pokemon Mega Blastoise tiene un nivel de ataque de 103
El pokemon Caterpie tiene un nivel de ataque de 30
El pokemon Metapod tiene un nivel de ataque de 20
El pokemon Butterfree tiene un nivel de ataque de 45
El pokemon Weedle tiene un nivel de ataque de 35
El pokemon Kakuna tiene un nivel de ataque de 25
El pokemon Beedrill tiene un nivel de ataque de

En python están disponibles los siguientes códigos de formato

    %s string
    %r repr string
    %c character (integer or string)
    %d decimal
    %i integer
    %x hex integer
    %X same as X but with uppercase
    %e floating point lowercase
    %E floating point uppercase
    %f floating point decimal lowercase
    %F floating point decimal uppercase
    %g floating point e or f
    %G floating point E or F
    %% literal %

In [113]:
string = 'mundo'
print("Hola {}".format(string))

Hola mundo


# Ejercicios

## Ejercicio 1 

Dada los siguientes datos:

exam_data  = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
        'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Modifique el nombre 'James' a 'Suresh'
- c. Modifique la columna score de modo que pase a tener 2 cifras decimales de precisión.


Cargue el fichero en un dataframe y estudie las estructura de los datos.

## Ejercicio 2 

Dado el dataset ../../data/student-mat.csv

- a. Cargue el fichero en un dataframe y estudie las estructura de los datos.
- b. Seleccione en un nuevo DF desde las columnas school a guardian.
- c. Cree una función que convierta en mayúsculas las cadenas de texto y pase en mayúsculas las columnas Mjob y Fjob.
- d. Multiplique por 10 todos las variables numéricas del dataframe.

Cargue el fichero en un dataframe y estudie las estructura de los datos.

## Ejercicio 3 

usted tiene los días de la semana days = ["Sunday","Monday","Tuesday","Wednesday","Thursday","Friday","Saturday"]


* Cree una función tal que, cree una lista con las abreviaciones de los días (Las 3 primeras letras)
* Cree una función tal que, al agregar algún día o varios de ellos, me responda por cada día una actividad diferente. Ej: Sundays you should go to sleep instead of playing outside, Mondays you have to wake up earlier than usual.


## Ejercicio 4 

Dada los siguientes datos:

    - df = pd.DataFrame(np.random.randn(10, 3), columns=['a', 'b', 'c'])
    - df['cat1'] = (np.random.rand(10) * 3).round(0)
    - df['cat2'] = (np.random.rand(10)).round(0)

* Calcule la media a través de atributos tanto por columnas como por filas
* Calcule los datos descriptivos a través de atributos
* Calcule una pivot_table con los atributos que usted considere

