## Cargando Pandas

In [82]:
import pandas as pd

## Creando data frame a partir de una lista

In [83]:

df1  = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


# Obteniendo columnas

In [134]:
df1.columns

RangeIndex(start=0, stop=3, step=1)

## Obteniendo las filas

In [135]:
df1.index

RangeIndex(start=0, stop=3, step=1)

## Creando data frame con columnas

In [85]:
df2  = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
        columns = ["A", "B", "C"]           )
df2

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


# Creando data frame con columnas e índices

In [86]:

df3  = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
        columns = ["A", "B", "C"], index=["x", "y", "z"])  
df3        

Unnamed: 0,A,B,C
x,1,2,3
y,4,5,6
z,7,8,9


## Data frame a partir de un diccionario

In [112]:
# Diccionario de datos

datos = {
    "Nombre":["Ana", "Juan","Ana", "Pedro", "Maria" ],
    "Edad":[28, 34, 23, 45, 20],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla", "Madrid"]
}

df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,28,Madrid
1,Juan,34,Barcelona
2,Ana,23,Valencia
3,Pedro,45,Sevilla
4,Maria,20,Madrid


## Renombrar una o más filas Método  (rename)

In [114]:
df.rename(columns = {"Nombre":"Name", "Edad": "Age"})
# Fijate que la fila no renombrada queda igual


Unnamed: 0,Name,Age,Ciudad
0,Ana,28,Madrid
1,Juan,34,Barcelona
2,Ana,23,Valencia
3,Pedro,45,Sevilla
4,Maria,20,Madrid


## Renombrar las filas

In [115]:
df.rename(index = {0:"x",1:"y", 2:"z" })

# Notar que no se renombró la última fila

Unnamed: 0,Nombre,Edad,Ciudad
x,Ana,28,Madrid
y,Juan,34,Barcelona
z,Ana,23,Valencia
3,Pedro,45,Sevilla
4,Maria,20,Madrid


In [116]:
# nombres de las columnas
df.columns

Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')

In [117]:
# Nombre de las filas
df.index

RangeIndex(start=0, stop=5, step=1)

## Averiguando si esxiste una columna especifica

In [118]:


print("Filas") 
print("Nombre" in df.columns)
print("Estado" in df.columns)
# Averiguando si existe una fila de nombre especifico

print("-"*20)
print("Columnas")
print("x" in df.columns)
print("z" in df.columns)
print(1 in df.columns)
print("t" in df.columns)


Filas
True
False
--------------------
Columnas
False
False
False
False


## Información del data frame

In [119]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  5 non-null      object
 1   Edad    5 non-null      int64 
 2   Ciudad  5 non-null      object
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes


## Resumen del data frame( de las variable numéricas)

In [108]:
df.describe()

Unnamed: 0,Edad
count,4.0
mean,32.5
std,9.469248
min,23.0
25%,26.75
50%,31.0
75%,36.75
max,45.0


## Elementos únicos del data frame

In [120]:
df.nunique

<bound method DataFrame.nunique of   Nombre  Edad     Ciudad
0    Ana    28     Madrid
1   Juan    34  Barcelona
2    Ana    23   Valencia
3  Pedro    45    Sevilla
4  Maria    20     Madrid>

In [129]:
# Nombre únicos
df["Nombre"].unique()


array(['Ana', 'Juan', 'Pedro', 'Maria'], dtype=object)

In [130]:
# Cantidad de nombre únicos = 4
print(len(df["Nombre"].unique()))
# Existen 2 personas con nombre igual a "Ana"
(df["Nombre"] == "Ana").sum()

4


2

## Número de filas y columnas por separado

In [132]:

df.shape

(5, 3)

## Tamaño total del data frame

In [133]:

df.size

15

## Cargando un data frame

In [137]:
coffe = pd.read_csv('./warmup-data/coffee.csv')

In [138]:
coffe.head()

Unnamed: 0,Day,Coffee Type,Units Sold
0,Monday,Espresso,25
1,Monday,Latte,15
2,Tuesday,Espresso,30
3,Tuesday,Latte,20
4,Wednesday,Espresso,35


## Cargando el archivo desde la web


In [153]:
# Obtenemos la direción web del archivo

direccion_web= 'https://raw.githubusercontent.com/KeithGalli/complete-pandas-tutorial/master/warmup-data/coffee.csv'

# cargamos desde la dirección
cof = pd.read_csv(direccion_web)
cof.head()


Unnamed: 0,Day,Coffee Type,Units Sold
0,Monday,Espresso,25
1,Monday,Latte,15
2,Tuesday,Espresso,30
3,Tuesday,Latte,20
4,Wednesday,Espresso,35


In [154]:
# Hallemos el número de unidades vendidas
cof["Units Sold"].sum()

460

In [164]:
# Hallemos el número de unidades vendidas por día
# Seleccionamos el día en el data frame por 
# ejemplo Monday
cof[cof["Day"] == "Monday"]


Unnamed: 0,Day,Coffee Type,Units Sold
0,Monday,Espresso,25
1,Monday,Latte,15


In [166]:
# Ahora de este data frame seleccionamos las unidades vendidas
cof[cof["Day"] == "Monday"]["Units Sold"]

0    25
1    15
Name: Units Sold, dtype: int64

In [167]:
# Ahora hallamos la suma
cof[cof["Day"] == "Monday"]["Units Sold"].sum()

40

## Cargando archivos de otros formatos

### Formato parquet (ligero)

In [172]:
results1 = pd.read_parquet("./data/results.parquet")
results1

Unnamed: 0,year,type,discipline,event,as,athlete_id,noc,team,place,tied,medal
0,1912.0,Summer,Tennis,"Singles, Men (Olympic)",Jean-François Blanchy,1,FRA,,17.0,True,
1,1912.0,Summer,Tennis,"Doubles, Men (Olympic)",Jean-François Blanchy,1,FRA,Jean Montariol,,False,
2,1920.0,Summer,Tennis,"Singles, Men (Olympic)",Jean-François Blanchy,1,FRA,,32.0,True,
3,1920.0,Summer,Tennis,"Doubles, Mixed (Olympic)",Jean-François Blanchy,1,FRA,Jeanne Vaussard,8.0,True,
4,1920.0,Summer,Tennis,"Doubles, Men (Olympic)",Jean-François Blanchy,1,FRA,Jacques Brugnon,4.0,False,
...,...,...,...,...,...,...,...,...,...,...,...
308403,2022.0,Winter,Luge,"Singles, Men (Olympic)",Marián Skupek,148983,SVK,,26.0,False,
308404,2022.0,Winter,Alpine Skiing (Skiing),"Slalom, Women (Olympic)",Elsa Fermbäck,148984,SWE,,28.0,False,
308405,2022.0,Winter,Alpine Skiing (Skiing),"Team, Mixed (Olympic)",Hilma Lövblom,148985,SWE,Sweden,13.0,False,
308406,2022.0,Winter,Alpine Skiing (Skiing),"Giant Slalom, Women (Olympic)",Hilma Lövblom,148985,SWE,,,False,


In [173]:
## Formato excel ( más pesado)
results2 = pd.read_excel("./data/olympics-data.xlsx")

In [174]:
results2

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date
0,1,Jean-François Blanchy,1886-12-12,Bordeaux,Gironde,FRA,France,,,1960-10-02
1,2,Arnaud Boetsch,1969-04-01,Meulan,Yvelines,FRA,France,183.0,76.0,
2,3,Jean Borotra,1898-08-13,Biarritz,Pyrénées-Atlantiques,FRA,France,183.0,76.0,1994-07-17
3,4,Jacques Brugnon,1895-05-11,Paris VIIIe,Paris,FRA,France,168.0,64.0,1978-03-20
4,5,Albert Canet,1878-04-17,Wandsworth,England,GBR,France,,,1930-07-25
...,...,...,...,...,...,...,...,...,...,...
145495,149222,Polina Luchnikova,2002-01-30,Serov,Sverdlovsk,RUS,ROC,167.0,61.0,
145496,149223,Valeriya Merkusheva,1999-09-20,Moskva (Moscow),Moskva,RUS,ROC,168.0,65.0,
145497,149224,Yuliya Smirnova,1998-05-08,Kotlas,Arkhangelsk,RUS,ROC,163.0,55.0,
145498,149225,André Foussard,1899-05-19,Niort,Deux-Sèvres,FRA,France,166.0,,1986-03-18


## Cargar hoja específica de archivo Excel
(sheet_name)

In [177]:
olympics_data = pd.read_excel("./data/olympics-data.xlsx",sheet_name="results")


In [179]:
olympics_data.head()

Unnamed: 0,year,type,discipline,event,as,athlete_id,noc,team,place,tied,medal
0,1912.0,Summer,Tennis,"Singles, Men (Olympic)",Jean-François Blanchy,1,FRA,,17.0,True,
1,1912.0,Summer,Tennis,"Doubles, Men (Olympic)",Jean-François Blanchy,1,FRA,Jean Montariol,,False,
2,1920.0,Summer,Tennis,"Singles, Men (Olympic)",Jean-François Blanchy,1,FRA,,32.0,True,
3,1920.0,Summer,Tennis,"Doubles, Mixed (Olympic)",Jean-François Blanchy,1,FRA,Jeanne Vaussard,8.0,True,
4,1920.0,Summer,Tennis,"Doubles, Men (Olympic)",Jean-François Blanchy,1,FRA,Jacques Brugnon,4.0,False,
