# Cargando datos a partir de archivos CSV

A continuación vamos a ver como se pueden cargar datos a un DataFrame desde un archivo CSV

In [4]:
import pandas as pd

Location = "datasets/smallgrades.csv"

df = pd.read_csv(Location, header=None)

df.head()

Unnamed: 0,0,1
0,Marcia,82.4
1,Kadeem,78.2
2,Nash,79.3
3,Noelani,83.2
4,Noelani,87.4


El archivo anterior no tenía cabecera en su primer registro. El siguiente ya tendría y lo cargariamos en el dataframe de  la siguiente manera:

In [5]:
import pandas as  pd

Location="datasets/gradedata.csv"

df = pd.read_csv(Location)

df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Es posible agregar cabeceras a un dataframe aunque los datos originales no lo tengan:

In [6]:
import pandas as pd

Location = "datasets/smallgrades.csv"

# Agregando cabecera a las columnas del Dataframe

df=pd.read_csv(Location, names=['Names', 'Grades'])

df.head()

Unnamed: 0,Names,Grades
0,Marcia,82.4
1,Kadeem,78.2
2,Nash,79.3
3,Noelani,83.2
4,Noelani,87.4


In [7]:
df.columns=['Names', 'Grades']

df.head()

Unnamed: 0,Names,Grades
0,Marcia,82.4
1,Kadeem,78.2
2,Nash,79.3
3,Noelani,83.2
4,Noelani,87.4


# Ej 1-Cargar datos desde un archivo disponible en Internet

Crear un dataframe a partir de un archivo que se haya importado por ti mismo. Visitarás el sitio http://census.ire.org/data/bulkdata.html y descargarás el archivo CSV para un estado de los EEUU. Luego lo importarás a un dataframe y mostrarás los primeros 5 registros

In [8]:
# Ej-1 ...

# Guardando datos a un CSV

Es posible guardar los datos en un archivo CSV, lo contario de los pasos anteriores.

In [9]:
import pandas as pd

names=['Bob', 'Jessica', 'Mary', 'John', 'Mel']
grades=[76,95,77,78,99]

GradeList=zip(names, grades)

df=pd.DataFrame(data=GradeList, columns=['Names', 'Grades'])

df.head()

Unnamed: 0,Names,Grades
0,Bob,76
1,Jessica,95
2,Mary,77
3,John,78
4,Mel,99


In [10]:
df.to_csv('output/studentgrades.csv', index=False, header=False)

Es posible consultar la documentación de atributos/metodos de cualquier objeto en Pandas de la siguiente manera:

In [11]:
df.to_csv?

[0;31mSignature:[0m
[0mdf[0m[0;34m.[0m[0mto_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mpath_or_buf[0m[0;34m:[0m [0;34m'FilePath | WriteBuffer[bytes] | WriteBuffer[str] | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str'[0m [0;34m=[0m [0;34m','[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mna_rep[0m[0;34m:[0m [0;34m'str'[0m [0;34m=[0m [0;34m''[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfloat_format[0m[0;34m:[0m [0;34m'str | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m'bool_t | list[str]'[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m:[0m [0;34m'bool_t'[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_label[0m[0

# Ej-2 Creando un DataFrame a partir de datos 

Exporta los siguientes datos creados por el código siguiente a un archivo .CSV.

In [12]:
import pandas as pd

names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]
bsdegrees = [1,1,0,0,1]
msdegrees = [2,1,0,0,0]
phddegrees = [0,1,0,0,0]

Degrees = zip(names,grades,bsdegrees,msdegrees,phddegrees)
column = ['Names','Grades','BS','MS','PhD']

df = pd.DataFrame(data = Degrees, columns=column)
df

Unnamed: 0,Names,Grades,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessica,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0


In [13]:
# Ej-2 ...

# Cargando datos desde un archivo de Excel 

Para cargar datos desde un libro de Excel, haga lo siguiente:

In [14]:
import pandas as pd

Location="datasets/gradedata.xlsx"

df=pd.read_excel(Location)

df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"7379 Highland Rd. , Dublin, GA 31021"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"8 Bayport St. , Honolulu, HI 96815"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"Encino, CA 91316, 3 Lilac Street"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"Riverview, FL 33569, 9998 North Smith Dr."
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"97 SE. Ocean Street , Bethlehem, PA 18015"


In [15]:
df.columns=['first', 'last', 'sex', 'age', 'exer', 'hrs', 'grd', 'addr']

df.head()

Unnamed: 0,first,last,sex,age,exer,hrs,grd,addr
0,Marcia,Pugh,female,17.0,3.0,10.0,82.4,"7379 Highland Rd. , Dublin, GA 31021"
1,Kadeem,Morrison,male,18.0,4.0,4.0,78.2,"8 Bayport St. , Honolulu, HI 96815"
2,Nash,Powell,male,18.0,5.0,9.0,79.3,"Encino, CA 91316, 3 Lilac Street"
3,Noelani,Wagner,female,14.0,2.0,7.0,83.2,"Riverview, FL 33569, 9998 North Smith Dr."
4,Noelani,Cherry,female,18.0,4.0,15.0,87.4,"97 SE. Ocean Street , Bethlehem, PA 18015"


# Ej 3 - Cargando datos a partir de Excel

Busca los datos del censo de US en la liga https://www.census.gov/support/USACdataDownloads.html y crea un dataframe para alguna hoja de Excel que esté disponible. En caso de indisponibilidad, busque datos de un Excel sobre una temática de su gusto (COVID-19).

In [16]:
# Ej-3 ...

# Guardando Datos a Archivos de Excel

El código siguiente muestra como hacer esto:

In [17]:
import pandas as pd

names = ['Bob', 'Jessica', 'Mary', 'John', 'Mel']
grades = [76, 95, 77, 78, 99]

GradeList = zip(names, grades)

df = pd.DataFrame(data=GradeList, columns=['Names', 'Grades'])

df.head()

Unnamed: 0,Names,Grades
0,Bob,76
1,Jessica,95
2,Mary,77
3,John,78
4,Mel,99


In [18]:
writer = pd.ExcelWriter('output/dataframe.xlsx', engine='xlsxwriter')

df.to_excel(writer, sheet_name='Sheet1')

writer.save()

# Ej-4 - Creando una hoja de Excel a partir de un Dataframe

¿Podrías crear una hoja de Excel a partir del siguiente Dataframe?

In [19]:
import pandas as pd

names = ['Nike','Adidas','New Balance','Puma','Reebok']
grades = [176,59,47,38,99]
PriceList = zip(names,grades)

df = pd.DataFrame(data = PriceList, columns=['Names','Prices'])

df.head()

Unnamed: 0,Names,Prices
0,Nike,176
1,Adidas,59
2,New Balance,47
3,Puma,38
4,Reebok,99


In [20]:
# Ej-4 ...

# Cargando multiples archivos de Excel 

La siguiente programacion permite cargar en 1 Dataframe datos de múltiples archivos de Excel.

In [21]:
import pandas as pd
import glob

ldf=[]

for f in glob.glob("datasets/data*.xlsx"):
    df = pd.read_excel(f)

    ldf.append(df)

all_data=pd.concat(ldf)

all_data.describe()

Unnamed: 0,age,grade
count,300.0,300.0
mean,16.456667,82.923333
std,1.700321,10.544576
min,14.0,65.0
25%,15.0,73.75
50%,16.0,82.0
75%,18.0,92.0
max,19.0,100.0


Una muestra de los datos concatenados:

In [22]:
all_data.head()

Unnamed: 0,fname,age,grade
0,Baker,14,90
1,Josephine,19,100
2,Calvin,15,66
3,Aretha,17,84
4,Britanney,19,66


# Ej-5 Cargando multiples archivos de Excel ...

Carga los datos de las 104 hojas de cálculo que están en datasets/weekly_call_data en un solo Dataframe

In [23]:
# Ej-5 ...

# Cargado de datos a partir de SQL 

Es posible crear dataframes a partir de datos que están almacenados en tablas relacionales usando SQL.

In [24]:
import pandas as pd
from sqlalchemy import create_engine

# Connect to sqlite db
db_file = r'datasets/gradedata.db'

engine = create_engine(r"sqlite:///{}".format(db_file))

# sql = 'SELECT * from test where Grades in (76,77,78)'
# sql = "select name from sqlite_master where type = 'table';"
sql = "select * from test;"

sales_data_df = pd.read_sql(sql, engine)

sales_data_df

Unnamed: 0,index,Names,Grades
0,0,Bob,76
1,1,Jessica,95
2,2,Mary,77
3,3,John,78
4,4,Mel,99


In [25]:
sales_data_df.tail()

Unnamed: 0,index,Names,Grades
0,0,Bob,76
1,1,Jessica,95
2,2,Mary,77
3,3,John,78
4,4,Mel,99


# Ej6-Cargando datos de una base de datos SQL 

¿Podrías cargar los datos de la base de datos datasets/salesdat.db?

In [26]:
# Ej-6 ...

# Cargando datos a SQL

Es posible guardar los datos de un datafrme en una base de datos relacional SQL 

In [27]:
import pandas as pd
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]

GradeList = zip(names,grades)
df = pd.DataFrame(data = GradeList, columns=['Names', 'Grades'])
df

Unnamed: 0,Names,Grades
0,Bob,76
1,Jessica,95
2,Mary,77
3,John,78
4,Mel,99


In [28]:
import os
import sqlite3 as lite

db_filename = r'output/mydb.db'
con = lite.connect(db_filename)

df.to_sql('mytable',
    con,
    schema=None,
    if_exists='replace',
    index=True,
    index_label=None,
    chunksize=None,
    dtype=None)

con.close()

Consultando la base de datos creada:

In [29]:
import pandas as pd
from sqlalchemy import create_engine

# Connect to sqlite db
db_file = r'output/mydb.db'

engine = create_engine(r"sqlite:///{}".format(db_file))

sql = "select name from sqlite_master where type = 'table';"

data_df = pd.read_sql(sql, engine)

data_df

Unnamed: 0,name
0,mytable


Para ayuda sobre el comando:

In [30]:
df.to_sql?

[0;31mSignature:[0m
[0mdf[0m[0;34m.[0m[0mto_sql[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mname[0m[0;34m:[0m [0;34m'str'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcon[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mschema[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mif_exists[0m[0;34m:[0m [0;34m'str'[0m [0;34m=[0m [0;34m'fail'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m:[0m [0;34m'bool_t'[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_label[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mchunksize[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m:[0m [0;34m'DtypeArg | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmethod[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m [0;34m->[0m [0;34m'int | None'[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m

# Ej 7 - Creando una base de datos SQL a partir de un archivo CSV

Crear una tabla en una base de datos SQLite con la información de datasets/gradedata.csv.

In [31]:
# Ej-7 ...

# Números aleatorios y Creación de Datos Aleatorios

En muchas ocasiones es necesario crear valores aleatorios de datos. Veremos como es posible hacer esto, suponga que deseamos crear una lista aleatoria de nombres de bebés y número de nacimientos:

In [1]:
import pandas as pd
from numpy import random
from numpy.random import randint

names = ['Bob','Jessica','Mary','John','Mel']

random.seed(500)

# Generando una lista de 1000 nombre aleatorios -----
randnames = []
for i in range(1000):
    name = names[randint(low=0,high=len(names))]
    randnames.append(name)

#Generando una lista de 1000 números aleatorios -----
births = []
for i in range(1000):
    births.append(randint(low=0, high=1000))

#Generando el DataFrame a partir de las listas anteriores ------
BabyDataSet2 = list(zip(randnames,births))
df = pd.DataFrame(data = BabyDataSet2, columns=['Names', 'Births'])
df



Unnamed: 0,Names,Births
0,Mary,968
1,Jessica,155
2,Jessica,77
3,Bob,578
4,Jessica,973
...,...,...
995,John,151
996,Jessica,511
997,John,756
998,Jessica,294
