Quelques manipulations (foireuses) avec la fonction generate() de la librairie nltk en guise d'introduction. Il manque le support de l'UTF-8 ou de l'ISO-8859-1 pour que les caractères accentués passent correctement.

Je viens de retrouver la trace de la console Python de la session d'octobre 2012, c'est plutôt sympathique à relire, même si encore une fois malheureusement je ne suis pas parvenu à conserver la coloration syntaxique du langage de script Python:

import nltk
corpus_root='.'
pwd
wordlists=PlaintextCorpusReader(corpus_root,'.*')
from nltk.book import *
wordlists=PlaintextCorpusReader(corpus_root,'.*')
from nltk.corpus import PlaintextCorpusReader
wordlists=PlaintextCorpusReader(corpus_root,'.*')
totlater=nltk.text.Text(wordlists.words('totlater.txt'))
petitbain=nltk.text.Text(wordlists.words('petitbain.txt'))
petitbain=nltk.text.Text(wordlists.words('petitBain.txt'))
clear
clear()
totlater.concordance("Brussel")
totlater.concordance("Linda")
totlater.concordance("Linda",200)
totlater.concordance("Linda Meeuws",80,300)
totlater.concordance("Linda",80,
totlater.concordance("Linda\ Meeuws",80,300)
totlater.concordance("Linda",80,300)
petitbain.concordance("Ana",80,300)
petitbain.concordance("étais",80,300)
petitbain.concordance("familial",80,300)
petitbain.concordance("familiale",80,300)
petitbain.concordance("familial*",80,300)
petitbain.concordance("familial\*",80,300)
petitbain.concordance('familial\*',80,300)
petitbain.concordance('familial*',80,300)
petitbain.concordance('elle',80,300)
petitbain.concordance('elle',80,1)
unicode(petitbain.concordance('elle',80,1),'utf-8')
unicode(petitbain,'utf-8')
unicode(petitbain.text(),'utf-8')
petitbain.similar('elle')
petitbain.common_contexts('elle','il')
petitbain.common_contexts('elle','est')
petitbain.common_contexts(['elle','il'])
petitbain.common_contexts(['manteau','agneau'])
petitbain.similar('manteau')
petitbain.similar("manteau")
petitbain.common_contexts(["manteau","bide"])
petitbain.common_contexts(["manteau","bordel"])
petitbain.common_contexts(["manteau","bordel"],80)
petitbain.common_contexts(["manteau","magicien"])
petitbain.common_contexts(["manteau","four"])
totlater.dispersion_plot(['Brussel','Linda','Meeuws','squat'])
totlater.dispersion_plot(['Brussel','Linda','Meeuws','stad'])
totlater.dispersion_plot(['Brussel','Linda','John','Amina'])
petitbain.dispersion_plot(['elle','il'])
petitbain.dispersion_plot(['elle','Ana'])
petitbain.dispersion_plot(['je','elle','Ana'])
petitbain.dispersion_plot(['je','elle','amour'])
totlater.generate()
petitbain.generate()
petitbain.dispersion_plot(['je','elle','planning'])
len(petitbain)
len(totlater)
sorted(set(totlater))
len(set(totlater))
len(set(petitbain))
len(petitbain)/len(sorted(petitbain))
from __future__ import division
len(petitbain)/len(set(petitbain))
len(totlater)/len(set(totlater))
fd=nltk.FreqDist(petitbain)
fd
vocab=fd.keys()
vocab
vocab[:50]
wordlists=PlaintextCorpusReader(corpus_root,'.*')
pb8=nltk.text.Text(wordlists.words('petitBain-utf8.txt'))
pb8
encoding=utf-8
pb8.similar('elle')
import os, readline
historyPath = os.path.expanduser("~/.pyilit")
readline.write_history_file(historyPath)